このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240109となっている論文です。

PDF登録状況(公開日: 20240109)

TitleAuthorsAbstract論文公表日・翻訳日
# 高帯域メモリにおける読み出し外乱の理解:実HBM2DRAMチップの実験的検討

Understanding Read Disturbance in High Bandwidth Memory: An Experimental Analysis of Real HBM2 DRAM Chips ( http://arxiv.org/abs/2310.14665v2 )

ライセンス: Link先を確認
Ataberk Olgun, Majd Osseiran, Abdullah Giray Yaglikci, Yahya Can Tugrul, Haocong Luo, Steve Rhyner, Behzad Salami, Juan Gomez Luna, Onur Mutlu, (参考訳) DRAMの読み取り障害は、メモリアイソレーションを壊すために悪用される現代のDRAMチップの安全性、セキュリティ、信頼性の問題を著しく悪化させる。 読解障害の2つの顕著な例は、RowHammerとRowPressである。 しかし、現代の高帯域メモリ(HBM)チップにおける読み取り障害現象を広範囲に研究する以前の研究はない。 本研究では,HBMにおける読取障害の影響を実験的に実証し,文書化されていないイン・DRAM読取障害軽減機構の内部動作を明らかにする。 6個の実HBM2 DRAMチップの特性から,(1)読み出し外乱ビットフリップ数,第1読出し外乱ビットフリップの誘導に必要な行アクティベーション数は,異なるHBM2チップと異なる3Dスタックチャネル,擬似チャネル,バンク,HBM2チップ内の行間で大きく異なることが分かる。 2) DRAMバンクの端および中央のDRAM行は、他の行よりも読み出し障害ビットフリップが著しく少ない。 (3) DRAM行において、行が既に比較的高いアクティベーション数で最初のビットフリップを示す場合、より多くの読み出し障害ビットフリップを誘導するために追加のアクティベーションを少なくする。 (4)HBM2チップは、行を非常に長時間アクティブにしておくと、2行のみのアクティベーションで読み出し障害ビットフリップを示す。 最新のHBM2 DRAMチップは、アクティベート回数に基づいて潜在的な攻撃行を追跡し、17回の定期的なリフレッシュ操作で犠牲者行をリフレッシュできる未文書の読み出し障害防御を実装している。 我々は、我々の観測から重要な教訓を引き出し、将来の読取妨害攻撃と防衛に対するそれらの影響について論じる。 研究成果を両立させる方法について解説する。 i)より強力な読み出し障害攻撃 二 より効率的な読み出し障害防御機構

DRAM read disturbance is a significant and worsening safety, security, and reliability issue of modern DRAM chips that can be exploited to break memory isolation. Two prominent examples of read-disturb phenomena are RowHammer and RowPress. However, no prior work extensively studies read-disturb phenomena in modern high-bandwidth memory (HBM) chips. In this work, we experimentally demonstrate the effects of read disturbance and uncover the inner workings of undocumented in-DRAM read disturbance mitigation mechanisms in HBM. Our characterization of six real HBM2 DRAM chips shows that (1) the number of read disturbance bitflips and the number of row activations needed to induce the first read disturbance bitflip significantly varies between different HBM2 chips and different 3D-stacked channels, pseudo channels, banks, and rows inside an HBM2 chip. (2) The DRAM rows at the end and in the middle of a DRAM bank exhibit significantly fewer read disturbance bitflips than the rest of the rows. (3) It takes fewer additional activations to induce more read disturbance bitflips in a DRAM row if the row exhibits the first bitflip already at a relatively high activation count. (4) HBM2 chips exhibit read disturbance bitflips with only two row activations when rows are kept active for an extremely long time. We show that a modern HBM2 DRAM chip implements undocumented read disturbance defenses that can track potential aggressor rows based on how many times they are activated, and refresh their victim rows with every 17 periodic refresh operations. We draw key takeaways from our observations and discuss their implications for future read disturbance attacks and defenses. We explain how our findings could be leveraged to develop both i) more powerful read disturbance attacks and ii) more efficient read disturbance defense mechanisms.
翻訳日:2024-03-25 14:05:29 公開日:2024-01-09
# 量子テンソルネットワークによる機械学習のエンタングリング

Entangling Machine Learning with Quantum Tensor Networks ( http://arxiv.org/abs/2403.12969v1 )

ライセンス: Link先を確認
Constantijn van der Poel, Dan Zhao, (参考訳) 本稿では,高次元量子状態を効率的に表現できるテンソルネットワークの言語モデリングへの応用について検討する。 これは、この作品の蒸留と継続である(van der Poel, 2023)。 そのためには、言語に類似した長距離相関を示すモツキンスピン鎖のモデル化に問題を抽象化する。 行列積状態(英: Matrix Product State、MPS)またはテンソルトレイン(英: tensor train)は、それがモデル化する列の長さとしてスケールする結合次元を持つ。 これに対抗するために、結合寸法がサブ線形にスケールする因子コアMPSを用いる。 テンソルモデルがほぼ完全な分類能力に到達し,有効なトレーニング例の数が減少するにつれて,安定した性能を維持していることがわかった。

This paper examines the use of tensor networks, which can efficiently represent high-dimensional quantum states, in language modeling. It is a distillation and continuation of the work done in (van der Poel, 2023). To do so, we will abstract the problem down to modeling Motzkin spin chains, which exhibit long-range correlations reminiscent of those found in language. The Matrix Product State (MPS), also known as the tensor train, has a bond dimension which scales as the length of the sequence it models. To combat this, we use the factored core MPS, whose bond dimension scales sub-linearly. We find that the tensor models reach near perfect classifying ability, and maintain a stable level of performance as the number of valid training examples is decreased.
翻訳日:2024-03-25 07:36:54 公開日:2024-01-09
# Boomerangプロトコル: 分散型プライバシ保護検証インセンティブプロトコル

The Boomerang protocol: A Decentralised Privacy-Preserving Verifiable Incentive Protocol ( http://arxiv.org/abs/2401.01353v2 )

ライセンス: Link先を確認
Ralph Ankele, Hamed Haddadi, (参考訳) データ駆動経済の時代、インセンティブシステムや忠誠プログラムは、広告、小売、旅行、金融サービスなど、様々な分野で普及している。 これらのシステムは、ユーザと企業の両方に利点を提供するが、相当量の機密データの転送と分析を必要としている。 プライバシーに関する懸念はますます高まり、プライバシー保護のインセンティブプロトコルの開発が必要である。 セキュアで分散化されたシステムに対する需要が高まっているにもかかわらず、既存の状況には包括的な解決策が欠けている。 本稿では,暗号ブラックボックスアキュムレータを利用してユーザインタラクションをインセンティブシステム内にセキュアに格納する,新たな分散型プライバシ保護インセンティブプロトコルであるBoomerangプロトコルを提案する。 さらに、このプロトコルでは、BulletProofsに基づくゼロ知識証明を使用して、ユーザの報酬を透過的に計算し、プライバシを保護しながら検証性を確保する。 公開検証性と透明性をさらに向上するため、レイヤ1ブロックチェーン上のスマートコントラクトを使用して、これらのゼロ知識証明を検証する。 ゼロ知識証明におけるブラックボックスアキュムレータと選択楕円曲線との注意深い組み合わせは、ブーメランプロトコルを極めて効率的にする。 当社のコンセプト実装の証明は,1日あたり最大2360万人のユーザを,財務コスト約2USDのシングルスレッドバックエンドサーバ上で処理可能であることを示している。 Solanaブロックチェーンを使用することで、1日あたり1550万人のユーザを処理できる。 Boomerangプロトコルは、プライバシー保護のためのインセンティブプロトコルの大幅な進歩を表しており、よりセキュアでプライバシー中心の未来の基盤となっている。

In the era of data-driven economies, incentive systems and loyalty programs, have become ubiquitous in various sectors, including advertising, retail, travel, and financial services. While these systems offer advantages for both users and companies, they necessitate the transfer and analysis of substantial amounts of sensitive data. Privacy concerns have become increasingly pertinent, necessitating the development of privacy-preserving incentive protocols. Despite the rising demand for secure and decentralized systems, the existing landscape lacks a comprehensive solution. We propose the Boomerang protocol, a novel decentralized privacy-preserving incentive protocol that leverages cryptographic black box accumulators to securely store user interactions within the incentive system. Moreover, the protocol employs zero-knowledge proofs based on BulletProofs to transparently compute rewards for users, ensuring verifiability while preserving their privacy. To further enhance public verifiability and transparency, we utilize a smart contract on a Layer 1 blockchain to verify these zero-knowledge proofs. The careful combination of black box accumulators with selected elliptic curves in the zero-knowledge proofs makes the Boomerang protocol highly efficient. Our proof of concept implementation shows that we can handle up to 23.6 million users per day, on a single-threaded backend server with financial costs of approximately 2 USD. Using the Solana blockchain we can handle 15.5 million users per day with approximate costs of 0.00011 USD per user. The Boomerang protocol represents a significant advancement in privacy-preserving incentive protocols, laying the groundwork for a more secure and privacy-centric future.
翻訳日:2024-03-18 10:39:12 公開日:2024-01-09
# AdvSQLi: 現実のWAF-as-a-serviceに対する逆SQLインジェクションの生成

AdvSQLi: Generating Adversarial SQL Injections against Real-world WAF-as-a-service ( http://arxiv.org/abs/2401.02615v3 )

ライセンス: Link先を確認
Zhenqing Qu, Xiang Ling, Ting Wang, Xiang Chen, Shouling Ji, Chunming Wu, (参考訳) 攻撃を行う最初の防御レイヤとして、Webアプリケーションファイアウォール(WAF)は、SQLインジェクション(SQLi)のような悪意のあるWeb攻撃を防御する上で、必須の役割を果たす。 クラウドコンピューティングの開発に伴い、WAF-as-a-serviceは、クラウドへのWAFのデプロイ、設定、更新を容易にするために、Security-as-a-serviceの一種として提案されている。 非常に人気があるにもかかわらず、WAF-as-a-serviceのセキュリティ脆弱性はいまだに不明であり、その膨大な使用量を考えると、非常に懸念されている。 本稿では,生成したSQLiペイロードが,ブラックボックス設定下でWAF-as-a-Serviceをバイパスするだけでなく,元のペイロードと同じ機能と悪意を持つように,元のSQLiペイロードの階層木表現上で最小限の変換を実行する,汎用的で拡張可能なアタックフレームワークであるAdvSQLiを提案する。 AdvSQLiを使用することで、WAFのセキュリティ脆弱性を検査し、理解することが可能になる。 AdvSQLiの攻撃効率と効率を評価するために、まず2つのパブリックデータセットを使用して逆SQLiペイロードを生成し、最先端のMLベースのSQLi検出器に対して100%の攻撃成功率を得る。 さらに、AdvSQLiによる即時セキュリティの脅威を示すために、主流ベンダの7つのWAF-as-a-serviceソリューションに対する攻撃効果を評価し、それらすべてがAdvSQLiに対して脆弱であることを確認する。 例えば、AdvSQLiはF5 WAFに対して79%以上の攻撃成功率を達成した。 評価結果の詳細な分析を通じて、これらのベンダーが容易にパッチを適用できないような、汎用的で深刻な欠陥を更に解決する。

As the first defensive layer that attacks would hit, the web application firewall (WAF) plays an indispensable role in defending against malicious web attacks like SQL injection (SQLi). With the development of cloud computing, WAF-as-a-service, as one kind of Security-as-a-service, has been proposed to facilitate the deployment, configuration, and update of WAFs in the cloud. Despite its tremendous popularity, the security vulnerabilities of WAF-as-a-service are still largely unknown, which is highly concerning given its massive usage. In this paper, we propose a general and extendable attack framework, namely AdvSQLi, in which a minimal series of transformations are performed on the hierarchical tree representation of the original SQLi payload, such that the generated SQLi payloads can not only bypass WAF-as-a-service under black-box settings but also keep the same functionality and maliciousness as the original payload. With AdvSQLi, we make it feasible to inspect and understand the security vulnerabilities of WAFs automatically, helping vendors make products more secure. To evaluate the attack effectiveness and efficiency of AdvSQLi, we first employ two public datasets to generate adversarial SQLi payloads, leading to a maximum attack success rate of 100% against state-of-the-art ML-based SQLi detectors. Furthermore, to demonstrate the immediate security threats caused by AdvSQLi, we evaluate the attack effectiveness against 7 WAF-as-a-service solutions from mainstream vendors and find all of them are vulnerable to AdvSQLi. For instance, AdvSQLi achieves an attack success rate of over 79% against the F5 WAF. Through in-depth analysis of the evaluation results, we further condense out several general yet severe flaws of these vendors that cannot be easily patched.
翻訳日:2024-03-18 10:39:12 公開日:2024-01-09
# WebGPU-SPY:GPUキャッシュ攻撃によるサンドボックス内の指紋の検出

WebGPU-SPY: Finding Fingerprints in the Sandbox through GPU Cache Attacks ( http://arxiv.org/abs/2401.04349v1 )

ライセンス: Link先を確認
Ethan Ferguson, Adam Wilson, Hoda Naghibijouybari, (参考訳) CPU構造に対するマイクロアーキテクチャ攻撃は、ネイティブアプリケーションやWebブラウザでも研究されている。 これらの攻撃は、あらゆる規模において、コンピューティングシステムに対する重大な脅威であり続けている。 ヘテロジニアスシステムの普及と、すべてのコンピュータシステムにおけるハードウェアアクセラレータの統合により、現代的なWebブラウザは、グラフィックスとレンダリングプロセスのためのGPUベースのアクセラレーションをサポートする。 新たなWeb標準は、Webブラウザ内の汎用計算のGPUアクセラレーションもサポートする。 本稿では,Webブラウザにおけるマイクロアーキテクチャ攻撃のための新しい攻撃ベクトルを提案する。 我々は、最新のブラウザ(特にWebGPU)におけるGPUアクセラレーションAPIを使用して、GPUのグラフィック(レンダリング)スタック上の犠牲者アクティビティをスパイするGPUの計算スタックに対して、GPUベースのキャッシュサイドチャネルアタックを起動します。 タイミングプリミティブを構築するためにJavaScript APIやソフトウェアインターフェースに依存する以前の作業とは異なり、GPUハードウェアリソースを使用してタイマを構築し、Intelの統合GPUに対するキャッシュサイドチャネルアタックを開発する。 異なるレベルでGPU固有の並列性を活用し、高解像度の並列攻撃を開発する。 我々は、GPUベースのキャッシュ攻撃が、上位100のWebサイトの指紋認証において、90の精度を達成することを実証した。 また,これらのWeb標準が開発され,広く展開される前に,システムを保護するための攻撃の可能性についても論じる。

Microarchitectural attacks on CPU structures have been studied in native applications, as well as in web browsers. These attacks continue to be a substantial threat to computing systems at all scales. With the proliferation of heterogeneous systems and integration of hardware accelerators in every computing system, modern web browsers provide the support of GPU-based acceleration for the graphics and rendering processes. Emerging web standards also support the GPU acceleration of general-purpose computation within web browsers. In this paper, we present a new attack vector for microarchitectural attacks in web browsers. We use emerging GPU accelerating APIs in modern browsers (specifically WebGPU) to launch a GPU-based cache side channel attack on the compute stack of the GPU that spies on victim activities on the graphics (rendering) stack of the GPU. Unlike prior works that rely on JavaScript APIs or software interfaces to build timing primitives, we build the timer using GPU hardware resources and develop a cache side channel attack on Intel's integrated GPUs. We leverage the GPU's inherent parallelism at different levels to develop high-resolution parallel attacks. We demonstrate that GPU-based cache attacks can achieve a precision of 90 for website fingerprinting of 100 top websites. We also discuss potential countermeasures against the proposed attack to secure the systems at a critical time when these web standards are being developed and before they are widely deployed.
翻訳日:2024-03-18 08:46:40 公開日:2024-01-09
# 商用ReRAMチップにおけるセキュア・包括データ保存のための情報共有

Hiding Information for Secure and Covert Data Storage in Commercial ReRAM Chips ( http://arxiv.org/abs/2401.04411v1 )

ライセンス: Link先を確認
Farah Ferdaus, B. M. S. Bahar Talukder, Md Tauhidur Rahman, (参考訳) 本稿では、市販のレジストRAM(ReRAM)チップにデータを隠蔽する新しい低コスト技術を紹介する。 データは、$\textit{set/reset}$)操作を切り替えることで、アナログ物理特性を操作することで、ReRAMセルに隠される。 この隠されたデータは、後にセルの物理的特性の変化(例えば、$\textit{set/reset}$ メモリセルの時間)を検知することによって取得される。 提案するシステムレベルの隠蔽技術は,通常のメモリ操作に影響を与えず,ハードウェアの変更も不要である。 さらに,提案手法は,通常の読み書き操作による温度変化やデバイスの老化に対して頑健である。 その結果,提案したデータ隠蔽技術は,符号化の${\sim}0.4bit/min$と検索レート$${\sim}15.625bits/s$で許容できる速さで,秘密鍵の知識がなくても隠蔽メッセージは発見できないことがわかった。

This article introduces a novel, low-cost technique for hiding data in commercially available resistive-RAM (ReRAM) chips. The data is kept hidden in ReRAM cells by manipulating its analog physical properties through switching ($\textit{set/reset}$) operations. This hidden data, later, is retrieved by sensing the changes in cells' physical properties (i.e., $\textit{set/reset}$ time of the memory cells). The proposed system-level hiding technique does not affect the normal memory operations and does not require any hardware modifications. Furthermore, the proposed hiding approach is robust against temperature variations and the aging of the devices through normal read/write operation. The silicon results show that our proposed data hiding technique is acceptably fast with ${\sim}0.4bit/min$ of encoding and ${\sim}15.625bits/s$ of retrieval rates, and the hidden message is unrecoverable without the knowledge of the secret key, which is used to enhance the security of hidden information.
翻訳日:2024-03-18 08:46:40 公開日:2024-01-09
# 並列代替演算を用いた微分実験

Differential experiments using parallel alternative operations ( http://arxiv.org/abs/2401.04495v1 )

ライセンス: Link先を確認
Marco Calderini, Roberto Civino, Riccardo Invernizzi, (参考訳) 微分暗号解析や微分の代替概念における代替操作の利用は、近年注目されている。 近年、Civinoらは XOR-differentials を用いた古典的微分暗号解析を安全に行うブロック暗号の設計に成功したが、ブロックの第1のs-boxに作用する代替差分演算に基づいて攻撃に対して弱い。 この結果は、ブロックの各s-boxに作用する並列な代替操作に拡張する。 まず、そのような操作を定義し、使用するために必要な数学的枠組みを思い出す。 その後、おもちゃの暗号に対していくつかの差分実験を行い、XOR-差分を用いた攻撃w.r.t.の有効性を比較した。

The use of alternative operations in differential cryptanalysis, or alternative notions of differentials, are lately receiving increasing attention. Recently, Civino et al. managed to design a block cipher which is secure w.r.t. classical differential cryptanalysis performed using XOR-differentials, but weaker with respect to the attack based on an alternative difference operation acting on the first s-box of the block. We extend this result to parallel alternative operations, i.e. acting on each s-box of the block. First, we recall the mathematical framework needed to define and use such operations. After that, we perform some differential experiments against a toy cipher and compare the effectiveness of the attack w.r.t. the one that uses XOR-differentials.
翻訳日:2024-03-18 08:46:40 公開日:2024-01-09
# 暗黒のウェブで暗号通貨の不正行為を追跡中

The Devil Behind the Mirror: Tracking the Campaigns of Cryptocurrency Abuses on the Dark Web ( http://arxiv.org/abs/2401.04662v1 )

ライセンス: Link先を確認
Pengcheng Xia, Zhou Yu, Kailong Wang, Kai Ma, Shuo Chen, Xiapu Luo, Yajin Zhou, Lei Wu, Guangdong Bai, Haoyu Wang, (参考訳) ダークウェブは匿名性を高める最先端のソリューションとして登場した。 二重刃の剣のように、不当に安全網となり、違法行為の場となる。 そのうちの1つは、暗号通貨が違法な収入を得るために悪用されていることであり、規制を回避している。 不正行為と闘う努力を続けているにもかかわらず、ダークウェブにおける暗号通貨の悪用の特徴とダイナミクスに関する深い理解はいまだに欠けている。 本研究では,暗黒ウェブ上での暗号通貨関連の不正行為やキャンペーンを多次元かつ体系的に追跡する。 私たちはまず、130Kページを超える暗号通貨関連玉ねぎサイト4,923件のデータセットを収集した。 そして、不正なブロックチェーントランザクションを検出して、暗号通貨の不正行為を特徴付ける。 調査を通じて、違法なブロックチェーンアドレスが1,189個ある2,564の違法サイトを特定しました。 内部のつながりに基づいて、さらに66のキャンペーンを識別する。 ダークウェブにおける不正なアクティビティには強い相関関係があり、新たな不正なブロックチェーンアドレスとタマネギを識別し、デプロイメントの初期段階でアラームを発生させることができます。

The dark web has emerged as the state-of-the-art solution for enhanced anonymity. Just like a double-edged sword, it also inadvertently becomes the safety net and breeding ground for illicit activities. Among them, cryptocurrencies have been prevalently abused to receive illicit income while evading regulations. Despite the continuing efforts to combat illicit activities, there is still a lack of an in-depth understanding regarding the characteristics and dynamics of cryptocurrency abuses on the dark web. In this work, we conduct a multi-dimensional and systematic study to track cryptocurrency-related illicit activities and campaigns on the dark web. We first harvest a dataset of 4,923 cryptocurrency-related onion sites with over 130K pages. Then, we detect and extract the illicit blockchain transactions to characterize the cryptocurrency abuses, targeting features from single/clustered addresses and illicit campaigns. Throughout our study, we have identified 2,564 illicit sites with 1,189 illicit blockchain addresses, which account for 90.8 BTC in revenue. Based on their inner connections, we further identify 66 campaigns behind them. Our exploration suggests that illicit activities on the dark web have strong correlations, which can guide us to identify new illicit blockchain addresses and onions, and raise alarms at the early stage of their deployment.
翻訳日:2024-03-18 08:46:40 公開日:2024-01-09
# RNA-transCrypt: カオスRNAエンコーディングによる画像暗号化, 新規変換置換, テーラー暗号操作

RNA-TransCrypt: Image Encryption Using Chaotic RNA Encoding, Novel Transformative Substitution, and Tailored Cryptographic Operations ( http://arxiv.org/abs/2401.04707v1 )

ライセンス: Link先を確認
Muhammad Shahbaz Khan, Jawad Ahmad, Ahmed Al-Dubai, Baraq Ghaleb, Nikolaos Pitropakis, William J. Buchanan, (参考訳) モノのインターネット(IoT)ネットワークのセキュリティ上の懸念とIoTデバイスの限られた計算資源を考慮し,RNA-TransCryptを提案する。 RNA-TransCryptはRNAの生暗号特性とカオス理論の非線型性と予測不可能性を統合する。 このスキームには3つの新しいコントリビューションが導入されている。 1) 2塩基RNAエンコーディング法は、画像をRNA鎖状配列に変換し、効率的なスクランブルを確実にする。 2) 画素値を置き換える前にsボックス値を変換し,そのスキームを軽量化する変換置換技術。 3)s-box値の効率的な変換を保証するために,特に画像暗号化のために設計された3つの数学的暗号演算により,同じ入力値であっても新たな結果が得られる。 これらのモジュールは鍵に依存し、De Jong Fractal MapとVan der Pol Oscillatorによって生成されるカオスキーを利用する。 ヒストグラム解析,相関解析,およびGray-Level Co-occurrence Matrix (GLCM) から得られた統計セキュリティパラメータの結果を含む広範囲なセキュリティ分析は,7.997エントロピーと0.0006相関の近似結果による入力画像の暗号化において,提案手法の有効性を検証した。

Given the security concerns of Internet of Things (IoT) networks and limited computational resources of IoT devices, this paper presents RNA-TransCrypt, a novel image encryption scheme that is not only highly secure but also efficient and lightweight. RNA-TransCrypt integrates the biocryptographic properties of RNA encoding with the non-linearity and unpredictability of chaos theory. This scheme introduces three novel contributions: 1) the two-base RNA encoding method, which transforms the image into RNA strands-like sequence, ensuring efficient scrambling; 2) the transformative substitution technique, which transforms the s-box values before replacing the pixel values, and is responsible for making the scheme lightweight; and 3) three mathematical cryptographic operations designed especially for image encryption that ensure the effective transformation of the s-box values, resulting in a new outcome even for the same input values. These modules are key-dependent, utilizing chaotic keys generated by the De Jong Fractal Map and the Van der Pol Oscillator. Extensive security analysis, including histogram analysis, correlation analysis, and the results of the statistical security parameters obtained from the Gray-Level Co-occurrence Matrix (GLCM) validate the efficacy of the proposed scheme in encrypting input images with close-to-ideal results of 7.997 entropy and 0.0006 correlation.
翻訳日:2024-03-18 08:46:40 公開日:2024-01-09
# プラナリア再生過程におけるラジカルペア機構とキラル性によるスピン選択性の役割 : 弱磁場がROSレベルに及ぼす影響

Radical Pair Mechanism and the Role of Chirality-Induced Spin Selectivity during Planaria Regeneration: Effect of Weak Magnetic Field on ROS levels ( http://arxiv.org/abs/2403.00003v1 )

ライセンス: Link先を確認
Yash Tiwari, Parul Raghuvanshi, Vishvendra Singh Poonia, (参考訳) プラナリアン(Planarian)は、細胞形態形成中の様々な生化学的経路において、電場と磁場の効果を研究する興味深いモデルシステムである。 最近の実験では、プラナリア再生時の弱い磁場による活性酸素種(ROS)の非自明な調節が示されている。 しかし、この背景にある生物物理学的なメカニズムはいまだ解明されていない。 本稿では,弱い磁場がプラネタリア再生時のROS変調に与える影響を説明するためのラジカルペア機構について検討し,実験結果について述べる。 また, キラリティ誘起スピン選択性(CISS)がROSレベルに及ぼす影響について, ラジカル対機構の枠組みに含めることにより検討した。 我々は、CISSが実験結果をよりよく説明し、実験的な制約を満たすために、ラジカルペアモデルがよりパラメトリックな空間を持つことを可能にすると結論付けた。 本研究は、CISSによる弱磁場によるROS変調の重要な過程を説明し、これにより、所望の結果を得るためにROS変調の広大な領域を開拓する道を開く。

Planarian is an intriguing model system wherein the effect of electric and magnetic fields can be studied on various biochemical pathways during cell morphogenesis. Recent experimental observations have demonstrated the non-trivial modulation of reactive oxygen species (ROS) levels by a weak magnetic field during planaria regeneration. However, the underlying biophysical mechanism behind this remains elusive. In this paper, we study the radical pair mechanism to explain the effect of weak magnetic fields on ROS modulation during planaria regeneration to explain the experimental results. We also investigate the effect of chirality-induced spin selectivity (CISS) on ROS levels by including it in the framework of the radical pair mechanism. We conclude that the inclusion of CISS explains the experimental results better and allows the radical pair model to have more parametric space to satisfy the experimental constraints. This study explains the crucial process of ROS modulation by the weak magnetic field with and without CISS, thereby paving the way to unraveling the vast domain of ROS modulation for desired outcomes.
翻訳日:2024-03-18 06:49:31 公開日:2024-01-09
# 最小囲み球の数学的基礎と関連する問題

Towards the mathematical foundation of the minimum enclosing ball and related problems ( http://arxiv.org/abs/2402.06629v1 )

ライセンス: Link先を確認
Michael N. Vrahatis(参考訳) 理論的な背景は、最小囲いボール問題の数学的基礎に与えられる。 この問題は、d-次元ユークリッド空間に与えられた有界集合を囲む最小半径の球面の唯一の決定に関する。 最小囲いボール問題と類似または関連するいくつかの問題の研究は、様々な科学および技術分野におけるこれらの問題の多量の応用からかなりの効果を得ている。 提案された理論的枠組みは、いくつかの囲い(被覆)と仕切り(クラスタ化)の定理に基づいており、他の境界と集合の直径と幅の関係を提供する。 これらの囲い込みと分割の定理は、他の空間や非ユークリッド測地への発展と一般化に強い影響を与える分野の基盤と見なされる。

Theoretical background is provided towards the mathematical foundation of the minimum enclosing ball problem. This problem concerns the determination of the unique spherical surface of smallest radius enclosing a given bounded set in the d-dimensional Euclidean space. The study of several problems that are similar or related to the minimum enclosing ball problem has received a considerable impetus from the large amount of applications of these problems in various fields of science and technology. The proposed theoretical framework is based on several enclosing (covering) and partitioning (clustering) theorems and provides among others bounds and relations between the circumradius, inradius, diameter and width of a set. These enclosing and partitioning theorems are considered as cornerstones in the field that strongly influencing developments and generalizations to other spaces and non-Euclidean geometries.
翻訳日:2024-02-18 14:08:09 公開日:2024-01-09
# 慢性的健康管理のためのユーザ中心型AI分析

User-Centric AI Analytics for Chronic Health Conditions Management ( http://arxiv.org/abs/2402.01652v1 )

ライセンス: Link先を確認
Aladdin Ayesh(参考訳) 健康情報学におけるAI分析の利用は、近年急速に増加している。 本稿では、糖尿病や肥満などの慢性的な健康状態を管理するためのAI分析の活用について述べる。 個々の状況の変化が原因で,特に薬物を含まないアプローチにおいて,これらの状況を管理する上での課題に焦点をあてる。 これらのバリエーションは、ユーザー中心のアプローチの研究に様々な研究課題をもたらした。 本稿では,最近の研究成果から例を挙げ,次のステップと今後のオープンな研究課題について述べる。

The use of AI analytics in health informatics has seen a rapid growth in recent years. In this talk, we look at AI analytics use in managing chronic health conditions such as diabetes, obesity, etc. We focus on the challenges in managing these conditions especially with drug-free approaches due to the variations in individual circumstances. These variations directed the research into user-centric approach leading to variety of research questions. In this short paper, we give examples from recent and current research work and conclude with what, in our opinion, to be the next steps and some remaining open research questions.
翻訳日:2024-02-11 17:29:57 公開日:2024-01-09
# チャイルドインパクト・ステートメント:政治学とコンピュータ科学の学際的コラボレーション

Child Impact Statements: Interdisciplinary Collaboration in Political Science and Computer Science ( http://arxiv.org/abs/2402.01653v1 )

ライセンス: Link先を確認
Leah Cathryn Windsor(参考訳) チャイルドインパクト・ステートメント (Child Impact Statements, CIS) は、投票に若く、政治的に自身を主張できない小さなコミュニティメンバーの懸念やニーズを先導する助けとなる。 多くの政治家や政策立案者は、子供たちの利益のために決定を下すと主張しているが、それを実現するために必要な情報がないことが多い。 CISは、政策立案においてしばしば過小評価される構成員に声を出すという環境影響声明に類似している。 本稿では,TN郡シェルビー郡における政策立案者やコミュニティメンバのためのCISツールを作成するために,社会科学とコンピュータ科学の学際的な連携を強調した。 さらに、この種のコラボレーションは、CISツールの範囲を超えています。 社会科学者とコンピュータ科学者は、コミュニティの利益のためにデータ管理とデータ解釈の補完的なスキルセットを活用でき、科学知識を進歩させ、アカデミー内の学際的な分断を橋渡しすることができる。

Child Impact Statements (CIS) are instrumental in helping to foreground the concerns and needs of minor community members who are too young to vote and often unable to advocate for themselves politically. While many politicians and policymakers assert they make decisions in the best interests of children, they often lack the necessary information to meaningfully accomplish this. CISs are akin to Environmental Impact Statements in that both give voice to constituents who are often under-represented in policymaking. This paper highlights an interdisciplinary collaboration between Social Science and Computer Science to create a CIS tool for policymakers and community members in Shelby County, TN. Furthermore, this type of collaboration is fruitful beyond the scope of the CIS tool. Social scientists and computer scientists can leverage their complementary skill sets in data management and data interpretation for the benefit of their communities, advance scientific knowledge, and bridge disciplinary divides within the academy.
翻訳日:2024-02-11 17:17:52 公開日:2024-01-09
# インフォームドAI規則:道徳に基づく監査を用いてLLMチャットボットをリードする倫理的枠組みを比較して道徳的推論と規範的価値を評価する

Informed AI Regulation: Comparing the Ethical Frameworks of Leading LLM Chatbots Using an Ethics-Based Audit to Assess Moral Reasoning and Normative Values ( http://arxiv.org/abs/2402.01651v1 )

ライセンス: Link先を確認
Jon Chun and Katherine Elkins(参考訳) 自律エージェントの個人および共同ネットワークの台頭により、AIはより重要な推論と意思決定の役割に配備される。 そのため、倫理に基づく監査は、AIの安全性と規制の急速に成長する分野において重要な役割を果たす。 本稿では,GPT-4を含む8つの主要な商用およびオープンソースの大規模言語モデルについて,倫理に基づく監査を行う。 我々は説明可能性と信頼度を評価する a) 異なるモデルが道徳的推論にいかにうまく関わっているかを確立すること b) 規範的価値を倫理的枠組みとして比較すること。 我々は、人間とAIのアライメントを調査するために、倫理的ジレンマでモデルに挑戦する実験的なエビデンスベースのアプローチを採用している。 倫理的シナリオは、状況の特定が規範的倫理原則から逸脱する必要のない決定を必要とするように設計されている。 高度な倫理的枠組みは、一貫して1つのモデル、gpt-4で導かれた。 それにもかかわらず、厄介な発見には、特定の文化的規範に対して明確なバイアスを持つ規範的枠組みが含まれる。 多くのモデルは権威主義的な傾向を乱す。 コードはhttps://github.com/jonchun/llm-sota-chatbots-ethics-based-auditで入手できる。

With the rise of individual and collaborative networks of autonomous agents, AI is deployed in more key reasoning and decision-making roles. For this reason, ethics-based audits play a pivotal role in the rapidly growing fields of AI safety and regulation. This paper undertakes an ethics-based audit to probe the 8 leading commercial and open-source Large Language Models including GPT-4. We assess explicability and trustworthiness by a) establishing how well different models engage in moral reasoning and b) comparing normative values underlying models as ethical frameworks. We employ an experimental, evidence-based approach that challenges the models with ethical dilemmas in order to probe human-AI alignment. The ethical scenarios are designed to require a decision in which the particulars of the situation may or may not necessitate deviating from normative ethical principles. A sophisticated ethical framework was consistently elicited in one model, GPT-4. Nonetheless, troubling findings include underlying normative frameworks with clear bias towards particular cultural norms. Many models also exhibit disturbing authoritarian tendencies. Code is available at https://github.com/jonchun/llm-sota-chatbots-ethics-based-audit.
翻訳日:2024-02-11 17:17:33 公開日:2024-01-09
# trip属性が配車ドライバーのトリップ要求受入に及ぼす影響

Effect of trip attributes on ridehailing driver trip request acceptance ( http://arxiv.org/abs/2402.01650v1 )

ライセンス: Link先を確認
Yuanjie Tu, Moein Khaloei, Nazmul Arefin Khan, Don MacKenzie(参考訳) シアトルで実施した選好調査の200件の回答を頼りに,乗用車の走行要求の受け入れ選択に影響を与える要因について,一般化した添加混合モデルを用いて検討した。 配車サービスドライバーが望ましくない旅行機能に対する補償を受ける意思に基づく旅行リクエストの受け入れを促進するために、いくつかのポリシー勧告が提案された。 この発見は、交通機関が配車サービスの効率を改善し、都市移動性のニーズを十分満たし、環境負荷を軽減できる可能性がある。

A generalized additive mixed model was estimated to investigate the factors that impact ridehailing driver trip request acceptance choices, relying on 200 responses from a stated preference survey in Seattle, US. Several policy recommendations were proposed to promote trip request acceptance based on ridehailing drivers willingness to accept compensation for undesired trip features. The findings could be useful for transportation agencies to improve ridehailing service efficiency, better fulfill urban mobility needs, and reduce environmental burden.
翻訳日:2024-02-11 17:17:15 公開日:2024-01-09
# ビジュアルナンバーセンスを欠く大規模生成AIモデル

Large-scale Generative AI Models Lack Visual Number Sense ( http://arxiv.org/abs/2402.03328v1 )

ライセンス: Link先を確認
Alberto Testolin, Kuinan Hou, Marco Zorzi(参考訳) 人間は、数えることなく、視覚シーンの物体の数を容易に判断することができ、そのようなスキルは、言語発達や正式な教育に先立って、様々な動物種や赤ちゃんに記録されている。 数値的な判断は小さな集合では誤りのないが、より大きな集合では応答が近似され、変数はターゲット数に比例して増加する。 この応答パターンは、オブジェクトの特徴(色や形状など)のばらつきにもかかわらず、あらゆる種類のアイテムで観察され、我々の視覚的な数字感覚は、数字の抽象的な表現に依存していることを示唆している。 本稿では,大規模トランスフォーマーアーキテクチャに基づく生成型人工知能(ai)モデルが,単純な視覚刺激でオブジェクト数を確実に命名できるか,あるいは1~10の範囲のターゲット数を含む画像を生成するかを検討した。 意外なことに、人間のような方法で実行されたと見なされる基礎モデルは、どれも小さな数であっても衝撃的なエラーを犯し、応答のばらつきはしばしば体系的な方法で増加せず、エラーのパターンはオブジェクトカテゴリによって異なる。 我々の研究結果は、高度なAIシステムには数値の直感的な理解を支える基本的な能力がないことを示している。

Humans can readily judge the number of objects in a visual scene, even without counting, and such a skill has been documented in a variety of animal species and in babies prior to language development and formal schooling. Numerical judgments are error-free for small sets, while for larger collections responses become approximate, with variability increasing proportionally to the target number. This response pattern is observed for items of all kinds, despite variation in object features (such as color or shape), suggesting that our visual number sense relies on abstract representations of numerosity. Here, we investigated whether generative Artificial Intelligence (AI) models based on large-scale transformer architectures can reliably name the number of objects in simple visual stimuli or generate images containing a target number of items in the 1-10 range. Surprisingly, none of the foundation models considered performed in a human-like way: They all made striking errors even with small numbers, the response variability often did not increase in a systematic way, and the pattern of errors varied with object category. Our findings demonstrate that advanced AI systems still lack a basic ability that supports an intuitive understanding of numbers, which in humans is foundational for numeracy and mathematical development.
翻訳日:2024-02-11 15:54:39 公開日:2024-01-09
# Uni3D-LLM:大規模言語モデルによるポイントクラウドの認識、生成、編集の統合

Uni3D-LLM: Unifying Point Cloud Perception, Generation and Editing with Large Language Models ( http://arxiv.org/abs/2402.03327v1 )

ライセンス: Link先を確認
Dingning Liu, Xiaoshui Huang, Yuenan Hou, Zhihui Wang, Zhenfei Yin, Yongshun Gong, Peng Gao, Wanli Ouyang(参考訳) 本稿では,Large Language Model(LLM)を利用した統合フレームワークであるUni3D-LLMを紹介し,ポイントクラウドシーン内での3次元認識,生成,編集のタスクを統合する。 このフレームワークは、自然言語記述の汎用性によって導かれる、シーン内の特定の場所でオブジェクトを無力に生成し、修正することを可能にする。 Uni3D-LLMは自然言語の表現力を利用して、3Dオブジェクトの生成と編集の正確なコマンドを可能にする。 ポイントクラウドを統一表現空間にマッピングすることにより、Uni3D-LLMはクロスアプリケーション機能を実現し、3Dオブジェクトの正確なインスタンス化からインタラクティブデザインの多様な要求まで、幅広いタスクのシームレスな実行を可能にする。 一連の厳密な実験を通じて、ポイントクラウドの理解、生成、編集におけるuni3d-llmの有効性が検証された。 さらに,ポイントクラウド認識モジュールの統合が生成および編集プロセスに与える影響を評価し,実用的なアプリケーションへのアプローチの実質的な可能性を確認した。

In this paper, we introduce Uni3D-LLM, a unified framework that leverages a Large Language Model (LLM) to integrate tasks of 3D perception, generation, and editing within point cloud scenes. This framework empowers users to effortlessly generate and modify objects at specified locations within a scene, guided by the versatility of natural language descriptions. Uni3D-LLM harnesses the expressive power of natural language to allow for precise command over the generation and editing of 3D objects, thereby significantly enhancing operational flexibility and controllability. By mapping point cloud into the unified representation space, Uni3D-LLM achieves cross-application functionality, enabling the seamless execution of a wide array of tasks, ranging from the accurate instantiation of 3D objects to the diverse requirements of interactive design. Through a comprehensive suite of rigorous experiments, the efficacy of Uni3D-LLM in the comprehension, generation, and editing of point cloud has been validated. Additionally, we have assessed the impact of integrating a point cloud perception module on the generation and editing processes, confirming the substantial potential of our approach for practical applications.
翻訳日:2024-02-11 15:54:18 公開日:2024-01-09
# 大規模原油スケジューリングの知識支援二段階進化最適化

Knowledge-Assisted Dual-Stage Evolutionary Optimization of Large-Scale Crude Oil Scheduling ( http://arxiv.org/abs/2401.10274v1 )

ライセンス: Link先を確認
Wanting Zhang, Wei Du, Guo Yu, Renchu He, Wenli Du, Yaochu Jin(参考訳) 現代の製油所における原油スケジューリングのスケールアップに伴い、数千のバイナリ変数と非線形制約を伴う大規模原油スケジューリング問題(LSCOSP)が出現し、従来の最適化手法で最適化することが困難である。 そこで, LSCOSPを例に挙げ, まず, 原油排出, 輸送, 原油蒸留単位処理, 中間製品の在庫管理からLSCOSPをモデル化することから始める。 提案モデルに基づいて,大域的な探索と局所的な改良からなる2段階探索機構を,ヒューリスティックなルール(DSEA/HR)によって駆動される2段階進化アルゴリズムを開発した。 グローバル検索の段階では、経験的操作知識に基づくヒューリスティックなルールを考案し、優れた初期人口を生成し、混合変数空間における収束を加速する。 局所改良段階において, 局所連続変数をさらに最適化することにより, 実現不可能な解を実現可能な領域に移動させる修理戦略が提案されている。 進化過程全体において、提案されたデュアルステージフレームワークは、探索と搾取のバランスをとる上で重要な役割を果たす。 実験結果から,DSEA/HR は LSCOSP インスタンス上で,最先端かつ広く使用されている数学的プログラミング手法やメタヒューリスティックアルゴリズムを合理的な時間で上回ることがわかった。

With the scaling up of crude oil scheduling in modern refineries, large-scale crude oil scheduling problems (LSCOSPs) emerge with thousands of binary variables and non-linear constraints, which are challenging to be optimized by traditional optimization methods. To solve LSCOSPs, we take the practical crude oil scheduling from a marine-access refinery as an example and start with modeling LSCOSPs from crude unloading, transportation, crude distillation unit processing, and inventory management of intermediate products. On the basis of the proposed model, a dual-stage evolutionary algorithm driven by heuristic rules (denoted by DSEA/HR) is developed, where the dual-stage search mechanism consists of global search and local refinement. In the global search stage, we devise several heuristic rules based on the empirical operating knowledge to generate a well-performing initial population and accelerate convergence in the mixed variables space. In the local refinement stage, a repair strategy is proposed to move the infeasible solutions towards feasible regions by further optimizing the local continuous variables. During the whole evolutionary process, the proposed dual-stage framework plays a crucial role in balancing exploration and exploitation. Experimental results have shown that DSEA/HR outperforms the state-of-the-art and widely-used mathematical programming methods and metaheuristic algorithms on LSCOSP instances within a reasonable time.
翻訳日:2024-01-28 16:19:49 公開日:2024-01-09
# メタ認知は必要なだけか? 生成剤の検査によるゴール指向行動の改善

Metacognition is all you need? Using Introspection in Generative Agents to Improve Goal-directed Behavior ( http://arxiv.org/abs/2401.10910v1 )

ライセンス: Link先を確認
Jason Toy, Josh MacAdam, Phil Tabor(参考訳) 大規模言語モデル(llm)の最近の進歩は、様々なアプリケーションで印象的な能力を示しているが、コンテキストウィンドウの制限や一般化の困難など、llmは課題に直面している。 本稿では、生成エージェントのメタ認知モジュールを導入し、それらが自身の思考過程や行動を観察できるようにする。 このメタ認知的アプローチは、システム1とシステム2の認知プロセスをエミュレートするために設計され、エージェントは戦略を変更してパフォーマンスを大幅に向上させることができる。 生成エージェントがゾンビの黙示録を生き残らなければならない状況を含む様々なシナリオでメタ認知モジュールをテストし、エージェントが時間とともにタスクを完了するための戦略を適応し改善する一方で、我々のシステムが他よりも優れていることを観察した。

Recent advances in Large Language Models (LLMs) have shown impressive capabilities in various applications, yet LLMs face challenges such as limited context windows and difficulties in generalization. In this paper, we introduce a metacognition module for generative agents, enabling them to observe their own thought processes and actions. This metacognitive approach, designed to emulate System 1 and System 2 cognitive processes, allows agents to significantly enhance their performance by modifying their strategy. We tested the metacognition module on a variety of scenarios, including a situation where generative agents must survive a zombie apocalypse, and observe that our system outperform others, while agents adapt and improve their strategies to complete tasks over time.
翻訳日:2024-01-28 16:08:56 公開日:2024-01-09
# プロンプトを適応させる: データ依存型事前学習のためのベイジアンモデリング

Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt Learning with Data-Dependent Prior ( http://arxiv.org/abs/2401.06799v1 )

ライセンス: Link先を確認
Youngjae Cho, HeeSun Bae, Seungjae Shin, Yeo Dong Youn, Weonyoung Joo, Il-Chul Moon(参考訳) 近年のVLP(Vision-Language Pretrained)モデルは,多くの下流タスクのバックボーンとなっているが,学習せずにフリーズモデルとして活用されている。 Prompt Learningは、テキストエンコーダの入力に学習可能なコンテキストベクトルを追加することで、事前訓練されたVLPモデルを改善する方法である。 下流タスクの数ショットの学習シナリオでは、MLEトレーニングは、コンテキストベクトルをトレーニングデータに過度に適合する画像特徴に導くことができる。 このオーバーフィッティングは、特にトレーニングとテストデータセット間の分散シフトの存在下で、一般化能力を損なう可能性がある。 本稿では,素小学習アプリケーションにおける過度に適合する問題を軽減し,未知のインスタンス上でのプロンプトの適応性を高めるため,ベイズに基づくプロンプト学習フレームワークを提案する。 具体的には、データ依存の事前モデリングは、画像機能と見えない画像機能の両方に対して、パフォーマンスのトレードオフなしに、テキスト機能の適用性を高める。 ベイジアン・フレームワークをベースとして,我々はWasserstein Gradient Flowを対象の後方分布の推定に利用し,画像特徴の複雑なモードを捉える上で,フレキシブルなプロンプトを実現する。 提案手法の有効性を,既存手法と比較して統計的に有意な性能向上を示すことで,いくつかの実験で評価した。 コードはhttps://github.com/youngjae-cho/appで入手できる。

Recent Vision-Language Pretrained (VLP) models have become the backbone for many downstream tasks, but they are utilized as frozen model without learning. Prompt learning is a method to improve the pre-trained VLP model by adding a learnable context vector to the inputs of the text encoder. In a few-shot learning scenario of the downstream task, MLE training can lead the context vector to over-fit dominant image features in the training data. This overfitting can potentially harm the generalization ability, especially in the presence of a distribution shift between the training and test dataset. This paper presents a Bayesian-based framework of prompt learning, which could alleviate the overfitting issues on few-shot learning application and increase the adaptability of prompts on unseen instances. Specifically, modeling data-dependent prior enhances the adaptability of text features for both seen and unseen image features without the trade-off of performance between them. Based on the Bayesian framework, we utilize the Wasserstein Gradient Flow in the estimation of our target posterior distribution, which enables our prompt to be flexible in capturing the complex modes of image features. We demonstrate the effectiveness of our method on benchmark datasets for several experiments by showing statistically significant improvements on performance compared to existing methods. The code is available at https://github.com/youngjae-cho/APP.
翻訳日:2024-01-22 12:29:33 公開日:2024-01-09
# AIの幻覚: ミスノマーな価値を明確にする

AI Hallucinations: A Misnomer Worth Clarifying ( http://arxiv.org/abs/2401.06796v1 )

ライセンス: Link先を確認
Negar Maleki, Balaji Padmanabhan, Kaushik Dutta(参考訳) 大規模な言語モデルが人工知能(ai)の進歩を続ける中、テキスト生成システムはしばしば「幻覚」と呼ばれる問題のある現象に苦しむことが示されている。 しかし、医学を含む様々な分野におけるAIの存在感が高まり、この用語自体の使用に関する懸念が持ち上がっている。 本研究では,14のデータベースにまたがって「ai幻覚」を定義する論文を体系的に検討した。 全データベースにまたがって得られた定義を提示・分析し,そのアプリケーションに基づいて分類し,各カテゴリ内のキーポイントを抽出する。 この結果は、この用語の使われ方における一貫性の欠如を浮き彫りにし、文献におけるいくつかの代替用語の特定にも役立ちます。 我々は、これらの意味を議論し、複数のドメインに大きな影響を与える重要な現代ai問題に一貫性をもたらすためのより統一的な取り組みを求める。

As large language models continue to advance in Artificial Intelligence (AI), text generation systems have been shown to suffer from a problematic phenomenon termed often as "hallucination." However, with AI's increasing presence across various domains including medicine, concerns have arisen regarding the use of the term itself. In this study, we conducted a systematic review to identify papers defining "AI hallucination" across fourteen databases. We present and analyze definitions obtained across all databases, categorize them based on their applications, and extract key points within each category. Our results highlight a lack of consistency in how the term is used, but also help identify several alternative terms in the literature. We discuss implications of these and call for a more unified effort to bring consistency to an important contemporary AI issue that can affect multiple domains significantly.
翻訳日:2024-01-22 12:29:10 公開日:2024-01-09
# コンセプトアライメント

Concept Alignment ( http://arxiv.org/abs/2401.08672v1 )

ライセンス: Link先を確認
Sunayana Rane, Polyphony J. Bruna, Ilia Sucholutsky, Christopher Kello, Thomas L. Griffiths(参考訳) AIアライメント(人間とAIシステムの整合性)に関する議論は、人間の価値を共有するAIシステムを作成することを中心に、価値アライメントに焦点を当てている。 我々は、価値を整合させる前に、AIシステムと人間が世界を理解するために使用する概念を整合させることが不可欠であると主張する。 哲学、認知科学、ディープラーニングのアイデアを統合して、人間と機械間の価値アライメントだけでなく、概念アライメントの必要性を説明します。 我々は、現在人間と機械がコンセプトをどのように学んでいるかに関する既存の説明を要約し、共有概念への道のりにおける機会と挑戦を概説する。 最後に,認知科学とai研究ですでに開発されているツールを活用し,概念整合に向けた進歩を加速させる方法について述べる。

Discussion of AI alignment (alignment between humans and AI systems) has focused on value alignment, broadly referring to creating AI systems that share human values. We argue that before we can even attempt to align values, it is imperative that AI systems and humans align the concepts they use to understand the world. We integrate ideas from philosophy, cognitive science, and deep learning to explain the need for concept alignment, not just value alignment, between humans and machines. We summarize existing accounts of how humans and machines currently learn concepts, and we outline opportunities and challenges in the path towards shared concepts. Finally, we explain how we can leverage the tools already being developed in cognitive science and AI research to accelerate progress towards concept alignment.
翻訳日:2024-01-22 09:40:23 公開日:2024-01-09
# deepspeed-fastgen: miiとdeepspeed-inferenceによるllmsの高速テキスト生成

DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference ( http://arxiv.org/abs/2401.08671v1 )

ライセンス: Link先を確認
Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley, Samyam Rajbhandari, Reza Yazdani Aminabadi, Heyang Qin, Arash Bakhtiari, Lev Kurilenko, Yuxiong He(参考訳) 大規模言語モデル(LLM)の展開とスケーリングは、様々なアプリケーションに浸透し、高スループットと低レイテンシのサービスシステムを必要としているため、重要になっている。 既存のフレームワークはこれらの要件のバランスをとるのに苦労している。 本稿では,新しいプロンプトおよびジェネレーション構成戦略であるDynamic SplitFuseを利用するシステムであるDeepSpeed-FastGenを紹介し,vLLMのような最先端システムと比較して,最大2.3倍高いスループット,平均2倍のレイテンシ,最大3.7倍のテールレイテンシを実現する。 我々は,deepspeed-miiとdeepspeed-inferenceの相乗的組み合わせを利用して,llmのための効率的で使いやすいサービングシステムを提供する。 DeepSpeed-FastGenの高度な実装は、さまざまなモデルをサポートし、対話的なセッションから長時間実行されるアプリケーションまで、多様なユーザシナリオに対応する、永続的および永続的なデプロイメントオプションを提供する。 本稿では,詳細なベンチマーク手法,レイテンシ・スループット曲線による性能解析,ロードバランシングによるスケーラビリティの検討を行う。 評価の結果,各種モデルとハードウェア構成のスループットとレイテンシが大幅に向上した。 我々は、より広範なモデルサポートと新しいハードウェアバックエンドを含む将来の拡張のロードマップについて論じる。 deepspeed-fastgenコードはコミュニティの関与と貢献のために簡単に利用できる。

The deployment and scaling of large language models (LLMs) have become critical as they permeate various applications, demanding high-throughput and low-latency serving systems. Existing frameworks struggle to balance these requirements, especially for workloads with long prompts. This paper introduces DeepSpeed-FastGen, a system that employs Dynamic SplitFuse, a novel prompt and generation composition strategy, to deliver up to 2.3x higher effective throughput, 2x lower latency on average, and up to 3.7x lower (token-level) tail latency, compared to state-of-the-art systems like vLLM. We leverage a synergistic combination of DeepSpeed-MII and DeepSpeed-Inference to provide an efficient and easy-to-use serving system for LLMs. DeepSpeed-FastGen's advanced implementation supports a range of models and offers both non-persistent and persistent deployment options, catering to diverse user scenarios from interactive sessions to long-running applications. We present a detailed benchmarking methodology, analyze the performance through latency-throughput curves, and investigate scalability via load balancing. Our evaluations demonstrate substantial improvements in throughput and latency across various models and hardware configurations. We discuss our roadmap for future enhancements, including broader model support and new hardware backends. The DeepSpeed-FastGen code is readily available for community engagement and contribution.
翻訳日:2024-01-22 09:40:09 公開日:2024-01-09
# 地球温暖化の自己監視ビジョン

Self Supervised Vision for Climate Downscaling ( http://arxiv.org/abs/2401.09466v1 )

ライセンス: Link先を確認
Karandeep Singh, Chaeyoon Jeong, Naufal Shidqi, Sungwon Park, Arjun Nellikkattil, Elke Zeller, Meeyoung Cha(参考訳) 気候変動は今日地球が直面している最も重要な課題の1つだ。 世界の気温上昇はすでに地球の気象や気候パターンに顕著な変化をもたらしており、予測不能で極端な気象現象の頻度が増加している。 将来の気候変動研究の予測は、地球の気候システムをシミュレートするコンピュータモデルである地球システムモデル(esms)に基づいている。 ESMは様々な物理システムを統合するためのフレームワークを提供するが、その出力は高解像度シミュレーションの実行とアーカイブに必要な膨大な計算資源に縛られている。 与えられたリソース予算に対して、ESMは一般に粗いグリッド上で実行され、続いて計算的に軽量な$downscaling$プロセスによってより微細な解像度の出力が得られる。 本研究では,モデル最適化に高分解能基底真理データを必要としないESMシミュレーションデータをダウンスケールするディープラーニングモデルを提案する。 これは、$\textit{individual}$ data point at $\textit{runtime}$に対して、適切なデータ分散パターンと天気変数間の隠れ依存性を活用することで実現される。 2$x,3$x,4$xのスケーリングファクタによる大規模評価は,提案モデルが各種ベースラインよりも常に優れた性能が得られることを示す。 低スケール性能の向上と高分解能地中データへの依存の欠如により,提案手法は気候研究に有用なツールとなり,今後の研究に有望な方向性と位置づけられる。

Climate change is one of the most critical challenges that our planet is facing today. Rising global temperatures are already bringing noticeable changes to Earth's weather and climate patterns with an increased frequency of unpredictable and extreme weather events. Future projections for climate change research are based on Earth System Models (ESMs), the computer models that simulate the Earth's climate system. ESMs provide a framework to integrate various physical systems, but their output is bound by the enormous computational resources required for running and archiving higher-resolution simulations. For a given resource budget, the ESMs are generally run on a coarser grid, followed by a computationally lighter $downscaling$ process to obtain a finer-resolution output. In this work, we present a deep-learning model for downscaling ESM simulation data that does not require high-resolution ground truth data for model optimization. This is realized by leveraging salient data distribution patterns and the hidden dependencies between weather variables for an $\textit{individual}$ data point at $\textit{runtime}$. Extensive evaluation with $2$x, $3$x, and $4$x scaling factors demonstrates that the proposed model consistently obtains superior performance over that of various baselines. The improved downscaling performance and no dependence on high-resolution ground truth data make the proposed method a valuable tool for climate research and mark it as a promising direction for future research.
翻訳日:2024-01-22 09:14:15 公開日:2024-01-09
# 階層的相関クラスタリングとツリー保存埋め込み

Hierarchical Correlation Clustering and Tree Preserving Embedding ( http://arxiv.org/abs/2002.07756v2 )

ライセンス: Link先を確認
Morteza Haghir Chehreghani, Mostafa Haghir Chehreghani(参考訳) 本研究では,よく知られた相関クラスタリングを拡張し,正と負の2つの相似性に適用可能な階層的クラスタを生成する階層的相関クラスタリング手法を提案する。 次に,このような階層的相関クラスタリングを用いた教師なし表現学習について検討する。 この目的のために,まず,木保存埋め込みと特徴抽出に使用する階層の埋め込みについて検討する。 その後,別の表現学習パラダイムとして,ミニマックス距離尺度の相関クラスタリングへの拡張について検討した。 最後に,提案手法の性能をいくつかのデータセットで示す。

We propose a hierarchical correlation clustering method that extends the well-known correlation clustering to produce hierarchical clusters applicable to both positive and negative pairwise dissimilarities. Then, in the following, we study unsupervised representation learning with such hierarchical correlation clustering. For this purpose, we first investigate embedding the respective hierarchy to be used for tree-preserving embedding and feature extraction. Thereafter, we study the extension of minimax distance measures to correlation clustering, as another representation learning paradigm. Finally, we demonstrate the performance of our methods on several datasets.
翻訳日:2024-01-13 04:35:58 公開日:2024-01-09
# ランダム場フロッケ量子イジングモデルにおけるロバストスペクトル$\pi$ペアリング

Robust spectral $\pi$ pairing in the random-field Floquet quantum Ising model ( http://arxiv.org/abs/2401.04809v1 )

ライセンス: Link先を確認
Harald Schmid, Alexander-Georg Penner, Kang Yang, Leonid Glazman, Felix von Oppen(参考訳) 超伝導量子プロセッサ [mi et al., science 378, 785 (2022)] の実験により、ランダムフィールドフロッケ量子イジングモデルの多体スペクトルにおけるレベルペアリングの研究を行った。 ペアリングは、jordan-wigner fermion でスピンモデルを記述する際に majorana zero と $\pi$ mode に由来する。 どちらの分割もランダムな横フィールドを持つ対数正規分布を持つ。 対照的に、ランダム長手フィールドはゼロと$\pi$の分割に大きく異なる方法で影響を及ぼす。 ゼロペアリングは急速に持ち上げられるが、$\pi$のペアリングは非常に頑丈で、強固で、障害の強さもかなり大きい。 自己整合フロッケ摂動理論で得られた結果と境界スピン相関について考察する。 長手障害に対する$\pi$ペアリングのロバスト性は量子情報処理に有用かもしれない。

Motivated by an experiment on a superconducting quantum processor [Mi et al., Science 378, 785 (2022)], we study level pairings in the many-body spectrum of the random-field Floquet quantum Ising model. The pairings derive from Majorana zero and $\pi$ modes when writing the spin model in Jordan-Wigner fermions. Both splittings have lognormal distributions with random transverse fields. In contrast, random longitudinal fields affect the zero and $\pi$ splittings in drastically different ways. While zero pairings are rapidly lifted, the $\pi$ pairings are remarkably robust, or even strengthened, up to vastly larger disorder strengths. We explain our results within a self-consistent Floquet perturbation theory and study implications for boundary spin correlations. The robustness of $\pi$ pairings against longitudinal disorder may be useful for quantum information processing.
翻訳日:2024-01-13 02:45:37 公開日:2024-01-09
# 変圧器・周波数領域学習を用いた単サイトPSGからのカフレス動脈血圧波形合成

Cuff-less Arterial Blood Pressure Waveform Synthesis from Single-site PPG using Transformer & Frequency-domain Learning ( http://arxiv.org/abs/2401.05452v1 )

ライセンス: Link先を確認
Muhammad Ahmad Tahir, Ahsan Mehmood, Muhammad Mahboob Ur Rahman, Muhammad Wasim Nawaz, Kashif Riaz, Qammer H. Abbasi(参考訳) 単サイト光胸腺造影 (PPG) 信号を用いて, 動脈圧 (ABP) 波形をカフレスで合成するための2つの新しい深層学習モデルを提案する。 公共UCIデータセットをカフレス血圧推定(CLBP)に利用し,DLモデルのトレーニングと評価を行った。 まず,位置符号化,マルチヘッドアテンション,レイヤ正規化,ドロップアウトといった手法を取り入れたトランスフォーマーモデルを実装し,平均絶対誤差(MAE)14でAPP波形を合成する。 次に,PPG信号とAPP信号の離散コサイン変換(DCT)係数を2つの心循環に対応する周波数領域(FD)学習手法を実装し,その間の線形非線形回帰(L/NL)を学習する。 拡張期血圧 (DBP) と収縮期血圧 (SBP) はそれぞれ 11.87 と 8.01 の MAE を達成し, FD L/NL 回帰モデルがトランスフォーマーモデルより優れていることを知る。 我々のFD L/NL回帰モデルは、85名以上の被験者のデータを利用するAAMI基準を満たし、BHS基準でB級を達成している。

We propose two novel purpose-built deep learning (DL) models for synthesis of the arterial blood pressure (ABP) waveform in a cuff-less manner, using a single-site photoplethysmography (PPG) signal. We utilize the public UCI dataset on cuff-less blood pressure (CLBP) estimation to train and evaluate our DL models. Firstly, we implement a transformer model that incorporates positional encoding, multi-head attention, layer normalization, and dropout techniques, and synthesizes the ABP waveform with a mean absolute error (MAE) of 14. Secondly, we implement a frequency-domain (FD) learning approach where we first obtain the discrete cosine transform (DCT) coefficients of the PPG and ABP signals corresponding to two cardiac cycles, and then learn a linear/non-linear (L/NL) regression between them. We learn that the FD L/NL regression model outperforms the transformer model by achieving an MAE of 11.87 and 8.01, for diastolic blood pressure (DBP) and systolic blood pressure (SBP), respectively. Our FD L/NL regression model also fulfills the AAMI criterion of utilizing data from more than 85 subjects, and achieves grade B by the BHS criterion.
翻訳日:2024-01-13 02:33:04 公開日:2024-01-09
# chatgptは、bloomberg marketの信頼できるセンチメントスコアを計算できるだろうか?

Can ChatGPT Compute Trustworthy Sentiment Scores from Bloomberg Market Wraps? ( http://arxiv.org/abs/2401.05447v1 )

ライセンス: Link先を確認
Baptiste Lefort, Eric Benhamou, Jean-Jacques Ohana, David Saltiel, Beatrice Guez, Damien Challet(参考訳) 2010年から2023年までの日刊ブルームバーグ・ファイナンシャル・マーケット・サマリーのデータセットを使って、大手金融メディアに投稿し、世界的なニュース見出しがチャットgptと2段階のプロンプト・アプローチで株式市場の動きにどう影響するかを判断した。 我々は、感情スコアと将来の株式市場との統計的に有意な正の相関関係を短期から中期にわたって報告し、長い地平線に対する負の相関関係に回帰する。 複数の株式市場にわたるこの相関パターンの検証は、ピアソン相関とスピアマン相関の比較によって証明された、エクイティ領域間のロバスト性と非線形性に対するレジリエンスを示している。 最後に,新しい情報に対する反応性と相関のバランスをとる最適地平線の推定を行う。

We used a dataset of daily Bloomberg Financial Market Summaries from 2010 to 2023, reposted on large financial media, to determine how global news headlines may affect stock market movements using ChatGPT and a two-stage prompt approach. We document a statistically significant positive correlation between the sentiment score and future equity market returns over short to medium term, which reverts to a negative correlation over longer horizons. Validation of this correlation pattern across multiple equity markets indicates its robustness across equity regions and resilience to non-linearity, evidenced by comparison of Pearson and Spearman correlations. Finally, we provide an estimate of the optimal horizon that strikes a balance between reactivity to new information and correlation.
翻訳日:2024-01-13 02:32:38 公開日:2024-01-09
# 脳波の自己教師付き学習 : 体系的調査

Self-supervised Learning for Electroencephalogram: A Systematic Survey ( http://arxiv.org/abs/2401.05446v1 )

ライセンス: Link先を確認
Weining Weng, Yang Gu, Shuai Guo, Yuan Ma, Zhaohua Yang, Yuchen Liu, and Yiqiang Chen(参考訳) 脳波(Electroencephalogram、EEG)は生体電気信号を記録する非侵襲的手法である。 教師付きディープラーニング技術と脳波信号を統合することで,脳波に基づく様々なタスクの自動解析が容易になった。 しかし、脳波信号のラベル問題は脳波に基づく深層モデルの開発を阻害している。 脳波アノテーションの取得は、ドメインの専門家が収集とラベル付けをガイドする必要があるため困難であり、異なる主題間での脳波信号のばらつきは、大きなラベルシフトを引き起こす。 上記の課題を解決するために,ラベルなしサンプルからよく設計された前文タスクから表現を抽出するために,自己教師付き学習(ssl)が提案されている。 本稿では、効率的な表現を実現するために、SSLフレームワークと時間的脳波信号の統合に集中し、脳波信号に対するSSLの体系的レビューを提案する。 この論文では 1) 自己教師型学習と一般的なSSLフレームワークの概念と理論を紹介する。 2) 既存のEEGベースのSSLフレームワークの分類,方法論,技術詳細を含む,脳波分析のためのSSLの包括的なレビューを行い,これらの方法の違いについて議論する。 3)タスク記述や関連するベンチマークデータセットなど,さまざまな下流タスクへのSSLアプローチの適用について検討する。 4)最後に,今後のSSL-EEG研究の方向性について論じる。

Electroencephalogram (EEG) is a non-invasive technique to record bioelectrical signals. Integrating supervised deep learning techniques with EEG signals has recently facilitated automatic analysis across diverse EEG-based tasks. However, the label issues of EEG signals have constrained the development of EEG-based deep models. Obtaining EEG annotations is difficult that requires domain experts to guide collection and labeling, and the variability of EEG signals among different subjects causes significant label shifts. To solve the above challenges, self-supervised learning (SSL) has been proposed to extract representations from unlabeled samples through well-designed pretext tasks. This paper concentrates on integrating SSL frameworks with temporal EEG signals to achieve efficient representation and proposes a systematic review of the SSL for EEG signals. In this paper, 1) we introduce the concept and theory of self-supervised learning and typical SSL frameworks. 2) We provide a comprehensive review of SSL for EEG analysis, including taxonomy, methodology, and technique details of the existing EEG-based SSL frameworks, and discuss the difference between these methods. 3) We investigate the adaptation of the SSL approach to various downstream tasks, including the task description and related benchmark datasets. 4) Finally, we discuss the potential directions for future SSL-EEG research.
翻訳日:2024-01-13 02:32:22 公開日:2024-01-09
# 層内接続による強化学習のための完全スパイクアクタネットワーク

Fully Spiking Actor Network with Intra-layer Connections for Reinforcement Learning ( http://arxiv.org/abs/2401.05444v1 )

ライセンス: Link先を確認
Ding Chen, Peixi Peng, Tiejun Huang, and Yonghong Tian(参考訳) 特別なニューロモルフィックハードウェアの助けを借りて、スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。 SNNと深層強化学習(DRL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。 本稿では,エージェントが制御のための多次元決定論的ポリシーを学習する必要があるタスクに焦点を当てる。 近年,SNNが対応する深層ネットワークに匹敵する性能を達成できる多層SNNの訓練にサロゲート勾配法が用いられている。 既存のスパイクベースのRL法は、SNNの出力として発火率を取り、完全に接続された(FC)層を通して連続的なアクション空間(つまり決定論的なポリシー)を表現する。 しかし、点火速度の十進特性は、浮動小数点行列演算をFC層にもたらすため、SNN全体をニューロモルフィックハードウェアに直接展開することができない。 浮遊点行列操作を伴わない完全にスパイクするアクターネットワークを開発するために,昆虫に見られる非スパイク介在ニューロンからインスピレーションを受け,非スパイクニューロンの膜電圧を用いて行動を表現する。 非スパイキングニューロンの前に、複数の集団ニューロンが様々な行動の次元をデコードするために導入される。 各集団は行動の次元をデコードするために使用されるため、各集団のニューロンは時間領域と空間領域で接続されるべきである。 したがって、層内接続は出力集団において表現能力を高めるために使用される。 最後に,層内接続 (ilc-san) を持つ完全スパイキングアクタネットワークを提案する。

With the help of special neuromorphic hardware, spiking neural networks (SNNs) are expected to realize artificial intelligence (AI) with less energy consumption. It provides a promising energy-efficient way for realistic control tasks by combining SNNs with deep reinforcement learning (DRL). In this paper, we focus on the task where the agent needs to learn multi-dimensional deterministic policies to control, which is very common in real scenarios. Recently, the surrogate gradient method has been utilized for training multi-layer SNNs, which allows SNNs to achieve comparable performance with the corresponding deep networks in this task. Most existing spike-based RL methods take the firing rate as the output of SNNs, and convert it to represent continuous action space (i.e., the deterministic policy) through a fully-connected (FC) layer. However, the decimal characteristic of the firing rate brings the floating-point matrix operations to the FC layer, making the whole SNN unable to deploy on the neuromorphic hardware directly. To develop a fully spiking actor network without any floating-point matrix operations, we draw inspiration from the non-spiking interneurons found in insects and employ the membrane voltage of the non-spiking neurons to represent the action. Before the non-spiking neurons, multiple population neurons are introduced to decode different dimensions of actions. Since each population is used to decode a dimension of action, we argue that the neurons in each population should be connected in time domain and space domain. Hence, the intra-layer connections are used in output populations to enhance the representation capacity. Finally, we propose a fully spiking actor network with intra-layer connections (ILC-SAN).
翻訳日:2024-01-13 02:32:02 公開日:2024-01-09
# 多成分量子状態の近似と絡み合いの相対エントロピー

Approximation of multipartite quantum states and the relative entropy of entanglement ( http://arxiv.org/abs/2103.12111v2 )

ライセンス: Link先を確認
M.E.Shirokov(参考訳) 無限次元多部量子系の状態の異なる特性を解析するための特殊近似法を提案し, エンタングルメントの相対エントロピーとその正則化の研究に応用した。 エンタングルメントの多粒子相対エントロピーの解析的性質とその正則化(幅広い状態の下の半連続性、エネルギー制約の下での一様連続性など)について、いくつかの結果を示す。 エンタングルメントの相対的エントロピーとその正規化に対する有限次元近似性を確立し、有限次元の設定で結果が証明された無限次元の場合を一般化する。

Special approximation technique for analysis of different characteristics of states of multipartite infinite-dimensional quantum systems is proposed and applied to study of the relative entropy of entanglement and its regularisation. We prove several results about analytical properties of the multipartite relative entropy of entanglement and its regularization (the lower semicontinuity on wide class of states, the uniform continuity under the energy constraints, etc.). We establish a finite-dimensional approximation property for the relative entropy of entanglement and its regularization that allows to generalize to the infinite-dimensional case the results proved in the finite-dimensional settings.
翻訳日:2024-01-11 18:12:54 公開日:2024-01-09
# 医用画像の深部強化学習におけるコアセットを用いた選択的リプレイ圧縮

Selective experience replay compression using coresets for lifelong deep reinforcement learning in medical imaging ( http://arxiv.org/abs/2302.11510v5 )

ライセンス: Link先を確認
Guangyao Zheng, Samson Zhou, Vladimir Braverman, Michael A. Jacobs, Vishwa S. Parekh(参考訳) 選択経験リプレイは、生涯学習と深層強化学習を統合するための一般的な戦略である。 Selective Experience Replayは、過去のタスクから選択した経験をリカウントして、破滅的な忘れ物を避けることを目的としている。 さらに、選択的なエクスペリエンスリプレイベースのテクニックはモデル非依存であり、さまざまなモデル間でエクスペリエンスを共有することができる。 しかしながら、これまでのすべてのタスクからの経験を格納することで、選択的な経験を用いた生涯学習は、タスク数の増加に伴って計算コストが非常に高く非現実的になる。 そこで我々は,選択的なエクスペリエンス再生のためのバッファを圧縮する,報酬分布保存コアセット圧縮手法を提案する。 左膝蓋,左腎,右転子,左肺,脾臓の局所化を目的として,脳腫瘍セグメント化(BRATS)データセットのコアセット圧縮技術の評価を行った。 10種類の異なる脳MR画像環境でトレーニングしたコアセット寿命学習モデルでは,10倍の圧縮率で平均画素誤差距離12.93の心室局所化性能が良好であった。 一方、従来の生涯学習モデルは、平均画素距離10.87の心室を局所化した。 同様に、全身mriで訓練されたcoreset生涯学習モデルは、10倍の圧縮コアセット生涯学習モデルと従来の生涯学習モデルとの間に有意差(p=0.28)を示さなかった。 圧縮された10xモデルの平均ピクセル距離は25.30であり、従来の生涯学習モデルでは19.24である。 その結果,coresetベースのerb圧縮方式が,性能低下を伴わずに圧縮できる可能性が示唆された。

Selective experience replay is a popular strategy for integrating lifelong learning with deep reinforcement learning. Selective experience replay aims to recount selected experiences from previous tasks to avoid catastrophic forgetting. Furthermore, selective experience replay based techniques are model agnostic and allow experiences to be shared across different models. However, storing experiences from all previous tasks make lifelong learning using selective experience replay computationally very expensive and impractical as the number of tasks increase. To that end, we propose a reward distribution-preserving coreset compression technique for compressing experience replay buffers stored for selective experience replay. We evaluated the coreset compression technique on the brain tumor segmentation (BRATS) dataset for the task of ventricle localization and on the whole-body MRI for localization of left knee cap, left kidney, right trochanter, left lung, and spleen. The coreset lifelong learning models trained on a sequence of 10 different brain MR imaging environments demonstrated excellent performance localizing the ventricle with a mean pixel error distance of 12.93 for the compression ratio of 10x. In comparison, the conventional lifelong learning model localized the ventricle with a mean pixel distance of 10.87. Similarly, the coreset lifelong learning models trained on whole-body MRI demonstrated no significant difference (p=0.28) between the 10x compressed coreset lifelong learning models and conventional lifelong learning models for all the landmarks. The mean pixel distance for the 10x compressed models across all the landmarks was 25.30, compared to 19.24 for the conventional lifelong learning models. Our results demonstrate that the potential of the coreset-based ERB compression method for compressing experiences without a significant drop in performance.
翻訳日:2024-01-11 18:09:21 公開日:2024-01-09
# 深層集合における予測多様性の病理

Pathologies of Predictive Diversity in Deep Ensembles ( http://arxiv.org/abs/2302.00704v3 )

ライセンス: Link先を確認
Taiga Abe, E. Kelly Buchanan, Geoff Pleiss, John P. Cunningham(参考訳) 古典的な結果は、予測的多様性の促進が低容量モデルのアンサンブル(袋詰めやブースティングなど)のパフォーマンスを向上させることを証明している。 ここでは、これらの直観が高容量ニューラルネットワークアンサンブル(ディープアンサンブル)には適用されないことを実証する。 約600のニューラルネットワーク分類アンサンブルの大規模研究において、予測多様性のためにコンポーネントモデル性能をトレードオフする様々な介入を検討する。 このような介入は(標準的な直観と並んで)小さなニューラルネットワークアンサンブルのパフォーマンスを改善することができるが、実際には最も多く使われる大規模ニューラルネットワークアンサンブルのパフォーマンスを損なう。 驚くべきことに、予測の多様性を損なうことは、大きなネットワークのアンサンブルにおいてしばしば、標準の直観を完全に反転させる。 多様性を促進する介入がコンポーネントモデルのパフォーマンスを犠牲にしない場合(異種アーキテクチャやトレーニングパラダイムなど)であっても、予測の多様性向上に関連する機会コストを観察します。 1000以上のアンサンブルを見てみると、このような高いキャパシティモデルが予測的多様性を著しく低下させるという事実にもかかわらず、多種多様なアーキテクチャ/トレーニング手順の性能上の利点は、単に高容量モデルを使用することの利点によって容易に劣っていることが分かる。 全体として,従来の低容量アンサンブルのために開発された予測多様性に関する標準的な直観は,現代の高容量ディープアンサンブルには直接適用されない。 この研究は、より多様にすることで深層アンサンブルを改善するという目標に対して、基本的な課題を明確にすると同時に、より強力な(そしてより多様でない)コンポーネントモデルから単にアンサンブルを形成するという代替経路を提案する。

Classic results establish that encouraging predictive diversity improves performance in ensembles of low-capacity models, e.g. through bagging or boosting. Here we demonstrate that these intuitions do not apply to high-capacity neural network ensembles (deep ensembles), and in fact the opposite is often true. In a large scale study of nearly 600 neural network classification ensembles, we examine a variety of interventions that trade off component model performance for predictive diversity. While such interventions can improve the performance of small neural network ensembles (in line with standard intuitions), they harm the performance of the large neural network ensembles most often used in practice. Surprisingly, we also find that discouraging predictive diversity is often benign in large-network ensembles, fully inverting standard intuitions. Even when diversity-promoting interventions do not sacrifice component model performance (e.g. using heterogeneous architectures and training paradigms), we observe an opportunity cost associated with pursuing increased predictive diversity. Examining over 1000 ensembles, we observe that the performance benefits of diverse architectures/training procedures are easily dwarfed by the benefits of simply using higher-capacity models, despite the fact that such higher capacity models often yield significantly less predictive diversity. Overall, our findings demonstrate that standard intuitions around predictive diversity, originally developed for low-capacity ensembles, do not directly apply to modern high-capacity deep ensembles. This work clarifies fundamental challenges to the goal of improving deep ensembles by making them more diverse, while suggesting an alternative path: simply forming ensembles from ever more powerful (and less diverse) component models.
翻訳日:2024-01-11 18:08:33 公開日:2024-01-09
# 判別器からの自己スーパービジョンによるGANの空間安定性

Spatial Steerability of GANs via Self-Supervision from Discriminator ( http://arxiv.org/abs/2301.08455v2 )

ライセンス: Link先を確認
Jianyuan Wang, Lalit Bhagat, Ceyuan Yang, Yinghao Xu, Yujun Shen, Hongdong Li, Bolei Zhou(参考訳) 生成モデルは近年のフォトリアリスティック画像合成に大きな進歩を遂げている。 画像生成プロセスのステアリングと出力のカスタマイズを可能にするため、多くの研究がGANの潜在空間の解釈可能な次元を探索している。 既存の方法は、特定の方向に沿って遅延コードを変更することで、方向や色調などの出力画像の属性を編集する。 しかしながら、これらの手法は通常、事前訓練されたモデルごとに追加のヒューマンアノテーションを必要とし、主にグローバル属性の編集に焦点を当てる。 本研究では,潜在空間における制御可能な方向を探索したり,追加のアノテーションを必要とせずにganの空間制御性を改善するための自己教師あり手法を提案する。 具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。 GANモデルをゼロからトレーニングすると同時に、これらのヒートマップは、自己監督的な学習方法で、GANの差別者の関心の高まりに合わせている。 推論中、ユーザは直感的に空間のヒートマップと対話でき、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除することで出力画像を編集できる。 さらに、我々はDragGANをフレームワークに組み込んで、適切な時間内できめ細かい操作を容易にし、粗い編集プロセスをサポートする。 大規模な実験により,提案手法は人間の顔,動物の顔,屋外シーン,複雑な多目的屋内シーンの空間的編集を可能にするだけでなく,合成品質の向上ももたらした。 コード、モデル、デモビデオはhttps://genforce.github.io/spatialgan/。

Generative models make huge progress to the photorealistic image synthesis in recent years. To enable human to steer the image generation process and customize the output, many works explore the interpretable dimensions of the latent space in GANs. Existing methods edit the attributes of the output image such as orientation or color scheme by varying the latent code along certain directions. However, these methods usually require additional human annotations for each pretrained model, and they mostly focus on editing global attributes. In this work, we propose a self-supervised approach to improve the spatial steerability of GANs without searching for steerable directions in the latent space or requiring extra annotations. Specifically, we design randomly sampled Gaussian heatmaps to be encoded into the intermediate layers of generative models as spatial inductive bias. Along with training the GAN model from scratch, these heatmaps are being aligned with the emerging attention of the GAN's discriminator in a self-supervised learning manner. During inference, users can interact with the spatial heatmaps in an intuitive manner, enabling them to edit the output image by adjusting the scene layout, moving, or removing objects. Moreover, we incorporate DragGAN into our framework, which facilitates fine-grained manipulation within a reasonable time and supports a coarse-to-fine editing process. Extensive experiments show that the proposed method not only enables spatial editing over human faces, animal faces, outdoor scenes, and complicated multi-object indoor scenes but also brings improvement in synthesis quality. Code, models, and demo video are available at https://genforce.github.io/SpatialGAN/.
翻訳日:2024-01-11 18:08:02 公開日:2024-01-09
# appealMod: ユーザアピール処理のモデレーター負荷軽減のためのフリクションの導入

AppealMod: Inducing Friction to Reduce Moderator Workload of Handling User Appeals ( http://arxiv.org/abs/2301.07163v2 )

ライセンス: Link先を確認
Shubham Atreja, Jane Im, Paul Resnick, Libby Hemphill(参考訳) コンテンツモデレーションがすべてのソーシャルメディアプラットフォームやオンラインコミュニティの中心となるにつれ、モデレーションの決定を逆らう方法への関心が高まっている。 個々のコミュニティが自身の活動を穏健化させるソーシャルメディアプラットフォームでは、ユーザアピールに対処する責任はコミュニティ内のボランティアに負う。 ボランティアモデレーターの作業の理解と支援を専門とする作業が増えているが、ユーザのアピールを扱うプラクティスについてはほとんど知られていない。 Redditモデレーターとの協調的かつ反復的なデザインプロセスを通じて、モデレーターはユーザー禁止の訴えの調査に多大な努力を払っており、各決定に対して直接ユーザーと関わり、エージェンシーを維持したいと願っていることがわかった。 これらのニーズを満たすために、我々は、ヒトのモデレーターが上訴をレビューする前に、ユーザーに追加情報を提供することによって、上訴プロセスの摩擦を誘発するシステムである、上訴モードを設計・構築した。 モデレーターにより多くの情報を与えるのに加えて、訴求プロセスにおける摩擦はユーザーの間で選択効果をもたらし、多くの不誠実で有毒な訴求は人間のモデレーターから注目を集める前に放棄されると予想した。 本システムを評価するため,Redditコミュニティで4ヶ月にわたって2900万人以上のユーザを対象にランダムフィールド実験を行った。 選択効果の結果、モデレーターは最初の上訴の30%に過ぎず、有毒な言葉による上訴の10%にも満たなかったが、対照群と比較するとほぼ同じ数の上訴を認めた。 全体として,本システムはモデレーターの作業量を削減し,有害コンテンツへの曝露を最小限に抑えつつ,直接のエンゲージメントや代理店へのアピールを尊重する。

As content moderation becomes a central aspect of all social media platforms and online communities, interest has grown in how to make moderation decisions contestable. On social media platforms where individual communities moderate their own activities, the responsibility to address user appeals falls on volunteers from within the community. While there is a growing body of work devoted to understanding and supporting the volunteer moderators' workload, little is known about their practice of handling user appeals. Through a collaborative and iterative design process with Reddit moderators, we found that moderators spend considerable effort in investigating user ban appeals and desired to directly engage with users and retain their agency over each decision. To fulfill their needs, we designed and built AppealMod, a system that induces friction in the appeals process by asking users to provide additional information before their appeals are reviewed by human moderators. In addition to giving moderators more information, we expected the friction in the appeal process would lead to a selection effect among users, with many insincere and toxic appeals being abandoned before getting any attention from human moderators. To evaluate our system, we conducted a randomized field experiment in a Reddit community of over 29 million users that lasted for four months. As a result of the selection effect, moderators viewed only 30% of initial appeals and less than 10% of the toxically worded appeals; yet they granted roughly the same number of appeals when compared with the control group. Overall, our system is effective at reducing moderator workload and minimizing their exposure to toxic content while honoring their preference for direct engagement and agency in appeals.
翻訳日:2024-01-11 18:07:37 公開日:2024-01-09
# ケースベースニューラルネットワーク:時間変動と高次相互作用による生存率解析

Case-Base Neural Networks: survival analysis with time-varying, higher-order interactions ( http://arxiv.org/abs/2301.06535v4 )

ライセンス: Link先を確認
Jesse Islam, Maxime Turgeon, Robert Sladek, Sahir Bhatnagar(参考訳) 生存分析の文脈では、複雑な共変量効果をモデル化するデータ駆動ニューラルネットワークベースの手法が開発されている。 これらの手法は回帰に基づくアプローチよりも優れた予測性能を提供するが、時間変動相互作用や複雑なベースラインハザードをモデル化できるわけではない。 そこで本研究では,ケースベースサンプリングフレームワークとフレキシブルニューラルネットワークアーキテクチャを組み合わせた新しいアプローチとして,ケースベースニューラルネットワーク(cbnns)を提案する。 そこで我々は,新たなサンプリング手法とデータ拡張を用いて,入力として時間を含むフィードフォワードニューラルネットワークを構築した。 CBNNは、ある時点に発生した事象の確率を予測し、完全なハザード関数を推定する。 CBNNの性能と回帰とニューラルネットワークに基づく生存法を比較したシミュレーションと,2つの時間依存メトリクスを用いた3つのケーススタディを行った。 まず, 複雑なベースラインハザードと時間変動の相互作用を含むシミュレーションの性能を検証し, cbnn が競争相手を上回り, 全手法を評価する。 次に,3つの実データアプリケーションに適用し,CBNNは2つの研究で競合するモデルより優れており,第3に同様の性能を示す。 本研究は,ケースベースサンプリングと深層学習を組み合わせることで,時間変化の影響を推定する単一イベントサバイバル結果と,設計による複雑なベースラインハザードをデータ駆動でモデル化する,シンプルで柔軟なフレームワークを提供するものである。 Rパッケージはhttps://github.com/Jesse-Islam/cbnnで入手できる。

In the context of survival analysis, data-driven neural network-based methods have been developed to model complex covariate effects. While these methods may provide better predictive performance than regression-based approaches, not all can model time-varying interactions and complex baseline hazards. To address this, we propose Case-Base Neural Networks (CBNNs) as a new approach that combines the case-base sampling framework with flexible neural network architectures. Using a novel sampling scheme and data augmentation to naturally account for censoring, we construct a feed-forward neural network that includes time as an input. CBNNs predict the probability of an event occurring at a given moment to estimate the full hazard function. We compare the performance of CBNNs to regression and neural network-based survival methods in a simulation and three case studies using two time-dependent metrics. First, we examine performance on a simulation involving a complex baseline hazard and time-varying interactions to assess all methods, with CBNN outperforming competitors. Then, we apply all methods to three real data applications, with CBNNs outperforming the competing models in two studies and showing similar performance in the third. Our results highlight the benefit of combining case-base sampling with deep learning to provide a simple and flexible framework for data-driven modeling of single event survival outcomes that estimates time-varying effects and a complex baseline hazard by design. An R package is available at https://github.com/Jesse-Islam/cbnn.
翻訳日:2024-01-11 18:07:06 公開日:2024-01-09
# 内視鏡画像とビデオにおける最小侵襲手術器具の分節化のための方法とデータセット:術法の現状について

Methods and datasets for segmentation of minimally invasive surgical instruments in endoscopic images and videos: A review of the state of the art ( http://arxiv.org/abs/2304.13014v3 )

ライセンス: Link先を確認
Tobias Rueckert (1), Daniel Rueckert (2 and 3), Christoph Palm (1 and 4) ((1) Regensburg Medical Image Computing (ReMIC), Ostbayerische Technische Hochschule Regensburg (OTH Regensburg), Germany, (2) Artificial Intelligence in Healthcare and Medicine, Klinikum rechts der Isar, Technical University of Munich, Germany, (3) Department of Computing, Imperial College London, UK, (4) Regensburg Center of Health Sciences and Technology (RCHST), OTH Regensburg, Germany)(参考訳) コンピュータ・ロボット支援の低侵襲手術の分野では,内視鏡的画像・映像における手術器具の認識により,近年,大きな進歩を遂げている。 特に、楽器の位置や種類の決定は、非常に興味深い。 現在の作業には空間的情報と時間的情報の両方が含まれており、手術用具の経時的移動を予測することは最終分節の質を改善するかもしれないという考えがある。 公開データセットの提供は、最近、主にディープラーニングに基づく新しい手法の開発を奨励している。 本稿では,本論文において,手法開発と評価に使用されるデータセットを特定し,その頻度を定量化する。 さらに,内視鏡的画像と映像における低侵襲手術器具のセグメンテーションと追跡に関する研究の現状について概説する。 本論文は,単一フレームのセマンティクスとインスタンスセグメンテーションの両アプローチ,時間情報を含む手法を考慮し,楽器に付着する種類のマーカーを使わずに,純粋に視覚的に機能する手法に焦点を当てる。 分析された出版物は、Google Scholar、Web of Science、PubMedのプラットフォームで識別された。 検索語は「インストラメントセグメンテーション」、「インストラメントトラッキング」、「サージカルツールセグメンテーション」、「サージカルツールトラッキング」であり、その結果、01/2015から07/2023の間に合計で741の論文が発行され、そのうち123は体系的選択基準で含まれていた。 レビューされた文献に関する議論が提供され、既存の欠点と将来の発展の可能性を強調している。

In the field of computer- and robot-assisted minimally invasive surgery, enormous progress has been made in recent years based on the recognition of surgical instruments in endoscopic images and videos. In particular, the determination of the position and type of instruments is of great interest. Current work involves both spatial and temporal information, with the idea that predicting the movement of surgical tools over time may improve the quality of the final segmentations. The provision of publicly available datasets has recently encouraged the development of new methods, mainly based on deep learning. In this review, we identify and characterize datasets used for method development and evaluation and quantify their frequency of use in the literature. We further present an overview of the current state of research regarding the segmentation and tracking of minimally invasive surgical instruments in endoscopic images and videos. The paper focuses on methods that work purely visually, without markers of any kind attached to the instruments, considering both single-frame semantic and instance segmentation approaches, as well as those that incorporate temporal information. The publications analyzed were identified through the platforms Google Scholar, Web of Science, and PubMed. The search terms used were "instrument segmentation", "instrument tracking", "surgical tool segmentation", and "surgical tool tracking", resulting in a total of 741 articles published between 01/2015 and 07/2023, of which 123 were included using systematic selection criteria. A discussion of the reviewed literature is provided, highlighting existing shortcomings and emphasizing the available potential for future developments.
翻訳日:2024-01-11 17:55:52 公開日:2024-01-09
# LaMP: 大きな言語モデルがパーソナライゼーションに出会ったとき

LaMP: When Large Language Models Meet Personalization ( http://arxiv.org/abs/2304.11406v3 )

ライセンス: Link先を確認
Alireza Salemi, Sheshera Mysore, Michael Bendersky, Hamed Zamani(参考訳) 本稿では、大規模言語モデルにおけるパーソナライズの重要性を強調し、パーソナライズされた出力を生成するための言語モデルのトレーニングと評価のための新しいベンチマークであるLaMPベンチマークを紹介する。 LaMPは、さまざまな言語タスクと、各ユーザプロファイルに対する複数のエントリを備えた総合的な評価フレームワークを提供する。 それは7つのパーソナライズされたタスクで構成され、3つのテキスト分類と4つのテキスト生成タスクにまたがる。 さらに,各ユーザプロファイルから個人項目を検索し,言語モデルの出力をパーソナライズする2つの検索拡張手法を提案する。 そこで本研究では, 用語マッチング, 意味マッチング, 時間認識法など様々な検索モデルについて検討する。 ゼロショットおよび微調整言語モデルに対するLaMPの大規模な実験は、提案手法の有効性を示し、様々な自然言語タスクにおけるパーソナライズの影響を明らかにする。

This paper highlights the importance of personalization in large language models and introduces the LaMP benchmark -- a novel benchmark for training and evaluating language models for producing personalized outputs. LaMP offers a comprehensive evaluation framework with diverse language tasks and multiple entries for each user profile. It consists of seven personalized tasks, spanning three text classification and four text generation tasks. We additionally propose two retrieval augmentation approaches that retrieve personal items from each user profile for personalizing language model outputs. To this aim, we study various retrieval models, including term matching, semantic matching, and time-aware methods. Extensive experiments on LaMP for zero-shot and fine-tuned language models demonstrate the efficacy of the proposed retrieval augmentation approach and highlight the impact of personalization in various natural language tasks.
翻訳日:2024-01-11 17:55:04 公開日:2024-01-09
# MERMAIDE:モデルベースメタラーニングによる学習者の学習

MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning ( http://arxiv.org/abs/2304.04668v2 )

ライセンス: Link先を確認
Arundhati Banerjee, Soham Phade, Stefano Ermon, Stephan Zheng(参考訳) 本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。 これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。 さらに、プリンシパルは数発の適応が可能で、介入の回数を最小限にする必要がある。 我々は,学習戦略や報酬機能が異なる分散エージェントに迅速に適応できるプリンシパルをトレーニングするためのモデルベースのメタ学習フレームワークmermaideを紹介する。 このアプローチを段階的に検証する。 まず,最善の応答エージェントを持つstackelberg設定において,実験時に理論的に知られているstackelberg平衡への迅速な収束がメタラーニングによって可能となることを示した。 次に,我々のモデルに基づくメタラーニングアプローチが,未熟な探索・探索戦略とバンディットエージェントとの相互作用に費用対効果があることを示す。 最後に、メタラーニングまたはエージェントの振る舞いモデリングを使用するベースラインを、部分的なエージェント情報を含む$0$shotと$k=1$$-shot設定の両方で上回っています。

We study how a principal can efficiently and effectively intervene on the rewards of a previously unseen learning agent in order to induce desirable outcomes. This is relevant to many real-world settings like auctions or taxation, where the principal may not know the learning behavior nor the rewards of real people. Moreover, the principal should be few-shot adaptable and minimize the number of interventions, because interventions are often costly. We introduce MERMAIDE, a model-based meta-learning framework to train a principal that can quickly adapt to out-of-distribution agents with different learning strategies and reward functions. We validate this approach step-by-step. First, in a Stackelberg setting with a best-response agent, we show that meta-learning enables quick convergence to the theoretically known Stackelberg equilibrium at test time, although noisy observations severely increase the sample complexity. We then show that our model-based meta-learning approach is cost-effective in intervening on bandit agents with unseen explore-exploit strategies. Finally, we outperform baselines that use either meta-learning or agent behavior modeling, in both $0$-shot and $K=1$-shot settings with partial agent information.
翻訳日:2024-01-11 17:54:48 公開日:2024-01-09
# 閉ループクープマン演算子近似

Closed-Loop Koopman Operator Approximation ( http://arxiv.org/abs/2303.15318v2 )

ライセンス: Link先を確認
Steven Dahdah and James Richard Forbes(参考訳) 本稿では,制御されたフィードバック制御システムのクープマンモデルを特定する手法を提案する。 クープマン作用素(koopman operator)は、非線形系を無限次元のリニアシステムとして、無限次元の昇降関数の集合の観点で見ることによって書き直すことを可能にする。 コープマン作用素の有限次元近似は、昇降関数の有限部分集合を選択し、昇降空間における回帰問題を解くことによって、データから同定することができる。 既存の手法はオープンループシステムを識別するために設計されている。 しかし、不安定なシステムなど一部のシステムで、オープンループ方式で実験を行うことは現実的または不可能である。 提案手法は,制御器の知識と閉ループ系の構造とともに,クープマン作用素の線形性を利用して,閉ループ系とプラント系を同時に同定する。 閉ループクープマン演算子近似法の利点を回転反転振子系を用いて実験的に実証した。 提案手法のオープンソースソフトウェア実装は,本論文で作成した実験データセットとともに公開されている。

This paper proposes a method to identify a Koopman model of a feedback-controlled system given a known controller. The Koopman operator allows a nonlinear system to be rewritten as an infinite-dimensional linear system by viewing it in terms of an infinite set of lifting functions. A finite-dimensional approximation of the Koopman operator can be identified from data by choosing a finite subset of lifting functions and solving a regression problem in the lifted space. Existing methods are designed to identify open-loop systems. However, it is impractical or impossible to run experiments on some systems, such as unstable systems, in an open-loop fashion. The proposed method leverages the linearity of the Koopman operator, along with knowledge of the controller and the structure of the closed-loop system, to simultaneously identify the closed-loop and plant systems. The advantages of the proposed closed-loop Koopman operator approximation method are demonstrated experimentally using a rotary inverted pendulum system. An open-source software implementation of the proposed method is publicly available, along with the experimental dataset generated for this paper.
翻訳日:2024-01-11 17:53:35 公開日:2024-01-09
# 電磁放射の遠距離零点周辺における非回折偏光特性

Non-Diffracting Polarisation Features around Far-Field Zeros of Electromagnetic Radiation ( http://arxiv.org/abs/2306.03278v2 )

ライセンス: Link先を確認
Alex J. Vernon, Andrew Kille, Francisco J. Rodr\'iguez-Fortu\~no, and Andrei Afanasev(参考訳) どんな物理的源からの光も空間上で回折し、球状波面が成長してエネルギー密度が広がる。 回折効果は、通信、分光、計測などの光ベースの技術に根本的な限界をもたらす。 極性化は遠方界限界において同軸となり、長手場成分を無視することにより、近距離場やビームの固い焦点に存在する非パラ軸場のリッチ物理が失われる。 しかし、横フィールド成分が(横フィールドゼロで)消えて(横フィールドゼロで)、無限大まで小さな非軸領域を運ぶとき、縦フィールドは無視できない。 横磁場零点は常に非回折偏光構造を伴い、ジオメトリーは閉強度比管や平行非拡散偏光特異点を含む源からの距離から独立していることを示す。 これらの特徴は多重極線および二重スリット干渉において、時間固定された横磁場零点を持つ2つの例を示す。 位置が変化する非回折構造は、すべての遠距離放射に存在する時間変化ゼロと結合する。

Light from any physical source diffracts over space, as spherical wavefronts grow and energy density is spread out. Diffractive effects pose fundamental limits to light-based technologies, including communications, spectroscopy, and metrology. Polarisation becomes paraxial in the far field limit and, by ignoring longitudinal field components, the rich physics of non-paraxial fields which exist in near-fields or a beam's tight focus are lost. The longitudinal field cannot, however, be ignored when transverse field components vanish (in a transverse field zero) and carry a small non-paraxial region to infinity. We show that a transverse field zero is always accompanied by non-diffracting polarisation structures, whose geometries are independent of the distance to the source, including an enclosing intensity ratio tube, and parallel, non-diverging polarisation singularities. We illustrate these features in multipole radiation and in double slit interference, two examples which have time-fixed transverse field zeros. Non-diffracting structures with changing position are coupled to time-varying zeros, which are present in all far field radiation.
翻訳日:2024-01-11 17:45:06 公開日:2024-01-09
# BiomedGPT:視覚・言語・マルチモーダルタスクのための統一的で汎用的なバイオメディカル生成事前学習トランス

BiomedGPT: A Unified and Generalist Biomedical Generative Pre-trained Transformer for Vision, Language, and Multimodal Tasks ( http://arxiv.org/abs/2305.17100v2 )

ライセンス: Link先を確認
Kai Zhang, Jun Yu, Eashan Adhikarla, Rong Zhou, Zhiling Yan, Yixin Liu, Zhengliang Liu, Lifang He, Brian Davison, Xiang Li, Hui Ren, Sunyang Fu, James Zou, Wei Liu, Jing Huang, Chen Chen, Yuyin Zhou, Tianming Liu, Xun Chen, Yong Chen, Quanzheng Li, Hongfang Liu, Lichao Sun(参考訳) 従来のタスク・アンド・モダリティ特化人工知能(AI)モデルは、バイオメディシンの実際の展開とメンテナンスには柔軟性がない。 同時に、現代のマルチモーダルなマルチタスクAI技術の発展と相まって、バイオメディカルデータの利用が増加し、汎用的なバイオメディカルAIソリューションの出現の道を開いた。 これらのソリューションは、異なる医学的モダリティを解釈し、自由テキストレポートや疾患診断などの表現力のあるアウトプットを生成する可能性を秘めている。 本稿では,バイオメディカルタスクのための,オープンソースかつ汎用的なビジュアル言語AIであるBiomedGPTを提案する。 biomedgptは26のデータセット上で臨床上重要な5つのタスクで16の最先端結果を得た。 特に,放射線診断におけるOpenAIのGPT-4 (GPT-4V) よりも優れ,乳がん診断や医用視覚質問応答においてGoogleのMed-PaLM M (12B) を上回った。 さらに、BiomedGPTはゼロショット転送学習を促進し、ChatGPTと同様のバイオメディカルアシスタントとしての有用性を大幅に向上させる。 本手法は,多様なデータセットを用いた効果的なトレーニングを行うことで,より実用的なバイオメディカルAIを実現する。

Conventional task- and modality-specific artificial intelligence (AI) models are inflexible in real-world deployment and maintenance for biomedicine. At the same time, the growing availability of biomedical data, coupled with the advancements in modern multi-modal multi-task AI techniques, has paved the way for the emergence of generalist biomedical AI solutions. These solutions hold the potential to interpret different medical modalities and produce expressive outputs such as free-text reports or disease diagnosis. Here, we propose BiomedGPT, the first open-source and generalist visual language AI for diverse biomedical tasks. BiomedGPT achieved 16 state-of-the-art results across five clinically significant tasks on 26 datasets. Notably, it outperformed OpenAI's GPT-4 with vision (GPT-4V) in radiology human evaluation and surpassed Google's Med-PaLM M (12B) in breast cancer diagnosis and medical visual question answering. Moreover, BiomedGPT facilitates zero-shot transfer learning, greatly enhancing its utility as a biomedical assistant, similar to ChatGPT. Our method demonstrates effective training with diverse datasets can lead to more practical biomedical AI.
翻訳日:2024-01-11 17:43:05 公開日:2024-01-09
# 重み付き問題の量子近似最適化におけるパラメータ設定

Parameter Setting in Quantum Approximate Optimization of Weighted Problems ( http://arxiv.org/abs/2305.15201v2 )

ライセンス: Link先を確認
Shree Hari Sureshbabu, Dylan Herman, Ruslan Shaydulin, Joao Basso, Shouvanik Chakrabarti, Yue Sun, and Marco Pistoia(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、量子コンピュータにおける組合せ最適化問題を解くための主要な候補アルゴリズムである。 しかし、多くの場合、QAOAは計算集約的なパラメータ最適化を必要とする。 パラメータ最適化の課題は、位相演算子の固有値が非整数であり、QAOAエネルギーランドスケープが周期的でない重み付き問題の場合において特に顕著である。 本研究では,重み付き問題の一般クラスに適用したQAOAのパラメータ設定ヒューリスティックスを開発する。 まず、重み付けされたMaxCut問題に適用した深さ$p=1$のQAOAに対する最適パラメータを、重み付けの異なる仮定の下で導出する。 特に、平均的な場合、ゼロに近い最初の局所最適値が世界最適QAOAパラメータを与えるという従来の知恵を厳密に証明する。 第二に、$p\geq 1$ の場合、重み付き MaxCut の QAOA エネルギーランドスケープが、パラメータの単純な再スケーリングの下での未重み付きケースにアプローチすることを証明する。 したがって、未重み付きMaxCutで得られたパラメータを重み付き問題に使用することができる。 最後に、$p=1$のQAOAの目的が期待値に集中していることが証明され、これはパラメータ設定規則がランダムな重み付きインスタンスに対して高い確率で保持されることを意味する。 一般重み付きグラフ上でこのアプローチを数値的に検証し、提案した固定パラメータのQAOAエネルギーが最適化パラメータのQAOAからわずか1.1$%離れていることを示す。 第3に,重み付きmaxcutの解析結果に着想を得た一般ヒューリスティックリスケーリングスキームを提案し,ポートフォリオ最適化問題に適用したxyハミング重み保存ミキサーを用いたqaoaの有効性を示す。 我々のヒューリスティックは局所最適化器の収束を改善し、平均7.4倍のイテレーション数を減らす。

Quantum Approximate Optimization Algorithm (QAOA) is a leading candidate algorithm for solving combinatorial optimization problems on quantum computers. However, in many cases QAOA requires computationally intensive parameter optimization. The challenge of parameter optimization is particularly acute in the case of weighted problems, for which the eigenvalues of the phase operator are non-integer and the QAOA energy landscape is not periodic. In this work, we develop parameter setting heuristics for QAOA applied to a general class of weighted problems. First, we derive optimal parameters for QAOA with depth $p=1$ applied to the weighted MaxCut problem under different assumptions on the weights. In particular, we rigorously prove the conventional wisdom that in the average case the first local optimum near zero gives globally-optimal QAOA parameters. Second, for $p\geq 1$ we prove that the QAOA energy landscape for weighted MaxCut approaches that for the unweighted case under a simple rescaling of parameters. Therefore, we can use parameters previously obtained for unweighted MaxCut for weighted problems. Finally, we prove that for $p=1$ the QAOA objective sharply concentrates around its expectation, which means that our parameter setting rules hold with high probability for a random weighted instance. We numerically validate this approach on general weighted graphs and show that on average the QAOA energy with the proposed fixed parameters is only $1.1$ percentage points away from that with optimized parameters. Third, we propose a general heuristic rescaling scheme inspired by the analytical results for weighted MaxCut and demonstrate its effectiveness using QAOA with the XY Hamming-weight-preserving mixer applied to the portfolio optimization problem. Our heuristic improves the convergence of local optimizers, reducing the number of iterations by 7.4x on average.
翻訳日:2024-01-11 17:42:22 公開日:2024-01-09
# 不均一な特徴サブサンプルリッジアンサンブルのための学習曲線

Learning Curves for Noisy Heterogeneous Feature-Subsampled Ridge Ensembles ( http://arxiv.org/abs/2307.03176v3 )

ライセンス: Link先を確認
Benjamin S. Ruben, Cengiz Pehlevan(参考訳) 機能バッキング(feature bagging)は、サブセットや機能の投影で訓練された多くの推定器の予測を組み合わせることによって、予測分散を減らすことを目的とした、確立されたセンスリング手法である。 本稿では,ノイズ最小2乗リッジアンサンブルにおける特徴バッキングの理論を考案し,等価データの場合の学習曲線を単純化する。 解析学習曲線を用いて, サブサンプリングが線形予測器の2次元ピークをシフトすることを示す。 この結果、様々な特徴次元に基づいて推定器を組み込んだ異種特徴のセンスリングが、二重日光を緩和する計算効率のよい手法として導入される。 次に,特徴サンプリングアンサンブルの性能を単一線形予測器と比較し,サブサンプリングによるノイズ増幅とセンスリングによるノイズ低減とのトレードオフを記述する。 我々の質的洞察は、最先端のディープラーニング特徴マップを用いて構築された現実的なデータセットを用いた画像分類タスクに適用される線形分類器に引き継がれる。

Feature bagging is a well-established ensembling method which aims to reduce prediction variance by combining predictions of many estimators trained on subsets or projections of features. Here, we develop a theory of feature-bagging in noisy least-squares ridge ensembles and simplify the resulting learning curves in the special case of equicorrelated data. Using analytical learning curves, we demonstrate that subsampling shifts the double-descent peak of a linear predictor. This leads us to introduce heterogeneous feature ensembling, with estimators built on varying numbers of feature dimensions, as a computationally efficient method to mitigate double-descent. Then, we compare the performance of a feature-subsampling ensemble to a single linear predictor, describing a trade-off between noise amplification due to subsampling and noise reduction due to ensembling. Our qualitative insights carry over to linear classifiers applied to image classification tasks with realistic datasets constructed using a state-of-the-art deep learning feature map.
翻訳日:2024-01-11 17:31:06 公開日:2024-01-09
# ニューラルネットワークが構成データをどのように学習するか:ランダム階層モデル

How Deep Neural Networks Learn Compositional Data: The Random Hierarchy Model ( http://arxiv.org/abs/2307.02129v4 )

ライセンス: Link先を確認
Francesco Cagnetta, Leonardo Petrini, Umberto M. Tomasini, Alessandro Favero, Matthieu Wyart(参考訳) ディープラーニングアルゴリズムは、限られた例から高次元のタスクを学習する驚くべき能力を示す。 これは一般にニューラルネットワークの深さによるもので、抽象的で低次元のデータ表現の階層を構築することができる。 しかし、そのような表現を学ぶのに必要なトレーニング例がいくつあるかは不明だ。 この問題を定量的に研究するために,言語と画像の階層構造に触発された合成タスク群であるランダム階層モデルを提案する。 モデルは分類タスクであり、各クラスは同じクラスに関連する複数の等価グループから選択された高レベル特徴のグループに対応する。 それぞれの特徴は、構成規則の階層に従って、いくつかの等価なものから選択されたサブ機能群に対応する。 深層ネットワークは、等価群を交換する内部表現を不変にすることでタスクを学習する。 さらに、必要なデータ数は、低レベルの特徴とクラス間の相関が検出できる点に対応する。 全体として,深層ネットワークが不変表現を構築して次元の呪いを克服する方法を示し,階層的タスクの学習に必要なデータ数を推定する。

Deep learning algorithms demonstrate a surprising ability to learn high-dimensional tasks from limited examples. This is commonly attributed to the depth of neural networks, enabling them to build a hierarchy of abstract, low-dimensional data representations. However, how many training examples are required to learn such representations remains unknown. To quantitatively study this question, we introduce the Random Hierarchy Model: a family of synthetic tasks inspired by the hierarchical structure of language and images. The model is a classification task where each class corresponds to a group of high-level features, chosen among several equivalent groups associated with the same class. In turn, each feature corresponds to a group of sub-features chosen among several equivalent ones and so on, following a hierarchy of composition rules. We find that deep networks learn the task by developing internal representations invariant to exchanging equivalent groups. Moreover, the number of data required corresponds to the point where correlations between low-level features and classes become detectable. Overall, our results indicate how deep networks overcome the curse of dimensionality by building invariant representations, and provide an estimate of the number of data required to learn a hierarchical task.
翻訳日:2024-01-11 17:30:46 公開日:2024-01-09
# 単一光子源品質の早期推定における不確かさの定量化のためのデータ拡張

Harnessing Data Augmentation to Quantify Uncertainty in the Early Estimation of Single-Photon Source Quality ( http://arxiv.org/abs/2306.15683v2 )

ライセンス: Link先を確認
David Jacob Kedziora and Anna Musia{\l} and Wojciech Rudno-Rudzi\'nski and Bogdan Gabrys(参考訳) 単光子源(SPS)の品質を高速に推定する新しい手法が近年,強度干渉法による実験検証の高価で時間を要する性質に対処するために提案されている。 しかしながら、不確実性に関する議論や再現可能な詳細の頻繁な欠如は、信頼性に関する懸念を引き起こす。 本研究では,実験データをブートストラップ標本で補完し,推定の不確かさを定量化するための機械学習手法であるデータ拡張法について検討する。 単一のInGaAs/GaAsエピタキシャル量子ドットを含む測定結果から得られた8つのデータセットは、初歩的な例である。 合成試料の効率的なヒストグラムフィッティング,すなわち多光子放出現象の確率から得られたSPS品質指標の1つの解析により,検出率を表すポアソン過程における確率的変動による有意な不確かさが明らかになった。 このエラーの原因を無視することは、早期品質評価と最先端のSPSデバイスのクレームの両方において、重大な過信リスクを負う。 さらに、本研究では、標準の最小二乗フィッティングはポアソン確率と同等であり、平均の増大は早期推定の可能性を示唆している。 また、バックグラウンドカウントを減らすことで適合精度が向上するが、Poissonプロセスの可変性には対処しない。 究極的には、データ拡張は物理実験を補完する価値を示しており、その利点は、SPS品質の慎重な評価の必要性を強調することである。

Novel methods for rapidly estimating single-photon source (SPS) quality have been promoted in recent literature to address the expensive and time-consuming nature of experimental validation via intensity interferometry. However, the frequent lack of uncertainty discussions and reproducible details raises concerns about their reliability. This study investigates the use of data augmentation, a machine learning technique, to supplement experimental data with bootstrapped samples and quantify the uncertainty of such estimates. Eight datasets obtained from measurements involving a single InGaAs/GaAs epitaxial quantum dot serve as a proof-of-principle example. Analysis of one of the SPS quality metrics derived from efficient histogram fitting of the synthetic samples, i.e. the probability of multi-photon emission events, reveals significant uncertainty contributed by stochastic variability in the Poisson processes that describe detection rates. Ignoring this source of error risks severe overconfidence in both early quality estimates and claims for state-of-the-art SPS devices. Additionally, this study finds that standard least-squares fitting is comparable to using a Poisson likelihood, and expanding averages show some promise for early estimation. Also, reducing background counts improves fitting accuracy but does not address the Poisson-process variability. Ultimately, data augmentation demonstrates its value in supplementing physical experiments; its benefit here is to emphasise the need for a cautious assessment of SPS quality.
翻訳日:2024-01-11 17:29:56 公開日:2024-01-09
# ゼロ・Few-Shotビジュアル質問応答のためのプロンプト技術の検討

Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering ( http://arxiv.org/abs/2306.09996v2 )

ライセンス: Link先を確認
Rabiul Awal, Le Zhang, Aishwarya Agrawal(参考訳) 本稿では,現代視覚言語モデル(VLM)におけるゼロおよび少数ショット視覚質問応答(VQA)性能を向上させる効果的なプロンプト手法について検討する。 調査の中心は、vlmsに正確な回答を生成するための、質問テンプレートの役割です。 特定のテンプレートがVQAの結果に大きく影響し,戦略的テンプレート選択の必要性が強調される。 本研究のもう1つの重要な側面は、画像キャプションによるVLMの増強であり、VQAタスクの直接画像特徴と並行して視覚的手がかりを提供する。 驚いたことに、この拡張によって、VLMが直接画像を見る"にもかかわらず、多くのケースでVLMのパフォーマンスが大幅に向上する。 チェーン・オブ・ソート(CoT)推論を調査し、標準的なCoT推論がパフォーマンスの低下を引き起こすのに対して、自己整合性のような先進的な手法がそれを回復するのに役立ちます。 さらに,テキストのみの少数ショット例は,vlmsのタスク形式へのアライメントを高めること,特にゼロショット回答を冗長化するモデルにメリットがあることを見出した。 最後に,文字列マッチングに基づくVQA測定値を用いて自由形式のオープンエンドVQA応答を評価する際の課題を軽減するため,提案手法はLLM誘導前処理技術を導入し,モデル応答を期待される接地構造応答分布に適応させる。 要約して,本研究はVQAのVLMにおける戦略推進の複雑さに光を当て,キャプション,テンプレート,前処理の相乗的利用を強調し,モデルの有効性を高める。

In this paper, we explore effective prompting techniques to enhance zero- and few-shot Visual Question Answering (VQA) performance in contemporary Vision-Language Models (VLMs). Central to our investigation is the role of question templates in guiding VLMs to generate accurate answers. We identify that specific templates significantly influence VQA outcomes, underscoring the need for strategic template selection. Another pivotal aspect of our study is augmenting VLMs with image captions, providing them with additional visual cues alongside direct image features in VQA tasks. Surprisingly, this augmentation significantly improves the VLMs' performance in many cases, even though VLMs "see" the image directly! We explore chain-of-thought (CoT) reasoning and find that while standard CoT reasoning causes drops in performance, advanced methods like self-consistency can help recover it. Furthermore, we find that text-only few-shot examples enhance VLMs' alignment with the task format, particularly benefiting models prone to verbose zero-shot answers. Lastly, to mitigate the challenges associated with evaluating free-form open-ended VQA responses using string-matching based VQA metrics, we introduce a straightforward LLM-guided pre-processing technique to adapt the model responses to the expected ground-truth answer distribution. In summary, our research sheds light on the intricacies of prompting strategies in VLMs for VQA, emphasizing the synergistic use of captions, templates, and pre-processing to enhance model efficacy.
翻訳日:2024-01-11 17:27:46 公開日:2024-01-09
# Matcha-TTS:条件付きフローマッチングを用いた高速TSアーキテクチャ

Matcha-TTS: A fast TTS architecture with conditional flow matching ( http://arxiv.org/abs/2309.03199v2 )

ライセンス: Link先を確認
Shivam Mehta, Ruibo Tu, Jonas Beskow, \'Eva Sz\'ekely, Gustav Eje Henter(参考訳) 高速なTTS音響モデリングのための新しいエンコーダデコーダアーキテクチャであるMatcha-TTSを導入し,OT-CFMを用いて学習した。 これにより、スコアマッチングを用いてトレーニングされたモデルよりも少ない合成ステップで出力品質の高いODEベースのデコーダが得られる。 注意深い設計選択は、各合成ステップが高速に実行されることを保証します。 この方法は確率的であり、非自己回帰的であり、外的アライメントなしでゼロから話すことを学ぶ。 強い事前学習ベースラインモデルと比較して、Matcha-TTSシステムはメモリフットプリントが最小であり、長い発話で最速モデルの速度に匹敵し、リスニングテストで最高評価スコアを得る。 オーディオサンプル、コード、事前訓練されたモデルについては、https://shivammehta25.github.io/Matcha-TTS/を参照してください。

We introduce Matcha-TTS, a new encoder-decoder architecture for speedy TTS acoustic modelling, trained using optimal-transport conditional flow matching (OT-CFM). This yields an ODE-based decoder capable of high output quality in fewer synthesis steps than models trained using score matching. Careful design choices additionally ensure each synthesis step is fast to run. The method is probabilistic, non-autoregressive, and learns to speak from scratch without external alignments. Compared to strong pre-trained baseline models, the Matcha-TTS system has the smallest memory footprint, rivals the speed of the fastest models on long utterances, and attains the highest mean opinion score in a listening test. Please see https://shivammehta25.github.io/Matcha-TTS/ for audio examples, code, and pre-trained models.
翻訳日:2024-01-11 17:19:11 公開日:2024-01-09
# 大規模地質炭素貯蔵の高速モデリングのための多次元フーリエニューラルオペレータ

Multi-fidelity Fourier Neural Operator for Fast Modeling of Large-Scale Geological Carbon Storage ( http://arxiv.org/abs/2308.09113v3 )

ライセンス: Link先を確認
Hewei Tang, Qingkai Kong and Joseph P. Morris(参考訳) 深層学習に基づくサロゲートモデルが地熱炭素貯蔵(GCS)問題に広く応用され、貯水池圧力の予測とCO2配管の移動が加速された。 このプロセスに関連する複雑な物理的挙動を正確に予測するために、物理ベースの数値シミュレーターからの大量のデータが必要である。 実際、利用可能なトレーニングデータは、高い計算コストのために、常に大規模な3D問題に制限される。 そこで我々は,より安価な多要素学習データセットを用いて大規模GCS問題を解決するために,FNO(Multi-fidelity Fourier Neural operator)を提案する。 FNOは望ましいグリッド不変性を持ち、異なる離散化を持つデータセット間の転送学習手順を単純化する。 まず,gcs貯留層モデルを110kグリッドセルに離散化したモデルの有効性を検証した。 マルチ忠実度モデルは、同じ量の高忠実度データを81%のコストでトレーニングした高忠実度モデルに匹敵する精度で予測できる。 さらに,100万個の格子セルの微細な離散化を伴う同一貯水池モデル上での多重忠実度モデルの一般化性を検証した。 このケースは、異なる地球統計モデルと貯水池シミュレータによって生成された高忠実度と低忠実度データセットを使用することでより困難になった。 高忠実度データが極端に制限された場合でも、多忠実度FNOモデルが妥当な精度で圧力場を予測できることを観察する。 本研究の知見は,多元的ディープラーニングモデルにおけるトランスファー可能性の理解を深める上で有用である。

Deep learning-based surrogate models have been widely applied in geological carbon storage (GCS) problems to accelerate the prediction of reservoir pressure and CO2 plume migration. Large amounts of data from physics-based numerical simulators are required to train a model to accurately predict the complex physical behaviors associated with this process. In practice, the available training data are always limited in large-scale 3D problems due to the high computational cost. Therefore, we propose to use a multi-fidelity Fourier neural operator (FNO) to solve large-scale GCS problems with more affordable multi-fidelity training datasets. FNO has a desirable grid-invariant property, which simplifies the transfer learning procedure between datasets with different discretization. We first test the model efficacy on a GCS reservoir model being discretized into 110k grid cells. The multi-fidelity model can predict with accuracy comparable to a high-fidelity model trained with the same amount of high-fidelity data with 81% less data generation costs. We further test the generalizability of the multi-fidelity model on a same reservoir model with a finer discretization of 1 million grid cells. This case was made more challenging by employing high-fidelity and low-fidelity datasets generated by different geostatistical models and reservoir simulators. We observe that the multi-fidelity FNO model can predict pressure fields with reasonable accuracy even when the high-fidelity data are extremely limited. The findings of this study can help for better understanding of the transferability of multi-fidelity deep learning surrogate models.
翻訳日:2024-01-11 17:18:09 公開日:2024-01-09
# 量子ゲートの論理量子ビットスケールへの最適化

Optimizing quantum gates towards the scale of logical qubits ( http://arxiv.org/abs/2308.02321v3 )

ライセンス: Link先を確認
Paul V. Klimov, Andreas Bengtsson, Chris Quintana, Alexandre Bourassa, Sabrina Hong, Andrew Dunsworth, Kevin J. Satzinger, William P. Livingston, Volodymyr Sivak, Murphy Y. Niu, Trond I. Andersen, Yaxing Zhang, Desmond Chik, Zijun Chen, Charles Neill, Catherine Erickson, Alejandro Grajales Dau, Anthony Megrant, Pedram Roushan, Alexander N. Korotkov, Julian Kelly, Vadim Smelyanskiy, Yu Chen, Hartmut Neven(参考訳) 量子誤差補正理論の基本的な仮定は、フォールトトレランスの誤りを克服することなく、量子ゲートを大きなプロセッサにスケールできるということである。 基本的な障害となる可能性のある2つの大きな課題は、高性能量子ハードウェアの製造と、その性能限界に達する制御システムの構築である。 性能を劣化させることなく小型から大規模プロセッサに量子ゲートをスケールするという制御課題は、指数関数的に拡張された構成空間上での非凸、高制約、時間依存的な制御最適化にマップされることが多い。 本稿では,このような問題の複雑さを克服する制御最適化戦略について報告する。 本研究では、68個の周波数可変超伝導量子ビットの周波数軌跡を振り返り、計算誤差を軽減しつつシングルおよびツーキュービットゲートを実行することを実証する。 プロセッサ全体の物理的エラーの包括的なモデルと組み合わせると、最適化しない場合と比較して、この戦略は物理的エラー率を$\sim3.7\times$で抑えます。 さらに、1057の物理キュービットを持つ distance-23 表面コード論理キュービットでも同様の性能の利点が得られると予測されている。 当社の制御最適化戦略は、さまざまな量子演算、アルゴリズム、コンピューティングアーキテクチャに適用可能な方法で、一般的なスケーリング課題を解決します。

A foundational assumption of quantum error correction theory is that quantum gates can be scaled to large processors without exceeding the error-threshold for fault tolerance. Two major challenges that could become fundamental roadblocks are manufacturing high performance quantum hardware and engineering a control system that can reach its performance limits. The control challenge of scaling quantum gates from small to large processors without degrading performance often maps to non-convex, high-constraint, and time-dependent control optimization over an exponentially expanding configuration space. Here we report on a control optimization strategy that can scalably overcome the complexity of such problems. We demonstrate it by choreographing the frequency trajectories of 68 frequency-tunable superconducting qubits to execute single- and two-qubit gates while mitigating computational errors. When combined with a comprehensive model of physical errors across our processor, the strategy suppresses physical error rates by $\sim3.7\times$ compared with the case of no optimization. Furthermore, it is projected to achieve a similar performance advantage on a distance-23 surface code logical qubit with 1057 physical qubits. Our control optimization strategy solves a generic scaling challenge in a way that can be adapted to a variety of quantum operations, algorithms, and computing architectures.
翻訳日:2024-01-11 17:16:25 公開日:2024-01-09
# 最終層再評価は, 相関関係のロバスト性に十分か?

Is Last Layer Re-Training Truly Sufficient for Robustness to Spurious Correlations? ( http://arxiv.org/abs/2308.00473v2 )

ライセンス: Link先を確認
Phuong Quynh Le, J\"org Schl\"otterer and Christin Seifert(参考訳) 経験的リスク最小化(experience risk minimization, erm)でトレーニングされたモデルは、スプリアスな特徴、すなわち、それらの予測は、クラスラベルと強く相関するが因果的推論を欠く、望ましくない補助的特徴に基づいていることが知られている。 この振る舞いは、特に、反対のクラスのスプリアス特徴やスプリアス特徴を欠いているが、スプリアス特徴がある相関クラスのサンプル群の精度を低下させる。 最近提案されたDeep Feature Reweighting (DFR)法は、これらの最悪のグループの精度を向上させる。 ERMモードがコア機能を十分に学習できるという主論に基づいて、DFRは分類モデルの最後の層を小さなグループバランスのデータセットで再訓練するのみである。 本研究では,DFRの医療領域における現実的データへの適用性について検討する。 さらに, 最終層再トレーニングの有効性の背景を考察し, DFRは, 最悪の集団の精度を向上する可能性を秘めているものの, 急激な相関関係が生じる可能性が示唆された。

Models trained with empirical risk minimization (ERM) are known to learn to rely on spurious features, i.e., their prediction is based on undesired auxiliary features which are strongly correlated with class labels but lack causal reasoning. This behavior particularly degrades accuracy in groups of samples of the correlated class that are missing the spurious feature or samples of the opposite class but with the spurious feature present. The recently proposed Deep Feature Reweighting (DFR) method improves accuracy of these worst groups. Based on the main argument that ERM mods can learn core features sufficiently well, DFR only needs to retrain the last layer of the classification model with a small group-balanced data set. In this work, we examine the applicability of DFR to realistic data in the medical domain. Furthermore, we investigate the reasoning behind the effectiveness of last-layer retraining and show that even though DFR has the potential to improve the accuracy of the worst group, it remains susceptible to spurious correlations.
翻訳日:2024-01-11 17:16:03 公開日:2024-01-09
# フローマッチングを用いた統一音声とジェスチャー合成

Unified speech and gesture synthesis using flow matching ( http://arxiv.org/abs/2310.05181v2 )

ライセンス: Link先を確認
Shivam Mehta, Ruibo Tu, Simon Alexanderson, Jonas Beskow, \'Eva Sz\'ekely, Gustav Eje Henter(参考訳) テキスト対音声技術が読解課題において顕著な自然性を達成するにつれて、自然発話や身体のジェスチャーといった言語的および非言語的コミュニケーション行動のマルチモーダル合成への関心が高まっている。 本稿では,音声音響とスケルトンに基づく3次元ジェスチャーをテキストから統合的に合成する新しいアーキテクチャを提案する。 提案されたアーキテクチャは、以前の技術よりもシンプルで、メモリフットプリントが小さく、音声とジェスチャーのジョイント分布をキャプチャし、1つのプロセスで両方のモダリティを生成することができる。 新たなトレーニング体制は、これまでよりもはるかに少ないステップ(ネットワーク評価)で、より良い合成品質を実現する。 単モードと多モードの主観テストでは、既存のベンチマークと比較して、音声の自然性、ジェスチャーの人間的類似性、クロスモーダル適合性が改善された。 ビデオ例やコードについては、https://shivammehta25.github.io/Match-TTSG/を参照してください。

As text-to-speech technologies achieve remarkable naturalness in read-aloud tasks, there is growing interest in multimodal synthesis of verbal and non-verbal communicative behaviour, such as spontaneous speech and associated body gestures. This paper presents a novel, unified architecture for jointly synthesising speech acoustics and skeleton-based 3D gesture motion from text, trained using optimal-transport conditional flow matching (OT-CFM). The proposed architecture is simpler than the previous state of the art, has a smaller memory footprint, and can capture the joint distribution of speech and gestures, generating both modalities together in one single process. The new training regime, meanwhile, enables better synthesis quality in much fewer steps (network evaluations) than before. Uni- and multimodal subjective tests demonstrate improved speech naturalness, gesture human-likeness, and cross-modal appropriateness compared to existing benchmarks. Please see https://shivammehta25.github.io/Match-TTSG/ for video examples and code.
翻訳日:2024-01-11 17:06:32 公開日:2024-01-09
# SGNN-LLM構文を用いた学習教材質問に対する学生のパフォーマンス予測

Enhancing Student Performance Prediction on Learnersourced Questions with SGNN-LLM Synergy ( http://arxiv.org/abs/2309.13500v2 )

ライセンス: Link先を確認
Lin Ni, Sijie Wang, Zeyu Zhang, Xiaoxuan Li, Xianda Zheng, Paul Denny, and Jiamou Liu(参考訳) learnersourcingは、学生のコンテンツ作成を通じて、スケーラブルな教育に大きな可能性を秘めている。 しかし,学習経験のパーソナライズに欠かせない学習者解答質問における生徒性能の予測は,学習者生成データに固有のノイズがあるため困難である。 さらに、従来のグラフベースの手法は、学生と質問の複雑なネットワークを捉えることができるが、質問への学生の関与が限られているコールドスタート条件下では不足しがちである。 両課題に対処するため,SGNN(Signed Graph Neural Networks)とLLM(Large Language Model)の組込みを統合可能な革新的な戦略を導入する。 提案手法は,学生の回答を総合的にモデル化する2部グラフを用いて,雑音のレジリエンスを高めるコントラスト学習フレームワークを補完する。 さらに、LLMの貢献は基礎的な質問の埋め込みの生成であり、グラフデータに制限された特徴を持つコールドスタートシナリオに対処する上で特に有利である。 PeerWiseプラットフォームからソースされた5つの実世界のデータセットに対する検証は、このアプローチの有効性を裏付けるものだ。 提案手法は,予測精度とロバスト性を向上し,ベースラインを向上する。

Learnersourcing offers great potential for scalable education through student content creation. However, predicting student performance on learnersourced questions, which is essential for personalizing the learning experience, is challenging due to the inherent noise in student-generated data. Moreover, while conventional graph-based methods can capture the complex network of student and question interactions, they often fall short under cold start conditions where limited student engagement with questions yields sparse data. To address both challenges, we introduce an innovative strategy that synergizes the potential of integrating Signed Graph Neural Networks (SGNNs) and Large Language Model (LLM) embeddings. Our methodology employs a signed bipartite graph to comprehensively model student answers, complemented by a contrastive learning framework that enhances noise resilience. Furthermore, LLM's contribution lies in generating foundational question embeddings, proving especially advantageous in addressing cold start scenarios characterized by limited graph data. Validation across five real-world datasets sourced from the PeerWise platform underscores our approach's effectiveness. Our method outperforms baselines, showcasing enhanced predictive accuracy and robustness.
翻訳日:2024-01-11 17:05:32 公開日:2024-01-09
# L^1$ 推定:線形推定器の最適性について

$L^1$ Estimation: On the Optimality of Linear Estimators ( http://arxiv.org/abs/2309.09129v3 )

ライセンス: Link先を確認
Leighton P. Barnes, Alex Dytso, Jingbo Liu, H. Vincent Poor(参考訳) ノイズ観測から確率変数 $x$ を推定する問題を考えると、$y = x+ z$ であり、ここでは$z$ は標準正規であり、$l^1$ fidelity criterion である。 この設定における最適ベイズ推定器が条件中央値であることはよく知られている。 この研究は、条件中央値の線型性を誘導する$X$上の唯一の先行分布がガウス分布であることを示している。 他にもいくつかの結果が提示されている。 特に、条件分布 $p_{x|y=y}$ がすべての$y$ に対して対称であれば、$x$ はガウス分布に従わなければならない。 さらに、他の$l^p$損失を検討し、以下の現象を観察する: $p \in [1,2]$, gaussian は線形最適ベイズ推定子を誘導する唯一の事前分布であり、$p \in (2,\infty)$ では、$x$ 上の無限個の事前分布は線形性を誘導することができる。 最後に、ある指数族からの条件分布につながるノイズモデルを含む拡張が提供される。

Consider the problem of estimating a random variable $X$ from noisy observations $Y = X+ Z$, where $Z$ is standard normal, under the $L^1$ fidelity criterion. It is well known that the optimal Bayesian estimator in this setting is the conditional median. This work shows that the only prior distribution on $X$ that induces linearity in the conditional median is Gaussian. Along the way, several other results are presented. In particular, it is demonstrated that if the conditional distribution $P_{X|Y=y}$ is symmetric for all $y$, then $X$ must follow a Gaussian distribution. Additionally, we consider other $L^p$ losses and observe the following phenomenon: for $p \in [1,2]$, Gaussian is the only prior distribution that induces a linear optimal Bayesian estimator, and for $p \in (2,\infty)$, infinitely many prior distributions on $X$ can induce linearity. Finally, extensions are provided to encompass noise models leading to conditional distributions from certain exponential families.
翻訳日:2024-01-11 17:03:18 公開日:2024-01-09
# Barkと検索音声変換を用いた低リソースASRのためのカスタムデータ拡張

Custom Data Augmentation for low resource ASR using Bark and Retrieval-Based Voice Conversion ( http://arxiv.org/abs/2311.14836v3 )

ライセンス: Link先を確認
Anand Kamble, Aniket Tathe, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra(参考訳) 本稿では,Hindiのような低リソース言語向けにカスタマイズされた共通音声データセットを構築するための2つの革新的な手法を提案する。 最初の方法論は、Sunoが開発したトランスフォーマーベースのテキストオーディオモデルであるBarkを活用し、Metaの enCodecと事前トレーニングされたHuBertモデルを組み込んで、Barkのパフォーマンスを向上させる。 第2の方法論は、検索型音声変換(RVC)を採用し、データ準備にOzenツールキットを使用している。 どちらの手法もasr技術の進歩に貢献し、非ソース言語用にカスタマイズされた共通音声データセットを構築するという課題に対する貴重な洞察を提供する。 さらに、様々なアプリケーションに対して高品質でパーソナライズされた音声生成を実現するための経路を提供する。

This paper proposes two innovative methodologies to construct customized Common Voice datasets for low-resource languages like Hindi. The first methodology leverages Bark, a transformer-based text-to-audio model developed by Suno, and incorporates Meta's enCodec and a pre-trained HuBert model to enhance Bark's performance. The second methodology employs Retrieval-Based Voice Conversion (RVC) and uses the Ozen toolkit for data preparation. Both methodologies contribute to the advancement of ASR technology and offer valuable insights into addressing the challenges of constructing customized Common Voice datasets for under-resourced languages. Furthermore, they provide a pathway to achieving high-quality, personalized voice generation for a range of applications.
翻訳日:2024-01-11 16:54:50 公開日:2024-01-09
# RedditでAI生成コンテンツをモデレートする「見逃している場所」

"There Has To Be a Lot That We're Missing": Moderating AI-Generated Content on Reddit ( http://arxiv.org/abs/2311.12702v3 )

ライセンス: Link先を確認
Travis Lloyd, Joseph Reagle, Mor Naaman(参考訳) 生成aiは、オンラインコミュニティの働き方、学び、コミュニケーション、参加を妨害する恐れがある。 われわれは、ソーシャル共有サイトRedditのオンラインコミュニティのモデレーターがAIGC(AIGC)にどう挑戦されているか、どのように適応しているかを理解するための質的なインタビュー研究を行った。 我々はAIGCの経験について15回の半構造化インタビューを行った。 参加者はAIGCの使用に対する合法的動機と非合法的動機の両方を認識していますが、全体としては、サブレディットの目的とサイズに依存したレベルの懸念をもって、コミュニティに有害であると考えています。 モデレーターは、aigcの予防や抑制に役立つ様々な戦略を使用してルールを開発していると報告したが、愚かな検出ツールがなければ、強制は困難であり、ヒューリスティックスに依存している。 AIGCは、信頼を尊重するオンラインコミュニティに対してユニークな脅威となり、十分に意図されたコミュニティメンバーでさえ、必然的に混乱を引き起こす可能性がある。 全体として、オンラインコミュニティにとって、生成AIの脅威は投機的ではない。

Generative AI threatens to disrupt how we work, learn, communicate, and participate in online communities. We performed a qualitative interview study to understand how moderators of online communities on the social sharing site Reddit are challenged by AI-generated content (AIGC) and how they are adapting. We conducted fifteen in-depth, semi-structured interviews with subreddit moderators about their experiences with AIGC. Though our participants see both legitimate and illegitimate motivations for using AIGC, on the whole they view it as detrimental to their communities, with a level of concern that is dependent on the purpose and size of their subreddits. Moderators reported developing rules and using a variety of strategies that may help communities prevent or curb AIGC, but without foolproof detection tools, enforcement is challenging and relies on heuristics. AIGC poses a unique threat to online communities who value authenticity, in that even well-intentioned community members may inadvertently cause disruption. Overall, for online communities, the threat of Generative AI is not speculative: the disruption has already begun.
翻訳日:2024-01-11 16:53:20 公開日:2024-01-09
# 任意の粒子数をもつ系における量子分布関数

Quantum distribution functions in systems with an arbitrary number of particles ( http://arxiv.org/abs/2311.03003v2 )

ライセンス: Link先を確認
Yu.M. Poluektov and A.A. Soroka(参考訳) 非相互作用フェルミオン・ボソン系における量子分布関数のエントロピー表現と量子分布関数の方程式について, 少量の粒子を含む任意の粒子で求めた。

Expressions for the entropy and equations for the quantum distribution functions in systems of non-interacting fermions and bosons with an arbitrary, including small, number of particles are obtained in the paper
翻訳日:2024-01-11 16:52:23 公開日:2024-01-09
# 凸最適化におけるアルゴリズム再現性と勾配複雑性の最適保証

Optimal Guarantees for Algorithmic Reproducibility and Gradient Complexity in Convex Optimization ( http://arxiv.org/abs/2310.17759v2 )

ライセンス: Link先を確認
Liang Zhang, Junchi Yang, Amin Karbasi, Niao He(参考訳) アルゴリズム再現性は、トレーニングプロセスの小さな変更による機械学習アルゴリズムの出力偏差を測定する。 以前の研究は、再現性を改善するためには1階法で収束率(段階的複雑さ)をトレードオフする必要があることを示唆している。 本研究は, 最適再現性と近似収束保証の両方を, 様々なエラー発生オラクル設定下での滑らかな凸最小化と滑らかな凸最小化のために達成できることを実証する。 特に、不正確な初期化オラクルを考えると、我々の正規化に基づくアルゴリズムは、最小化と最小化の最適化のために、世界最適再現性とほぼ最適勾配の複雑さの両方の長所を達成する。 不正確な勾配オラクルでは、準最適保証はミニマックス最適化にも有効である。 さらに,確率的勾配オラクルを用いて,確率的勾配降下が再現性と勾配複雑性の両方において最適であることを示す。 我々の結果は,凸最適化の文脈における再現性・収束性トレードオフの理解を深める効果があると信じている。

Algorithmic reproducibility measures the deviation in outputs of machine learning algorithms upon minor changes in the training process. Previous work suggests that first-order methods would need to trade-off convergence rate (gradient complexity) for better reproducibility. In this work, we challenge this perception and demonstrate that both optimal reproducibility and near-optimal convergence guarantees can be achieved for smooth convex minimization and smooth convex-concave minimax problems under various error-prone oracle settings. Particularly, given the inexact initialization oracle, our regularization-based algorithms achieve the best of both worlds - optimal reproducibility and near-optimal gradient complexity - for minimization and minimax optimization. With the inexact gradient oracle, the near-optimal guarantees also hold for minimax optimization. Additionally, with the stochastic gradient oracle, we show that stochastic gradient descent ascent is optimal in terms of both reproducibility and gradient complexity. We believe our results contribute to an enhanced understanding of the reproducibility-convergence trade-off in the context of convex optimization.
翻訳日:2024-01-11 16:52:18 公開日:2024-01-09
# カラビヤウ五重組の構築と機械学習

Constructing and Machine Learning Calabi-Yau Five-folds ( http://arxiv.org/abs/2310.15966v2 )

ライセンス: Link先を確認
R. Alawadhi, D. Angella, A. Leonardo and T. Schettini Gherardini(参考訳) 我々は、最大4つの制約を持つ4つ以上の複素射影空間の積において、すべての可能な完備交叉カラビ・ヤウ多様体を構成する。 構成行列の行と列の置換に関係のない27068$空間を取得し、それらすべてに対してオイラー数を決定する。 これらのうち3,909ドルの製品多様体を除いて、コホモロジーデータは非生産空間の1,2433ドルのケース、すなわち53.7セントのコホモロジーデータを計算し、2,375ドルの異なるホッジダイヤモンドを得る。 上記のすべての情報を含むデータセットは、https://www.dropbox.com/scl/fo/z7ii5idt6qxu36e0b8azq/h? rlkey=0qfhx3tykytduobpld510gsfy&dl=0。 不変量の分布を提示し, 低次元の類似物との比較を行った。 教師付き機械学習は、分類器とレグレッサー(完全連結と畳み込みの両方)を介してコホモロジーデータ上で実行される。 私たちは、$h^{1,1}$を非常に効率的に学習することができ、非常に高い$r^2$スコアと996\%$の正確さ、すなわち正確な値に正確に一致する予測の96 \%$である。 h^{1,4},h^{2,3}, \eta$については、非常に高い$r^2$スコアが得られますが、可能な値の範囲が広いため、精度は低くなります。

We construct all possible complete intersection Calabi-Yau five-folds in a product of four or less complex projective spaces, with up to four constraints. We obtain $27068$ spaces, which are not related by permutations of rows and columns of the configuration matrix, and determine the Euler number for all of them. Excluding the $3909$ product manifolds among those, we calculate the cohomological data for $12433$ cases, i.e. $53.7 \%$ of the non-product spaces, obtaining $2375$ different Hodge diamonds. The dataset containing all the above information is available at https://www.dropbox.com/scl/fo/z7ii5idt6qxu36e0b8azq/h?rlkey=0qfhx3tykytduobpld510gsfy&dl=0 . The distributions of the invariants are presented, and a comparison with the lower-dimensional analogues is discussed. Supervised machine learning is performed on the cohomological data, via classifier and regressor (both fully connected and convolutional) neural networks. We find that $h^{1,1}$ can be learnt very efficiently, with very high $R^2$ score and an accuracy of $96\%$, i.e. $96 \%$ of the predictions exactly match the correct values. For $h^{1,4},h^{2,3}, \eta$, we also find very high $R^2$ scores, but the accuracy is lower, due to the large ranges of possible values.
翻訳日:2024-01-11 16:51:56 公開日:2024-01-09
# アストロモーフィックトランスフォーマーに深く入り込む

Delving Deeper Into Astromorphic Transformers ( http://arxiv.org/abs/2312.10925v2 )

ライセンス: Link先を確認
Md Zesun Ahmed Mia, Malyaban Bal, Abhronil Sengupta(参考訳) 脳にインスパイアされた神経形コンピューティングにおけるアストロサイト(ヒト脳細胞の50%以上を占める細胞)のクリティカルな役割を組み込むための予備的な試みは、まだ初期段階にある。 本稿では,トランスフォーマーの自己保持機構を模倣するために,ニューロン-シナプス-アストロサイト相互作用の様々な重要な側面を深く掘り下げる。 この研究で探求されたクロスレイヤーの視点は、ニューロン-アストロサイトネットワークにおけるヘビアンおよびシナプス前可塑性のバイオプラスティックなモデリング、非線型性の影響とフィードバック、およびアルゴリズムによる定式化を取り入れて、ニューロン-アストロサイト計算を自己保持機構にマッピングし、機械学習アプリケーション側からバイオリアリスティック効果を取り入れた影響を評価することである。 IMDBおよびCIFAR10データセットの感情・イメージ分類タスクの解析は、精度と学習速度の改善の観点から、アストロモルフィックトランスフォーマーを構築することの重要性を強調している。

Preliminary attempts at incorporating the critical role of astrocytes - cells that constitute more than 50% of human brain cells - in brain-inspired neuromorphic computing remain in infancy. This paper seeks to delve deeper into various key aspects of neuron-synapse-astrocyte interactions to mimic self-attention mechanisms in Transformers. The cross-layer perspective explored in this work involves bio-plausible modeling of Hebbian and pre-synaptic plasticities in neuron-astrocyte networks, incorporating effects of non-linearities and feedback along with algorithmic formulations to map the neuron-astrocyte computations to self-attention mechanism and evaluating the impact of incorporating bio-realistic effects from the machine learning application side. Our analysis on sentiment and image classification tasks on the IMDB and CIFAR10 datasets underscores the importance of constructing Astromorphic Transformers from both accuracy and learning speed improvement perspectives.
翻訳日:2024-01-11 16:43:17 公開日:2024-01-09
# 予測空間におけるベイズ推定を用いた1ラウンドフェデレート学習の校正

Calibrated One Round Federated Learning with Bayesian Inference in the Predictive Space ( http://arxiv.org/abs/2312.09817v2 )

ライセンス: Link先を確認
Mohsin Hasan, Guojun Zhang, Kaiyang Guo, Xi Chen, Pascal Poupart(参考訳) フェデレートラーニング(FL)では、各クライアントのデータセットがローカライズされ、おそらく異種であるという制約で、クライアント間で分散されたデータセット上でモデルをトレーニングする。 FLでは、小さくノイズの多いデータセットが一般的であり、予測の不確実性を表すよく校正されたモデルの必要性を強調している。 そのような目標を達成するための最も近いFL手法は、局所的な後部からパラメータサンプルを収集し、それらを集約して大域的な後部を近似するベイズFL法である。 大きなモデルのスケーラビリティを改善するために、ベイズ的なアプローチは局所的な予測後部を乗じることで、大域的な予測後部を近似することである。 本研究では,この手法が体系的に過剰な予測を与えることを示すとともに,予測後部の混合と積を補間するベイズ的FLアルゴリズムである$\beta$-Predictive Bayesを,調整可能なパラメータ$\beta$を用いて提案する。 このパラメータは、単一のモデルに蒸留する前に、グローバルアンサンブルのキャリブレーションを改善するために調整される。 本手法は,データの不均一性が増大しても,キャリブレーションが他のベースラインよりも優れていることを示すために,様々な回帰および分類データセットを用いて評価する。 コード提供: https://github.com/hasanmohsin/betapredbayesfl

Federated Learning (FL) involves training a model over a dataset distributed among clients, with the constraint that each client's dataset is localized and possibly heterogeneous. In FL, small and noisy datasets are common, highlighting the need for well-calibrated models that represent the uncertainty of predictions. The closest FL techniques to achieving such goals are the Bayesian FL methods which collect parameter samples from local posteriors, and aggregate them to approximate the global posterior. To improve scalability for larger models, one common Bayesian approach is to approximate the global predictive posterior by multiplying local predictive posteriors. In this work, we demonstrate that this method gives systematically overconfident predictions, and we remedy this by proposing $\beta$-Predictive Bayes, a Bayesian FL algorithm that interpolates between a mixture and product of the predictive posteriors, using a tunable parameter $\beta$. This parameter is tuned to improve the global ensemble's calibration, before it is distilled to a single model. Our method is evaluated on a variety of regression and classification datasets to demonstrate its superiority in calibration to other baselines, even as data heterogeneity increases. Code available at https://github.com/hasanmohsin/betaPredBayesFL
翻訳日:2024-01-11 16:41:29 公開日:2024-01-09
# 誘導炉におけるベストプラクティス融解パターンの同定:時系列KMeansクラスタリングとマルチクリトリア決定を用いたデータ駆動アプローチ

Identifying Best Practice Melting Patterns in Induction Furnaces: A Data-Driven Approach Using Time Series KMeans Clustering and Multi-Criteria Decision Making ( http://arxiv.org/abs/2401.04751v1 )

ライセンス: Link先を確認
Daniel Anthony Howard, Bo N{\o}rregaard J{\o}rgensen and Zheng Ma(参考訳) 産業生産プロセスにおけるエネルギー効率の向上は、競争力と気候政策の遵守に不可欠である。 本稿では,誘導炉の最適融解パターンを特定するためのデータ駆動手法を提案する。 時間系列K平均のクラスタリングにより、融解パターンは温度プロファイルに基づいて異なるクラスタに分類できる。 肘法を用いて12個のクラスターを同定し,融解範囲を明らかにした。 各クラスタに融解時間, エネルギー特性, 炭素コストなどの性能パラメータが確立され, 炉の効率と環境への影響が示唆された。 簡便な加法重み付け,乗法指数重み付け,理想解との類似性による選好の順序付け,修正トポロジー,およびvlsekriterijumska optimizacija i kompromisno resenjeを含む複数の基準決定法を用いて最適な実践クラスタを決定する。 この研究は、クラスタを最高のパフォーマンスで識別することに成功した。 ベストプラクティスの実施により、電気コストは8.6%削減され、鋳造所の潜在的な省エネが強調された。

Improving energy efficiency in industrial production processes is crucial for competitiveness, and compliance with climate policies. This paper introduces a data-driven approach to identify optimal melting patterns in induction furnaces. Through time-series K-means clustering the melting patterns could be classified into distinct clusters based on temperature profiles. Using the elbow method, 12 clusters were identified, representing the range of melting patterns. Performance parameters such as melting time, energy-specific performance, and carbon cost were established for each cluster, indicating furnace efficiency and environmental impact. Multiple criteria decision-making methods including Simple Additive Weighting, Multiplicative Exponential Weighting, Technique for Order of Preference by Similarity to Ideal Solution, modified TOPSIS, and VlseKriterijumska Optimizacija I Kompromisno Resenje were utilized to determine the best-practice cluster. The study successfully identified the cluster with the best performance. Implementing the best practice operation resulted in an 8.6 % reduction in electricity costs, highlighting the potential energy savings in the foundry.
翻訳日:2024-01-11 16:20:53 公開日:2024-01-09
# DedustNet: 農業ダスト除去のための周波数支配型スイニングトランスフォーマーベースのウェーブレットネットワーク

DedustNet: A Frequency-dominated Swin Transformer-based Wavelet Network for Agricultural Dust Removal ( http://arxiv.org/abs/2401.04750v1 )

ライセンス: Link先を確認
Shengli Zhang, Zhiyong Tao, and Sen Lin(参考訳) ダストは自動化農業機械の環境認識に大きく影響するが,既存の深層学習に基づく塵除去手法では,農業における自動化農業機械の性能と信頼性を向上させるために,さらなる研究と改良が必要である。 本稿では,現実の農業ダスト除去課題を解決するために,エンド・ツー・エンドの学習ネットワーク(DedustNet)を提案する。 私たちの知る限り、DedustNetは、Swin Transformerベースのユニットが農業用画像ダストのウェーブレットネットワークで使用されるのはこれが初めてです。 具体的には、Swin Transformerに空間特徴アグリゲーションスキーム(SFAS)を追加し、ウェーブレット変換、DWTFormerブロック、IDWTFormerブロックと組み合わせることで、複雑なダスト背景を扱う際に、Swin Transformerのグローバル受信フィールドの制限を緩和することで、周波数支配ブロック(DWTFormerブロックとIDWTFormerブロック)を提案する。 さらに,異なる機能レベルを融合し,グローバルかつ長距離の機能関係を効果的に捉えるクロスレベル情報融合モジュールを提案する。 さらに、ウェーブレット変換と拡張畳み込みの利点を組み合わせた、複数のスケールでウェーブレット変換によって導かれるコンテキスト情報をキャプチャする拡張畳み込みモジュールを提案する。 提案アルゴリズムは,画像からダストを効果的に除去し,元の構造的特徴とテクスチャ的特徴を保存する。 既存の最先端の手法と比較して、DedustNetは農業用画像の破壊において優れた性能と信頼性を達成し、ほこりの多い環境における農業機械の適用を強く支援している。 さらに、実世界のハジーデータセットとアプリケーションテストにおける印象的なパフォーマンスは、DedustNetの優れた一般化能力とコンピュータビジョン関連のアプリケーションパフォーマンスを強調している。

While dust significantly affects the environmental perception of automated agricultural machines, the existing deep learning-based methods for dust removal require further research and improvement in this area to improve the performance and reliability of automated agricultural machines in agriculture. We propose an end-to-end trainable learning network (DedustNet) to solve the real-world agricultural dust removal task. To our knowledge, DedustNet is the first time Swin Transformer-based units have been used in wavelet networks for agricultural image dusting. Specifically, we present the frequency-dominated block (DWTFormer block and IDWTFormer block) by adding a spatial features aggregation scheme (SFAS) to the Swin Transformer and combining it with the wavelet transform, the DWTFormer block and IDWTFormer block, alleviating the limitation of the global receptive field of Swin Transformer when dealing with complex dusty backgrounds. Furthermore, We propose a cross-level information fusion module to fuse different levels of features and effectively capture global and long-range feature relationships. In addition, we present a dilated convolution module to capture contextual information guided by wavelet transform at multiple scales, which combines the advantages of wavelet transform and dilated convolution. Our algorithm leverages deep learning techniques to effectively remove dust from images while preserving the original structural and textural features. Compared to existing state-of-the-art methods, DedustNet achieves superior performance and more reliable results in agricultural image dedusting, providing strong support for the application of agricultural machinery in dusty environments. Additionally, the impressive performance on real-world hazy datasets and application tests highlights DedustNet superior generalization ability and computer vision-related application performance.
翻訳日:2024-01-11 16:20:31 公開日:2024-01-09
# LogFormer: ログ異常検出のための事前トレーニングとチューニングパイプライン

LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection ( http://arxiv.org/abs/2401.04749v1 )

ライセンス: Link先を確認
Hongcheng Guo, Jian Yang, Jiaheng Liu, Jiaqi Bai, Boyang Wang, Zhoujun Li, Tieqiao Zheng, Bo Zhang, Junran peng, Qi Tian(参考訳) ログ異常検出は、IT運用のための人工知能(AIOps)分野における重要なコンポーネントである。 異種ドメインのログデータを考えると、未知のドメインに対するネットワーク全体の再トレーニングは、実際の産業シナリオでは非効率である。 しかし、従来のディープモデルは、単に同じドメイン内のログシーケンスのセマンティクスを抽出することにのみ焦点をあて、マルチドメインログの一般化が不十分になった。 この問題を軽減するために,ログ異常検出(LogFormer)を統一したTransformerベースのフレームワークを提案し,各ドメイン間の一般化能力を向上し,事前学習とアダプタベースのチューニング段階を含む2段階のプロセスを確立する。 具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。 そして、その知識を共有パラメータを介してターゲットドメインに転送します。 さらに、ログパリングで無視される情報を補うためにLog-Attentionモジュールが提案されている。 提案手法は3つのパブリックデータセットと1つの実世界のデータセットで評価される。 複数のベンチマークの実験結果は、トレーニング可能なパラメータが少なく、トレーニングコストも低いLogFormerの有効性を示しています。

Log anomaly detection is a key component in the field of artificial intelligence for IT operations (AIOps). Considering log data of variant domains, retraining the whole network for unknown domains is inefficient in real industrial scenarios. However, previous deep models merely focused on extracting the semantics of log sequences in the same domain, leading to poor generalization on multi-domain logs. To alleviate this issue, we propose a unified Transformer-based framework for Log anomaly detection (LogFormer) to improve the generalization ability across different domains, where we establish a two-stage process including the pre-training and adapter-based tuning stage. Specifically, our model is first pre-trained on the source domain to obtain shared semantic knowledge of log data. Then, we transfer such knowledge to the target domain via shared parameters. Besides, the Log-Attention module is proposed to supplement the information ignored by the log-paring. The proposed method is evaluated on three public and one real-world datasets. Experimental results on multiple benchmarks demonstrate the effectiveness of our LogFormer with fewer trainable parameters and lower training costs.
翻訳日:2024-01-11 16:19:53 公開日:2024-01-09
# 非制御農場におけるハイパースペクトルイメージングに基づくblackberry果実熟度検出のための畳み込みニューラルネットワークアンサンブル学習

Convolutional Neural Network Ensemble Learning for Hyperspectral Imaging-based Blackberry Fruit Ripeness Detection in Uncontrolled Farm Environment ( http://arxiv.org/abs/2401.04748v1 )

ライセンス: Link先を確認
Chollette C. Olisah, Ben Trewhella, Bo Li, Melvyn L. Smith, Benjamin Winstone, E. Charles Whitfield, Felicidad Fern\'andez Fern\'andez, Harriet Duncalfe(参考訳) 果実熟度推定モデルは、果実熟度の特徴を学習するための平均、標準偏差、歪、色モーメント、/またはヒストグラムなど、スペクトル指数の特徴または色に基づく特徴に依存する。 近年,目に見える熟した果実の画像から特徴を抽出する深層学習技術を用いた研究はほとんど行われていない。 しかし、ブラックベリー (Rubus fruticosus) の果実は熟成時の熟しやすさの明らかで信頼性の高い特徴を示さず、果実摘みには非常に困難である。 成熟したblackberryは、人間の目には、前、中、後、黒色です。 そこで本研究では,ブラックベリー果実の熟しやすさの微妙な特徴を検出するために,新しいマルチインプット畳み込みニューラルネットワーク(CNN)アンサンブル分類器を提案する。 マルチインプットCNNは、ImageNetデータセットに基づいてトレーニングされた16層深層畳み込みネットワーク(VGG16)モデルから作成された。 完全連結層は成熟したblackberry果実の熟度特性を学習するために最適化された。 結果として得られたモデルは、スタック一般化アンサンブル(SGE)フレームワークを用いてアンサンブルされた同質なアンサンブル学習者を構築する基盤となった。 ネットワークへの入力は、可視・近赤外分光フィルタ(VIS-NIR)を用いて700nmと770nmの波長でステレオセンサーで取得される。 実験により、提案モデルは未発見のセットで95.1%、フィールド内条件で90.2%の精度を達成した。 さらなる実験により、blackberryの果実の皮膚のテクスチャよりも、機械の感覚は人間の感覚と高度かつ正の相関があることが明らかとなった。

Fruit ripeness estimation models have for decades depended on spectral index features or colour-based features, such as mean, standard deviation, skewness, colour moments, and/or histograms for learning traits of fruit ripeness. Recently, few studies have explored the use of deep learning techniques to extract features from images of fruits with visible ripeness cues. However, the blackberry (Rubus fruticosus) fruit does not show obvious and reliable visible traits of ripeness when mature and therefore poses great difficulty to fruit pickers. The mature blackberry, to the human eye, is black before, during, and post-ripening. To address this engineering application challenge, this paper proposes a novel multi-input convolutional neural network (CNN) ensemble classifier for detecting subtle traits of ripeness in blackberry fruits. The multi-input CNN was created from a pre-trained visual geometry group 16-layer deep convolutional network (VGG16) model trained on the ImageNet dataset. The fully connected layers were optimized for learning traits of ripeness of mature blackberry fruits. The resulting model served as the base for building homogeneous ensemble learners that were ensemble using the stack generalization ensemble (SGE) framework. The input to the network is images acquired with a stereo sensor using visible and near-infrared (VIS-NIR) spectral filters at wavelengths of 700 nm and 770 nm. Through experiments, the proposed model achieved 95.1% accuracy on unseen sets and 90.2% accuracy with in-field conditions. Further experiments reveal that machine sensory is highly and positively correlated to human sensory over blackberry fruit skin texture.
翻訳日:2024-01-11 16:19:35 公開日:2024-01-09
# diffsheg:リアルタイム音声駆動3d表現とジェスチャー生成のための拡散ベースアプローチ

DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation ( http://arxiv.org/abs/2401.04747v1 )

ライセンス: Link先を確認
Junming Chen, Yunfei Liu, Jianan Wang, Ailing Zeng, Yu Li, Qifeng Chen(参考訳) 任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくDiffSHEGを提案する。 従来の研究は、共同音声ジェスチャや表現生成を個別に重視していたが、同期表現とジェスチャーの合同生成はほとんど検討されていない。 これに対処するために, 拡散型協調運動生成トランスは, 表現からジェスチャへの一方向情報フローを可能にし, 協調表現とジェスチャ分布のマッチングが向上する。 さらに,拡散モデルにおける任意のロングシーケンス生成のためのアウトペイントに基づくサンプリング戦略を導入し,柔軟性と計算効率を提供する。 提案手法は,音声認識による高品質な同期表現とジェスチャー生成を実現する実用的なソリューションを提供する。 2つの公開データセットで評価し,定量的かつ定性的に最先端のパフォーマンスを実現する。 さらに、ユーザ調査により、以前のアプローチよりもdiffshegが優れていることが確認される。 DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。

We propose DiffSHEG, a Diffusion-based approach for Speech-driven Holistic 3D Expression and Gesture generation with arbitrary length. While previous works focused on co-speech gesture or expression generation individually, the joint generation of synchronized expressions and gestures remains barely explored. To address this, our diffusion-based co-speech motion generation transformer enables uni-directional information flow from expression to gesture, facilitating improved matching of joint expression-gesture distributions. Furthermore, we introduce an outpainting-based sampling strategy for arbitrary long sequence generation in diffusion models, offering flexibility and computational efficiency. Our method provides a practical solution that produces high-quality synchronized expression and gesture generation driven by speech. Evaluated on two public datasets, our approach achieves state-of-the-art performance both quantitatively and qualitatively. Additionally, a user study confirms the superiority of DiffSHEG over prior approaches. By enabling the real-time generation of expressive and synchronized motions, DiffSHEG showcases its potential for various applications in the development of digital humans and embodied agents.
翻訳日:2024-01-11 16:19:02 公開日:2024-01-09
# 皮膚内視鏡による非侵襲的デジタルシステムにおける視覚変換器を用いた皮膚癌分離分類

Skin Cancer Segmentation and Classification Using Vision Transformer for Automatic Analysis in Dermatoscopy-based Non-invasive Digital System ( http://arxiv.org/abs/2401.04746v1 )

ライセンス: Link先を確認
Galib Muhammad Shahriar Himel, Md. Masudul Islam, Kh Abdullah Al-Aff, Shams Ibne Karim, Md. Kabir Uddin Sikder(参考訳) 皮膚がんは世界的な健康上の問題であり、早期かつ正確な診断が必要である。 本研究では,多様な画像解析タスクで成功を収めた最先端のディープラーニングアーキテクチャであるVision Transformerを用いて,皮膚がん分類に対する画期的なアプローチを提案する。 注意深い皮膚病変画像10,015のham10000データセットを利用して,本モデルではロバスト性向上のための前処理を行う。 視覚トランスフォーマーは、皮膚がん分類タスクに適応し、複雑な空間依存を捉え、従来のディープラーニングアーキテクチャよりも優れたパフォーマンスを達成するためにセルフアテンションメカニズムを利用する。 Segment Anything Modelは、癌領域の正確なセグメンテーションを支援し、高いIOUとDice Coefficientを達成する。 これは96.15%の精度を達成し、皮膚がんの診断において皮膚科医にとって有効なツールとしての可能性を示し、皮膚科の進歩に寄与している。

Skin cancer is a global health concern, necessitating early and accurate diagnosis for improved patient outcomes. This study introduces a groundbreaking approach to skin cancer classification, employing the Vision Transformer, a state-of-the-art deep learning architecture renowned for its success in diverse image analysis tasks. Utilizing the HAM10000 dataset of 10,015 meticulously annotated skin lesion images, the model undergoes preprocessing for enhanced robustness. The Vision Transformer, adapted to the skin cancer classification task, leverages the self-attention mechanism to capture intricate spatial dependencies, achieving superior performance over traditional deep learning architectures. Segment Anything Model aids in precise segmentation of cancerous areas, attaining high IOU and Dice Coefficient. Extensive experiments highlight the model's supremacy, particularly the Google-based ViT patch-32 variant, which achieves 96.15% accuracy and showcases potential as an effective tool for dermatologists in skin cancer diagnosis, contributing to advancements in dermatological practices.
翻訳日:2024-01-11 16:18:43 公開日:2024-01-09
# モンテカルロドロップアウトに基づくベイズニューラルネットワークによるスピントロニクスの試験

Testing Spintronics Implemented Monte Carlo Dropout-Based Bayesian Neural Networks ( http://arxiv.org/abs/2401.04744v1 )

ライセンス: Link先を確認
Soyed Tuhin Ahmed, Michael Hefenbrock, Guillaume Prenat, Lorena Anghel, Mehdi B. Tahoori(参考訳) ベイズニューラルネットワーク(BayNN)は本質的に予測の不確実性を推定し、情報的意思決定を容易にする。 ドロップアウトベースのBayNNは、資源制約があるが高性能な安全クリティカルなアプリケーションのために、スピントロニクスベースの計算メモリアーキテクチャで実装されている。 不確実性の推定は重要であるが、Dropout生成とBayNN計算の信頼性はターゲットアプリケーションには等しく重要であるが、既存の作業では見落とされている。 しかし、BayNNのテストは、その確率的な性質のため、従来のNNよりもはるかに難しい。 本稿では,スピントロニクス系ドロップアウトモジュールの非理想性モデルが初めて提示し,不確実性推定と精度への影響を分析する。 さらに,テストベクトルとして$0.2\%$のトレーニングデータを使用しながら,最大$100\%$フォールトカバレッジを持つドロップアウトベースのbaynnの繰り返し可能性ランキングに基づくテストフレームワークを提案する。

Bayesian Neural Networks (BayNNs) can inherently estimate predictive uncertainty, facilitating informed decision-making. Dropout-based BayNNs are increasingly implemented in spintronics-based computation-in-memory architectures for resource-constrained yet high-performance safety-critical applications. Although uncertainty estimation is important, the reliability of Dropout generation and BayNN computation is equally important for target applications but is overlooked in existing works. However, testing BayNNs is significantly more challenging compared to conventional NNs, due to their stochastic nature. In this paper, we present for the first time the model of the non-idealities of the spintronics-based Dropout module and analyze their impact on uncertainty estimates and accuracy. Furthermore, we propose a testing framework based on repeatability ranking for Dropout-based BayNN with up to $100\%$ fault coverage while using only $0.2\%$ of training data as test vectors.
翻訳日:2024-01-11 16:18:23 公開日:2024-01-09
# 予め定義されたクラスタ番号kを使わずにグラフクラスタリングを行うMasked AutoEncoder

Masked AutoEncoder for Graph Clustering without Pre-defined Cluster Number k ( http://arxiv.org/abs/2401.04741v1 )

ライセンス: Link先を確認
Yuanchi Ma, Hui He, Zhongxiang Lei, Zhendong Niu(参考訳) オートエンコーダ構造を持つグラフクラスタリングアルゴリズムは、パフォーマンスとトレーニングコストの低さから最近人気を集めている。 しかし、GCNやGATに基づく既存のグラフオートエンコーダクラスタリングアルゴリズムでは、優れた一般化能力が欠如しているだけでなく、そのようなオートエンコーダモデルによってクラスタ化されたクラスタの数を自動的に決定することが困難である。 そこで我々は,Masked Autoencoders (GCMA) を用いたグラフクラスタリングという新しいフレームワークを提案する。 グラフの融合符号化のためのグラフマスキング法に基づいて設計したフュージョンオートエンコーダを用いる。 改良された密度ベースクラスタリングアルゴリズムを第2復号器として導入し,マルチターゲット再構成による復号化を行った。 マスクの埋め込みをデコードすることで、我々のモデルはより一般化され包括的な知識を捉えることができる。 クラスタ数とクラスタ化の結果は、一般化能力を高めながらエンドツーエンドに出力できる。 非パラメトリックなクラス法として、最先端のベースラインよりも \textit{GCMA} の方が優れていることを示す広範な実験がある。

Graph clustering algorithms with autoencoder structures have recently gained popularity due to their efficient performance and low training cost. However, for existing graph autoencoder clustering algorithms based on GCN or GAT, not only do they lack good generalization ability, but also the number of clusters clustered by such autoencoder models is difficult to determine automatically. To solve this problem, we propose a new framework called Graph Clustering with Masked Autoencoders (GCMA). It employs our designed fusion autoencoder based on the graph masking method for the fusion coding of graph. It introduces our improved density-based clustering algorithm as a second decoder while decoding with multi-target reconstruction. By decoding the mask embedding, our model can capture more generalized and comprehensive knowledge. The number of clusters and clustering results can be output end-to-end while improving the generalization ability. As a nonparametric class method, extensive experiments demonstrate the superiority of \textit{GCMA} over state-of-the-art baselines.
翻訳日:2024-01-11 16:18:04 公開日:2024-01-09
# fMRI研究における脳抽出のためのSegment Any Model(SAM)

Segment anything model (SAM) for brain extraction in fMRI studies ( http://arxiv.org/abs/2401.04740v1 )

ライセンス: Link先を確認
Dwith Chenna, Suyash Bhogawar(参考訳) 磁気共鳴画像(MRI)から頭蓋骨の脳の抽出と除去は、神経画像解析において重要な前処理ステップである。 人間のfmri画像を扱うために、多くのツールが開発されており、脳のセグメンテーションの結果を手作業で確認し、時間を消費し、非効率にする。 本研究では,Meta[4] がリリースしたニューラルネットワークである segment Any Model (SAM) を用いて,多くのジェネリックセグメンテーションアプリケーションにおいて有望な結果を示した。 我々は頭蓋骨のアーティファクトを除去し,脳のセグメンテーションを神経画像化するためのSAMの効率を解析する。 実験の結果は、カスタムな医用画像データセットをトレーニングすることなく、神経画像の自動分割アルゴリズムを用いて探索する有望な結果を示した。

Brain extraction and removal of skull artifacts from magnetic resonance images (MRI) is an important preprocessing step in neuroimaging analysis. There are many tools developed to handle human fMRI images, which could involve manual steps for verifying results from brain segmentation that makes it time consuming and inefficient. In this study, we will use the segment anything model (SAM), a freely available neural network released by Meta[4], which has shown promising results in many generic segmentation applications. We will analyze the efficiency of SAM for neuroimaging brain segmentation by removing skull artifacts. The results of the experiments showed promising results that explore using automated segmentation algorithms for neuroimaging without the need to train on custom medical imaging dataset.
翻訳日:2024-01-11 16:17:48 公開日:2024-01-09
# スタイル化フリーハンドスケッチのコンテンツコンディショニング生成

Content-Conditioned Generation of Stylized Free hand Sketches ( http://arxiv.org/abs/2401.04739v1 )

ライセンス: Link先を確認
Jiajun Liu, Siyuan Wang, Guangming Zhu, Liang Zhang, Ning Li and Eryang Gao(参考訳) 近年では、フリーハンドスケッチの認知が人気を博している。 しかし、軍事などの特殊分野においては、手書きのスケッチを大規模にサンプリングすることは困難である。 様々なフリーハンドスケッチスタイルで画像を生成するには,共通データ拡張と画像生成技術が困難である。 したがって、関連する分野における認識とセグメンテーションのタスクは限られている。 本稿では,様々なスタイルでリアルなフリーハンドスケッチを正確に生成できる,新しい逆生成ネットワークを提案する。 本モデルでは,事前の正規分布からランダムにサンプリングされたスタイルを用いて,様々なフリーハンドスケッチスタイルで画像を生成すること,既知のフリーハンドスケッチから画家のスタイルを遠ざけ,特定のスタイルで画像を生成すること,トレーニングセットにない未知のクラスの画像を生成することなど,モデルの性能について検討する。 さらに,SketchIMEにおける視覚的品質,コンテンツ精度,スタイル模倣の利点を質的かつ定量的に評価した。

In recent years, the recognition of free-hand sketches has remained a popular task. However, in some special fields such as the military field, free-hand sketches are difficult to sample on a large scale. Common data augmentation and image generation techniques are difficult to produce images with various free-hand sketching styles. Therefore, the recognition and segmentation tasks in related fields are limited. In this paper, we propose a novel adversarial generative network that can accurately generate realistic free-hand sketches with various styles. We explore the performance of the model, including using styles randomly sampled from a prior normal distribution to generate images with various free-hand sketching styles, disentangling the painters' styles from known free-hand sketches to generate images with specific styles, and generating images of unknown classes that are not in the training set. We further demonstrate with qualitative and quantitative evaluations our advantages in visual quality, content accuracy, and style imitation on SketchIME.
翻訳日:2024-01-11 16:17:34 公開日:2024-01-09
# 音楽ジャンル分類:メル周波数ケプストラム係数とメルスペクトログラムを用いたcnnとxgboostアプローチの比較分析

Music Genre Classification: A Comparative Analysis of CNN and XGBoost Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms ( http://arxiv.org/abs/2401.04737v1 )

ライセンス: Link先を確認
Yigang Meng(参考訳) 近年、様々なよく設計されたアルゴリズムが、好みに基づいたコンテンツを提供する音楽プラットフォームに力を与えている。 音楽ジャンルは、音響的特徴や文化的考察を含む様々な側面を通して定義される。 音楽ジャンル分類は、ユーザーと音楽の類似性に基づくコンテンツを推奨するコンテンツベースのフィルタリングとうまく機能する。 かなりのデータセットが与えられた場合、ある前提は、音声ファイルを効果的に分類できる機械学習またはディープラーニングメソッドを使用した自動アノテーションである。 システムの有効性は、異なるアーキテクチャと機能によって互いに促進され、異なる結果が得られるため、機能選択とモデル選択に大きく依存する。 本研究では,提案した畳み込みニューラルネットワーク(CNN),完全連結層を持つVGG16,および30秒メルスペクトルと3秒メル周波数ケプストラム係数(MFCC)の異なる特徴に対するeXtreme Gradient Boosting(XGBoost)アプローチの3つのモデルの性能について比較研究を行った。 その結果, MFCC XGBoostモデルが他のモデルよりも優れていた。 さらに、データ前処理フェーズにデータセグメンテーションを適用することで、cnnの性能を大幅に向上させることができる。

In recent years, various well-designed algorithms have empowered music platforms to provide content based on one's preferences. Music genres are defined through various aspects, including acoustic features and cultural considerations. Music genre classification works well with content-based filtering, which recommends content based on music similarity to users. Given a considerable dataset, one premise is automatic annotation using machine learning or deep learning methods that can effectively classify audio files. The effectiveness of systems largely depends on feature and model selection, as different architectures and features can facilitate each other and yield different results. In this study, we conduct a comparative study investigating the performances of three models: a proposed convolutional neural network (CNN), the VGG16 with fully connected layers (FC), and an eXtreme Gradient Boosting (XGBoost) approach on different features: 30-second Mel spectrogram and 3-second Mel-frequency cepstral coefficients (MFCCs). The results show that the MFCC XGBoost model outperformed the others. Furthermore, applying data segmentation in the data preprocessing phase can significantly enhance the performance of the CNNs.
翻訳日:2024-01-11 16:17:16 公開日:2024-01-09
# トレーニング済みのモデルは改善されましたか? マルチヘッド後部アプローチ

Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach ( http://arxiv.org/abs/2401.02987v2 )

ライセンス: Link先を確認
Prince Aboagye, Yan Zheng, Junpeng Wang, Uday Singh Saini, Xin Dai, Michael Yeh, Yujie Fan, Zhongfang Zhuang, Shubham Jain, Liang Wang and Wei Zhang(参考訳) 事前訓練されたモデルの出現は、自然言語処理(NLP)とコンピュータビジョンを関係データセットに大きく影響した。 伝統的に、これらのモデルは微調整された下流タスクによって評価される。 しかし、このことはこれらのモデルをより効率的に効率的に評価する方法の疑問を提起する。 本研究では,各エンティティに関連付けられたメタ特徴を世界的知識の源として活用し,モデルからエンティティ表現を採用する,新しいアプローチを提案する。 本稿では,これらの表現とメタ特徴の整合性を,事前学習モデルの評価指標として用いることを提案する。 提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。

The emergence of pretrained models has significantly impacted Natural Language Processing (NLP) and Computer Vision to relational datasets. Traditionally, these models are assessed through fine-tuned downstream tasks. However, this raises the question of how to evaluate these models more efficiently and more effectively. In this study, we explore a novel approach where we leverage the meta features associated with each entity as a source of worldly knowledge and employ entity representations from the models. We propose using the consistency between these representations and the meta features as a metric for evaluating pretrained models. Our method's effectiveness is demonstrated across various domains, including models with relational datasets, large language models and image models.
翻訳日:2024-01-11 16:16:38 公開日:2024-01-09
# mosecrot:クロスリンガルゼロショット転送のための静的単語埋め込みを用いたモデルステッチリング

MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer ( http://arxiv.org/abs/2401.04821v1 )

ライセンス: Link先を確認
Haotian Ye, Yihong Liu, Chunlan Ma, Hinrich Sch\"utze(参考訳) トランスフォーマーベースの事前学習言語モデル(PLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を発揮している。 しかし、そのようなモデルの事前トレーニングは、高リソース言語でしか利用できないかなりのリソースを必要とする可能性がある。 逆に静的な単語の埋め込みは、コンピューティングリソースと必要なデータ量の観点から訓練しやすくなります。 本稿では,静的な単語埋め込みが利用可能な低リソース言語に特に関係のある,斬新で困難なタスクであるMoSECroT Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transferを紹介する。 この課題に対処するため、我々は、相対表現を利用した最初のフレームワークを提案し、ソースコードPLMの埋め込みとターゲット言語の静的単語埋め込みのための共通空間を構築する。 このようにして、plmをソース言語トレーニングデータでトレーニングし、埋め込み層を単純に交換することで、ターゲット言語へのゼロショット転送を行うことができる。 しかし,2つの分類データセットに関する広範な実験により,提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。 本稿では,この否定的な結果を説明し,改善の可能性についていくつか考察する。

Transformer-based pre-trained language models (PLMs) have achieved remarkable performance in various natural language processing (NLP) tasks. However, pre-training such models can take considerable resources that are almost only available to high-resource languages. On the contrary, static word embeddings are easier to train in terms of computing resources and the amount of data required. In this paper, we introduce MoSECroT Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer), a novel and challenging task that is especially relevant to low-resource languages for which static word embeddings are available. To tackle the task, we present the first framework that leverages relative representations to construct a common space for the embeddings of a source language PLM and the static word embeddings of a target language. In this way, we can train the PLM on source-language training data and perform zero-shot transfer to the target language by simply swapping the embedding layer. However, through extensive experiments on two classification datasets, we show that although our proposed framework is competitive with weak baselines when addressing MoSECroT, it fails to achieve competitive results compared with some strong baselines. In this paper, we attempt to explain this negative result and provide several thoughts on possible improvement.
翻訳日:2024-01-11 16:09:09 公開日:2024-01-09
# HTMLコンテンツのマルチモデル解析によるフィッシングサイトの検出

Phishing Website Detection through Multi-Model Analysis of HTML Content ( http://arxiv.org/abs/2401.04820v1 )

ライセンス: Link先を確認
Furkan \c{C}olhak, Mert \.Ilhan Ecevit, Bilal Emir U\c{c}ar, Reiner Creutzburg, Hasan Da\u{g}(参考訳) インターネットの普及に伴い、コミュニケーションや仕事の仕方は大きく変化した。 新たな機会が開かれた一方で、サイバー脅威の増加ももたらした。 この研究は、HTMLコンテンツに細心の注意を払ってフォーカスする高度な検出モデルを導入することで、フィッシングの急激な問題に対処する。 提案手法は,構造化表データのための特殊多層パーセプトロン(MLP)モデルと,ページタイトルやコンテンツなどのテキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。 これらのモデルからの埋め込みは、新しい融合プロセスによって調和的に結合される。 結果として生じる融合埋め込みは線形分類器に入力される。 包括的なフィッシング研究のための最近のデータセットの不足を認識して、コミュニティとオープンに共有する最新のデータセットの作成に貢献します。 データセットは、実生活のフィッシング条件を反映し、妥当性と適用性を保証するために慎重にキュレートされている。 CANINEはページタイトルの分析に優れた性能を示し,RoBERTaはページコンテンツの評価に優れていた。 2つのNLPと1つのMLPモデルの融合により、96.80 F1スコアと97.18精度スコアが得られた。 さらに,提案手法はCatchPhish HTMLデータセットの既存手法よりも優れており,有効性を示している。

The way we communicate and work has changed significantly with the rise of the Internet. While it has opened up new opportunities, it has also brought about an increase in cyber threats. One common and serious threat is phishing, where cybercriminals employ deceptive methods to steal sensitive information.This study addresses the pressing issue of phishing by introducing an advanced detection model that meticulously focuses on HTML content. Our proposed approach integrates a specialized Multi-Layer Perceptron (MLP) model for structured tabular data and two pretrained Natural Language Processing (NLP) models for analyzing textual features such as page titles and content. The embeddings from these models are harmoniously combined through a novel fusion process. The resulting fused embeddings are then input into a linear classifier. Recognizing the scarcity of recent datasets for comprehensive phishing research, our contribution extends to the creation of an up-to-date dataset, which we openly share with the community. The dataset is meticulously curated to reflect real-life phishing conditions, ensuring relevance and applicability. The research findings highlight the effectiveness of the proposed approach, with the CANINE demonstrating superior performance in analyzing page titles and the RoBERTa excelling in evaluating page content. The fusion of two NLP and one MLP model,termed MultiText-LP, achieves impressive results, yielding a 96.80 F1 score and a 97.18 accuracy score on our research dataset. Furthermore, our approach outperforms existing methods on the CatchPhish HTML dataset, showcasing its efficacies.
翻訳日:2024-01-11 16:08:44 公開日:2024-01-09
# 非凸最適化のためのサンプル・アンド・バウンド

Sample-and-Bound for Non-Convex Optimization ( http://arxiv.org/abs/2401.04812v1 )

ライセンス: Link先を確認
Yaoguang Zhai, Zhizhen Qin, Sicun Gao(参考訳) ブランチとバウンドのような非凸関数のグローバルな最適化のための標準的なアプローチは、ドメインを体系的にプルーするためにパーティションツリーを維持する。 木の大きさは次元数で指数関数的に増加する。 モンテカルロ木探索(mcts)を効率良く適用した非凸最適化のためのサンプリングベース手法を提案する。 高信頼度境界における訪問カウントの標準的な使用の代わりに、目的の数値的近似を不確実性計量として利用し、一階情報と二階情報のサンプル推定を考慮に入れる。 我々のアプローチにおけるモンテカルロ木は、木の成長における通常の固定組合せパターンを避け、探索と利用のバランスを保ちながら、積極的に将来性のある領域に拡大する。 提案アルゴリズムは,高次元非凸最適化ベンチマークにおいて,競合するベースラインに対して評価し,ハイパーパラメータの効果を解析する。

Standard approaches for global optimization of non-convex functions, such as branch-and-bound, maintain partition trees to systematically prune the domain. The tree size grows exponentially in the number of dimensions. We propose new sampling-based methods for non-convex optimization that adapts Monte Carlo Tree Search (MCTS) to improve efficiency. Instead of the standard use of visitation count in Upper Confidence Bounds, we utilize numerical overapproximations of the objective as an uncertainty metric, and also take into account of sampled estimates of first-order and second-order information. The Monte Carlo tree in our approach avoids the usual fixed combinatorial patterns in growing the tree, and aggressively zooms into the promising regions, while still balancing exploration and exploitation. We evaluate the proposed algorithms on high-dimensional non-convex optimization benchmarks against competitive baselines and analyze the effects of the hyper parameters.
翻訳日:2024-01-11 16:08:22 公開日:2024-01-09
# translate-distill:翻訳と蒸留による言語間密検索の学習

Translate-Distill: Learning Cross-Language Dense Retrieval by Translation and Distillation ( http://arxiv.org/abs/2401.04810v1 )

ライセンス: Link先を確認
Eugene Yang and Dawn Lawrie and James Mayfield and Douglas W. Oard and Scott Miller(参考訳) 英語単言語検索の以前の研究は、クエリ文書ペアの関連判断を多用して訓練されたクロスエンコーダが教師として使用でき、より効率的だが、同様に効果的に二重エンコーダの学生モデルを学ぶことができることを示した。 クロスランゲージ情報検索(CLIR)では,クエリとドキュメントが異なる言語で,クエリとドキュメント言語が異なる場合に十分な量のトレーニングコレクションが存在しないため,類似の知識蒸留アプローチを用いて,効率的な二重エンコーダモデルを訓練することが困難である。 したがって、CLIRの最先端技術は、クエリやドキュメントの翻訳、あるいは大きな英語のMS MARCOトレーニングセット(Translate-Trainと呼ばれるアプローチ)の両方に依存している。 本稿では,モノリンガルのクロスエンコーダとCLIRのクロスエンコーダのどちらかから知識を蒸留して,デュアルエンコーダのCLIR学生モデルを訓練するTranslate-Distillを提案する。 このよりリッチなデザインスペースにより、教師モデルはCLIRを直接トレーニングしながら、最適化された設定で推論を実行できるようになる。 トレーニングされたモデルとアーティファクトは、Huggingfaceで公開されている。

Prior work on English monolingual retrieval has shown that a cross-encoder trained using a large number of relevance judgments for query-document pairs can be used as a teacher to train more efficient, but similarly effective, dual-encoder student models. Applying a similar knowledge distillation approach to training an efficient dual-encoder model for Cross-Language Information Retrieval (CLIR), where queries and documents are in different languages, is challenging due to the lack of a sufficiently large training collection when the query and document languages differ. The state of the art for CLIR thus relies on translating queries, documents, or both from the large English MS MARCO training set, an approach called Translate-Train. This paper proposes an alternative, Translate-Distill, in which knowledge distillation from either a monolingual cross-encoder or a CLIR cross-encoder is used to train a dual-encoder CLIR student model. This richer design space enables the teacher model to perform inference in an optimized setting, while training the student model directly for CLIR. Trained models and artifacts are publicly available on Huggingface.
翻訳日:2024-01-11 16:08:01 公開日:2024-01-09
# ckaと経験的手法を用いたリモートフォトプレチモグラフィアーキテクチャの精製

Refining Remote Photoplethysmography Architectures using CKA and Empirical Methods ( http://arxiv.org/abs/2401.04801v1 )

ライセンス: Link先を確認
Nathan Vance and Patrick Flynn(参考訳) モデルアーキテクチャの洗練は、リモートフォトプレチモグラフィ(rppg)のようなディープラーニング研究分野において難しい課題である。 アーキテクチャ上の考慮事項、すなわちモデルの深さは、結果のパフォーマンスに重大な影響を与える可能性がある。 必要以上のレイヤでオーバープロビジョンされたrPPGモデルでは、冗長性が存在し、その除去は高速なトレーニングと推論時の計算負荷の削減をもたらす。 層が多すぎると、モデルが最適以下のエラー率を示す可能性がある。 CKA(Centered Kernel Alignment)を異なる深さのrPPGアーキテクチャの配列に適用し、より浅いモデルではより深いモデルと同じ表現を学ばず、一定の深さで冗長層を追加しても機能が大きく向上しないことを示した。 実験的な研究によりこれらの発見が確認され、この手法がrPPGアーキテクチャの洗練にどのように役立つかが示されている。

Model architecture refinement is a challenging task in deep learning research fields such as remote photoplethysmography (rPPG). One architectural consideration, the depth of the model, can have significant consequences on the resulting performance. In rPPG models that are overprovisioned with more layers than necessary, redundancies exist, the removal of which can result in faster training and reduced computational load at inference time. With too few layers the models may exhibit sub-optimal error rates. We apply Centered Kernel Alignment (CKA) to an array of rPPG architectures of differing depths, demonstrating that shallower models do not learn the same representations as deeper models, and that after a certain depth, redundant layers are added without significantly increased functionality. An empirical study confirms these findings and shows how this method could be used to refine rPPG architectures.
翻訳日:2024-01-11 16:07:38 公開日:2024-01-09
# 最初の100日間のパンデミック : 薬物・行動・デジタル介入の相互作用-エージェント・ベース・モデリングを用いた研究

First 100 days of pandemic; an interplay of pharmaceutical, behavioral and digital interventions -- A study using agent based modeling ( http://arxiv.org/abs/2401.04795v1 )

ライセンス: Link先を確認
Gauri Gupta, Ritvik Kapila, Ayush Chopra, Ramesh Raskar(参考訳) パンデミック、特に最近の新型コロナウイルスの流行は、公衆衛生と世界経済の両方に影響を与えている。 今後の流行に備えるためには、病気の進行と効率的な対応戦略の深い理解が必要である。 本稿では,複雑な感染動態を捉え,介入の影響を理解する上で,エージェントベースモデル(ABM)の可能性を強調する。 我々は、現実の政策導入における課題を反映した現実的な医薬品、行動、デジタル介入をシミュレートし、これらの介入の全体的組み合わせをパンデミック対応に提案する。 これらのシミュレーションを用いて,ワシントン州キングス郡における実世界社会デマトグラフィーおよび地理センサスデータに基づいて,大規模人口における創発行動の傾向を検討した。 本分析は, 迅速な意思決定と効率的な政策開発の重要性を強調した上で, パンデミックの進路を決定する上で, 最初の100日間の重要な役割を明らかにした。 さらに、行動やデジタル介入への投資は、感染や入院の合計数を減らし、パンデミックのピークを遅らせることで、薬剤的介入の負担を軽減できる点を強調した。 また、接触追跡や自己検疫による広範囲な検査に同じ金額を割り当てることで、予防接種に全予算を費やすよりもコスト効率が高いと推測しています。

Pandemics, notably the recent COVID-19 outbreak, have impacted both public health and the global economy. A profound understanding of disease progression and efficient response strategies is thus needed to prepare for potential future outbreaks. In this paper, we emphasize the potential of Agent-Based Models (ABM) in capturing complex infection dynamics and understanding the impact of interventions. We simulate realistic pharmaceutical, behavioral, and digital interventions that mirror challenges in real-world policy adoption and suggest a holistic combination of these interventions for pandemic response. Using these simulations, we study the trends of emergent behavior on a large-scale population based on real-world socio-demographic and geo-census data from Kings County in Washington. Our analysis reveals the pivotal role of the initial 100 days in dictating a pandemic's course, emphasizing the importance of quick decision-making and efficient policy development. Further, we highlight that investing in behavioral and digital interventions can reduce the burden on pharmaceutical interventions by reducing the total number of infections and hospitalizations, and by delaying the pandemic's peak. We also infer that allocating the same amount of dollars towards extensive testing with contact tracing and self-quarantine offers greater cost efficiency compared to spending the entire budget on vaccinations.
翻訳日:2024-01-11 16:07:22 公開日:2024-01-09
# 2024 磁気顕微鏡技術のロードマップと材料科学への応用

2024 Roadmap on Magnetic Microscopy Techniques and Their Applications in Materials Science ( http://arxiv.org/abs/2401.04793v1 )

ライセンス: Link先を確認
D. V. Christensen, U. Staub, T. R. Devidas, B. Kalisky, K. C. Nowack, J.L. Webb, U.L. Andersen, A. Huck, D. A. Broadway, K. Wagner, P. Maletinsky, T. van der Sar, C. R. Du, A. Yacoby, D. Collomb, S. Bending, A. Oral, H. J. Hug, A.-O. Mandru, V. Neu, H. W. Schumacher, S. Sievers, H. Saito, A.A. Khajetoorians, N. Hauptmann, S. Baumann, A. Eichler, C. L. Degen, J. McCord, M. Vogel, M. Fiebig, P. Fischer, A. Hierro-Rodriguez, S. Finizio, S. S. Dhesi, C. Donnelly, Felix B\"uttner, O. Kfir, W. Hu, S. Zayko, S. Eisebitt, B. Pfau, R. Fr\"omter, M. Kl\"aui, F. S. Yasin, B. J. McMorran, S. Seki, X. Yu, A. Lubk, D. Wolf, N. Pryds, D. Makarov, M. Poggio(参考訳) 非従来型コンピューティング、データストレージ、センサアプリケーションに対する磁気材料への関心の高まりを考えると、材料合成だけでなく、その特性のキャラクタリゼーションについても活発な研究が行われている。 構造的および積分的な磁気特性の他に、磁化パターン、電流分布、ナノスケールでの磁場のイメージングは、材料応答を理解し、特定の用途に適合させる上で重要である。 本稿では,SQUID,スピンセンタ,ホール効果マグネトメトリー,走査型プローブ顕微鏡,X線・電子線法,磁気光学,ナノMRIを用いてナノ・マイクロイメージングを行うための幅広い技術について紹介する。 The roadmap is aimed as a single access point of information for experts in the field as well as the young generation of students outlining prospects of the development of magnetic imaging technologies for the upcoming decade with a focus on physics, materials science, and chemistry of planar, 3D and geometrically curved objects of different material classes including 2D materials, complex oxides, semi-metals, multiferroics, skyrmions, antiferromagnets, frustrated magnets, magnetic molecules/nanoparticles, ionic conductors, superconductors, spintronic and spinorbitronic materials.

Considering the growing interest in magnetic materials for unconventional computing, data storage, and sensor applications, there is active research not only on material synthesis but also characterisation of their properties. In addition to structural and integral magnetic characterisations, imaging of magnetization patterns, current distributions and magnetic fields at nano- and microscale is of major importance to understand the material responses and qualify them for specific applications. In this roadmap, we aim to cover a broad portfolio of techniques to perform nano- and microscale magnetic imaging using SQUIDs, spin center and Hall effect magnetometries, scanning probe microscopies, x-ray- and electron-based methods as well as magnetooptics and nanoMRI. The roadmap is aimed as a single access point of information for experts in the field as well as the young generation of students outlining prospects of the development of magnetic imaging technologies for the upcoming decade with a focus on physics, materials science, and chemistry of planar, 3D and geometrically curved objects of different material classes including 2D materials, complex oxides, semi-metals, multiferroics, skyrmions, antiferromagnets, frustrated magnets, magnetic molecules/nanoparticles, ionic conductors, superconductors, spintronic and spinorbitronic materials.
翻訳日:2024-01-11 16:06:58 公開日:2024-01-09
# SOS-SLAM:非構造環境におけるオープンセットSLAMのセグメンテーション

SOS-SLAM: Segmentation for Open-Set SLAM in Unstructured Environments ( http://arxiv.org/abs/2401.04791v1 )

ライセンス: Link先を確認
Jouko Kinnari, Annika Thomas, Parker Lusk, Kota Kondo, Jonathan P. How(参考訳) 本稿では,セグメンテーションを用いてオブジェクトの地図を作成する非構造化環境におけるオープンセット同時ローカライゼーション・マッピング(slam)のための新しいフレームワークを提案する。 私たちのシステムは 1)ゼロショットセグメンテーションモデルを用いたフロントエンドマッピングパイプラインを用いて、画像からオブジェクトマスクを抽出し、フレーム間で追跡してオブジェクトベースのマップを生成する。 2) 物体の幾何的整合性を利用して, 様々な条件で捉えた地図を効率的に位置決めするフレームアライメントパイプライン。 このアプローチは、従来の機能ベースのSLAMシステムやグローバルディスクリプタメソッドよりも、照明や外観の変化に対して堅牢であることが示されている。 これは、異なる季節と照明条件の間、南フィンランド沿岸のプロット上空で収集されたドローン飛行を含むバトヴィクの季節データセット上でSOS-SLAMを評価することによって確立される。 環境条件の異なる飛行において,本手法は精度1.0のベンチマーク手法よりも高いリコールを実現する。 SOS-SLAMは、他の特徴ベースのアプローチよりも最大14倍高速な参照マップ内をローカライズし、最もコンパクトな他のマップの0.4%未満のサイズを持つ。 異なる視点からのローカライゼーション性能を考慮すると、同じ視点から全てのベンチマークを上回り、異なる視点からほとんどのベンチマークを上回ります。 sos-slamは非構造環境におけるslamの新しいアプローチであり、照明や外観の変化に頑健であり、他のアプローチよりも計算効率が高い。 コードとデータセットを以下に公開します。

We present a novel framework for open-set Simultaneous Localization and Mapping (SLAM) in unstructured environments that uses segmentation to create a map of objects and geometric relationships between objects for localization. Our system consists of 1) a front-end mapping pipeline using a zero-shot segmentation model to extract object masks from images and track them across frames to generate an object-based map and 2) a frame alignment pipeline that uses the geometric consistency of objects to efficiently localize within maps taken in a variety of conditions. This approach is shown to be more robust to changes in lighting and appearance than traditional feature-based SLAM systems or global descriptor methods. This is established by evaluating SOS-SLAM on the Batvik seasonal dataset which includes drone flights collected over a coastal plot of southern Finland during different seasons and lighting conditions. Across flights during varying environmental conditions, our approach achieves higher recall than benchmark methods with precision of 1.0. SOS-SLAM localizes within a reference map up to 14x faster than other feature based approaches and has a map size less than 0.4% the size of the most compact other maps. When considering localization performance from varying viewpoints, our approach outperforms all benchmarks from the same viewpoint and most benchmarks from different viewpoints. SOS-SLAM is a promising new approach for SLAM in unstructured environments that is robust to changes in lighting and appearance and is more computationally efficient than other approaches. We release our code and datasets: https://acl.mit.edu/SOS-SLAM/.
翻訳日:2024-01-11 16:06:38 公開日:2024-01-09
# 量子近似最適化アルゴリズムのためのエネルギー景観

Energy Landscapes for the Quantum Approximate Optimisation Algorithm ( http://arxiv.org/abs/2401.04784v1 )

ライセンス: Link先を確認
Boy Choy, David J. Wales(参考訳) 変分量子アルゴリズム(VQA)は、現代の中間スケール量子(NISQ)時代のNPハード組合せ問題を解く大きな可能性を示している。 量子近似最適化アルゴリズム(QAOA)は、あるグラフの最大カット(Max-Cut)問題を、対応するトロッタ化アンサッツ内の$L$量子回路層を逐次実装することで解くアルゴリズムである。 回路深度の増加に伴う局所性ミニマの指数的増殖に起因するVQAsのコスト関数の探索は十分に文書化されている。 しかし, 回路深度がQAOA性能に及ぼす影響について, 正解であるMax-Cut法を求める研究は少ない。 ここでは,様々なグラフに対するQAOA ans\atzeのエネルギー景観を探索し,正しいMax-Cut解を求める上でのQAOA性能を分析するために,流域ホットなグローバルな最適化手法を用いる。 解空間の構造は、局所ミニマのデータベースを構築するための離散経路サンプリングとそれらを接続する遷移状態を用いて研究され、断続グラフを用いた洞察的な可視化を提供する。 対応するランドスケープは一般的に単一のファンネル組織を持つため、Max-Cut ソリューションの確率がよい低いミニマを見つけることは比較的容易である。 断熱限界以下の場合では、第2の最低局所最小値が、大域的最小値よりも高い解確率を与えることもある。 この重要な観察は、流域のグローバルな最適化から得られるミニマのコレクションに基づいて、QAOAのパフォーマンスを評価するためのより広範な指標を開発する動機となった。 そこで我々は,局所性ミニマから有用な解確率を解明するための期待しきい値を確立する。

Variational quantum algorithms (VQAs) have demonstrated considerable potential in solving NP-hard combinatorial problems in the contemporary near intermediate-scale quantum (NISQ) era. The quantum approximate optimisation algorithm (QAOA) is one such algorithm, used in solving the maximum cut (Max-Cut) problem for a given graph by successive implementation of $L$ quantum circuit layers within a corresponding Trotterised ansatz. The challenge of exploring the cost function of VQAs arising from an exponential proliferation of local minima with increasing circuit depth has been well-documented. However, fewer studies have investigated the impact of circuit depth on QAOA performance in finding the correct Max-Cut solution. Here, we employ basin-hopping global optimisation methods to navigate the energy landscapes for QAOA ans\"atze for various graphs, and analyse QAOA performance in finding the correct Max-Cut solution. The structure of the solution space is also investigated using discrete path sampling to build databases of local minima and the transition states that connect them, providing insightful visualisations using disconnectivity graphs. We find that the corresponding landscapes generally have a single funnel organisation, which makes it relatively straightforward to locate low-lying minima with good Max-Cut solution probabilities. In some cases below the adiabatic limit the second lowest local minimum may even yield a higher solution probability than the global minimum. This important observation has motivated us to develop broader metrics in evaluating QAOA performance, based on collections of minima obtained from basin-hopping global optimisation. Hence we establish expectation thresholds in elucidating useful solution probabilities from local minima, an approach that may provide significant gains in elucidating reasonable solution probabilities from local minima.
翻訳日:2024-01-11 16:06:11 公開日:2024-01-09
# BGK方程式に対する双曲型機械学習モーメントクロージャ

Hyperbolic Machine Learning Moment Closures for the BGK Equations ( http://arxiv.org/abs/2401.04783v1 )

ライセンス: Link先を確認
Andrew J. Christlieb, Mingchang Ding, Juntao Huang, and Nicholas A. Krupansky(参考訳) BGKのモーメントデータに基づいてトレーニングされたニューラルネットワーク(NN)を用いて,Bhatnagar-Gross-Krookの運動モデル(BGK)のグラッドモーメント展開のための双曲的クロージャを導入する。 この閉包は、transport \cite{huang2022-rte1} における閉包に関する論文で導いた自由ストリーミング制限の完全閉包によって動機付けられたものである。 正確な閉包は、最高モーメントの勾配と4つの低モーメントの勾配に関係している。 過去の研究と同様に、ここで提示したモデルは、すべての下層の勾配係数の観点から、最も高いモーメントの勾配を学習する。 必然的にこれは、結果として生じる双曲系が最も高い時点において保守的でないことを意味する。 安定のために、NNの出力層は双曲性とガリレオ不変性を強制するように設計されている。 これにより、モデルがnnのトレーニングウィンドウの外で動作することが保証される。 線形モデルを扱うこれまでの放射線輸送研究とは異なり、bgkモデルの非線形性は高度なトレーニングツールを必要とした。 これらは、最適な学習率の発見、1サイクルのトレーニング、各ニューラルネットワーク層のバッチ正規化、および \texttt{AdamW}オプティマイザの使用を含む。 双曲モデルの非保存構造に対処するために, 力数値法を適用してロバスト解を求める。 この結果、学習閉包と双曲モデルを解く方法を組み合わせた包括的計算モデルが得られる。 提案モデルは、クヌーゼン数の範囲の広い範囲にわたって正確なモーメント解を捉えることができる。 本稿では,マルチスケールモデルの構築について詳述し,様々なテスト問題に適用する。

We introduce a hyperbolic closure for the Grad moment expansion of the Bhatnagar-Gross-Krook's (BGK) kinetic model using a neural network (NN) trained on BGK's moment data. This closure is motivated by the exact closure for the free streaming limit that we derived in our paper on closures in transport \cite{Huang2022-RTE1}. The exact closure relates the gradient of the highest moment to the gradient of four lower moments. As with our past work, the model presented here learns the gradient of the highest moment in terms of the coefficients of gradients for all lower ones. By necessity, this means that the resulting hyperbolic system is not conservative in the highest moment. For stability, the output layers of the NN are designed to enforce hyperbolicity and Galilean invariance. This ensures the model can be run outside of the training window of the NN. Unlike our previous work on radiation transport that dealt with linear models, the BGK model's nonlinearity demanded advanced training tools. These comprised an optimal learning rate discovery, one cycle training, batch normalization in each neural layer, and the use of the \texttt{AdamW} optimizer. To address the non-conservative structure of the hyperbolic model, we adopt the FORCE numerical method to achieve robust solutions. This results in a comprehensive computing model combining learned closures with methods for solving hyperbolic models. The proposed model can capture accurate moment solutions across a broad spectrum of Knudsen numbers. Our paper details the multi-scale model construction and is run on a range of test problems.
翻訳日:2024-01-11 16:05:39 公開日:2024-01-09
# 特徴関数のための生成ニューラルネットワーク

Generative neural networks for characteristic functions ( http://arxiv.org/abs/2401.04778v1 )

ライセンス: Link先を確認
Florian Br\"uck(参考訳) 本研究では,ブラックボックス形式でのみアクセス可能な(多変量)特徴関数からシミュレートするシミュレーションアルゴリズムを提案する。 本研究では,損失関数が最大平均値の特定の表現を利用する生成ニューラルネットワークを構築し,目的とする特徴関数を直接組み込む。 構成は次元から独立であり、与えられた特性函数に関する仮定を一切必要としないという意味で普遍的である。 さらに、最大平均離散度メートル法で近似品質の有限サンプル保証を導出する。 この手法は短いシミュレーション研究で示されている。

In this work, we provide a simulation algorithm to simulate from a (multivariate) characteristic function, which is only accessible in a black-box format. We construct a generative neural network, whose loss function exploits a specific representation of the Maximum-Mean-Discrepancy metric to directly incorporate the targeted characteristic function. The construction is universal in the sense that it is independent of the dimension and that it does not require any assumptions on the given characteristic function. Furthermore, finite sample guarantees on the approximation quality in terms of the Maximum-Mean Discrepancy metric are derived. The method is illustrated in a short simulation study.
翻訳日:2024-01-11 16:05:11 公開日:2024-01-09
# 量子客観性定量化における平均的相互情報の利用の重要性

The importance of using the averaged mutual information when quantifying quantum objectivity ( http://arxiv.org/abs/2401.04769v1 )

ライセンス: Link先を確認
Diana A. Chisholm, Luca Innocenti and G. Massimo Palma(参考訳) 量子客観性の文脈において、状態の古典性を定量化する標準的な方法は、システムと環境の異なる部分の間の相互情報である。 量子相互情報を通じて量子客観性を定量化する関連文献で開発されたツールの多くは、システムに関する情報がその環境に対称に漏れるという仮定に依存している。 本稿では、この仮定を考慮に入れることの重要性を強調し、特に、非均一な方法でシステムに関する情報が環境にコード化される場合、量子客観性の量子化量化器として、非平均量子相互情報をどう捉えるかを分析する。 一方、平均的な相互情報は、常に明確な操作解釈を備えた結果を提供する。

In the context of quantum objectivity, a standard way to quantify the classicality of a state is via the mutual information between a system and different fractions of its environment. Many of the tools developed in the relevant literature to quantify quantum objectivity via quantum mutual information rely on the assumption that information about the system leaks symmetrically into its environment. In this work, we highlight the importance of taking this assumption into account, and in particular, analyse how taking non-averaged quantum mutual information as a quantifier of quantum objectivity can be severely misleading whenever information about the system is encoded into the environment in a non-homogeneous way. On the other hand, the averaged mutual information always provides results with a clear operative interpretation.
翻訳日:2024-01-11 16:05:02 公開日:2024-01-09
# 相互作用するマヨラナ鎖の絡み合いとフォン・ノイマン環の遷移

Entanglement in interacting Majorana chains and transitions of von Neumann algebras ( http://arxiv.org/abs/2401.04764v1 )

ライセンス: Link先を確認
Pablo Basteiro, Giuseppe Di Giulio, Johanna Erdmenger, Zhuo-Yu Xian(参考訳) フェルミオン双線型の一般関数からなる2サイト相互作用を持つマヨラナ格子を考える。 これらのモデルは、多くのオンサイトフェルミオンの限界で正確に解くことができる。 4つの部位の連鎖はホッピングパラメータによって制御される量子相転移を示し、一方のモジュラーハミルトニアンを制約して得られる不連続な絡み合いエントロピーで現れる。 ads/cft対応における最近の研究に触発されて、フォン・ノイマン作用素代数のタイプ間の相図全体の遷移を同定する。 II$_1\leftrightarrow\,$III$\,\,\,$I$_\infty$ から II$_1\leftrightarrow\,\,$I$_\infty$ への変換は、非分解的基底状態と分解的基底状態とを連結する強相互作用極限に現れる。 この結果は、制御された多体モデルにおけるそのような遷移の新たな実現をもたらす。

We consider Majorana lattices with two-site interactions consisting of a general function of the fermion bilinear. The models are exactly solvable in the limit of a large number of on-site fermions. The four-site chain exhibits a quantum phase transition controlled by the hopping parameters and manifests itself in a discontinuous entanglement entropy, obtained by constraining the one-sided modular Hamiltonian. Inspired by recent work within the AdS/CFT correspondence, we identify transitions between types of von Neumann operator algebras throughout the phase diagram. We find transitions of the form II$_1\leftrightarrow\,$III$\,\,\leftrightarrow\,\,$I$_\infty$ that reduce to II$_1\leftrightarrow\,\,$I$_\infty$ in the strongly interacting limit, where they connect non-factorized and factorized ground states. Our results provide novel realizations of such transitions in a controlled many-body model.
翻訳日:2024-01-11 16:04:43 公開日:2024-01-09
# 言語モデルベンチマークのパフォーマンスはどの程度予測可能か?

How predictable is language model benchmark performance? ( http://arxiv.org/abs/2401.04757v1 )

ライセンス: Link先を確認
David Owen(参考訳) 近年の11のモデルアーキテクチャにおいて,大規模言語モデルの性能を5桁のスケールで検証した。 我々は,一般的な大規模ベンチマークデータセットのように,個々のタスクや評価を集約した平均ベンチマーク性能が,計算規模をトレーニングする機能として十分に予測可能であることを示す。 具体的には、BIG-Bench Hardのパフォーマンスを1桁の計算で外挿する場合、平均絶対誤差は6ポイント(pp)である。 対照的に、計算におけるBIG-Benchの個々のタスクに対する外挿は18ppという高い平均誤差をもたらす。 それでも、個々のタスクのパフォーマンスは、チャンスよりもかなり予測可能である。 全体的には、計算スケーリングは、さまざまなベンチマークでAI能力を予測するための有望な基盤を提供するが、特定のタスクのパフォーマンスを予測することは課題をもたらす。

We investigate large language model performance across five orders of magnitude of compute scaling in eleven recent model architectures. We show that average benchmark performance, aggregating over many individual tasks and evaluations as in the commonly-used BIG-Bench dataset, is decently predictable as a function of training compute scale. Specifically, when extrapolating BIG-Bench Hard performance across one order of magnitude in compute, we observe average absolute errors of 6 percentage points (pp). By contrast, extrapolation for individual BIG-Bench tasks across an order of magnitude in compute yields higher average errors of 18pp. Nonetheless, individual task performance remains significantly more predictable than chance. Overall, our work suggests compute scaling provides a promising basis to forecast AI capabilities in diverse benchmarks, though predicting performance in specific tasks poses challenges.
翻訳日:2024-01-11 16:04:13 公開日:2024-01-09
# 口語テキストからのエンティティ認識

Entity Recognition from Colloquial Text ( http://arxiv.org/abs/2401.04853v1 )

ライセンス: Link先を確認
Tamara Babaian, Jennifer Xu(参考訳) ソーシャルメディア投稿や非公式コミュニケーションといった非形式テキストから興味のある概念や実体を抽出することは、医療、顧客関係管理など、多くのドメインにおける意思決定支援システムにとって重要な機能である。 近年、様々な自然言語処理タスクのための大規模言語モデルの訓練が進んでいるにもかかわらず、発達したモデルと技術は主に形式的なテキストに焦点を合わせており、多くの異なる課題を特徴とする口語データによく対応していない。 本研究は医療分野に焦点をあて,BERTモデルファインチューニングのためのいくつかのトレーニング戦略を設計・評価することで,口語テキストからの症状認識の問題を検討する。 これらの戦略は、ベースモデルの選択、トレーニングコーパス、およびトレーニングデータにおける項摂動の適用によって区別される。 これらの戦略を用いて訓練された最高のパフォーマンスモデルは、最先端の専門症状認識器よりも大きなマージンで優れている。 一連の実験を通じて、設計したトレーニング戦略に関連するモデル行動の具体的なパターンを発見しました。 本研究は,言語文における効果的な実体認識のための学習戦略の設計原則について述べる。

Extraction of concepts and entities of interest from non-formal texts such as social media posts and informal communication is an important capability for decision support systems in many domains, including healthcare, customer relationship management, and others. Despite the recent advances in training large language models for a variety of natural language processing tasks, the developed models and techniques have mainly focused on formal texts and do not perform as well on colloquial data, which is characterized by a number of distinct challenges. In our research, we focus on the healthcare domain and investigate the problem of symptom recognition from colloquial texts by designing and evaluating several training strategies for BERT-based model fine-tuning. These strategies are distinguished by the choice of the base model, the training corpora, and application of term perturbations in the training data. The best-performing models trained using these strategies outperform the state-of-the-art specialized symptom recognizer by a large margin. Through a series of experiments, we have found specific patterns of model behavior associated with the training strategies we designed. We present design principles for training strategies for effective entity recognition in colloquial texts based on our findings.
翻訳日:2024-01-11 15:55:06 公開日:2024-01-09
# 運用制約, 変動需要, 不確実性を考慮した都市空調のためのグラフ学習型フリートスケジューリング

Graph Learning-based Fleet Scheduling for Urban Air Mobility under Operational Constraints, Varying Demand & Uncertainties ( http://arxiv.org/abs/2401.04851v1 )

ライセンス: Link先を確認
Steve Paul, Jhoel Witter, Souma Chowdhury(参考訳) 本稿では,都市空力(UAM)艦隊を複数の空港で運用する電気航空機のスケジュールと目的地のオンライン計画のためのグラフ強化学習手法を開発する。 この艦隊のスケジューリング問題は、時空需要、めまい能力に関する制約、航空機の容量と航空空間の安全ガイドライン、離陸遅延に関する不確実性、天候による経路閉鎖、予期せぬ航空機のダウンタイムなどを考慮するために定式化されている。 このような定式化は、既存のUAMフリート計画実装よりも複雑さが大きく、現実性も増大する可能性がある。 これらの複雑さに対処するため、新しいポリシーアーキテクチャが構築され、バーティポートと航空機のフリート状態の両方をグラフとして抽象化するグラフカプセルconv-nets、需要と乗客の運賃に関する時系列情報をエンコードするトランスフォーマー層、エンコードされた情報を使用して航空機の利用可能な各目的地を選択する確率を計算するマルチヘッドアテンションベースのデコーダが含まれる。 Proximal Policy Optimizationで訓練されたこのポリシーアーキテクチャは、ランダムなベースラインと遺伝的アルゴリズムによる最適解と比較して、8つのバーティポートと40機の航空機を含む見知らぬテストシナリオにおいて、日々の平均的な利益率において、後者よりも1000倍近いパフォーマンスを示している。

This paper develops a graph reinforcement learning approach to online planning of the schedule and destinations of electric aircraft that comprise an urban air mobility (UAM) fleet operating across multiple vertiports. This fleet scheduling problem is formulated to consider time-varying demand, constraints related to vertiport capacity, aircraft capacity and airspace safety guidelines, uncertainties related to take-off delay, weather-induced route closures, and unanticipated aircraft downtime. Collectively, such a formulation presents greater complexity, and potentially increased realism, than in existing UAM fleet planning implementations. To address these complexities, a new policy architecture is constructed, primary components of which include: graph capsule conv-nets for encoding vertiport and aircraft-fleet states both abstracted as graphs; transformer layers encoding time series information on demand and passenger fare; and a Multi-head Attention-based decoder that uses the encoded information to compute the probability of selecting each available destination for an aircraft. Trained with Proximal Policy Optimization, this policy architecture shows significantly better performance in terms of daily averaged profits on unseen test scenarios involving 8 vertiports and 40 aircraft, when compared to a random baseline and genetic algorithm-derived optimal solutions, while being nearly 1000 times faster in execution than the latter.
翻訳日:2024-01-11 15:54:47 公開日:2024-01-09
# コミュニティビジネスクラスタのレジリエントな空間計画のための空間相互作用モデルの深層学習表現

A Deep Learning Representation of Spatial Interaction Model for Resilient Spatial Planning of Community Business Clusters ( http://arxiv.org/abs/2401.04849v1 )

ライセンス: Link先を確認
Haiyan Hao and Yan Wang(参考訳) 既存の空間相互作用モデル(SIM)は、ビジネスクラスタと貿易領域の間の複雑なコンテキスト対応の相互作用を捉える場合に限られる。 この制限に対処するために,コミュニティビジネスクラスタと取引エリア間の時空間訪問フローを予測するSIM-GATモデルを提案する。 このモデルは、連結グラフを用いて、都市域内のビジネスクラスタ、貿易エリア、交通インフラの統合システムを革新的に表現する。 次に、グラフベースのディープラーニングモデル、すなわちGraph AttenTion Network(GAT)を使用して、ビジネスクラスタの複雑さと相互依存性をキャプチャする。 フロリダのマイアミ大都市圏から収集したデータを用いて,このモデルを開発した。 次に、eXplainable AIアプローチを用いて、さまざまな住宅地区やシナリオにまたがるビジネスクラスタのさまざまな魅力を捕捉する効果を実証した。 本稿では,コミュニティ間ビジネスクラスタのダイナミクスを予測・解析するために,従来のSIMを補完する新しい手法を提案する。 分析結果は、コミュニティビジネスクラスタがシナリオを越えて顧客を適合させるのに役立つデータ提供型および場所固有の計画戦略を通知し、それによってコミュニティビジネスのレジリエンスを向上させる。

Existing Spatial Interaction Models (SIMs) are limited in capturing the complex and context-aware interactions between business clusters and trade areas. To address the limitation, we propose a SIM-GAT model to predict spatiotemporal visitation flows between community business clusters and their trade areas. The model innovatively represents the integrated system of business clusters, trade areas, and transportation infrastructure within an urban region using a connected graph. Then, a graph-based deep learning model, i.e., Graph AttenTion network (GAT), is used to capture the complexity and interdependencies of business clusters. We developed this model with data collected from the Miami metropolitan area in Florida. We then demonstrated its effectiveness in capturing varying attractiveness of business clusters to different residential neighborhoods and across scenarios with an eXplainable AI approach. We contribute a novel method supplementing conventional SIMs to predict and analyze the dynamics of inter-connected community business clusters. The analysis results can inform data-evidenced and place-specific planning strategies helping community business clusters better accommodate their customers across scenarios, and hence improve the resilience of community businesses.
翻訳日:2024-01-11 15:54:19 公開日:2024-01-09
# 転校学習時代のアラビア語テキスト読取:トークン分類は必要なすべて

Arabic Text Diacritization In The Age Of Transfer Learning: Token Classification Is All You Need ( http://arxiv.org/abs/2401.04848v1 )

ライセンス: Link先を確認
Abderrahman Skiredj, Ismail Berrada(参考訳) アラビア語のテキストの自動ダイアクリティカル化には、テキストにダイアクリティカルマーク(ダイアクリティカルマーク)を追加することが含まれる。 このタスクは、計算処理と理解に注目すべき意味を持つ重要な課題をもたらす。 本稿では,アラビア文字発音タスクの新しい2段階アプローチであるPTCAD(Pre-FineTuned Token Classification for Arabic Diacritization)を紹介する。 PTCADは、事前訓練されたモデルのトークン分類タスクとしてアラビア文字発音処理を扱い、ファインタニングフェーズとファインタニングフェーズから構成される。 PTCADの有効性は、Tashkeelaデータセットから得られた2つのベンチマークデータセットで評価され、既存のベンチマークに比べてワードエラー率(WER)が20倍減少し、ATDタスクにおいてGPT-4よりも優れたパフォーマンスを示す。

Automatic diacritization of Arabic text involves adding diacritical marks (diacritics) to the text. This task poses a significant challenge with noteworthy implications for computational processing and comprehension. In this paper, we introduce PTCAD (Pre-FineTuned Token Classification for Arabic Diacritization, a novel two-phase approach for the Arabic Text Diacritization task. PTCAD comprises a pre-finetuning phase and a finetuning phase, treating Arabic Text Diacritization as a token classification task for pre-trained models. The effectiveness of PTCAD is demonstrated through evaluations on two benchmark datasets derived from the Tashkeela dataset, where it achieves state-of-the-art results, including a 20\% reduction in Word Error Rate (WER) compared to existing benchmarks and superior performance over GPT-4 in ATD tasks.
翻訳日:2024-01-11 15:53:57 公開日:2024-01-09
# 一般化等張再帰的分割アルゴリズムの正しさについて

On the Correctness of the Generalized Isotonic Recursive Partitioning Algorithm ( http://arxiv.org/abs/2401.04847v1 )

ライセンス: Link先を確認
Joong-Ho Won and Jinan Jung(参考訳) 本稿では,Luss and Rosset [J. Comput. Graph. Statist., 23 (2014), pp. 192--201] によって提案され,Painsky and Rosset [IEEE Trans. Pattern Anal. Mach. Intell., 38 (2016), pp. 308-321] によって拡張された,分離凸損失下でのイソトニックモデル適合のための一般化イソトニック再帰分割(GIRP)アルゴリズムの詳細な解析を行う。 GIRPアルゴリズムはアルゴリズムの各ステップにおいて、中間解が等調性制約を満たすような魅力的な特徴を示す。 論文は、文献に記述されているガープアルゴリズムが等張的モデルの作成に失敗していることを示す例から始まり、等張的回帰問題に対する解の存在と一意性について慎重に取り組まなければならないことを示唆する。 これは、おそらく多くの解のうち、観測されたデータの再帰的なバイナリ分割によって見つかる解が存在することを示すことから始まる。 GIRPアルゴリズムの小さな修正は正しい解を得るのに十分であり、すべての中間解が等方性であることの望ましい性質を保存する。 この修正は、中間解の適切な選択と、3次から2次への分割ステップの単純化を含む。

This paper presents an in-depth analysis of the generalized isotonic recursive partitioning (GIRP) algorithm for fitting isotonic models under separable convex losses, proposed by Luss and Rosset [J. Comput. Graph. Statist., 23 (2014), pp. 192--201] for differentiable losses and extended by Painsky and Rosset [IEEE Trans. Pattern Anal. Mach. Intell., 38 (2016), pp. 308-321] for nondifferentiable losses. The GIRP algorithm poseses an attractive feature that in each step of the algorithm, the intermediate solution satisfies the isotonicity constraint. The paper begins with an example showing that the GIRP algorithm as described in the literature may fail to produce an isotonic model, suggesting that the existence and uniqueness of the solution to the isotonic regression problem must be carefully addressed. It proceeds with showing that, among possibly many solutions, there indeed exists a solution that can be found by recursive binary partitioning of the set of observed data. A small modification of the GIRP algorithm suffices to obtain a correct solution and preserve the desired property that all the intermediate solutions are isotonic. This proposed modification includes a proper choice of intermediate solutions and a simplification of the partitioning step from ternary to binary.
翻訳日:2024-01-11 15:53:42 公開日:2024-01-09
# よく教育された知性の本質的善さ

The inherent goodness of well educated intelligence ( http://arxiv.org/abs/2401.04846v1 )

ライセンス: Link先を確認
Michael E. Glinsky and Sharon Sievert(参考訳) この論文は、生物学的な存在であろうと、コンピューター上の人工シリコンであろうと、何が知的であるかを調べる。 特に注目されるのは、保守的に相互作用する多くの同一の保守的なサブシステムの集合システムを特徴づけ、制御する能力を持つことである。 インテリジェンスの本質は、黄金律("the collective act as one" または "knowing the global consequences of local action")である。 集合体の流れは小さなツインクリングテクスチャの集合であり、最小作用の測地運動に従って少数の弦を引いている人形師によって支配され、対称性によって決定される。 集団的保守システムの制御は困難であり、歴史的に、最大性能の望ましいメタ安定平衡を安定化するためにシステムに大きな粘度を加えることによって行われてきた。 代替案がある。 メタ安定平衡の最適双極子テクスチャが知的存在(集合系が特徴)によって同定されると、集合系は知的存在によって最適な双極子テクスチャに移動され、その後、集合系がメタ安定平衡に残るように、知的存在によって迅速に振動される。 知識に富んだ知性は、その地域行動の世界的な影響を知っており、短期的な行動が長期的な成果を損なうことはない。 対照的に、訓練された知性や訓練された愚かさは短期的な行動を最適化する。 教養のある知性は本質的に良いが、訓練された愚かさは本質的に悪であり、恐れるべきである。 特に、経済・社会集団の制御と最適化に注意が払われている。

This paper will examine what makes a being intelligent, whether that be a biological being or an artificial silicon being on a computer. Special attention will be paid to the being having the ability to characterize and control a collective system of many identical conservative sub-systems conservatively interacting. The essence of intelligence will be found to be the golden rule -- "the collective acts as one" or "knowing the global consequences of local actions". The flow of the collective is a small set of twinkling textures, that are governed by a puppeteer who is pulling a small number of strings according to a geodesic motion of least action, determined by the symmetries. Controlling collective conservative systems is difficult and has historically been done by adding significant viscosity to the system to stabilize the desirable meta stable equilibriums of maximum performance, but it degrades or destroys them in the process. There is an alternative. Once the optimum twinkling textures of the meta stable equilibriums are identified by the intelligent being (that is the collective system is characterized), the collective system can be moved by the intelligent being to the optimum twinkling textures, then quickly vibrated by the intelligent being according to the textures so that the collective system remains at the meta stable equilibrium. Well educated intelligence knows the global consequences of its local actions so that it will not take short term actions that will lead to poor long term outcomes. In contrast, trained intelligence or trained stupidity will optimize its short term actions, leading to poor long term outcomes. Well educated intelligence is inherently good, but trained stupidity is inherently evil and should be feared. Particular attention is paid to the control and optimization of economic and social collectives.
翻訳日:2024-01-11 15:53:12 公開日:2024-01-09
# T-PRIME:エッジでの機械学習のためのトランスフォーマーベースのプロトコル識別

T-PRIME: Transformer-based Protocol Identification for Machine-learning at the Edge ( http://arxiv.org/abs/2401.04837v1 )

ライセンス: Link先を確認
Mauro Belgiovine, Joshua Groen, Miquel Sirera, Chinenye Tassie, Ayberk Yarkin Yildiz, Sage Trudeau, Stratis Ioannidis, Kaushik Chowdhury(参考訳) スペクトル共有により、同じ標準(例えば802.11ファミリ)や異なる標準(例えばLTEとDVB)の異なるプロトコルが重なり合う周波数帯域で共存できる。 このパラダイムが広まるにつれて、無線システムはプリアンブルの意図的な歪み、信号対雑音比の極低、挑戦的なチャネル条件の下で、アクティブな送信機や未許可波形をリアルタイムで識別するためにも進化する必要がある。 我々は,T-PRIME(Transformer-based machine learning approach)の設計を通じて,相関型プレアンブルマッチング手法の制約を克服する。 T-PRIMEは、プリアンブルのみを超えるシーケンスパターンを見て、そのアテンションメカニズムを通じて送信フレームの構造設計を学習する。 まず、Transformerモデルを比較し、従来の手法や最先端のニューラルネットワークよりも優れていることを示す。 次に、DeepWaveのAIR-Tプラットフォーム上でのT-PRIMEのリアルタイム実現可能性を分析します。 第3に、トレーニングには66GBのOTA(Over-the-air)WiFi送信データセットを使用しており、コミュニティ利用のコードとともにリリースされている。 その結果、シミュレーションシナリオでは、ほぼ完全な分類精度(すなわち、$>98\%$)が示され、低SNR域のレガシーメソッドよりも100\%$検出精度が向上し、OTA単一プロトコール伝送の分類精度が97\%$、干渉シナリオにおける最大75\%$ダブルプロトコール分類精度が示された。

Spectrum sharing allows different protocols of the same standard (e.g., 802.11 family) or different standards (e.g., LTE and DVB) to coexist in overlapping frequency bands. As this paradigm continues to spread, wireless systems must also evolve to identify active transmitters and unauthorized waveforms in real time under intentional distortion of preambles, extremely low signal-to-noise ratios and challenging channel conditions. We overcome limitations of correlation-based preamble matching methods in such conditions through the design of T-PRIME: a Transformer-based machine learning approach. T-PRIME learns the structural design of transmitted frames through its attention mechanism, looking at sequence patterns that go beyond the preamble alone. The paper makes three contributions: First, it compares Transformer models and demonstrates their superiority over traditional methods and state-of-the-art neural networks. Second, it rigorously analyzes T-PRIME's real-time feasibility on DeepWave's AIR-T platform. Third, it utilizes an extensive 66 GB dataset of over-the-air (OTA) WiFi transmissions for training, which is released along with the code for community use. Results reveal nearly perfect (i.e. $>98\%$) classification accuracy under simulated scenarios, showing $100\%$ detection improvement over legacy methods in low SNR ranges, $97\%$ classification accuracy for OTA single-protocol transmissions and up to $75\%$ double-protocol classification accuracy in interference scenarios.
翻訳日:2024-01-11 15:52:39 公開日:2024-01-09
# GNNShap:シェープ値を用いた高速かつ正確なGNN説明

GNNShap: Fast and Accurate GNN Explanations using Shapley Values ( http://arxiv.org/abs/2401.04829v1 )

ライセンス: Link先を確認
Selahattin Akkas and Ariful Azad(参考訳) グラフニューラルネットワーク(GNN)は、科学領域にまたがる多くの応用を持つグラフのための一般的な機械学習モデルである。 しかし、GNNはブラックボックスモデルと考えられており、モデルがどのように予測を行うかを理解するのは難しい。 ゲーム理論に基づくShapley値アプローチは、他の領域で一般的な説明法であるが、グラフに対しては十分に研究されていない。 いくつかの研究はシェープリー値に基づくGNNの説明を提案しているが、それらにはいくつかの制限がある: シャプリー値に近似する限られたサンプルを考える; 主に小規模で大規模な連立型に焦点を合わせ、それらは他の説明法よりも桁違いに遅いので、中程度のグラフにも適用できない。 本稿では,グラフの自然な説明や細かな説明を提供するため,エッジの説明を提供するgnnshapを提案する。 この制限を克服するために,すべての結合サイズからサンプリングし,gpu上でサンプリングを並列化し,バッチ処理によるモデル予測を高速化する。 GNNShapは、実世界のデータセットのベースラインよりも優れた忠実度スコアと高速な説明を提供する。

Graph neural networks (GNNs) are popular machine learning models for graphs with many applications across scientific domains. However, GNNs are considered black box models, and it is challenging to understand how the model makes predictions. Game theory-based Shapley value approaches are popular explanation methods in other domains but are not well-studied for graphs. Some studies have proposed Shapley value-based GNN explanations, yet they have several limitations: they consider limited samples to approximate Shapley values; some mainly focus on small and large coalition sizes, and they are an order of magnitude slower than other explanation methods, making them inapplicable to even moderate-size graphs. In this work, we propose GNNShap, which provides explanations for edges since they provide more natural explanations for graphs and more fine-grained explanations. We overcome the limitations by sampling from all coalition sizes, parallelizing the sampling on GPUs, and speeding up model predictions by batching. GNNShap gives better fidelity scores and faster explanations than baselines on real-world datasets.
翻訳日:2024-01-11 15:52:09 公開日:2024-01-09
# 基本信号対雑音比が向上しない例外点センサ

Exceptional-point Sensors Offer No Fundamental Signal-to-Noise Ratio Enhancement ( http://arxiv.org/abs/2401.04825v1 )

ライセンス: Link先を確認
Hudson A. Loughlin and Vivishek Sudhir(参考訳) 例外点(EP)センサは、外乱に応じて正方根共振周波数分岐によって特徴付けられる。 これにより、これらのシステムをアプリケーションセンシングに使用するための多くの提案が導かれている。 しかし、この感度の利点がシステム内の追加ノイズによって否定されるかどうかについては、議論がある。 一般化力の測定におけるEPセンサの精度は,EPに近接する操作点から独立していることを示す。 これは、センサーの基本的な起源である周波数ノイズ(量子的および熱的ゆらぎによる)がEP近傍での共鳴周波数感度の増加の恩恵を正確にキャンセルする方法で増加するためである。 したがって、EPセンサの利点は、技術ノイズによって感知が制限される体制に限られる。 最後に,基本ノイズに制限されても有利な位相感応利得を持つepセンサについて概説する。

Exceptional-point (EP) sensors are characterized by a square-root resonant frequency bifurcation in response to an external perturbation. This has lead numerous suggestions for using these systems for sensing applications. However, there is an open debate as to whether or not this sensitivity advantage is negated by additional noise in the system. We show that an EP sensor's imprecision in measuring a generalized force is independent of its operating point's proximity to the EP. That is because frequency noises of fundamental origin in the sensor -- due to quantum and thermal fluctuations -- increase in a manner that exactly cancels the benefit of increased resonant frequency sensitivity near the EP. So the benefit of EP sensors is limited to the regime where sensing is limited by technical noises. Finally, we outline an EP sensor with phase-sensitive gain that does have an advantage even if limited by fundamental noises.
翻訳日:2024-01-11 15:51:48 公開日:2024-01-09
# 非数エージェントをターゲットにした分散マルチエージェント能動探索と追跡

Decentralized Multi-Agent Active Search and Tracking when Targets Outnumber Agents ( http://arxiv.org/abs/2401.03154v2 )

ライセンス: Link先を確認
Arundhati Banerjee and Jeff Schneider(参考訳) マルチエージェントのマルチターゲットトラッキングには、野生生物のパトロール、セキュリティ監視、環境監視など幅広い応用がある。 このようなアルゴリズムは、しばしば制限的な仮定を行う: ターゲットの数や初期位置を推定する、あるいはエージェントが環境の不連続な分割を監視するために事前に割り当てられる、探索の負担を軽減できる。 これはまた、エージェントが視野内のターゲットを継続的に追跡できないため、ターゲットよりもエージェントが少ない場合の適用性を制限する。 マルチエージェント追跡アルゴリズムは、観察のエージェント間同期や、関節動作を調整する中央コントローラの存在を仮定する。 代わりに、非同期のエージェント間通信による分散マルチエージェント、マルチターゲット、同時アクティブ検索と追跡の設定に焦点をあてる。 提案アルゴリズムであるdecsterでは,確率仮説密度フィルタの逐次モンテカルロによる後進推定法とトンプソンサンプリング法を組み合わせて,分散マルチエージェント意思決定を行う。 異なるアクション選択ポリシーを比較し、ターゲットがエージェント数を上回るシナリオに注目した。 シミュレーションでは、DecSTERは信頼性の低いエージェント間通信に頑健であり、異なるターゲット数と様々なチームサイズに対して最適なサブパターン割り当て(OSPA)の基準値で情報収集ベースラインを上回ります。

Multi-agent multi-target tracking has a wide range of applications, including wildlife patrolling, security surveillance or environment monitoring. Such algorithms often make restrictive assumptions: the number of targets and/or their initial locations may be assumed known, or agents may be pre-assigned to monitor disjoint partitions of the environment, reducing the burden of exploration. This also limits applicability when there are fewer agents than targets, since agents are unable to continuously follow the targets in their fields of view. Multi-agent tracking algorithms additionally assume inter-agent synchronization of observations, or the presence of a central controller to coordinate joint actions. Instead, we focus on the setting of decentralized multi-agent, multi-target, simultaneous active search-and-tracking with asynchronous inter-agent communication. Our proposed algorithm DecSTER uses a sequential monte carlo implementation of the probability hypothesis density filter for posterior inference combined with Thompson sampling for decentralized multi-agent decision making. We compare different action selection policies, focusing on scenarios where targets outnumber agents. In simulation, we demonstrate that DecSTER is robust to unreliable inter-agent communication and outperforms information-greedy baselines in terms of the Optimal Sub-Pattern Assignment (OSPA) metric for different numbers of targets and varying teamsizes.
翻訳日:2024-01-11 12:02:53 公開日:2024-01-09
# gpt-4v(ision)はテキストから3d生成のための人間指向型評価器である

GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation ( http://arxiv.org/abs/2401.04092v2 )

ライセンス: Link先を確認
Tong Wu, Guandao Yang, Zhibing Li, Kai Zhang, Ziwei Liu, Leonidas Guibas, Dahua Lin, Gordon Wetzstein(参考訳) テキストから3次元生成手法の最近の進歩にもかかわらず、信頼性の高い評価指標が欠けている。 既存のメトリクスは通常、アセットが入力テキストとどのように一致しているかなど、それぞれ1つの基準に集中します。 これらの指標には、異なる評価基準に一般化する柔軟性がなく、人間の好みとうまく一致しない可能性がある。 ユーザ嗜好研究は、適応性と人間に合わせた結果の両方を提供する代替手段である。 しかし、ユーザスタディはスケールするのに非常に高価である。 本稿では,テキストから3次元生成モデルに対する自動的,汎用的,人間指向の評価指標を提案する。 この目的のために,まずGPT-4Vを用いたプロンプト生成装置を開発し,テキストから3Dモデルを比較した。 さらに,ユーザ定義基準に従って2つの3Dアセットを比較することをGPT-4Vに指示する手法を設計する。 最後に、これらのペア比較結果を用いて、これらのモデルElo評価を割り当てる。 実験結果から,評価基準の異なる人の嗜好に強く一致することが示唆された。

Despite recent advances in text-to-3D generative methods, there is a notable absence of reliable evaluation metrics. Existing metrics usually focus on a single criterion each, such as how well the asset aligned with the input text. These metrics lack the flexibility to generalize to different evaluation criteria and might not align well with human preferences. Conducting user preference studies is an alternative that offers both adaptability and human-aligned results. User studies, however, can be very expensive to scale. This paper presents an automatic, versatile, and human-aligned evaluation metric for text-to-3D generative models. To this end, we first develop a prompt generator using GPT-4V to generate evaluating prompts, which serve as input to compare text-to-3D models. We further design a method instructing GPT-4V to compare two 3D assets according to user-defined criteria. Finally, we use these pairwise comparison results to assign these models Elo ratings. Experimental results suggest our metric strongly align with human preference across different evaluation criteria.
翻訳日:2024-01-11 11:48:19 公開日:2024-01-09
# 政策学習のための適応型実験設計

Adaptive Experimental Design for Policy Learning ( http://arxiv.org/abs/2401.03756v2 )

ライセンス: Link先を確認
Masahiro Kato and Kyohei Okumura and Takuya Ishihara and Toru Kitagawa(参考訳) 証拠に基づくターゲティングは、政策やビジネスの実践者の間で関心が高まっている。 コンテクスト情報を用いた固定予算ベストアーム識別(BAI)問題としての意思決定者の政策学習を定式化し,複数の治療アームを用いた政策学習のための最適適応実験設計について検討した。 サンプリング段階では、プランナーは、コンテキスト情報(共変量)を観察して順次到着する実験ユニットに対して、処理アームを適応的に割り当てる。 実験の後、プランナーは個体群に対する個別の割り当て規則を推奨する。 適応的なサンプリングと推奨されたポリシーのパフォーマンス基準として最悪の場合の後悔をセットし、漸近的な下限を導出し、後悔の上限の主要因が実験単位の大きさの増加とともに下限に一致する戦略である適応的サンプリング・ポリシー学習戦略(plas)を提案する。

Evidence-based targeting has been a topic of growing interest among the practitioners of policy and business. Formulating decision-maker's policy learning as a fixed-budget best arm identification (BAI) problem with contextual information, we study an optimal adaptive experimental design for policy learning with multiple treatment arms. In the sampling stage, the planner assigns treatment arms adaptively over sequentially arriving experimental units upon observing their contextual information (covariates). After the experiment, the planner recommends an individualized assignment rule to the population. Setting the worst-case expected regret as the performance criterion of adaptive sampling and recommended policies, we derive its asymptotic lower bounds, and propose a strategy, Adaptive Sampling-Policy Learning strategy (PLAS), whose leading factor of the regret upper bound aligns with the lower bound as the size of experimental units increases.
翻訳日:2024-01-11 11:46:46 公開日:2024-01-09
# 空予測 : フライトレベルの旅客交通予測のための新しいモデル

Predicting the Skies: A Novel Model for Flight-Level Passenger Traffic Forecasting ( http://arxiv.org/abs/2401.03397v2 )

ライセンス: Link先を確認
Sina Ehsani, Elina Sergeeva, Wendy Murdy, and Benjamin Fox(参考訳) フライトレベルの旅客輸送の正確な予測は、航空業務において最重要であり、価格から経路最適化への重要な決定に影響を与える。 本研究は,フライトレベルの旅客輸送を予測するための新しい多モーダル深層学習手法を導入し,従来のモデルに比べて精度が大幅に向上した。 American Airlinesの広範なデータセットを活用して、当社のモデルは、過去の交通データ、運賃情報、および各フライトに特有の季節特性を取り込みます。 提案するニューラルネットワークは,リカレントニューラルネットワーク(rnn)と畳み込みニューラルネットワーク(cnn)の強みを統合し,データ内の時間パターンと空間関係を利用して予測性能を向上させる。 私たちのモデルの成功には、包括的なデータ処理戦略が不可欠です。 データを表現するために3Dテンソルを構築し、実世界のダイナミクスを反映するために注意深いマスキング戦略を適用し、トレーニングセットの多様性を高めるためにデータ拡張技術を採用する。 提案手法の有効性は,従来のベンチマークと比較すると,平均正方形誤差(MSE)が約33倍改善したことを示す。 そこで本研究では,フライトトラフィック予測の分野を推し進める上で,深層学習技術と精巧なデータ処理の可能性を強調した。

Accurate prediction of flight-level passenger traffic is of paramount importance in airline operations, influencing key decisions from pricing to route optimization. This study introduces a novel, multimodal deep learning approach to the challenge of predicting flight-level passenger traffic, yielding substantial accuracy improvements compared to traditional models. Leveraging an extensive dataset from American Airlines, our model ingests historical traffic data, fare closure information, and seasonality attributes specific to each flight. Our proposed neural network integrates the strengths of Recurrent Neural Networks (RNN) and Convolutional Neural Networks (CNN), exploiting the temporal patterns and spatial relationships within the data to enhance prediction performance. Crucial to the success of our model is a comprehensive data processing strategy. We construct 3D tensors to represent data, apply careful masking strategies to mirror real-world dynamics, and employ data augmentation techniques to enrich the diversity of our training set. The efficacy of our approach is borne out in the results: our model demonstrates an approximate 33\% improvement in Mean Squared Error (MSE) compared to traditional benchmarks. This study, therefore, highlights the significant potential of deep learning techniques and meticulous data processing in advancing the field of flight traffic prediction.
翻訳日:2024-01-11 11:45:55 公開日:2024-01-09
# 事前訓練された深部階層的vaesによる多彩な超解像

Diverse super-resolution with pretrained deep hiererarchical VAEs ( http://arxiv.org/abs/2205.10347v4 )

ライセンス: Link先を確認
Jean Prost, Antoine Houdard, Andr\'es Almansa and Nicolas Papadakis(参考訳) 画像超解像問題に対する多種多様な解を生成する問題について検討する。 確率論的観点からは、高解像度画像上での事前分布の定義を必要とする逆問題の後部分布からサンプリングすることでこれを実現できる。 本研究では,事前訓練された階層型変分オートエンコーダ(HVAE)を前者として使用することを提案する。 我々は,事前学習したhvaeの潜在空間に低解像度画像を符号化するために,軽量確率エンコーダを訓練する。 推論では,低解像度エンコーダと事前学習した生成モデルを組み合わせて画像の超解像を行う。 本手法は,条件付き正規化フロー手法の計算効率と拡散に基づく手法のサンプル品質との間に有利なトレードオフをもたらすことを,超解像の課題として示す。

We investigate the problem of producing diverse solutions to an image super-resolution problem. From a probabilistic perspective, this can be done by sampling from the posterior distribution of an inverse problem, which requires the definition of a prior distribution on the high-resolution images. In this work, we propose to use a pretrained hierarchical variational autoencoder (HVAE) as a prior. We train a lightweight stochastic encoder to encode low-resolution images in the latent space of a pretrained HVAE. At inference, we combine the low-resolution encoder and the pretrained generative model to super-resolve an image. We demonstrate on the task of face super-resolution that our method provides an advantageous trade-off between the computational efficiency of conditional normalizing flows techniques and the sample quality of diffusion based methods.
翻訳日:2024-01-10 23:27:21 公開日:2024-01-09
# Few-Shotオブジェクト認識のための複数表現に基づく生涯アンサンブル学習

Lifelong Ensemble Learning based on Multiple Representations for Few-Shot Object Recognition ( http://arxiv.org/abs/2205.01982v5 )

ライセンス: Link先を確認
Hamidreza Kasaei, Songsong Xiong(参考訳) サービスロボットは、さまざまなタスクを助けるために、日々の生活にますます統合されています。 このような環境では、ロボットは環境の中で作業しながらしばしば新しい物体に直面し、オープンエンドで学習する必要がある。 さらに、このようなロボットは幅広い対象のカテゴリーを認識できなければならない。 本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。 特に,深部表現と手作りの3次元形状記述子に基づくアンサンブル手法を提案する。 生涯学習を容易にするため、各アプローチは、オブジェクト情報を即時に記憶し検索するメモリユニットを備える。 提案モデルは,3次元オブジェクトカテゴリの数が固定されておらず,時間とともに成長可能なオープンエンド学習シナリオに適している。 提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。 評価目的として,実際のオブジェクトデータセットに加えて,90オブジェクトの27000ビューからなる大規模合成家庭用オブジェクトデータセットを生成する。 実験により,提案手法がオンライン数発の3Dオブジェクト認識タスクに与える影響と,最先端のオープンエンド学習手法よりも優れた性能を示した。 さらに,オフライン環境ではアンサンブル学習がやや有益であるのに対し,生涯の少人数学習では有益であることが示された。 さらに、ロボットが限られた例から新しいカテゴリーを素早く学習するシミュレーションと実ロボット設定の両方において、我々のアプローチの有効性を実証した。

Service robots are integrating more and more into our daily lives to help us with various tasks. In such environments, robots frequently face new objects while working in the environment and need to learn them in an open-ended fashion. Furthermore, such robots must be able to recognize a wide range of object categories. In this paper, we present a lifelong ensemble learning approach based on multiple representations to address the few-shot object recognition problem. In particular, we form ensemble methods based on deep representations and handcrafted 3D shape descriptors. To facilitate lifelong learning, each approach is equipped with a memory unit for storing and retrieving object information instantly. The proposed model is suitable for open-ended learning scenarios where the number of 3D object categories is not fixed and can grow over time. We have performed extensive sets of experiments to assess the performance of the proposed approach in offline, and open-ended scenarios. For the evaluation purpose, in addition to real object datasets, we generate a large synthetic household objects dataset consisting of 27000 views of 90 objects. Experimental results demonstrate the effectiveness of the proposed method on online few-shot 3D object recognition tasks, as well as its superior performance over the state-of-the-art open-ended learning approaches. Furthermore, our results show that while ensemble learning is modestly beneficial in offline settings, it is significantly beneficial in lifelong few-shot learning situations. Additionally, we demonstrated the effectiveness of our approach in both simulated and real-robot settings, where the robot rapidly learned new categories from limited examples.
翻訳日:2024-01-10 23:27:07 公開日:2024-01-09
# 小型衛星による量子鍵分布ミッションの有限資源特性

Finite resource performance of small satellite-based quantum key distribution missions ( http://arxiv.org/abs/2204.12509v3 )

ライセンス: Link先を確認
Tanvirul Islam and Jasminder S. Sidhu and Brendon L. Higgins and Thomas Brougham and Tom Vergoossen and Daniel K. L. Oi and Thomas Jennewein and Alexander Ling(参考訳) 衛星ベースの量子鍵分布(QKD)では、1つの衛星が地上局を通過する際に発生する秘密ビットの数は、通過期間と自由空間の光チャネル損失によって著しく制限される。 高チャネル損失は、バックグラウンドノイズによる信号対雑音比を減少させ、生成された生の鍵ビット数を減少させ、量子ビット誤り率(QBER)を増大させる。 有限サイズのセキュリティ分析の下では、高いQBERは、非ゼロ秘密鍵長抽出に必要な最小の生鍵長を増加させる。 有限鍵解析の最近の進展により、3つの異なる小衛星ベースのqkdプロジェクトcqt-sat, uk-quarc-roks, qeyssatが、非常に高い損失条件下でも秘密鍵を生成できるようになり、以前の有限鍵境界に基づく推定が向上した。 これは、低軌道にある衛星は有限サイズのセキュリティ要件を満たすことができるが、地球からさらに遠く離れた衛星にとっては依然として困難であることを示唆している。 我々は,各ミッションの性能を分析し,小型衛星QKDミッションの性能向上に向けた情報提供を行う。 我々は,小衛星ベースのqkdと量子ネットワークにおける課題と今後の展望について,短期的・長期的視点を強調する。 特に、日中および異なる高度でQKDおよびより広い量子ネットワーク能力を達成するために必要な実験的および理論的ボトルネックと改善について論じる。

In satellite-based quantum key distribution (QKD), the number of secret bits that can be generated in a single satellite pass over the ground station is severely restricted by the pass duration and the free-space optical channel loss. High channel loss may decrease the signal-to-noise ratio due to background noise, reduce the number of generated raw key bits, and increase the quantum bit error rate (QBER), all of which have detrimental effects on the output secret key length. Under finite-size security analysis, higher QBER increases the minimum raw key length necessary for non-zero secret key length extraction due to less efficient reconciliation and post-processing overheads. We show that recent developments in finite key analysis allow three different small-satellite-based QKD projects CQT-Sat, UK-QUARC-ROKS, and QEYSSat to produce secret keys even under very high loss conditions, improving on estimates based on previous finite key bounds. This suggests that satellites in low Earth orbit can satisfy finite-size security requirements, but remains challenging for satellites further from Earth. We analyse the performance of each mission to provide an informed route toward improving the performance of small-satellite QKD missions. We highlight the short and long-term perspectives on the challenges and potential future developments in small-satellite-based QKD and quantum networks. In particular, we discuss some of the experimental and theoretical bottlenecks, and improvements necessary to achieve QKD and wider quantum networking capabilities in daylight and at different altitudes.
翻訳日:2024-01-10 23:26:44 公開日:2024-01-09
# 薬物設計のための分子生成--グラフ学習の視点から

Molecule Generation for Drug Design: a Graph Learning Perspective ( http://arxiv.org/abs/2202.09212v2 )

ライセンス: Link先を確認
Nianzu Yang, Huaijin Wu, Kaipeng Zeng, Yang Li, Junchi Yan(参考訳) 機械学習、特にグラフ学習は、さまざまな分野にまたがる変革的影響に対する認識が高まっている。 そのような有望な応用の1つは分子設計と発見の領域、特に製薬業界における。 本稿では,分子設計における最先端の手法の概観,特に(深い)グラフ学習技術を取り入れた<emph{de novo}薬物設計に焦点をあてた。 emph{i)} \emph{all-at-once}, \emph{ii} \emph{fragment-based}, \emph{iii)} \emph{node-by-node} の3つの異なるグループに分類する。 さらに,重要な公開データセットをいくつか紹介し,分子の生成と最適化に共通する評価指標を概説する。 最後に,本分野における課題について考察し,今後の研究の方向性を提案する。

Machine learning, particularly graph learning, is gaining increasing recognition for its transformative impact across various fields. One such promising application is in the realm of molecule design and discovery, notably within the pharmaceutical industry. Our survey offers a comprehensive overview of state-of-the-art methods in molecule design, particularly focusing on \emph{de novo} drug design, which incorporates (deep) graph learning techniques. We categorize these methods into three distinct groups: \emph{i)} \emph{all-at-once}, \emph{ii)} \emph{fragment-based}, and \emph{iii)} \emph{node-by-node}. Additionally, we introduce some key public datasets and outline the commonly used evaluation metrics for both the generation and optimization of molecules. In the end, we discuss the existing challenges in this field and suggest potential directions for future research.
翻訳日:2024-01-10 23:25:42 公開日:2024-01-09
# 異常検出のための重み付き分離とランダムカット森林アルゴリズム

Weighted Isolation and Random Cut Forest Algorithms for Anomaly Detection ( http://arxiv.org/abs/2202.01891v5 )

ライセンス: Link先を確認
Sijin Yeom and Jae-Hun Jung(参考訳) ランダムカットフォレスト(RCF)アルゴリズムは,特に時系列データにおいて異常検出のために開発された。 RCFアルゴリズムは分離林(IF)アルゴリズムの改良版である。 IFアルゴリズムとは異なり、RCFアルゴリズムは、構築されたツリーネットワークに入力を挿入することで、リアルタイム入力が異常を含むかどうかを決定することができる。 Robust RCF (RRCF) を含む様々なRCFアルゴリズムが開発され、カット手順は確率的に適応的に選択される。 RRCFアルゴリズムは、次元カットがデータの幾何学的範囲に基づいて決定されるのに対して、IFアルゴリズムは次元カットをランダムに選択するので、IFアルゴリズムよりも優れた性能を示す。 しかし、スプリット値がランダムに選択されるので、全体のデータ構造はifとrrcfの両方では考慮されない。 本稿では、それぞれ重み付きif(wif)と重み付きrcf(wrcf)と呼ばれる新しいifアルゴリズムとrcfアルゴリズムを提案する。 これらの分割値は、与えられたデータの密度を考慮して決定される。 WIF と WRCF を導入するために,WIF と WRCF の構築に不可欠な新しい幾何測度,密度測度を提案する。 密度測度の様々な数学的性質と、数値例を通じて主張を裏付け、検証する定理を与える。

Random cut forest (RCF) algorithms have been developed for anomaly detection, particularly in time series data. The RCF algorithm is an improved version of the isolation forest (IF) algorithm. Unlike the IF algorithm, the RCF algorithm can determine whether real-time input contains an anomaly by inserting the input into the constructed tree network. Various RCF algorithms, including Robust RCF (RRCF), have been developed, where the cutting procedure is adaptively chosen probabilistically. The RRCF algorithm demonstrates better performance than the IF algorithm, as dimension cuts are decided based on the geometric range of the data, whereas the IF algorithm randomly chooses dimension cuts. However, the overall data structure is not considered in both IF and RRCF, given that split values are chosen randomly. In this paper, we propose new IF and RCF algorithms, referred to as the weighted IF (WIF) and weighted RCF (WRCF) algorithms, respectively. Their split values are determined by considering the density of the given data. To introduce the WIF and WRCF, we first present a new geometric measure, a density measure, which is crucial for constructing the WIF and WRCF. We provide various mathematical properties of the density measure, accompanied by theorems that support and validate our claims through numerical examples.
翻訳日:2024-01-10 23:25:00 公開日:2024-01-09
# Volley Revolver: プライバシ保護ニューラルネットワークのための新しいマトリックスエンコーディング手法(推論)

Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference) ( http://arxiv.org/abs/2201.12577v4 )

ライセンス: Link先を確認
John Chiang(参考訳) 本稿では,ニューラルネットワークが準同型暗号を用いて,プライバシ保存方式で予測を行うのに特に便利である行列エンコーディング法を提案する。 この符号化手法に基づいて,手書き画像分類のための畳み込みニューラルネットワークを実装した。 準同型乗算を実行するための2つの行列 $a$ と $b$ に対して、その背後にある主なアイデアは、単純なバージョンでは、行列 $a$ と行列 $b$ の変換をそれぞれ2つの暗号文に暗号化することである。 さらなる演算により、同型行列乗法は暗号化行列上で効率的に計算できる。 畳み込み処理では,各畳み込みカーネルを予め入力画像と同じ大きさの行列空間に分割し,複数の暗号文を生成する。 これらの中間結果をすべて蓄積し、畳み込み演算を完了する。 40のvCPUを持つパブリッククラウドでは、MNISTテストデータセット上の畳み込みニューラルネットワークの実装に$\sim$287秒を要し、32の暗号化画像サイズ228 \times 28$の10の確率を同時に計算します。 データ所有者は、これらの32の画像をパブリッククラウドに暗号化する1つの暗号テキスト($\sim 19.8$ MB)をアップロードするだけでよい。

In this work, we present a novel matrix-encoding method that is particularly convenient for neural networks to make predictions in a privacy-preserving manner using homomorphic encryption. Based on this encoding method, we implement a convolutional neural network for handwritten image classification over encryption. For two matrices $A$ and $B$ to perform homomorphic multiplication, the main idea behind it, in a simple version, is to encrypt matrix $A$ and the transpose of matrix $B$ into two ciphertexts respectively. With additional operations, the homomorphic matrix multiplication can be calculated over encrypted matrices efficiently. For the convolution operation, we in advance span each convolution kernel to a matrix space of the same size as the input image so as to generate several ciphertexts, each of which is later used together with the ciphertext encrypting input images for calculating some of the final convolution results. We accumulate all these intermediate results and thus complete the convolution operation. In a public cloud with 40 vCPUs, our convolutional neural network implementation on the MNIST testing dataset takes $\sim$ 287 seconds to compute ten likelihoods of 32 encrypted images of size $28 \times 28$ simultaneously. The data owner only needs to upload one ciphertext ($\sim 19.8$ MB) encrypting these 32 images to the public cloud.
翻訳日:2024-01-10 23:24:37 公開日:2024-01-09
# プライバシ保存型ロジスティック回帰トレーニングの高速化

Privacy-Preserving Logistic Regression Training with A Faster Gradient Variant ( http://arxiv.org/abs/2201.10838v5 )

ライセンス: Link先を確認
John Chiang(参考訳) 暗号化データによるロジスティック回帰トレーニングは,セキュリティ上の懸念に対して,長年にわたって魅力的なアイデアだった。 本稿では,プライバシー保護ロジスティック回帰トレーニングのために,$\texttt{quadratic gradient}$という高速勾配変種を提案する。 $\texttt{quadratic gradient}$ の中核は、単純化された固定 Hessian の拡張と見なすことができる。 我々はNesterovの加速勾配(NAG)と適応勾配アルゴリズム(Adagrad)を$\texttt{quadratic gradient}$でそれぞれ拡張し、複数のデータセット上で拡張アルゴリズムを評価する。 この勾配は、2017年のidashコンペティションやその他のデータセットによって提供された遺伝子データセットにある。 実験により,改良した手法は,第1次勾配法と比較して収束速度が向上することを示した。 次に、同型ロジスティック回帰トレーニングを実装するために拡張NAG法を採用し、わずか3ドル反復で同等の結果を得る。 一般的な数値最適化問題に対して、$\texttt{quadratic gradient}$が他の一階勾配法を拡張できる可能性はある。

Logistic regression training over encrypted data has been an attractive idea to security concerns for years. In this paper, we propose a faster gradient variant called $\texttt{quadratic gradient}$ for privacy-preserving logistic regression training. The core of $\texttt{quadratic gradient}$ can be seen as an extension of the simplified fixed Hessian. We enhance Nesterov's accelerated gradient (NAG) and Adaptive Gradient Algorithm (Adagrad) respectively with $\texttt{quadratic gradient}$ and evaluate the enhanced algorithms on several datasets. %gradient $ascent$ methods with this gradient variant on the gene dataset provided by the 2017 iDASH competition and other datasets. Experiments show that the enhanced methods have a state-of-the-art performance in convergence speed compared to the raw first-order gradient methods. We then adopt the enhanced NAG method to implement homomorphic logistic regression training, obtaining a comparable result by only $3$ iterations. There is a promising chance that $\texttt{quadratic gradient}$ could be used to enhance other first-order gradient methods for general numerical optimization problems.
翻訳日:2024-01-10 23:24:06 公開日:2024-01-09
# PHPQ: 効率的な微細画像検索のためのピラミッドハイブリッドポーリング量子化

PHPQ: Pyramid Hybrid Pooling Quantization for Efficient Fine-Grained Image Retrieval ( http://arxiv.org/abs/2109.05206v2 )

ライセンス: Link先を確認
Ziyun Zeng, Jinpeng Wang, Bin Chen, Tao Dai, Shu-Tao Xia, Zhi Wang(参考訳) ディープ・量子化やディープ・バイナリ・ハッシュといったディープ・ハッシュ・アプローチは、高い計算と記憶効率のために大規模な画像検索の一般的な解決策となっている。 ほとんどの既存のハッシュ法は、通常、バイナリコードを生成するために最後のCNN層の出力を採用するため、きめ細かな検索に満足できる結果が得られない。 深い層は、例えばテクスチャのような視覚的な手がかりを、例えば犬や猫のような抽象的な意味論に要約する傾向があるため、最後のcnn層によって生み出される機能は、主に浅い層に存在する微妙だが識別的な視覚詳細を捉えるのにはあまり効果がない。 微粒化画像ハッシュを改善するために, ピラミッドハイブリッドポーリング量子化(PHPQ)を提案する。 具体的には,異なるサブカテゴリの微妙な識別を強調する,多レベル特徴から細粒度の意味情報を捕捉・保存するピラミッドハイブリッドポーリング(PHP)モジュールを提案する。 さらに,最も関連するコードワードを最適化し,量子化を改善する部分コードブックアテンション機構を備えた学習可能な量子化モジュールを提案する。 cub-200-2011とstanford dogsの2つの広く使われている公開ベンチマークに関する包括的な実験は、phpqが最先端のメソッドよりも優れていることを示している。

Deep hashing approaches, including deep quantization and deep binary hashing, have become a common solution to large-scale image retrieval due to their high computation and storage efficiency. Most existing hashing methods cannot produce satisfactory results for fine-grained retrieval, because they usually adopt the outputs of the last CNN layer to generate binary codes. Since deeper layers tend to summarize visual clues, e.g., texture, into abstract semantics, e.g., dogs and cats, the feature produced by the last CNN layer is less effective in capturing subtle but discriminative visual details that mostly exist in shallow layers. To improve fine-grained image hashing, we propose Pyramid Hybrid Pooling Quantization (PHPQ). Specifically, we propose a Pyramid Hybrid Pooling (PHP) module to capture and preserve fine-grained semantic information from multi-level features, which emphasizes the subtle discrimination of different sub-categories. Besides, we propose a learnable quantization module with a partial codebook attention mechanism, which helps to optimize the most relevant codewords and improves the quantization. Comprehensive experiments on two widely-used public benchmarks, i.e., CUB-200-2011 and Stanford Dogs, demonstrate that PHPQ outperforms state-of-the-art methods.
翻訳日:2024-01-10 23:22:07 公開日:2024-01-09
# 並列量子アルゴリズムによるハミルトンシミュレーション

Parallel Quantum Algorithm for Hamiltonian Simulation ( http://arxiv.org/abs/2105.11889v3 )

ライセンス: Link先を確認
Zhicheng Zhang, Qisheng Wang, Mingsheng Ying(参考訳) 我々は並列処理が量子シミュレーションをいかに高速化するかを研究する。 局所的ハミルトニアンやポーリ和のような実用的関心を持つ様々なハミルトニアンを含む一様構造ハミルトニアンと呼ばれる構造を持つ大きなハミルトニアンクラスのダイナミクスをシミュレートするために、並列量子アルゴリズムが提案されている。 oracleがターゲットのsparse hamiltonianにアクセスすると、クエリとゲートの複雑さの両方において、量子回路深度で測定された並列量子シミュレーションアルゴリズムの実行時間は、シミュレーション精度$\epsilon$の2倍(poly-)対数依存$\operatorname{polylog}\log(1/\epsilon)$となる。 これは、並列性のない以前の最適スパースハミルトンシミュレーションアルゴリズムの$\operatorname{polylog}(1/\epsilon)$に対する指数関数的な改善を示す。 この結果を得るために,子どもの量子ウォークに基づく並列量子ウォークという新しい概念を導入する。 ターゲットの進化のユニタリは、これらの量子ウォークを平行に組み合わせることで得られる、切り離されたテイラー級数によって近似される。 下限の$\Omega(\log \log (1/\epsilon))$が確立され、この研究で達成されたゲート深さの$\epsilon$-dependenceが著しく改善されないことを示す。 本アルゴリズムは,ハイゼンベルクモデル,sachdev-ye-kitaevモデル,量子化学モデルという3つの物理モデルを2次量子化でシミュレートする。 オーラクルを実装するためのゲート複雑性を明示的に計算することにより、これらのモデルにおいて、我々のアルゴリズムの全ゲート深さが並列設定における$\operatorname{polylog}\log(1/\epsilon)$依存性を持つことを示す。

We study how parallelism can speed up quantum simulation. A parallel quantum algorithm is proposed for simulating the dynamics of a large class of Hamiltonians with good sparse structures, called uniform-structured Hamiltonians, including various Hamiltonians of practical interest like local Hamiltonians and Pauli sums. Given the oracle access to the target sparse Hamiltonian, in both query and gate complexity, the running time of our parallel quantum simulation algorithm measured by the quantum circuit depth has a doubly (poly-)logarithmic dependence $\operatorname{polylog}\log(1/\epsilon)$ on the simulation precision $\epsilon$. This presents an exponential improvement over the dependence $\operatorname{polylog}(1/\epsilon)$ of previous optimal sparse Hamiltonian simulation algorithm without parallelism. To obtain this result, we introduce a novel notion of parallel quantum walk, based on Childs' quantum walk. The target evolution unitary is approximated by a truncated Taylor series, which is obtained by combining these quantum walks in a parallel way. A lower bound $\Omega(\log \log (1/\epsilon))$ is established, showing that the $\epsilon$-dependence of the gate depth achieved in this work cannot be significantly improved. Our algorithm is applied to simulating three physical models: the Heisenberg model, the Sachdev-Ye-Kitaev model and a quantum chemistry model in second quantization. By explicitly calculating the gate complexity for implementing the oracles, we show that on all these models, the total gate depth of our algorithm has a $\operatorname{polylog}\log(1/\epsilon)$ dependence in the parallel setting.
翻訳日:2024-01-10 23:21:42 公開日:2024-01-09
# lojasiewicz-landscapesにおける確率勾配降下スキームの収束

Convergence of stochastic gradient descent schemes for Lojasiewicz-landscapes ( http://arxiv.org/abs/2102.09385v3 )

ライセンス: Link先を確認
Steffen Dereich and Sebastian Kassing(参考訳) 本稿では,運動量確率勾配降下 (MSGD) を含む確率勾配降下スキーム (SGD) の収束を,下層の弱い仮定の下で考察する。 より明確に言うと、SGD が有界であるとき、SGD の収束は可算個の臨界点しか存在しない場合や、目的関数がすべての解析関数のようにすべての臨界レベルに関するロジャシエヴィチ不等式を満たす場合である。 特に、ソフトプラス、シグモイド、双曲的接点などの解析活性化関数を持つニューラルネットワークの場合、SGDは、信号と訓練中の応答をモデル化するランダム変数がコンパクトに支持されている場合、持続的有界な事象に収束することを示す。

In this article, we consider convergence of stochastic gradient descent schemes (SGD), including momentum stochastic gradient descent (MSGD), under weak assumptions on the underlying landscape. More explicitly, we show that on the event that the SGD stays bounded we have convergence of the SGD if there is only a countable number of critical points or if the objective function satisfies Lojasiewicz-inequalities around all critical levels as all analytic functions do. In particular, we show that for neural networks with analytic activation function such as softplus, sigmoid and the hyperbolic tangent, SGD converges on the event of staying bounded, if the random variables modelling the signal and response in the training are compactly supported.
翻訳日:2024-01-10 23:21:05 公開日:2024-01-09
# シングルモードおよびマルチモードのゴテスマン・キタエフ・プレスキル符号に対する安定化器サブシステム分解

Stabilizer subsystem decompositions for single- and multi-mode Gottesman-Kitaev-Preskill codes ( http://arxiv.org/abs/2210.14919v3 )

ライセンス: Link先を確認
Mackenzie H. Shaw, Andrew C. Doherty, Arne L. Grimsmo(参考訳) Gottesman-Kitaev-Preskill (GKP) 誤り訂正符号は1つ以上のボゾンモードで有限次元の論理空間を符号化しており、近年は閉じ込められたイオンと超伝導マイクロ波空洞で実証されている。 本研究では、GKP符号に対する新しいサブシステム分解を導入し、量子安定化器符号に対する通常のアプローチに類似した安定化器サブシステム分解と呼ぶ。 この分解は、非論理安定器サブシステム上の部分トレースが論理状態の理想的な復号と等価であるという定義性を有する。 本稿では,GKP符号の分解の間を移動する変換の集合を用いて,サブシステム分解の任意の状態を分解する方法を説明する。 GKP符号の便利な理論的ビューを提供する以外に、そのような分解は実用的にも有用である。 我々は、単一モードGKP符号に作用する雑音を効率的にシミュレートするために安定化器サブシステム分解を用い、従来のフォックベースシミュレーションとは対照的に、損失やデフォーカスのような現実的なノイズチャネルに対して本質的に大きな光子数を考えることができる。

The Gottesman-Kitaev-Preskill (GKP) error correcting code encodes a finite dimensional logical space in one or more bosonic modes, and has recently been demonstrated in trapped ions and superconducting microwave cavities. In this work we introduce a new subsystem decomposition for GKP codes that we call the stabilizer subsystem decomposition, analogous to the usual approach to quantum stabilizer codes. The decomposition has the defining property that a partial trace over the non-logical stabilizer subsystem is equivalent to an ideal decoding of the logical state. We describe how to decompose arbitrary states across the subsystem decomposition using a set of transformations that move between the decompositions of different GKP codes. Besides providing a convenient theoretical view on GKP codes, such a decomposition is also of practical use. We use the stabilizer subsystem decomposition to efficiently simulate noise acting on single-mode GKP codes, and in contrast to more conventional Fock basis simulations, we are able to to consider essentially arbitrarily large photon numbers for realistic noise channels such as loss and dephasing.
翻訳日:2024-01-10 21:09:41 公開日:2024-01-09
# 適応型ポリトープによる量子分離性認証

Certifying Quantum Separability with Adaptive Polytopes ( http://arxiv.org/abs/2210.10054v4 )

ライセンス: Link先を確認
Ties-A. Ohst, Xiao-Dong Yu, Otfried G\"uhne, H. Chau Nguyen(参考訳) 量子状態の絡み合いと分離性の概念は物理学のいくつかの分野に関係している。 しかし、これらの特徴を特徴づける効果的な操作方法が欠けている。 適応型ポリトープ近似に基づく2粒子および多粒子量子系の量子分離性の証明法を提案する。 これは、実用上、中小次元の2粒子分離性を決定的に認識するアルゴリズムに繋がる。 多粒子系の場合、このアプローチは最大5キュービットまたは3キュートリットの完全分離性を特徴づけることができる。 最後に,本手法は,すべての二分法に対して分離可能であるが完全に分離できないような最大強固な状態など,興味深い絡み合い特性を持つ系統的量子状態の同定を可能にする。

The concept of entanglement and separability of quantum states is relevant for several fields in physics. Still, there is a lack of effective operational methods to characterise these features. We propose a method to certify quantum separability of two- and multiparticle quantum systems based on an adaptive polytope approximation. This leads to an algorithm which, for practical purposes, conclusively recognises two-particle separability for small and medium-size dimensions. For multiparticle systems, the approach allows to characterise full separability for up to five qubits or three qutrits; in addition, different classes of entanglement can be distinguished. Finally, our methods allow to identify systematically quantum states with interesting entanglement properties, such as maximally robust states which are separable for all bipartitions, but not fully separable.
翻訳日:2024-01-10 21:09:19 公開日:2024-01-09
# 変分アルゴリズムにおける量子古典的トレードオフと多制御量子ゲート分解

Quantum-classical tradeoffs and multi-controlled quantum gate decompositions in variational algorithms ( http://arxiv.org/abs/2210.04378v2 )

ライセンス: Link先を確認
Teague Tomesh, Nicholas Allen, Daniel Dilley, Zain Saleem(参考訳) 短期量子コンピュータの計算能力は、ゲート演算のノイズの多い実行と限られた数の物理キュービットによって制限される。 ハイブリッド変分アルゴリズムは、問題の解決に使用される量子資源と古典的リソースの間の幅広いトレードオフを可能にするため、短期量子デバイスに適している。 本稿では,量子近似最適化アルゴリズム (qaoa) を最大独立集合 (mis) 問題のインスタンスに適用することにより,アルゴリズムレベルとハードウェアレベルで利用可能なトレードオフについて検討する。 アルゴリズムレベルで異なるトレードオフを提供するQAOAの3つの変種を、必要となる古典的パラメータの数、量子ゲート、および必要な古典的最適化の繰り返しの観点から検討する。 MISは制約付き組合せ最適化問題であるため、QAOAは問題制約を尊重しなければならない。 これは、ターゲットハードウェアによって実行可能なゲートに分解されなければならない多くのマルチコントロールゲート操作を使用することで実現できる。 このハードウェアレベルで利用可能なトレードオフを研究し、異なるネイティブゲート集合のゲートフィダリティと分解効率を、 \textit{gate decomposition cost}と呼ばれる単一のメトリックに組み合わせる。

The computational capabilities of near-term quantum computers are limited by the noisy execution of gate operations and a limited number of physical qubits. Hybrid variational algorithms are well-suited to near-term quantum devices because they allow for a wide range of tradeoffs between the amount of quantum and classical resources used to solve a problem. This paper investigates tradeoffs available at both the algorithmic and hardware levels by studying a specific case -- applying the Quantum Approximate Optimization Algorithm (QAOA) to instances of the Maximum Independent Set (MIS) problem. We consider three variants of the QAOA which offer different tradeoffs at the algorithmic level in terms of their required number of classical parameters, quantum gates, and iterations of classical optimization needed. Since MIS is a constrained combinatorial optimization problem, the QAOA must respect the problem constraints. This can be accomplished by using many multi-controlled gate operations which must be decomposed into gates executable by the target hardware. We study the tradeoffs available at this hardware level, combining the gate fidelities and decomposition efficiencies of different native gate sets into a single metric called the \textit{gate decomposition cost}.
翻訳日:2024-01-10 21:08:46 公開日:2024-01-09
# LL-GNN:高エネルギー物理のためのFPGA上の低レイテンシグラフニューラルネットワーク

LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy Physics ( http://arxiv.org/abs/2209.14065v5 )

ライセンス: Link先を確認
Zhiqiang Que, Hongxiang Fan, Marcus Loo, He Li, Michaela Blott, Maurizio Pierini, Alexander Tapper and Wayne Luk(参考訳) 本研究では,低レイテンシグラフニューラルネットワーク(LL-GNN)設計のための新しいアーキテクチャを提案する。 fpgaベースのgnnを粒子検出器に組み込むことは、cernの大型ハドロン衝突型加速器実験でレベル1のトリガーで毎秒数百テラバイトのデータレートでオンラインイベント選択のためのネットワークをデプロイするのにサブマイクロ秒のレイテンシを必要とするため、ユニークな課題である。 本稿では,構造化随伴行列と列長データレイアウトを活用し,新たな外積ベース行列乗算手法を提案する。 さらに、不要なバウンダリを排除し、エンド・ツー・エンドの設計遅延をさらに低減するために、融合ステップを導入する。 さらに、GNN固有のアルゴリズム-ハードウェア共設計アプローチが提示され、より優れたレイテンシを持つ設計を見出すだけでなく、与えられたレイテンシ制約の下での高精度な設計も見出す。 これを容易にするために、この低レイテンシGNNハードウェアアーキテクチャのためのカスタマイズ可能なテンプレートを設計、オープンソース化し、高レベル合成ツールを用いた効率的なリソース利用による低レイテンシFPGA設計を可能にする。 評価の結果,FPGA実装は最大9.0倍高速で,GPU実装の最大13.1倍の電力効率を実現していることがわかった。 従来のFPGA実装と比較して、この作業は6.51から16.7倍のレイテンシを実現する。 さらに、FPGA設計のレイテンシは十分低く、サブマイクロ秒のリアルタイムコライダートリガシステムにGNNを配置できるため、精度の向上によるメリットが期待できる。 提案するll-gnn設計は,高度なアルゴリズムを用いて実験データを効率的に処理することにより,次世代のトリガーシステムを進化させる。

This work presents a novel reconfigurable architecture for Low Latency Graph Neural Network (LL-GNN) designs for particle detectors, delivering unprecedented low latency performance. Incorporating FPGA-based GNNs into particle detectors presents a unique challenge since it requires sub-microsecond latency to deploy the networks for online event selection with a data rate of hundreds of terabytes per second in the Level-1 triggers at the CERN Large Hadron Collider experiments. This paper proposes a novel outer-product based matrix multiplication approach, which is enhanced by exploiting the structured adjacency matrix and a column-major data layout. Moreover, a fusion step is introduced to further reduce the end-to-end design latency by eliminating unnecessary boundaries. Furthermore, a GNN-specific algorithm-hardware co-design approach is presented which not only finds a design with a much better latency but also finds a high accuracy design under given latency constraints. To facilitate this, a customizable template for this low latency GNN hardware architecture has been designed and open-sourced, which enables the generation of low-latency FPGA designs with efficient resource utilization using a high-level synthesis tool. Evaluation results show that our FPGA implementation is up to 9.0 times faster and achieves up to 13.1 times higher power efficiency than a GPU implementation. Compared to the previous FPGA implementations, this work achieves 6.51 to 16.7 times lower latency. Moreover, the latency of our FPGA design is sufficiently low to enable deployment of GNNs in a sub-microsecond, real-time collider trigger system, enabling it to benefit from improved accuracy. The proposed LL-GNN design advances the next generation of trigger systems by enabling sophisticated algorithms to process experimental data efficiently.
翻訳日:2024-01-10 21:08:29 公開日:2024-01-09
# テキスト・画像合成におけるホモグリフによる文化的バイアスの爆発

Exploiting Cultural Biases via Homoglyphs in Text-to-Image Synthesis ( http://arxiv.org/abs/2209.08891v3 )

ライセンス: Link先を確認
Lukas Struppek, Dominik Hintersdorf, Felix Friedrich, Manuel Brack, Patrick Schramowski, Kristian Kersting(参考訳) DALL-E~2やStable Diffusionのようなテキストと画像の合成モデルは近年、学術や一般大衆から多くの関心を集めている。 これらのモデルは、テキスト記述に基づいて様々な概念やスタイルを表現した高品質な画像を生成することができる。 しかしこれらのモデルは、大量のトレーニングデータから特定のUnicodeスクリプトに関連する文化的特徴を取り入れているが、すぐには明らかではないかもしれない。 テキスト記述に1文字の非ラテン文字を挿入するだけで、共通のモデルが生成した画像に文化的ステレオタイプやバイアスを反映することを示す。 この挙動を定性的かつ定量的に分析し,モデルのテキストエンコーダを現象の根本原因として同定する。 さらに悪意のあるユーザやサービスプロバイダは、ラテン文字を非ラテン文字(いわゆるホモグリフ)の類似した文字に置き換えることで、画像生成を意図的にバイアスして人種差別的なステレオタイプを作成しようとする。 このような未知のスクリプト攻撃を軽減するために,テキストエンコーダを微調整する新しいホモグリフアンラーニング手法を提案する。

Models for text-to-image synthesis, such as DALL-E~2 and Stable Diffusion, have recently drawn a lot of interest from academia and the general public. These models are capable of producing high-quality images that depict a variety of concepts and styles when conditioned on textual descriptions. However, these models adopt cultural characteristics associated with specific Unicode scripts from their vast amount of training data, which may not be immediately apparent. We show that by simply inserting single non-Latin characters in a textual description, common models reflect cultural stereotypes and biases in their generated images. We analyze this behavior both qualitatively and quantitatively, and identify a model's text encoder as the root cause of the phenomenon. Additionally, malicious users or service providers may try to intentionally bias the image generation to create racist stereotypes by replacing Latin characters with similarly-looking characters from non-Latin scripts, so-called homoglyphs. To mitigate such unnoticed script attacks, we propose a novel homoglyph unlearning method to fine-tune a text encoder, making it robust against homoglyph manipulations.
翻訳日:2024-01-10 21:07:35 公開日:2024-01-09
# 限られた資源で状態を模倣する:グローバル制御による量子クイズの通過

Mimicking states with limited resources: passing quantum quiz via global control ( http://arxiv.org/abs/2208.08568v2 )

ライセンス: Link先を確認
P. V. Pyshkin, E. Ya. Sherman, A. G\'abris and Lian-Ao Wu(参考訳) 量子工学の応用に興味を持つ中程度の自由度を持つ量子システムの精密な制御は、実験的に実現可能である。 様々な種類の量子シナリオとプロトコルが科学文献で広く議論されている。 最小関連する情報に依存する未知の量子状態の特性を高速にシミュレーションできるプロトコルを提案し,解析し,最適化する。 私たちのプロトコルは、量子識別や断熱への近道と共通する特徴を持ち、物理的に非常に類似したシステム間の遷移がゼロまたは非常に低い忠実性によって特徴づけられるような直交性の混乱を避けることができる。

Precise control of quantum systems with a moderate number of degrees of freedom, being of interest for application in quantum technologies, becomes experimentally feasible. Various types of quantum scenarios and protocols are being widely discussed in scientific literature. We propose, analyze, and optimize a protocol which allows fast simulation of properties of unknown quantum states relying on minimum relevant information. Our protocol, having common features with quantum identification and shortcuts to adiabaticity, permits avoiding orthogonality catastrophe, where transitions between physically very similar systems are characterized by zero or a very low fidelity.
翻訳日:2024-01-10 21:07:15 公開日:2024-01-09
# 量子状態の有限コピーによる有効かつ効率的な絡み合い検証

Valid and efficient entanglement verification with finite copies of a quantum state ( http://arxiv.org/abs/2208.01983v3 )

ライセンス: Link先を確認
Pawel Cieslinski, Jan Dziewior, Lukas Knips, Waldemar Klobus, Jasmin Meinecke, Tomasz Paterek, Harald Weinfurter, Wieslaw Laskowski(参考訳) 多部量子状態における絡み合いの検出は本質的に確率的プロセスであり、典型的にはいくつかの測定サンプルを持つ。 絡み合い検出の信頼性のレベルは、信号が分離可能な状態から来る確率を通じてスキームの妥当性を定量化し、ビッグデータ集合に有意義なメリットをもたらす。 しかし、限られたサンプルでは、実験データ誤解釈を避けるためには、分離可能な状態に関する確率だけでなく、信号が絡み合った状態、すなわち検出スキームの効率から来る確率も考慮する必要がある。 このことを明示的に示し,20以上の状態コピーを用いたサンプルを提供する小規模データセットの妥当性と効率を最適化する一般的な方法を適用する。 本手法は, 確率的手法とベイズ的手法の両方を考慮した相関関数に対する有限統計効果の解析モデルに基づいており, 任意の絡み合い証人に適用できる。

Detecting entanglement in multipartite quantum states is an inherently probabilistic process, typically with a few measured samples. The level of confidence in entanglement detection quantifies the scheme's validity via the probability that the signal comes from a separable state, offering a meaningful figure of merit for big datasets. Yet, with limited samples, avoiding experimental data misinterpretations requires considering not only the probabilities concerning separable states but also the probability that the signal came from an entangled state, i.e. the detection scheme's efficiency. We demonstrate this explicitly and apply a general method to optimize both the validity and the efficiency in small data sets providing examples using at most 20 state copies. The method is based on an analytical model of finite statistics effects on correlation functions which takes into account both a Frequentist as well as a Bayesian approach and is applicable to arbitrary entanglement witnesses.
翻訳日:2024-01-10 21:07:03 公開日:2024-01-09
# Floquet Baxterisation

The Floquet Baxterisation ( http://arxiv.org/abs/2206.15142v2 )

ライセンス: Link先を確認
Yuan Miao, Vladimir Gritsev, Denis V. Kurlov(参考訳) 量子積分性は、平衡から量子多体系を研究するのに有用なツールであることが証明されている。 本稿では,Floquet Baxterisationの手順を用いて,積分可能量子回路の汎用的なフレームワークを構築する。 積分性は、フロケ進化作用素とヤン・バクスター関係から得られる不均一移動行列との接続を確立することで保証される。 これにより任意の深さと様々な境界条件を持つ可積分フロッケ発展作用素を構築することができる。 さらに,頑丈な6-vertexモデルに関する例にも注目する。 スケーリング制限では、このFloquetプロトコルと非有理共形場理論との接続を確立する。 基礎となるアフィンテンペリー-リーブ代数構造の性質を用いて, 容易平面系における動的反ユニタリ対称性の破れを実証する。 また、統合可能性に関連した量子回路の概要を述べ、今後の研究の方向性を強調する。

Quantum integrability has proven to be a useful tool to study quantum many-body systems out of equilibrium. In this paper we construct a generic framework for integrable quantum circuits through the procedure of Floquet Baxterisation. The integrability is guaranteed by establishing a connection between Floquet evolution operators and inhomogeneous transfer matrices obtained from the Yang-Baxter relations. This allows us to construct integrable Floquet evolution operators with arbitrary depths and various boundary conditions. Furthermore, we focus on the example related to the staggered 6-vertex model. In the scaling limit we establish a connection of this Floquet protocol with a non-rational conformal field theory. Employing the properties of the underlying affine Temperley--Lieb algebraic structure, we demonstrate the dynamical anti-unitary symmetry breaking in the easy-plane regime. We also give an overview of integrability-related quantum circuits, highlighting future research directions.
翻訳日:2024-01-10 21:06:49 公開日:2024-01-09
# FuSeBMC v4: BMC、ファジング、静的解析によるスマートシードによるコードカバレッジの改善

FuSeBMC v4: Improving code coverage with smart seeds via BMC, fuzzing and static analysis ( http://arxiv.org/abs/2206.14068v3 )

ライセンス: Link先を確認
Kaled M. Alshmrany, Mohannad Aldughaim, Ahmed Bhayat, and Lucas C. Cordeiro(参考訳) 境界モデルチェック(BMC)とファジィング(fuzzing)は、ソフトウェアにおけるエラーやセキュリティの脆弱性を検出する最も効果的な方法の一つである。 しかし、ターゲットコードの大きな領域をカバーするメソッドが存在しないため、これらのエラーを検出する上での欠点はまだ残っている。 そこで我々は,FuSeBMC v4を提案する。FuSeBMC v4は,種を有用な特性で合成するテストジェネレータで,これをスマートシードと呼び,ハイブリッドファザの性能を向上させることにより,高いCプログラムカバレッジを実現する。 FuSeBMCは、最初に目標ラベルを与えられたCプログラムにインクリメンタルにインジェクションして、BMCとEvolutionary Fuzzingエンジンを誘導する。 その後、エンジンは初期の期間、いわゆるスマートシードを製造するために使用される。 最後に、エンジンは再び実行され、これらのスマートシードを起動種として、コードカバレッジの最大化/バグ発見を試みます。 シード生成と正常な実行の両方において、エンジン間の調整はトレーササブシステムによって支援される。 このサブシステムは追加のカバレッジ分析を行い、これまでにカバーされた目標に関する情報と共に共有メモリを更新する。 さらに、トレーサはテストケースを動的に評価し、その後のテストファジングのためにケースを種子に変換する。 したがって、BMCエンジンはファジングエンジンが複雑な数学的ガード(例えば入力検証)をバイパスできる種を提供することができる。 その結果、第4回ソフトウェアテスト国際コンペティション(test-comp 2022)に参加したことで、3つの賞を受賞しました。

Bounded model checking (BMC) and fuzzing techniques are among the most effective methods for detecting errors and security vulnerabilities in software. However, there are still shortcomings in detecting these errors due to the inability of existent methods to cover large areas in target code. We propose FuSeBMC v4, a test generator that synthesizes seeds with useful properties, that we refer to as smart seeds, to improve the performance of its hybrid fuzzer thereby achieving high C program coverage. FuSeBMC works by first analyzing and incrementally injecting goal labels into the given C program to guide BMC and Evolutionary Fuzzing engines. After that, the engines are employed for an initial period to produce the so-called smart seeds. Finally, the engines are run again, with these smart seeds as starting seeds, in an attempt to achieve maximum code coverage / find bugs. During both seed generation and normal running, coordination between the engines is aided by the Tracer subsystem. This subsystem carries out additional coverage analysis and updates a shared memory with information on goals covered so far. Furthermore, the Tracer evaluates test cases dynamically to convert cases into seeds for subsequent test fuzzing. Thus, the BMC engine can provide the seed that allows the fuzzing engine to bypass complex mathematical guards (e.g., input validation). As a result, we received three awards for participation in the fourth international competition in software testing (Test-Comp 2022), outperforming all state-of-the-art tools in every category, including the coverage category.
翻訳日:2024-01-10 21:06:36 公開日:2024-01-09
# E2S2: 言語理解と生成のためのエンコード強化シーケンス・ツー・シーケンス事前学習

E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language Understanding and Generation ( http://arxiv.org/abs/2205.14912v3 )

ライセンス: Link先を確認
Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du and Dacheng Tao(参考訳) sequence-to-sequence (seq2seq) 学習は、大規模な事前学習言語モデルの流行である。 しかし、先述のSeq2seq事前学習モデルは一般にデコーダ側の再構成目的に焦点を合わせ、エンコーダ側の監督効果を無視する。 本仮説を検証するために,まず,セク2セック事前学習言語モデルにおけるエンコーダとデコーダの機能について実証研究を行い,下流性能とニューロン活性化に関して,デコーダよりも重要かつ過度な役割を担っていることを確認した。 そこで本研究では,より効率的な自己教師付き情報をエンコーダに統合することにより,seq2seqモデルを改善するe2s2という符号化エンハンス付きseq2seqプリトレーニング戦略を提案する。 具体的には、E2S2はエンコーダ側の2つの目的を2つの側面から採用している。 1) 腐敗した文(否定目的)を局所的に発音すること,及び 2)より優れた文表現(意味目的)をグローバルに学習する。 両目的の助けを借りて、エンコーダはノイズトークンを効果的に識別し、高レベルな(統語的および意味的な)知識を捕捉し、セック2セックモデルの条件生成を正確に達成する能力を強化する。 下流の自然言語理解と生成タスクの多様さに対して、E2S2はBARTやT5といった強力なバックボーンモデルの性能を大幅に向上させる。 例えば、BARTのバックボーンでは、一般言語理解評価(GLUE)ベンチマークで+1.1%、CoNLL2014データセットで+1.75%のF_0.5スコア改善を達成した。 また,言語表現の改善に起因した改良点を詳細に分析する。 seq2seq言語モデルの事前学習に関する今後の自己スーパービジョン研究が促進されることを願っています。

Sequence-to-sequence (seq2seq) learning is a popular fashion for large-scale pretraining language models. However, the prior seq2seq pretraining models generally focus on reconstructive objectives on the decoder side and neglect the effect of encoder-side supervision, which we argue may lead to sub-optimal performance. To verify our hypothesis, we first empirically study the functionalities of the encoder and decoder in seq2seq pretrained language models, and find that the encoder takes an important but under-exploitation role than the decoder regarding the downstream performance and neuron activation. Therefore, we propose an encoding-enhanced seq2seq pretraining strategy, namely E2S2, which improves the seq2seq models via integrating more efficient self-supervised information into the encoders. Specifically, E2S2 adopts two self-supervised objectives on the encoder side from two aspects: 1) locally denoising the corrupted sentence (denoising objective); and 2) globally learning better sentence representations (contrastive objective). With the help of both objectives, the encoder can effectively distinguish the noise tokens and capture high-level (i.e., syntactic and semantic) knowledge, thus strengthening the ability of seq2seq model to accurately achieve the conditional generation. On a large diversity of downstream natural language understanding and generation tasks, E2S2 dominantly improves the performance of its powerful backbone models, e.g., BART and T5. For example, upon BART backbone, we achieve +1.1% averaged gain on the general language understanding evaluation (GLUE) benchmark and +1.75% F_0.5 score improvement on CoNLL2014 dataset. We also provide in-depth analyses to show the improvement stems from better linguistic representation. We hope that our work will foster future self-supervision research on seq2seq language model pretraining.
翻訳日:2024-01-10 21:06:11 公開日:2024-01-09
# 時間反転対称性と長距離ホッピングを持つランダム2次元系の超拡散

Superdiffusion in random two dimensional system with time-reversal symmetry and long-range hopping ( http://arxiv.org/abs/2205.14715v3 )

ライセンス: Link先を確認
Xiaolong Deng, Ivan M. Khaymovich and Alexander L. Burin(参考訳) アンダーソンローカライゼーションは、d$が低ければ2ドル以下の全ての州に対して行われることが認識されているが、距離が遅くなるか、または、r^{-d}$となると、非局在化が期待されている一方で、d=2$のクロスオーバーレジームにおけるローカライゼーションの問題と、v(r) \propto r^{-2}$のホッピングはまだ解決されていない。 前述したように、2次元の異方性双極子-双極子相互作用によって決定されるホッピングは、時間反転対称性の存在下では、弱い障害と強い障害の2つの区別可能な位相が存在する。 第1相はエルゴード力学と超拡散輸送により特徴づけられ、第2相は拡散輸送とフラクタル次元が2ドル未満の非局在固有状態によって特徴づけられる。 位相間の遷移は局所化のスケーリング理論の拡張を用いて解析的に解決し、正確な数値対角化を用いて数値的に検証する。

Although it is recognized that Anderson localization takes place for all states at a dimension $d$ less or equal $2$, while delocalization is expected for hopping $V(r)$ decreasing with the distance slower or as $r^{-d}$, the localization problem in the crossover regime for the dimension $d=2$ and hopping $V(r) \propto r^{-2}$ is not resolved yet. Following earlier suggestions we show that for the hopping determined by two-dimensional anisotropic dipole-dipole interactions in the presence of time-reversal symmetry there exist two distinguishable phases at weak and strong disorder. The first phase is characterized by ergodic dynamics and superdiffusive transport, while the second phase is characterized by diffusive transport and delocalized eigenstates with fractal dimension less than $2$. The transition between phases is resolved analytically using the extension of scaling theory of localization and verified numerically using an exact numerical diagonalization.
翻訳日:2024-01-10 21:05:37 公開日:2024-01-09
# CSRX:トラベリングセールスパーソン問題に適用された遺伝的アルゴリズムのためのクロスオーバー演算子

CSRX: A novel Crossover Operator for a Genetic Algorithm applied to the Traveling Salesperson Problem ( http://arxiv.org/abs/2303.12447v2 )

ライセンス: Link先を確認
Martin Uray, Stefan Wintersteller, Stefan Huber(参考訳) 本稿では,旅行セールスパーソン問題(tsp)に対する遺伝的アルゴリズム(ga)の適用を再検討し,先行技術に匹敵する新たなクロスオーバー演算子のファミリを紹介する。 新たなクロスオーバー作用素は、解空間における対称性を活用することを目的としており、より効果的に優れた個人、すなわち円周シフトに対する適合不変性や解の反転を保存できる。 これらの対称性は一般的なものであり、特にTSPに制限されない。

In this paper, we revisit the application of Genetic Algorithm (GA) to the Traveling Salesperson Problem (TSP) and introduce a family of novel crossover operators that outperform the previous state of the art. The novel crossover operators aim to exploit symmetries in the solution space, which allows us to more effectively preserve well-performing individuals, namely the fitness invariance to circular shifts and reversals of solutions. These symmetries are general and not limited to or tailored to TSP specifically.
翻訳日:2024-01-10 20:58:41 公開日:2024-01-09
# マルチセンテンス動画キャプションのための暗黙的および明示的コモンセンス

Implicit and Explicit Commonsense for Multi-sentence Video Captioning ( http://arxiv.org/abs/2303.07545v2 )

ライセンス: Link先を確認
Shih-Han Chou, James J. Little, Leonid Sigal(参考訳) 既存の高密度または段落ビデオキャプションのアプローチは、階層的言語デコーダを条件付けるために、学習されたオブジェクト/アクション表現と組み合わせたビデオの全体論的表現に依存している。 しかし、それらは基本的に、出来事の進行、因果性、そしてシーン内の特定の対象の機能を理解するために必要な世界の常識的な知識を欠いている。 この制限に対処するために,暗黙的(言語的および純粋に言語的)と明示的(知識ベース)の常識的知識の両方を考慮した,新しいビデオキャプショントランスフォーマーモデルを提案する。 我々は,これらの形態の知識が,単独でかつ組み合わせて,生成したキャプションの品質を高めることを示す。 さらに,模倣学習にインスパイアされた新しい命令生成タスクを提案する。その目的は,そのパフォーマンスのデモビデオから,言語指導のセットを作成することである。 AI2-THOR環境を用いて生成されたALFREDデータセット[54]を用いてタスクを形式化する。 命令生成は、概念的には段落文と似ているが、空間認識や因果文構造と同様に、より強いオブジェクト永続性を示すという事実が異なる。 我々は,我々の常識的知識向上アプローチが,このタスクにおいて大幅な改善(METEORでは最大57%,CIDErでは8.5%)と,ActivityNet Captionsデータセット[29]における従来のビデオキャプションの最先端結果をもたらすことを示す。

Existing dense or paragraph video captioning approaches rely on holistic representations of videos, possibly coupled with learned object/action representations, to condition hierarchical language decoders. However, they fundamentally lack the commonsense knowledge of the world required to reason about progression of events, causality, and even the function of certain objects within a scene. To address this limitation we propose a novel video captioning Transformer-based model, that takes into account both implicit (visuo-lingual and purely linguistic) and explicit (knowledge-base) commonsense knowledge. We show that these forms of knowledge, in isolation and in combination, enhance the quality of produced captions. Further, inspired by imitation learning, we propose a new task of instruction generation, where the goal is to produce a set of linguistic instructions from a video demonstration of its performance. We formalize the task using the ALFRED dataset [54] generated using an AI2-THOR environment. While instruction generation is conceptually similar to paragraph captioning, it differs in the fact that it exhibits stronger object persistence, as well as spatially-aware and causal sentence structure. We show that our commonsense knowledge enhanced approach produces significant improvements on this task (up to 57% in METEOR and 8.5% in CIDEr), as well as the state-of-the-art result on more traditional video captioning in the ActivityNet Captions dataset [29].
翻訳日:2024-01-10 20:58:31 公開日:2024-01-09
# 制約付き階層的強化学習による長期・リッチ制約タスクの処理

Handling Long and Richly Constrained Tasks through Constrained Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2302.10639v2 )

ライセンス: Link先を確認
Yuxiao Lu, Arunesh Sinha and Pradeep Varakantham(参考訳) 目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理され、主に短地平線タスクで優れたパフォーマンスを示す。 本稿では,住宅内の異なるエリアを掃除するロボットが,滑動や安全でないエリア(階段など)を避けながら充電ドックに移動するのに十分な料金を保ちながら,複雑な安全制約が存在する場合に,時間的に拡張された意思決定問題を解決する問題に特に関心を寄せる。 我々の重要な貢献は、(安全)階層強化学習による制約付き検索(CoSHRL)機構であり、(コスト制約を満たすことなく、与えられた開始から遠方の目標状態までポリシーを最大化する報酬を計算)低レベルの目標条件付きRLエージェント(コストと報酬値を推定し、近くの状態間を移動させる報酬を推定する報酬を最大化する)を結合する。 CoSHRLの大きな利点は、コスト価値分布の制約(例えば、CVaRの条件値)を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。 我々は,制約付きおよび階層的RLにおける先行的アプローチに対するアプローチの有用性を示すために,様々な種類の安全制約を用いた広範な実験を行った。

Safety in goal directed Reinforcement Learning (RL) settings has typically been handled through constraints over trajectories and have demonstrated good performance in primarily short horizon tasks. In this paper, we are specifically interested in the problem of solving temporally extended decision making problems such as robots cleaning different areas in a house while avoiding slippery and unsafe areas (e.g., stairs) and retaining enough charge to move to a charging dock; in the presence of complex safety constraints. Our key contribution is a (safety) Constrained Search with Hierarchical Reinforcement Learning (CoSHRL) mechanism that combines an upper level constrained search agent (which computes a reward maximizing policy from a given start to a far away goal state while satisfying cost constraints) with a low-level goal conditioned RL agent (which estimates cost and reward values to move between nearby states). A major advantage of CoSHRL is that it can handle constraints on the cost value distribution (e.g., on Conditional Value at Risk, CVaR) and can adjust to flexible constraint thresholds without retraining. We perform extensive experiments with different types of safety constraints to demonstrate the utility of our approach over leading approaches in constrained and hierarchical RL.
翻訳日:2024-01-10 20:58:04 公開日:2024-01-09
# ハイブリッドスペクトル法と高調波振動子に基づく時空間ガウス過程の非分離共分散カーネル

Non-separable Covariance Kernels for Spatiotemporal Gaussian Processes based on a Hybrid Spectral Method and the Harmonic Oscillator ( http://arxiv.org/abs/2302.09580v3 )

ライセンス: Link先を確認
Dionissios T.Hristopulos(参考訳) ガウス過程は、高次元空間における関数の近似に対する柔軟で非パラメトリックな枠組みを提供する。 共分散カーネルはガウス過程の主エンジンであり、予測分布の基盤となる相関を取り入れている。 時空間データセットを持つアプリケーションでは、適切なカーネルはジョイント空間と時間依存をモデル化する必要がある。 分離可能な時空間共分散カーネルは単純性と計算効率を提供する。 しかし、分離不能なカーネルには、観測された相関をよりよく捉える時空相互作用が含まれる。 明示的な表現を認めるほとんどの非分離カーネルは、第一原理の導出よりも数学的考察(許容条件)に基づいている。 物理引数に基づく共分散カーネルを生成するためのハイブリッドスペクトル手法を提案する。 このアプローチは、確率、線形、減衰、高調波発振器(LDHO)にルーツを持つ、物理的に動機づけられた非分離性共分散カーネルの新たなクラスを導出するために用いられる。 新しいカーネルは、時空相関の単調および振動減衰の両方の関数を含む。 LDHO共分散核は、振動子係数を変調する分散関係によって導入された時空相互作用を含む。 3つの振動子系(アンダーダンピング、臨界ダンピング、オーバーダンピング)における時空間共分散核の明示的な関係を導出し、それらの性質を調べる。 さらに、Ornstein-Uhlenbeckモデルに基づく共分散核を導出したハイブリッドスペクトル法について述べる。

Gaussian processes provide a flexible, non-parametric framework for the approximation of functions in high-dimensional spaces. The covariance kernel is the main engine of Gaussian processes, incorporating correlations that underpin the predictive distribution. For applications with spatiotemporal datasets, suitable kernels should model joint spatial and temporal dependence. Separable space-time covariance kernels offer simplicity and computational efficiency. However, non-separable kernels include space-time interactions that better capture observed correlations. Most non-separable kernels that admit explicit expressions are based on mathematical considerations (admissibility conditions) rather than first-principles derivations. We present a hybrid spectral approach for generating covariance kernels which is based on physical arguments. We use this approach to derive a new class of physically motivated, non-separable covariance kernels which have their roots in the stochastic, linear, damped, harmonic oscillator (LDHO). The new kernels incorporate functions with both monotonic and oscillatory decay of space-time correlations. The LDHO covariance kernels involve space-time interactions which are introduced by dispersion relations that modulate the oscillator coefficients. We derive explicit relations for the spatiotemporal covariance kernels in the three oscillator regimes (underdamping, critical damping, overdamping) and investigate their properties. We further illustrate the hybrid spectral method by deriving covariance kernels that are based on the Ornstein-Uhlenbeck model.
翻訳日:2024-01-10 20:57:37 公開日:2024-01-09
# 構造認識によるSMT重み付きモデル統合の強化

Enhancing SMT-based Weighted Model Integration by Structure Awareness ( http://arxiv.org/abs/2302.06188v2 )

ライセンス: Link先を確認
Giuseppe Spallitta, Gabriele Masina, Paolo Morettin, Andrea Passerini, Roberto Sebastiani(参考訳) 確率的推論のための効率的で正確な近似アルゴリズムの開発は、人工知能研究の長年の目標である。 純粋に離散的あるいは純粋に連続的なドメインを扱うことには大きな進展があるが、離散的および連続的な変数とその関係によって特徴づけられるハイブリッドなドメインに取り組むために開発されたソリューションを適用することは極めて非自明である。 重み付きモデル統合(WMI)は最近、ハイブリッドドメインにおける確率的推論の統一形式として登場した。 最近の膨大な作業にもかかわらず、ハイブリッド問題の複雑さを伴ってWMIアルゴリズムをスケール可能にすることは依然として課題である。 本稿では,既存の最先端ソリューションの限界を浮き彫りにして,形式検証における効率的な手法であるsmtに基づく列挙法と,問題構造の効果的なエンコーディングを組み合わせるアルゴリズムを開発した。 これにより,冗長モデルの生成を回避し,計算コストを大幅に削減できる。 さらに,SMTに基づくアプローチが,WMI技術によって取り組まれる問題の集合を,正確かつ近似的に,シームレスに扱うことができることを示す。 合成と実世界の両方のデータセットに対する広範な実験的評価は、既存の代替よりも提案されたソリューションのかなりの利点を裏付けるものである。 この技術の適用可能性はさらに、確率的プログラムの公正性を検証することを目的としたプロトタイプタスクで示される。

The development of efficient exact and approximate algorithms for probabilistic inference is a long-standing goal of artificial intelligence research. Whereas substantial progress has been made in dealing with purely discrete or purely continuous domains, adapting the developed solutions to tackle hybrid domains, characterised by discrete and continuous variables and their relationships, is highly non-trivial. Weighted Model Integration (WMI) recently emerged as a unifying formalism for probabilistic inference in hybrid domains. Despite a considerable amount of recent work, allowing WMI algorithms to scale with the complexity of the hybrid problem is still a challenge. In this paper we highlight some substantial limitations of existing state-of-the-art solutions, and develop an algorithm that combines SMT-based enumeration, an efficient technique in formal verification, with an effective encoding of the problem structure. This allows our algorithm to avoid generating redundant models, resulting in drastic computational savings. Additionally, we show how SMT-based approaches can seamlessly deal with different integration techniques, both exact and approximate, significantly expanding the set of problems that can be tackled by WMI technology. An extensive experimental evaluation on both synthetic and real-world datasets confirms the substantial advantage of the proposed solution over existing alternatives. The application potential of this technology is further showcased on a prototypical task aimed at verifying the fairness of probabilistic programs.
翻訳日:2024-01-10 20:56:45 公開日:2024-01-09
# 短いビデオレコメンデーションのための2段階制約アクター・クライブ

Two-Stage Constrained Actor-Critic for Short Video Recommendation ( http://arxiv.org/abs/2302.01680v3 )

ライセンス: Link先を確認
Qingpeng Cai, Zhenghai Xue, Chi Zhang, Wanqi Xue, Shuchang Liu, Ruohan Zhan, Xueliang Wang, Tianyou Zuo, Wentao Xie, Dong Zheng, Peng Jiang, Kun Gai(参考訳) ソーシャルメディア上でのショートビデオの普及は、ビデオ共有プラットフォームの推奨システムを最適化する新たな機会と課題をもたらす。 ユーザはシステムとシーケンシャルに対話し、複数のビデオとのさまざまなタイプのインタラクションを含む、複雑で多面的な応答を提供する。 プラットフォームは、ユーザーの累積時計時間(メインゴール)を長期に最適化することを目的としており、これは強化学習によって効果的に最適化できる。 一方、プラットフォームは、フォロー、共有など、複数のユーザインタラクション(補助的な目標)のレスポンスを調節する制約を満たす必要もあります。 本稿では,CMDP(Constrained Markov Decision Process)として,短いビデオレコメンデーションの問題を定式化する。 従来の制約付き強化学習アルゴリズムはこの設定ではうまく動作しない。 そこで我々は,新たな2段階制約付きアクター批判手法を提案する: ステージ1では,各補助信号の最適化について個別のポリシーを学習する。 第二段階では 政策を学びます (i)主信号の最適化及び (二)第一段階において学んだ政策に近づかないこと。これにより、この主要な政策の補助者に対する性能が実質的に保証される。 大規模なオフライン評価を通じて,本手法の目的を最適化する上での代替手法に対する有効性を実証する。 さらに,提案手法は短いビデオレコメンデーションのライブ実験において,視聴時間と対話時間の両方において,他のベースラインを大きく上回る効果を示す。 当社のアプローチは,プラットフォーム上のユーザエクスペリエンスを最適化する目的で,本番システムで完全にローンチされています。

The wide popularity of short videos on social media poses new opportunities and challenges to optimize recommender systems on the video-sharing platforms. Users sequentially interact with the system and provide complex and multi-faceted responses, including watch time and various types of interactions with multiple videos. One the one hand, the platforms aims at optimizing the users' cumulative watch time (main goal) in long term, which can be effectively optimized by Reinforcement Learning. On the other hand, the platforms also needs to satisfy the constraint of accommodating the responses of multiple user interactions (auxiliary goals) such like, follow, share etc. In this paper, we formulate the problem of short video recommendation as a Constrained Markov Decision Process (CMDP). We find that traditional constrained reinforcement learning algorithms can not work well in this setting. We propose a novel two-stage constrained actor-critic method: At stage one, we learn individual policies to optimize each auxiliary signal. At stage two, we learn a policy to (i) optimize the main signal and (ii) stay close to policies learned at the first stage, which effectively guarantees the performance of this main policy on the auxiliaries. Through extensive offline evaluations, we demonstrate effectiveness of our method over alternatives in both optimizing the main goal as well as balancing the others. We further show the advantage of our method in live experiments of short video recommendations, where it significantly outperforms other baselines in terms of both watch time and interactions. Our approach has been fully launched in the production system to optimize user experiences on the platform.
翻訳日:2024-01-10 20:55:57 公開日:2024-01-09
# DAFD:画像分類のための特徴分散によるドメイン適応

DAFD: Domain Adaptation via Feature Disentanglement for Image Classification ( http://arxiv.org/abs/2301.13337v2 )

ライセンス: Link先を確認
Zhize Wu, Changjiang Du, Le Zou, Ming Tan, Tong Xu, Fan Cheng, Fudong Nian, and Thomas Weise(参考訳) 優れた特徴表現は、画像分類の鍵です。 実際には、イメージ分類器はトレーニング対象とは異なるシナリオで適用することができる。 このいわゆるドメインシフトは、画像分類の大幅なパフォーマンス低下につながる。 unsupervised domain adaptation (uda)はラベル付きソースドメインから学んだ知識をラベルなしのターゲットドメインに移すことで、ドメインシフトを削減する。 カテゴリ関連特徴を蒸留し,グローバルな特徴マップからカテゴリ非関連特徴を除外することにより,UDAの特徴分散を行う。 この絡み合いは、ネットワークがカテゴリ非関連情報への過度な適合を防ぎ、分類に有用な情報に集中させる。 これにより、ドメインアライメントの困難が軽減され、ターゲットドメインの分類精度が向上する。 本稿では,(1)カテゴリー関連特徴とカテゴリ関連特徴を区別するカテゴリー関連特徴選択(crfs)モジュールと,(2)異なる領域からカテゴリ関連特徴の差異を低減してきめ細かなアライメントを実現する動的局所最大平均不一致(dlmmd)モジュールという,2つの要素からなる特徴不等角化~(dafd)によるドメイン適応法を提案する。 CRFSと組み合わせることで、DLMMDモジュールはカテゴリ関連機能を適切に調整することができる。 4つの標準データセットに対して総合的な実験を行う。 本研究は,画像分類課題におけるロバスト性と有効性を明確に示し,その技術に対する競争力を明らかにした。

A good feature representation is the key to image classification. In practice, image classifiers may be applied in scenarios different from what they have been trained on. This so-called domain shift leads to a significant performance drop in image classification. Unsupervised domain adaptation (UDA) reduces the domain shift by transferring the knowledge learned from a labeled source domain to an unlabeled target domain. We perform feature disentanglement for UDA by distilling category-relevant features and excluding category-irrelevant features from the global feature maps. This disentanglement prevents the network from overfitting to category-irrelevant information and makes it focus on information useful for classification. This reduces the difficulty of domain alignment and improves the classification accuracy on the target domain. We propose a coarse-to-fine domain adaptation method called Domain Adaptation via Feature Disentanglement~(DAFD), which has two components: (1)the Category-Relevant Feature Selection (CRFS) module, which disentangles the category-relevant features from the category-irrelevant features, and (2)the Dynamic Local Maximum Mean Discrepancy (DLMMD) module, which achieves fine-grained alignment by reducing the discrepancy within the category-relevant features from different domains. Combined with the CRFS, the DLMMD module can align the category-relevant features properly. We conduct comprehensive experiment on four standard datasets. Our results clearly demonstrate the robustness and effectiveness of our approach in domain adaptive image classification tasks and its competitiveness to the state of the art.
翻訳日:2024-01-10 20:55:32 公開日:2024-01-09
# 弦状軸イオンベル対のド・ジッターの絡み合い負性:Bunch-Davies真空を用いた解析

Entanglement negativity in de Sitter biverse from Stringy Axionic Bell pair: An analysis using Bunch-Davies vacuum ( http://arxiv.org/abs/2301.05203v3 )

ライセンス: Link先を確認
Sayantan Choudhury(参考訳) 本研究では,3+1 次元大域デジッター空間における2つの因果関係のない領域間の絡み合いの負性を計算することで量子絡み合いのシグネチャを研究する。 この目的のために、カラビ・ヤウ三重折りのIIB型弦のコンパクト化による軸イオンベル対によって駆動される二部量子場理論のセットアップについて検討する。 全球ド・ジッター空間の空間スライスを外界と内界に因果関係のない部分領域に分割する球面を考える。 計算目的のために、最も単純な量子真空の初期選択(Bunch-Davies状態)を用いる。 エンタングルメント・ネガティビティの定量的量子情報理論の尺度は、エンタングルメント・エントロピーの結果と一致することが判明した。 我々は、この問題を、因果的無関係な観測者のうちの1人が制約されたままで、スケール依存がアクオン性ベル対に対する対応する量子情報理論的絡み合い尺度に入力される双曲的オープンチャートにおいて設計する。 また,小スケールでは初期絡み合いが完全に復元可能であること,また,現在の理論設定におけるマルチバースのミニバージョンである,バイバース画像を持つことの可能性についても論じる。 最後に、我々は、大域的ド・ジッター空間の量子場理論の枠組みや、弦理論から導かれた公理による原始宇宙論において、非消滅の量子絡み合い測度を生成するために必要な基準を提供する。

In this work, we study the signatures of quantum entanglement by computing entanglement negativity between two causally unrelated regions in $3+1$ dimensional global de Sitter space. We investigate a bipartite quantum field theoretic setup for this purpose, driven by an axionic Bell pair resulting from Type IIB string compactification on a Calabi-Yau three fold. We take into account a spherical surface that divides the spatial slice of the global de Sitter space into exterior and interior causally unrelated sub regions. For the computational purpose we use the simplest possible initial choice of quantum vacuum, which is Bunch-Davies state. The quantitative quantum information theoretic measure for entanglement negativity turns out be consistent with the results obtained for entanglement entropy, even we have to say it is better than that from quantum information theoretic point of view. We design the problem in a hyperbolic open chart where one of the causally unrelated observers remains constrained and the scale dependence enters to the corresponding quantum information theoretic entanglement measure for axionic Bell pair.We find from our analysis that in the large scales initially maximally entangled Bunch-Davies state turns out to be strongly entangled or weakly entangled depending on the axionic decay constant and the supersymmetry breaking scale. We also find that at the small scales the initial entanglement can be perfectly recovered.We also discuss the possibility of having a biverse picture, which is a mini version of the multiverse in the present theoretical set up. Last but not the least, we provide the necessary criteria for generating non vanishing quantum entanglement measures within the framework of quantum field theory of global de Sitter space as well as well as in primordial cosmology due to the axion derived from string theory.
翻訳日:2024-01-10 20:55:00 公開日:2024-01-09
# 心電図同期のためのデータ駆動ガウスプロセスフィルタ

A Data-Driven Gaussian Process Filter for Electrocardiogram Denoising ( http://arxiv.org/abs/2301.02607v2 )

ライセンス: Link先を確認
Mircea Dumitru, Qiao Li, Erick Andres Perez Alday, Ali Bahrami Rad, Gari D. Clifford, Reza Sameni(参考訳) 目的: 心電図 (ECG) フィルタリングを含む様々な用途に効果的に使用されているガウス過程 (GP) ベースのフィルタは、計算的に要求され、そのハイパーパラメータの選択は通常アドホックである。 方法: ecgフェーズドメイン(ecg phase domain)という概念を用いて、データ駆動gpフィルタを開発し、一定数のサンプルにecgビートをタイムウォードで表現し、ガウス分布に従うと仮定したrピークをアライメントする。 この仮定の下で、サンプル平均と共分散行列の計算を単純化し、アドホックなハイパーパラメータなしでデータ駆動方式でGPフィルタの効率的な実装を可能にする。 提案フィルタはPhyloNet QTデータベース上で,最先端のウェーブレットベースフィルタと比較して評価する。 付加雑音を用いた5dBステップにおいて,5dBから30dBまでのSNRレベルにおけるフィルタの信号対雑音比(SNR)改善を測定して評価を行った。 臨床評価のために, 原信号とフィルタ信号のqt間隔の推定誤差を測定し, ベンチマークフィルタと比較した。 結果: 提案するgpフィルタは, 全雑音レベルのベンチマークフィルタよりも優れていることが示された。 また、QT間隔推定誤差バイアスと分散の観点から、最先端フィルタよりも優れている。 結論: GPフィルタは臨床および研究応用においてECGを前処理するための汎用的手法であり, 任意の長さとサンプリング周波数のECGに適用可能であり, その性能に対する信頼区間を提供する。

Objective: Gaussian Processes (GP)-based filters, which have been effectively used for various applications including electrocardiogram (ECG) filtering can be computationally demanding and the choice of their hyperparameters is typically ad hoc. Methods: We develop a data-driven GP filter to address both issues, using the notion of the ECG phase domain -- a time-warped representation of the ECG beats onto a fixed number of samples and aligned R-peaks, which is assumed to follow a Gaussian distribution. Under this assumption, the computation of the sample mean and covariance matrix is simplified, enabling an efficient implementation of the GP filter in a data-driven manner, with no ad hoc hyperparameters. The proposed filter is evaluated and compared with a state-of-the-art wavelet-based filter, on the PhysioNet QT Database. The performance is evaluated by measuring the signal-to-noise ratio (SNR) improvement of the filter at SNR levels ranging from -5 to 30dB, in 5dB steps, using additive noise. For a clinical evaluation, the error between the estimated QT-intervals of the original and filtered signals is measured and compared with the benchmark filter. Results: It is shown that the proposed GP filter outperforms the benchmark filter for all the tested noise levels. It also outperforms the state-of-the-art filter in terms of QT-interval estimation error bias and variance. Conclusion: The proposed GP filter is a versatile technique for preprocessing the ECG in clinical and research applications, is applicable to ECG of arbitrary lengths and sampling frequencies, and provides confidence intervals for its performance.
翻訳日:2024-01-10 20:54:29 公開日:2024-01-09
# クラス連続条件生成ニューラル放射場

Class-Continuous Conditional Generative Neural Radiance Field ( http://arxiv.org/abs/2301.00950v3 )

ライセンス: Link先を確認
Jiwook Kim and Minhyeok Lee(参考訳) 3D対応画像合成は、細部で高解像度の画像を生成することに加えて、空間の一貫性を維持することに焦点を当てている。 近年,計算コストが低く,性能も優れた新しいビューを合成するためにNeRF(Neural Radiance Field)が導入されている。 いくつかの研究が生成性NeRFを調査し、顕著な成果を示したが、生成過程における条件付きおよび連続的な特徴操作は処理できない。 本研究では, 条件付き3次元連続画像の合成を, 条件付き特徴を生成器と識別器に投影することで行う, クラス連続条件生成型NeRF ("\text{C}^{3}$G-NeRF") という新しいモデルを提案する。 提案した$\text{C}^{3}$G-NeRFは、AFHQ、CelebA、Carsの3つの画像データセットで評価される。 その結果,条件付き特徴操作における細部とスムーズな補間による3次元整合性を示す。 例えば、$\text{C}^{3}$G-NeRFは、$\text{128}^{2}$の解像度を持つ3D認識顔画像合成において、7.64のFr\echet Inception Distance (FID)を示す。 さらに、データセットの各クラスの生成された3D対応画像のFIDを提供し、$\text{C}^{3}$G-NeRFでクラス条件画像の合成を可能にする。

The 3D-aware image synthesis focuses on conserving spatial consistency besides generating high-resolution images with fine details. Recently, Neural Radiance Field (NeRF) has been introduced for synthesizing novel views with low computational cost and superior performance. While several works investigate a generative NeRF and show remarkable achievement, they cannot handle conditional and continuous feature manipulation in the generation procedure. In this work, we introduce a novel model, called Class-Continuous Conditional Generative NeRF ($\text{C}^{3}$G-NeRF), which can synthesize conditionally manipulated photorealistic 3D-consistent images by projecting conditional features to the generator and the discriminator. The proposed $\text{C}^{3}$G-NeRF is evaluated with three image datasets, AFHQ, CelebA, and Cars. As a result, our model shows strong 3D-consistency with fine details and smooth interpolation in conditional feature manipulation. For instance, $\text{C}^{3}$G-NeRF exhibits a Fr\'echet Inception Distance (FID) of 7.64 in 3D-aware face image synthesis with a $\text{128}^{2}$ resolution. Additionally, we provide FIDs of generated 3D-aware images of each class of the datasets as it is possible to synthesize class-conditional images with $\text{C}^{3}$G-NeRF.
翻訳日:2024-01-10 20:53:59 公開日:2024-01-09
# メタラーニングトランスフォーマーによる汎用インコンテキスト学習

General-Purpose In-Context Learning by Meta-Learning Transformers ( http://arxiv.org/abs/2212.04458v2 )

ライセンス: Link先を確認
Louis Kirsch, James Harrison, Jascha Sohl-Dickstein, Luke Metz(参考訳) 現代の機械学習では、システム設計者は損失、アーキテクチャ、オプティマイザといった学習パイプラインの側面を特定する必要がある。 メタラーニング(learning-to-learn)は、その代わりに、これらの側面を学ぶことを目的としている。 メタラーニングの特に野心的な目標は、最小限のインダクティブバイアスを持つブラックボックスモデルのみを使用して、汎用のインコンテキスト学習アルゴリズムをスクラッチからトレーニングすることだ。 このようなモデルはトレーニングデータを取り、推論モデルやトレーニング損失、最適化アルゴリズムを明確に定義することなく、幅広い問題にわたってテストセットの予測を生成する。 本稿では、トランスフォーマーやその他のブラックボックスモデルが、汎用的なインコンテキスト学習者として機能するようにメタトレーニングできることを示す。 我々は、一般化するアルゴリズム、記憶するアルゴリズム、およびモデルサイズ、タスク数、およびメタ最適化の変化によって引き起こされる全くメタトレーニングしないアルゴリズム間の遷移を特徴付ける。 さらに,メタ学習アルゴリズムの能力は,パラメータ数でボトルネックになると考えられる標準モデルとは異なり,次の予測を決定するアクセス可能な状態サイズ(メモリ)によってボトルネックとなることを示した。 最後に,汎用学習アルゴリズムのメタトレーニングとメタ一般化を改善するトレーニング分布の偏りなど,実践的な介入を提案する。

Modern machine learning requires system designers to specify aspects of the learning pipeline, such as losses, architectures, and optimizers. Meta-learning, or learning-to-learn, instead aims to learn those aspects, and promises to unlock greater capabilities with less manual effort. One particularly ambitious goal of meta-learning is to train general-purpose in-context learning algorithms from scratch, using only black-box models with minimal inductive bias. Such a model takes in training data, and produces test-set predictions across a wide range of problems, without any explicit definition of an inference model, training loss, or optimization algorithm. In this paper we show that Transformers and other black-box models can be meta-trained to act as general-purpose in-context learners. We characterize transitions between algorithms that generalize, algorithms that memorize, and algorithms that fail to meta-train at all, induced by changes in model size, number of tasks, and meta-optimization. We further show that the capabilities of meta-trained algorithms are bottlenecked by the accessible state size (memory) determining the next prediction, unlike standard models which are thought to be bottlenecked by parameter count. Finally, we propose practical interventions such as biasing the training distribution that improve the meta-training and meta-generalization of general-purpose in-context learning algorithms.
翻訳日:2024-01-10 20:53:25 公開日:2024-01-09
# 満足度マシン比モデリングによる機械の知覚映像符号化

Perceptual Video Coding for Machines via Satisfied Machine Ratio Modeling ( http://arxiv.org/abs/2211.06797v3 )

ライセンス: Link先を確認
Qi Zhang, Shanshe Wang, Xinfeng Zhang, Chuanmin Jia, Zhao Wang, Siwei Ma, Wen Gao(参考訳) Video Coding for Machines (VCM) は、機械分析のための視覚信号を圧縮することを目的としている。 しかし、既存のメソッドは少数のマシンのみを考慮し、大多数を無視する。 さらに、マシンの知覚特性を効果的に活用せず、最適下圧縮効率が向上する。 そこで本稿では,これらの制約を克服するために,圧縮画像と映像の知覚品質を統計的に評価し,満足度スコアを集計して評価する「満足度マシン比(smr)」を提案する。 各スコアは、オリジナル画像と圧縮画像の機械知覚の違いに由来する。 画像分類とオブジェクト検出タスクを目標とし、SMRアノテーションのための2つの代表的なマシンライブラリを構築し、SMR研究を容易にする大規模なSMRデータセットを作成する。 次に,深い特徴量差とsmrとの相関に基づくsmr予測モデルを提案する。 さらに,2つの画像間のsmr差を異なる品質で予測することにより,予測精度を向上させる補助タスクを提案する。 広範な実験により、smrモデルがマシンの圧縮性能を大幅に改善し、未知のマシン、コーデック、データセット、フレームタイプにおいて堅牢な一般化性を示すことが示されている。 SMRは機械の知覚的コーディングを可能にし、VCMを特異性から一般性まで推進する。 コードはhttps://github.com/ywwynm/SMRで入手できる。

Video Coding for Machines (VCM) aims to compress visual signals for machine analysis. However, existing methods only consider a few machines, neglecting the majority. Moreover, the machine's perceptual characteristics are not leveraged effectively, resulting in suboptimal compression efficiency. To overcome these limitations, this paper introduces Satisfied Machine Ratio (SMR), a metric that statistically evaluates the perceptual quality of compressed images and videos for machines by aggregating satisfaction scores from them. Each score is derived from machine perceptual differences between original and compressed images. Targeting image classification and object detection tasks, we build two representative machine libraries for SMR annotation and create a large-scale SMR dataset to facilitate SMR studies. We then propose an SMR prediction model based on the correlation between deep feature differences and SMR. Furthermore, we introduce an auxiliary task to increase the prediction accuracy by predicting the SMR difference between two images in different quality. Extensive experiments demonstrate that SMR models significantly improve compression performance for machines and exhibit robust generalizability on unseen machines, codecs, datasets, and frame types. SMR enables perceptual coding for machines and propels VCM from specificity to generality. Code is available at https://github.com/ywwynm/SMR.
翻訳日:2024-01-10 20:52:23 公開日:2024-01-09
# 複数の観測可能な天体の量子速度限界:保存法則、相関法、マクロシステム

Quantum Velocity Limits for Multiple Observables: Conservation Laws, Correlations, and Macroscopic Systems ( http://arxiv.org/abs/2305.03190v4 )

ライセンス: Link先を確認
Ryusuke Hamazaki(参考訳) 複数のオブザーバブルが相互にダイナミクスにどのように影響するかは、統計力学において重要な問題である。 本研究では,非平衡量子力学の定量的かつ厳密な理論を確立すべく,量子速度限界という新しい概念を導入する。 量子速度制限は、複数の可観測体の速度を記述するベクトルの普遍的不等式である。 彼らは、実験的にアクセス可能なものや保存量といった他の観測可能量の知識がある場合、観測可能の速度は、単一の観測可能に対する従来の速度制限と比較して、より厳密な境界を持つことができることを明らかにした。 まず,観測対象の一般化相関行列と量子フィッシャー情報を用いて,情報理論的な速度限界を求める。 速度制限は様々な新しい結果をもたらす。 (i) 量子力学の基本成分である系の保存則は、観測量と保存量との相関を通じて、速度限界を改善することができる。 (ii)可観測物の速度は,他の可観測物の情報から非自明な下限で制限することができる。 (iii)非平衡的トレードオフ関係が存在し、非相関可観測性(例えば、反可換可観測性)の速度が同時に大きくならないこと。 (4) 局所的に相互作用する多体系における局所的なサブシステムの観測可能量に対する速度制限は、熱力学極限においても収束する。 さらに、確率電流の局所保存則に基づいて、複数の観測値に対する別の異なる速度制限を発見し、これは多量のマクロ遷移に有利となる。

How multiple observables mutually influence their dynamics has been a crucial issue in statistical mechanics. We introduce a new concept, "quantum velocity limits," to establish a quantitative and rigorous theory for non-equilibrium quantum dynamics for multiple observables. Quantum velocity limits are universal inequalities for a vector the describes velocities of multiple observables. They elucidate that the speed of an observable of our interest can be tighter bounded when we have knowledge of other observables, such as experimentally accessible ones or conserved quantities, compared with the conventional speed limits for a single observable. We first derive an information-theoretical velocity limit in terms of the generalized correlation matrix of the observables and the quantum Fisher information. The velocity limit has various novel consequences: (i) conservation law in the system, a fundamental ingredient of quantum dynamics, can improve the velocity limits through the correlation between the observables and conserved quantities; (ii) speed of an observable can be bounded by a nontrivial lower bound from the information on another observable; (iii) there exists a notable non-equilibrium tradeoff relation, stating that speeds of uncorrelated observables, e.g., anti-commuting observables, cannot be simultaneously large; (iv) velocity limits for any observables on a local subsystem in locally interacting many-body systems remain convergent even in the thermodynamic limit. Moreover, we discover another distinct velocity limit for multiple observables on the basis of the local conservation law of probability current, which becomes advantageous for macroscopic transitions of multiple quantities.
翻訳日:2024-01-10 20:45:35 公開日:2024-01-09
# 一般電磁環境における量子光-物質相互作用のab initio計算

Ab initio calculations of quantum light-matter interactions in general electromagnetic environments ( http://arxiv.org/abs/2305.02391v4 )

ライセンス: Link先を確認
Mark Kamper Svendsen, Kristian Sommer Thygesen, Angel Rubio and Johannes Flick(参考訳) 近年、分子や物質の物理的・化学的性質の変化が期待されているため、強く結合した光物質系の出現が注目されている。 この新興分野は凝縮マッター物理学と量子光学の両方からアイデアを引き寄せているため、両分野の理論家から注目を集めている。 前者は物質の電子構造の正確な説明を用いるが、電磁環境の説明はしばしば単純化される。 対照的に、後者は電磁環境の洗練された記述をしばしば用い、単純な少数レベルの近似を用いている。 どちらのアプローチも、電子系の過単純化された記述は光誘起構造変化のような効果を記述することができないため問題であり、電磁環境の過単純化された記述は、光と物質との相互作用の強さが誤って表されるため、非物理的予測につながる可能性がある。 本稿では,これらの欠点を克服し,第一原理から電子システムと一般電磁環境の両方を定量的に記述できる最初の方法を提案する。 我々はこれを量子電気力学密度汎関数理論とマクロ的QED(MQED)を組み合わせることで実現した。 このアプローチを例示するために,吸蔵球状空洞を考察し,異なる芳香族分子の弱結合から強結合への遷移に対する環境と電子系の異なるパラメータの影響について検討する。 この研究の一環として、簡単な空洞設置のための空洞結合強度を計算するための使い易いツールも提供する。 我々の研究は、強く結合した量子光マッター系のパラメータフリーアブ初期計算へのステップであり、理論的な方法と実験のギャップを埋めるのに役立つ。

The emerging field of strongly coupled light-matter systems has drawn significant attention in recent years due to the prospect of altering physical and chemical properties of molecules and materials. Because this emerging field draws on ideas from both condensed-matter physics and quantum optics, it has attracted attention from theoreticians from both fields. While the former employ accurate descriptions of the electronic structure of the matter the description of the electromagnetic environment is often oversimplified. Contrastingly, the latter often employs sophisticated descriptions of the electromagnetic environment, while using simple few-level approximations for the matter. Both approaches are problematic because the oversimplified descriptions of the electronic system are incapable of describing effects such as light-induced structural changes, while the oversimplified descriptions of the electromagnetic environments can lead to unphysical predictions because the light-matter interactions strengths are misrepresented. Here we overcome these shortcomings and present the first method which can quantitatively describe both the electronic system and general electromagnetic environments from first principles. We realize this by combining macroscopic QED (MQED) with Quantum Electrodynamical Density-functional Theory. To exemplify this approach, we consider an absorbing spherical cavity and study the impact of different parameters of both the environment and the electronic system on the transition from weak-to-strong coupling for different aromatic molecules. As part of this work, we also provide an easy-to-use tool to calculate the cavity coupling strengths for simple cavity setups. Our work is a step towards parameter-free ab initio calculations for strongly coupled quantum light-matter systems and will help bridge the gap between theoretical methods and experiments in the field.
翻訳日:2024-01-10 20:45:11 公開日:2024-01-09
# NeRF-LiDAR:ニューラルネットワークを用いた実効性LiDAR点雲の生成

NeRF-LiDAR: Generating Realistic LiDAR Point Clouds with Neural Radiance Fields ( http://arxiv.org/abs/2304.14811v2 )

ライセンス: Link先を確認
Junge Zhang, Feihu Zhang, Shaochen Kuang, Li Zhang(参考訳) 自動運転のトレーニングのためのLiDARポイントクラウドのラベル付けは非常に高価で難しい。 LiDARシミュレーションは、ラベルでリアルなLiDARデータを生成し、より効率的に自動運転アルゴリズムを検証することを目的としている。 近年,3次元シーンを暗黙的に再構成した新しいビュー合成法としてNeRF(Neural Radiance Fields)が提案されている。 実世界の情報を利用して現実のLIDAR点雲を生成する新しいLiDARシミュレーション手法であるNeRF-LIDARを提案する。 既存のLiDARシミュレータとは異なり、自動運転車が収集した実画像とポイントクラウドデータを用いて、3Dシーン表現、ポイントクラウド生成、ラベルレンダリングを学ぶ。 生成したLiDAR点雲上で異なる3次元セグメンテーションモデルをトレーニングすることにより、NeRF-LiDARの有効性を検証する。 トレーニングされたモデルは、実際のLiDARデータでトレーニングされた同じモデルと比較して、同様の精度を達成することができる。 さらに、生成されたデータは事前トレーニングによって精度を高めることができ、実際のラベル付きデータの要求を減らすのに役立つ。

Labeling LiDAR point clouds for training autonomous driving is extremely expensive and difficult. LiDAR simulation aims at generating realistic LiDAR data with labels for training and verifying self-driving algorithms more efficiently. Recently, Neural Radiance Fields (NeRF) have been proposed for novel view synthesis using implicit reconstruction of 3D scenes. Inspired by this, we present NeRF-LIDAR, a novel LiDAR simulation method that leverages real-world information to generate realistic LIDAR point clouds. Different from existing LiDAR simulators, we use real images and point cloud data collected by self-driving cars to learn the 3D scene representation, point cloud generation and label rendering. We verify the effectiveness of our NeRF-LiDAR by training different 3D segmentation models on the generated LiDAR point clouds. It reveals that the trained models are able to achieve similar accuracy when compared with the same model trained on the real LiDAR data. Besides, the generated data is capable of boosting the accuracy through pre-training which helps reduce the requirements of the real labeled data.
翻訳日:2024-01-10 20:44:41 公開日:2024-01-09
# 液体アルゴン時間投影室検出器応答における領域シフト緩和のための非ペア画像変換

Unpaired Image Translation to Mitigate Domain Shift in Liquid Argon Time Projection Chamber Detector Responses ( http://arxiv.org/abs/2304.12858v3 )

ライセンス: Link先を確認
Yi Huang, Dmitrii Torbunov, Brett Viren, Haiwang Yu, Jin Huang, Meifeng Lin, Yihui Ren(参考訳) ディープラーニングアルゴリズムは、しばしばトレーニングされ、異なるデータセットにデプロイされる。 トレーニングとテストデータセットの体系的な違いはすべて、ドメインシフト問題として知られるアルゴリズムのパフォーマンスを低下させる可能性がある。 この問題は、アルゴリズムがシミュレーションデータに基づいて訓練されるが、現実のデータセットに適用される多くの科学領域で一般的である。 通常、ドメインシフト問題は様々なドメイン適応手法によって解決される。 しかし、これらの手法は特定の下流タスクに適合し、容易に異なるタスクに一般化できないことがある。 本研究は,ダウンストリームアルゴリズムに特化しない領域シフト問題を解くための代替手法の利用の可能性を検討するものである。 提案手法は、教師なしの方法で異なる画像領域間の翻訳を見つけるために設計された、最新の画像間翻訳技術に依存する。 本研究では,Liquid Argon Time Projection Chamber (LArTPC) でよく見られる領域シフト問題に対して,2つの異なる分散検出器データセット間のサンプルを決定論的に翻訳する方法を提案する。 この変換により、現実世界のデータをシミュレートされたデータドメインにマッピングすることができる。 逆に、実世界の領域におけるシミュレーションデータからの翻訳を使用することで、シミュレーションデータセットの現実性を高め、不確実性の程度を小さくすることができる。 LArTPC検出器データを用いた領域シフト問題の解法として,いくつかのUI2I翻訳アルゴリズムを科学的データに応用し,これらの手法の有効性を実証した。 科学的データセットのドメイン適応手法のさらなる発展を促進するために,本研究で用いた"Simple Liquid-Argon Track Samples"データセットも公開している。

Deep learning algorithms often are trained and deployed on different datasets. Any systematic difference between the training and a test dataset may degrade the algorithm performance--what is known as the domain shift problem. This issue is prevalent in many scientific domains where algorithms are trained on simulated data but applied to real-world datasets. Typically, the domain shift problem is solved through various domain adaptation methods. However, these methods are often tailored for a specific downstream task and may not easily generalize to different tasks. This work explores the feasibility of using an alternative way to solve the domain shift problem that is not specific to any downstream algorithm. The proposed approach relies on modern Unpaired Image-to-Image translation techniques, designed to find translations between different image domains in a fully unsupervised fashion. In this study, the approach is applied to a domain shift problem commonly encountered in Liquid Argon Time Projection Chamber (LArTPC) detector research when seeking a way to translate samples between two differently distributed detector datasets deterministically. This translation allows for mapping real-world data into the simulated data domain where the downstream algorithms can be run with much less domain-shift-related degradation. Conversely, using the translation from the simulated data in a real-world domain can increase the realism of the simulated dataset and reduce the magnitude of any systematic uncertainties. We adapted several UI2I translation algorithms to work on scientific data and demonstrated the viability of these techniques for solving the domain shift problem with LArTPC detector data. To facilitate further development of domain adaptation techniques for scientific datasets, the "Simple Liquid-Argon Track Samples" dataset used in this study also is published.
翻訳日:2024-01-10 20:44:23 公開日:2024-01-09
# 高効率・長期依存学習能力を有する平行スパイキングニューロン

Parallel Spiking Neurons with High Efficiency and Ability to Learn Long-term Dependencies ( http://arxiv.org/abs/2304.12760v4 )

ライセンス: Link先を確認
Wei Fang, Zhaofei Yu, Zhaokun Zhou, Ding Chen, Yanqi Chen, Zhengyu Ma, Timoth\'ee Masquelier, Yonghong Tian(参考訳) スパイキングニューラルネットワーク(SNN)のバニラスパイクニューロンは、チャージ・ファイア・リセット・ニューラルダイナミクスを使用しており、連続的にシミュレートするだけで、長期間の依存関係を学べない。 リセットを取り除くと、ニューロンのダイナミクスは非イテレーティブな形で再構成され、並列化される。 一般の定式化によらずに神経力学を書き換えることにより、前者とは独立に隠れた状態を生成するパラレルスパイキングニューロン(PSN)を提案し、並列化可能な神経力学と極めて高いシミュレーション速度をもたらす。 PSNにおける入力の重みは完全連結であり、時間情報の利用を最大化する。 ステップバイステップ推論のための将来の入力の使用を避けるために、psnの重みをマスキングすることができ、その結果、マスキングpsnとなる。 マスク付きPSNに基づいて時間ステップ間で重みを共有することにより、様々な長さのシーケンスを処理するためのスライディングPSNを提案する。 シミュレーション速度と時間・静的データ分類におけるpsnファミリーの評価を行い,psnファミリーの効率と精度において圧倒的な優位性を示した。 私たちの知る限りでは、これはスパイクニューロンの並列化に関する最初の研究であり、スパイク深層学習研究の基礎となる可能性がある。 我々のコードは \url{https://github.com/fangwei123456/Parallel-Spiking-Neuron} で公開されている。

Vanilla spiking neurons in Spiking Neural Networks (SNNs) use charge-fire-reset neuronal dynamics, which can only be simulated serially and can hardly learn long-time dependencies. We find that when removing reset, the neuronal dynamics can be reformulated in a non-iterative form and parallelized. By rewriting neuronal dynamics without reset to a general formulation, we propose the Parallel Spiking Neuron (PSN), which generates hidden states that are independent of their predecessors, resulting in parallelizable neuronal dynamics and extremely high simulation speed. The weights of inputs in the PSN are fully connected, which maximizes the utilization of temporal information. To avoid the use of future inputs for step-by-step inference, the weights of the PSN can be masked, resulting in the masked PSN. By sharing weights across time-steps based on the masked PSN, the sliding PSN is proposed to handle sequences of varying lengths. We evaluate the PSN family on simulation speed and temporal/static data classification, and the results show the overwhelming advantage of the PSN family in efficiency and accuracy. To the best of our knowledge, this is the first study about parallelizing spiking neurons and can be a cornerstone for the spiking deep learning research. Our codes are available at \url{https://github.com/fangwei123456/Parallel-Spiking-Neuron}.
翻訳日:2024-01-10 20:43:55 公開日:2024-01-09
# 多目的分散ドメイン適応へのマルチソース

Multi-Source to Multi-Target Decentralized Federated Domain Adaptation ( http://arxiv.org/abs/2304.12422v2 )

ライセンス: Link先を確認
Su Wang, Seyyedali Hosseinalipour, Christopher G. Brinton(参考訳) 連合学習(fl)におけるデバイス間の不均一性は、一般に統計(例えば、非i.i.d.データ分布)と資源(例えば、通信帯域幅)の次元を指す。 本稿では,デバイス間でラベル付きおよびラベルなしデータの量/分布の異なる,あまり注目されていない別の重要な次元に焦点を当てる。 すべてのデータを活用するために,高品質なラベル付きデータ(ソースと呼ばれる)を持つデバイスから,低品質またはラベル付きデータ(ターゲットと呼ばれる)を持つデバイスへのmlモデルの転送を検討する分散フェデレーションドメイン適応手法を開発した。 我々の手法であるst-lf(source-target determination and link formation)は両者を最適化する (i) 装置のソース及びターゲットへの分類及び (ii) mlモデルの精度と通信エネルギー効率とのトレードオフを考慮したソース・ターゲットリンクの形成。 具体的目的関数を得るためには、ソース・ターゲット仮説の偏差とデータ分布のばらつきを推定する測定可能な一般化誤差を導出する。 結果として得られる最適化問題は、NPハード問題のクラスである混合整数シグナミカルプログラムであり、連続凸近似に基づくアルゴリズムを開発し、その解法を巧みに行う。 その後のST-LFの数値評価は、最先端のベースラインよりも分類精度とエネルギー効率を向上させることを示した。

Heterogeneity across devices in federated learning (FL) typically refers to statistical (e.g., non-i.i.d. data distributions) and resource (e.g., communication bandwidth) dimensions. In this paper, we focus on another important dimension that has received less attention: varying quantities/distributions of labeled and unlabeled data across devices. In order to leverage all data, we develop a decentralized federated domain adaptation methodology which considers the transfer of ML models from devices with high quality labeled data (called sources) to devices with low quality or unlabeled data (called targets). Our methodology, Source-Target Determination and Link Formation (ST-LF), optimizes both (i) classification of devices into sources and targets and (ii) source-target link formation, in a manner that considers the trade-off between ML model accuracy and communication energy efficiency. To obtain a concrete objective function, we derive a measurable generalization error bound that accounts for estimates of source-target hypothesis deviations and divergences between data distributions. The resulting optimization problem is a mixed-integer signomial program, a class of NP-hard problems, for which we develop an algorithm based on successive convex approximations to solve it tractably. Subsequent numerical evaluations of ST-LF demonstrate that it improves classification accuracy and energy efficiency over state-of-the-art baselines.
翻訳日:2024-01-10 20:43:31 公開日:2024-01-09
# 制御可能な信頼トレードオフによる合成データの監査と生成

Auditing and Generating Synthetic Data with Controllable Trust Trade-offs ( http://arxiv.org/abs/2304.10819v3 )

ライセンス: Link先を確認
Brian Belgodere, Pierre Dognin, Adam Ivankay, Igor Melnyk, Youssef Mroueh, Aleksandra Mojsilovic, Jiri Navratil, Apoorva Nitsure, Inkit Padhi, Mattia Rigotti, Jerret Ross, Yair Schiff, Radhika Vedpathak, and Richard A. Young(参考訳) 現実世界のデータはしばしばバイアス、不均衡、プライバシーのリスクを示す。 これらの問題に対処するために合成データセットが登場した。 このパラダイムは生成AIモデルに依存して、元のデータへの忠実さを維持しながら、バイアスのないプライバシー保護データを生成する。 しかし、合成データセットとモデルの信頼性を評価することは重要な課題である。 合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。 バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。 教育,医療,銀行,人的資源といった多様なユースケースをまたいで様々な生成モデルを監査し,表型,時系列,視覚,自然言語といった異なるデータモダリティにまたがるフレームワークの有効性を実証する。 この全体的評価は、規制保護の遵守に不可欠である。 我々は,その保護トレードオフに基づいて合成データセットをランク付けする信頼度指標を提案する。 さらに,信頼性駆動型モデル選択とトレーニング中のクロスバリデーションプロセスを提案し,様々なデータ型にまたがる"TrustFormers"を例示する。 このアプローチは、合成データ作成における制御可能な信頼性トレードオフを可能にする。 監査フレームワークは、データサイエンティスト、ガバナンスの専門家、内部レビュアー、外部認定者、規制機関を含むステークホルダー間のコラボレーションを促進する。 この透明性のある報告は、偏見、差別、プライバシー侵害を防ぎ、ポリシーの遵守を確保し、説明責任、安全性、パフォーマンス保証を提供するための標準のプラクティスとなる。

Real-world data often exhibits bias, imbalance, and privacy risks. Synthetic datasets have emerged to address these issues. This paradigm relies on generative AI models to generate unbiased, privacy-preserving data while maintaining fidelity to the original data. However, assessing the trustworthiness of synthetic datasets and models is a critical challenge. We introduce a holistic auditing framework that comprehensively evaluates synthetic datasets and AI models. It focuses on preventing bias and discrimination, ensures fidelity to the source data, assesses utility, robustness, and privacy preservation. We demonstrate the framework's effectiveness by auditing various generative models across diverse use cases like education, healthcare, banking, and human resources, spanning different data modalities such as tabular, time-series, vision, and natural language. This holistic assessment is essential for compliance with regulatory safeguards. We introduce a trustworthiness index to rank synthetic datasets based on their safeguards trade-offs. Furthermore, we present a trustworthiness-driven model selection and cross-validation process during training, exemplified with "TrustFormers" across various data types. This approach allows for controllable trustworthiness trade-offs in synthetic data creation. Our auditing framework fosters collaboration among stakeholders, including data scientists, governance experts, internal reviewers, external certifiers, and regulators. This transparent reporting should become a standard practice to prevent bias, discrimination, and privacy violations, ensuring compliance with policies and providing accountability, safety, and performance guarantees.
翻訳日:2024-01-10 20:43:11 公開日:2024-01-09
# hcam --階層的クロスアテンションモデルによるマルチモーダル感情認識

HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion Recognition ( http://arxiv.org/abs/2304.06910v2 )

ライセンス: Link先を確認
Soumya Dutta and Sriram Ganapathy(参考訳) 会話における感情認識は、感情表現のマルチモーダルな性質のために困難である。 本稿では,階層型クロスアテンションモデル(hcam)による複数モーダル感情認識手法を提案する。 モデルへの入力は2つの様相からなる。 i) 学習可能なwav2vecアプローチで処理された音声データ 二 変換器(BERT)モデルからの双方向エンコーダ表現を用いて表されるテキストデータ。 音声およびテキスト表現は、所定の会話における各発話を固定次元埋め込みに変換する自己注意を伴う双方向のリカレントニューラルネットワーク層を用いて処理される。 文脈知識と2つのモダリティにまたがる情報を統合するために、音声とテキストの埋め込みは、感情認識のタスクに関連する発話レベルの埋め込みを測るコアテンション層を用いて結合される。 音声層、テキスト層、およびマルチモーダルなコアテンション層におけるニューラルネットワークパラメータは、感情分類タスクのために階層的に訓練される。 我々は、IEMOCAP、MELD、CMU-MOSIという3つの確立されたデータセットで実験を行い、提案モデルが他のベンチマークよりも大幅に改善され、これらのデータセットの最先端結果の達成に役立ちます。

Emotion recognition in conversations is challenging due to the multi-modal nature of the emotion expression. We propose a hierarchical cross-attention model (HCAM) approach to multi-modal emotion recognition using a combination of recurrent and co-attention neural network models. The input to the model consists of two modalities, i) audio data, processed through a learnable wav2vec approach and, ii) text data represented using a bidirectional encoder representations from transformers (BERT) model. The audio and text representations are processed using a set of bi-directional recurrent neural network layers with self-attention that converts each utterance in a given conversation to a fixed dimensional embedding. In order to incorporate contextual knowledge and the information across the two modalities, the audio and text embeddings are combined using a co-attention layer that attempts to weigh the utterance level embeddings relevant to the task of emotion recognition. The neural network parameters in the audio layers, text layers as well as the multi-modal co-attention layers, are hierarchically trained for the emotion classification task. We perform experiments on three established datasets namely, IEMOCAP, MELD and CMU-MOSI, where we illustrate that the proposed model improves significantly over other benchmarks and helps achieve state-of-art results on all these datasets.
翻訳日:2024-01-10 20:42:46 公開日:2024-01-09
# tracial embeddeddable strategies: mip*のトリックをmipcoに持ち上げる

Tracial embeddable strategies: Lifting MIP* tricks to MIPco ( http://arxiv.org/abs/2304.01940v2 )

ライセンス: Link先を確認
Junqiao Lin(参考訳) 可換作用素モデルにおける任意の二項相関は、有限 tracial von Neumann 代数上で定義される戦略のクラスである tracial embeddeddable strategy を用いて近似できることを示す。 この特徴量を用いて、任意の近似同期相関は、可換作用素モデルにおける同期相関の集まりの平均に近似できることを示す。 これは有限次元の量子相関にのみ適用される Vidick [JMP 2022] の結果を一般化する。 共役として、量子テンソル符号がji等からテストされていることを示す。 [FOCS 2022]は一般通勤運転者モデルにおいても音質特性に従う。 さらに、ゴワーズ・ハタミ定理の状態依存ノルム多様体を有限フォンノイマン代数に拡張する。 上記の特徴と組み合わせることで、非局所ゲームに対する堅牢な自己テストに関する多くの既知の結果を通勤操作者モデルに持ち上げることができ、通勤操作者戦略のための効率的な有限次元EPRテストのサンプルを含む。 この論文の貢献に加えて、この戦略のクラスは無限次元の設定において非局所的なゲームをさらに理解するのに役立つと信じている。

We prove that any two-party correlation in the commuting operator model can be approximated using a tracial embeddable strategy, a class of strategy defined on a finite tracial von Neumann algebra, which we define in this paper. Using this characterization, we show that any approximately synchronous correlation can be approximated to the average of a collection of synchronous correlations in the commuting operator model. This generalizes the result from Vidick [JMP 2022] which only applies to finite-dimensional quantum correlations. As a corollary, we show that the quantum tensor code test from Ji et al. [FOCS 2022] follows the soundness property even under the general commuting operator model. Furthermore, we extend the state-dependent norm variant of the Gowers-Hatami theorem to finite von Neumann algebras. Combined with the aforementioned characterization, this enables us to lift many known results about robust self-testing for non-local games to the commuting operator model, including a sample efficient finite-dimensional EPR testing for the commuting operator strategies. We believe that, in addition to the contribution from this paper, this class of strategies can be helpful for further understanding non-local games in the infinite-dimensional setting.
翻訳日:2024-01-10 20:42:26 公開日:2024-01-09
# クラスインクリメンタル学習のためのクロスクラス機能拡張

Cross-Class Feature Augmentation for Class Incremental Learning ( http://arxiv.org/abs/2304.01899v3 )

ライセンス: Link先を確認
Taehoon Kim, Jaeyoo Park, Bohyung Han(参考訳) 本稿では,敵対的攻撃を動機とした機能強化手法を取り入れた新しいクラスインクリメンタル学習手法を提案する。 我々は,学習した学習例を補完するために,知識蒸留の教師としての役割を担うのではなく,過去に学んだ分類器を用いている。 提案手法は,事前学習した分類器に対する逆攻撃を通じて,他のクラスでの例を用いて任意の対象クラスの特徴を増強するため,クラスインクリメンタルラーニングにおける従来の知識を活用するというユニークな視点を持つ。 クロスクラス機能拡張を許すことにより、古いタスクの各クラスは、特徴空間にサンプルを都合よく投入し、特に格納された例の数が少ない場合には、前タスクのサンプル不足に起因する決定境界の崩壊を緩和する。 このアイデアは、アーキテクチャを変更することなく、既存のクラスインクリメンタル学習アルゴリズムに簡単に組み込むことができる。 各種シナリオにおいて,特にメモリ予算が極めて限られている環境下では,本手法が既存の段階的学習手法よりはるかに優れていることを示す。

We propose a novel class incremental learning approach by incorporating a feature augmentation technique motivated by adversarial attacks. We employ a classifier learned in the past to complement training examples rather than simply play a role as a teacher for knowledge distillation towards subsequent models. The proposed approach has a unique perspective to utilize the previous knowledge in class incremental learning since it augments features of arbitrary target classes using examples in other classes via adversarial attacks on a previously learned classifier. By allowing the cross-class feature augmentations, each class in the old tasks conveniently populates samples in the feature space, which alleviates the collapse of the decision boundaries caused by sample deficiency for the previous tasks, especially when the number of stored exemplars is small. This idea can be easily incorporated into existing class incremental learning algorithms without any architecture modification. Extensive experiments on the standard benchmarks show that our method consistently outperforms existing class incremental learning methods by significant margins in various scenarios, especially under an environment with an extremely limited memory budget.
翻訳日:2024-01-10 20:42:07 公開日:2024-01-09
# 浅いReLU$^k$ニューラルネットワークによる近似の最適速度と非パラメトリック回帰への応用

Optimal rates of approximation by shallow ReLU$^k$ neural networks and applications to nonparametric regression ( http://arxiv.org/abs/2304.01561v3 )

ライセンス: Link先を確認
Yunfei Yang, Ding-Xuan Zhou(参考訳) 浅層relu$^k$ニューラルネットワークに対応する変動空間の近似容量について検討した。 十分滑らかな函数は有限変分ノルムを持つこれらの空間に含まれることが示されている。 滑らかさの低い関数に対しては、変動ノルムの観点から近似率が確立される。 これらの結果を用いて、浅いReLU^k$ニューラルネットワークのニューロン数の観点から最適な近似率を証明できる。 また,これらの結果は深層ニューラルネットワークと畳み込みニューラルネットワーク(cnns)の近似境界を導出するために利用できることを示した。 応用例として、浅層ニューラルネットワーク、過パラメータニューラルネットワーク、cnnの3つのreluニューラルネットワークモデルを用いて、非パラメトリック回帰の収束率について検討する。 特に,深層ニューラルネットワークの最近の結果を補完するh\"older関数を学習する上で,浅いニューラルネットワークが最小の最適速度を達成可能であることを示す。 また、過パラメータ(深層または浅層)ニューラルネットワークが非パラメトリック回帰に対してほぼ最適速度を達成することも証明されている。

We study the approximation capacity of some variation spaces corresponding to shallow ReLU$^k$ neural networks. It is shown that sufficiently smooth functions are contained in these spaces with finite variation norms. For functions with less smoothness, the approximation rates in terms of the variation norm are established. Using these results, we are able to prove the optimal approximation rates in terms of the number of neurons for shallow ReLU$^k$ neural networks. It is also shown how these results can be used to derive approximation bounds for deep neural networks and convolutional neural networks (CNNs). As applications, we study convergence rates for nonparametric regression using three ReLU neural network models: shallow neural network, over-parameterized neural network, and CNN. In particular, we show that shallow neural networks can achieve the minimax optimal rates for learning H\"older functions, which complements recent results for deep neural networks. It is also proven that over-parameterized (deep or shallow) neural networks can achieve nearly optimal rates for nonparametric regression.
翻訳日:2024-01-10 20:41:47 公開日:2024-01-09
# P-Transformer:医療用タブラリデータのためのプロンプト型マルチモーダルトランスアーキテクチャ

P-Transformer: A Prompt-based Multimodal Transformer Architecture For Medical Tabular Data ( http://arxiv.org/abs/2303.17408v3 )

ライセンス: Link先を確認
Yucheng Ruan, Xiang Lan, Daniel J. Tan, Hairil Rizal Abdullah, Mengling Feng(参考訳) 電子健康記録(ehrs)に豊富に存在する医療表データは、リスク予測のような様々な医療タスクにとって貴重な資源である。 ディープラーニングのアプローチ、特にトランスフォーマーベースのモデルは、表データ予測において顕著なパフォーマンスを示しているが、未構造化のフリーテキストの活用不足、構造化データにおけるテキスト情報の探索の制限、データ破損など、既存の作業が医学領域に効果的に適応するための課題はまだ残っている。 そこで我々は,医療用表データ専用に設計されたプロンプトベースのマルチモーダルトランスフォーマーであるp-transformerを提案する。 このフレームワークは、表層細胞埋め込みジェネレータと表層トランスフォーマーの2つの重要なコンポーネントから構成される。 前者は、事前訓練された文エンコーダと医用プロンプトの助けを借りて、構造化および非構造化の表データから調和した言語意味空間へ、多彩なモダリティを効率的に符号化する。 後者は細胞表現を統合し、様々な医療タスクのための患者埋め込みを生成する。 P-Transformerは3つの医療タスクのための2つの実世界のデータセットに関する総合的な実験で、RMSE/MAEで10.9%/11.0%、RMSE/MAEで0.5%/2.2%、BACC/AUROCで1.6%/0.8%の改善を予測可能性で示した。 特にこのモデルは,特に腐敗率が高い場合には,構造化データのデータ破損に対する強いレジリエンスを示した。

Medical tabular data, abundant in Electronic Health Records (EHRs), is a valuable resource for diverse medical tasks such as risk prediction. While deep learning approaches, particularly transformer-based models, have shown remarkable performance in tabular data prediction, there are still problems remained for existing work to be effectively adapted into medical domain, such as under-utilization of unstructured free-texts, limited exploration of textual information in structured data, and data corruption. To address these issues, we propose P-Transformer, a Prompt-based multimodal Transformer architecture designed specifically for medical tabular data. This framework consists two critical components: a tabular cell embedding generator and a tabular transformer. The former efficiently encodes diverse modalities from both structured and unstructured tabular data into a harmonized language semantic space with the help of pre-trained sentence encoder and medical prompts. The latter integrates cell representations to generate patient embeddings for various medical tasks. In comprehensive experiments on two real-world datasets for three medical tasks, P-Transformer demonstrated the improvements with 10.9%/11.0% on RMSE/MAE, 0.5%/2.2% on RMSE/MAE, and 1.6%/0.8% on BACC/AUROC compared to state-of-the-art (SOTA) baselines in predictability. Notably, the model exhibited strong resilience to data corruption in the structured data, particularly when the corruption rates are high.
翻訳日:2024-01-10 20:41:09 公開日:2024-01-09
# GP-PCS:リーマン多様体上のガウス過程によるワンショット特徴保存点雲の単純化

GP-PCS: One-shot Feature-Preserving Point Cloud Simplification with Gaussian Processes on Riemannian Manifolds ( http://arxiv.org/abs/2303.15225v3 )

ライセンス: Link先を確認
Stuti Pathak, Thomas M. McDonald, Seppe Sels, Rudi Penne(参考訳) 大規模ポイントクラウドの処理,ストレージ,送信は,自動運転や仮想現実,リモートセンシングといった現実環境への3dモデルの適用の進展を妨げる,コンピュータビジョンコミュニティの現在進行中の課題である。 本研究では,従来の表面再構成工程を使わずに,点雲の健全な構造特徴と全体形状の両方を保存できる新しい一発点雲簡略化法を提案する。 本手法では、リーマン多様体上で定義される関数に適したガウス過程を用い、任意の点クラウド上の曲面変動関数をモデル化する。 グリーディスパーシフィケーションスキームを用いて点を順次選択して元の雲の簡易版を得る。 このスキームで使用される選択基準は、単純化された雲が元の点雲の表面の変化を最もよく表すことを保証している。 本手法をいくつかのベンチマークおよび自己獲得ポイントクラウド上で評価し,既存の手法と比較し,登録および表面再構成の下流タスクにおける適用例を示し,経験的性能と計算効率の両面で競合することを示した。

The processing, storage and transmission of large-scale point clouds is an ongoing challenge in the computer vision community which hinders progress in the application of 3D models to real-world settings, such as autonomous driving, virtual reality and remote sensing. We propose a novel, one-shot point cloud simplification method which preserves both the salient structural features and the overall shape of a point cloud without any prior surface reconstruction step. Our method employs Gaussian processes suitable for functions defined on Riemannian manifolds, allowing us to model the surface variation function across any given point cloud. A simplified version of the original cloud is obtained by sequentially selecting points using a greedy sparsification scheme. The selection criterion used for this scheme ensures that the simplified cloud best represents the surface variation of the original point cloud. We evaluate our method on several benchmark and self-acquired point clouds, compare it to a range of existing methods, demonstrate its application in downstream tasks of registration and surface reconstruction, and show that our method is competitive both in terms of empirical performance and computational efficiency.
翻訳日:2024-01-10 20:40:37 公開日:2024-01-09
# 大規模自己監視プリトレインによる内視鏡映像解析の基礎モデル

Foundation Model for Endoscopy Video Analysis via Large-scale Self-supervised Pre-train ( http://arxiv.org/abs/2306.16741v4 )

ライセンス: Link先を確認
Zhao Wang, Chang Liu, Shaoting Zhang, Qi Dou(参考訳) 基礎モデルは、疾患診断やテキストレポート生成など、様々な応用で顕著な成功を収めている。 現在まで,内視鏡的映像解析の基礎モデルが欠落している。 本稿では,大規模な内視鏡映像データを用いた基礎モデルであるEndo-FMを提案する。 まず,空間的および時間的次元にまたがる局所的および大域的長距離依存性をキャプチャするビデオトランスフォーマーを構築する。 第2に,グローバルおよびローカルビューを用いたトランスフォーマーモデルの事前学習を行い,空間的・時間的変動に頑健にし,異なる場面で識別できるようにする。 基礎モデルを開発するために,上海の蓮華病院の青山支部から収集した9つの公開データセットとプライベートデータセットを組み合わせることで,大規模内視鏡映像データセットを構築した。 私たちのデータセット全体は、最大500万フレームの33Kビデオクリップで構成されており、さまざまなプロトコル、対象臓器、疾患タイプが含まれています。 トレーニング済みのEndo-FMは、バックボーンとして機能し、微調整により、所定の下流タスクに容易に適用できる。 分類,セグメンテーション,検出を含む3種類のダウンストリームタスクの実験により,私たちのEndo-FMは,VCL(3.1% F1,4.8% Dice,5.5% F1,分類,セグメンテーション,検出)やST-Adapter(5.9% F1,9.6% Dice,9.9% F1,分類,セグメンテーション,検出)といった,現在の最先端技術(SOTA)の自己指導型事前訓練およびアダプタベースのトランスファー学習手法をはるかに上回っている。 コード、データセット、モデルはhttps://github.com/med-air/Endo-FMでリリースされている。

Foundation models have exhibited remarkable success in various applications, such as disease diagnosis and text report generation. To date, a foundation model for endoscopic video analysis is still lacking. In this paper, we propose Endo-FM, a foundation model specifically developed using massive endoscopic video data. First, we build a video transformer, which captures both local and global long-range dependencies across spatial and temporal dimensions. Second, we pre-train our transformer model using global and local views via a self-supervised manner, aiming to make it robust to spatial-temporal variations and discriminative across different scenes. To develop the foundation model, we construct a large-scale endoscopy video dataset by combining 9 publicly available datasets and a privately collected dataset from Baoshan Branch of Renji Hospital in Shanghai, China. Our dataset overall consists of over 33K video clips with up to 5 million frames, encompassing various protocols, target organs, and disease types. Our pre-trained Endo-FM can be easily adopted for a given downstream task via fine-tuning by serving as the backbone. With experiments on 3 different types of downstream tasks, including classification, segmentation, and detection, our Endo-FM surpasses the current state-of-the-art (SOTA) self-supervised pre-training and adapter-based transfer learning methods by a significant margin, such as VCL (3.1% F1, 4.8% Dice, and 5.5% F1 for classification, segmentation, and detection) and ST-Adapter (5.9% F1, 9.6% Dice, and 9.9% F1 for classification, segmentation, and detection). Code, datasets, and models are released at https://github.com/med-air/Endo-FM.
翻訳日:2024-01-10 20:23:05 公開日:2024-01-09
# 拡散型確率的再生モデルによる風雑音低減

Wind Noise Reduction with a Diffusion-based Stochastic Regeneration Model ( http://arxiv.org/abs/2306.12867v2 )

ライセンス: Link先を確認
Jean-Marie Lemercier, Joachim Thiemann, Raphael Koning, Timo Gerkmann(参考訳) 本稿では,予測モデルと生成モデルを組み合わせた拡散型確率的再生モデルを用いた単チャンネル風雑音低減手法を提案する。 本稿では, 風流による膜の非線形変形とクリッピングを考慮した雑音モデルにおける非加法音声について紹介する。 我々の確率的再生モデルは、シミュレーションおよび実記録風雑音を用いたデータセット上で、他のニューラルネットワークに基づく風雑音低減法、および純粋に予測的および生成的モデルより優れていることを示す。 さらに,本手法は,実記録風雑音のある未認識データセット上でテストすることにより,よく一般化できることを示す。 提案手法の音声サンプル、データ生成スクリプト、コードはオンラインで見ることができる(https://uhh.de/inf-sp-storm-wind)。

In this paper we present a method for single-channel wind noise reduction using our previously proposed diffusion-based stochastic regeneration model combining predictive and generative modelling. We introduce a non-additive speech in noise model to account for the non-linear deformation of the membrane caused by the wind flow and possible clipping. We show that our stochastic regeneration model outperforms other neural-network-based wind noise reduction methods as well as purely predictive and generative models, on a dataset using simulated and real-recorded wind noise. We further show that the proposed method generalizes well by testing on an unseen dataset with real-recorded wind noise. Audio samples, data generation scripts and code for the proposed methods can be found online (https://uhh.de/inf-sp-storm-wind).
翻訳日:2024-01-10 20:22:28 公開日:2024-01-09
# 一次元光学格子における粒子不均衡を持つ量子滴

Quantum droplets with particle imbalance in one-dimensional optical lattices ( http://arxiv.org/abs/2306.12283v2 )

ライセンス: Link先を確認
Jofre Vall\`es-Muns, Ivan Morera, Grigori E. Astrakharchik, Bruno Juli\'a-D\'iaz(参考訳) 二元ボソニック混合物をゼロ温度で含む1次元光学格子における粒子不平衡量子液滴の形成について検討した。 数体と多体の両方の観点から不均衡の影響を理解するため,密度行列再正規化群 (dmrg) のシミュレーションを行い, 熱力学的限界への外挿を行った。 粒子平衡の場合とは対照的に、全てのボソンが対になるわけではないため、結合状態と個々の原子の間の相互作用が引き起こされる。 量子滴は小さな粒子の不均衡を保ち、効果的な磁化をもたらす。 しかし、さらに不均衡が大きくなると臨界点が交差し、バルク中の磁化が一定のまま、液滴が余剰粒子を放出し始める。 量子滴の上の未対の粒子は、効果的に超トンクス・ジラルドー(ハードロッド)ガスを形成する。 爆発点は、スーパートンクス・ジラード気体の大きさが液滴の大きさと一致する臨界密度と一致する。

We study the formation of particle-imbalanced quantum droplets in a one-dimensional optical lattice containing a binary bosonic mixture at zero temperature. To understand the effects of the imbalance from both the few- and many-body perspectives, we employ density matrix renormalization group (DMRG) simulations and perform the extrapolation to the thermodynamic limit. In contrast to the particle-balanced case, not all bosons are paired, resulting in an interplay between bound states and individual atoms that leads to intriguing phenomena. Quantum droplets manage to sustain a small particle imbalance, resulting in an effective magnetization. However, as the imbalance is further increased, a critical point is eventually crossed, and the droplets start to expel the excess particles while the magnetization in the bulk remains constant. Remarkably, the unpaired particles on top of the quantum droplet effectively form a super Tonks-Girardeau (hard-rod) gas. The expulsion point coincides with the critical density at which the size of the super Tonks-Girardeau gas matches the size of the droplet.
翻訳日:2024-01-10 20:22:15 公開日:2024-01-09
# 分離学習による混乱ノードの明確化

Clarify Confused Nodes Through Separated Learning ( http://arxiv.org/abs/2306.02285v2 )

ライセンス: Link先を確認
Jiajun Zhou, Shengbo Gong, Chenxuan Xie, Shanqing Yu, Qi Xuan, Xiaoniu Yang(参考訳) グラフニューラルネットワーク(gnns)は、グラフ指向タスクにおいて著しく進歩した。 しかし、実世界のグラフには不均一なノードの割合が必ず含まれており、古典的なGNNのホモフィリーな仮定に挑戦し、その性能を妨げている。 既存の研究の多くは、ヘテロフィラスノードとホモフィラスノードの共有重みを持つジェネリックモデルの設計を続けている。 高階メッセージやマルチチャネルアーキテクチャが組み込まれているにもかかわらず、これらの取り組みはしばしば不足している。 少数の研究は、異なるノードグループを個別に訓練しようとするが、不適切な分離メトリクスと低い効率に苦しむ。 本稿ではまず,より信頼性の高いノード分離を容易にするため,近隣融合(NC)と呼ばれる新しいメトリクスを提案する。 nc値の異なるノード群は,グループ内精度と組込みの可視化において一定の差異を示す。 これらは近所の混乱誘導グラフ畳み込みネットワーク(ncgcn)への道を開き、ノードをnc値でグループ化し、グループ内の重み付けとメッセージパッシングを受け入れる。 ホモフィリアスベンチマークとヘテロフィリアスベンチマークの両方に関する広範囲な実験により、我々のフレームワークがノードを効果的に分離し、最新の手法と比較して大幅なパフォーマンス向上をもたらすことを実証した。 ソースコードはまもなくリリースされる予定だ。

Graph neural networks (GNNs) have achieved remarkable advances in graph-oriented tasks. However, real-world graphs invariably contain a certain proportion of heterophilous nodes, challenging the homophily assumption of classical GNNs and hindering their performance. Most existing studies continue to design generic models with shared weights between heterophilous and homophilous nodes. Despite the incorporation of high-order messages or multi-channel architectures, these efforts often fall short. A minority of studies attempt to train different node groups separately but suffer from inappropriate separation metrics and low efficiency. In this paper, we first propose a new metric, termed Neighborhood Confusion (NC), to facilitate a more reliable separation of nodes. We observe that node groups with different levels of NC values exhibit certain differences in intra-group accuracy and visualized embeddings. These pave the way for Neighborhood Confusion-guided Graph Convolutional Network (NCGCN), in which nodes are grouped by their NC values and accept intra-group weight sharing and message passing. Extensive experiments on both homophilous and heterophilous benchmarks demonstrate that our framework can effectively separate nodes and yield significant performance improvement compared to the latest methods. The source code will be released soon.
翻訳日:2024-01-10 20:21:59 公開日:2024-01-09
# フェルミオンスピン1/2模型における多体傷の安定性

Stability of the many-body scars in fermionic spin-1/2 models ( http://arxiv.org/abs/2305.17164v3 )

ライセンス: Link先を確認
Patrice Kolb, Kiryl Pakrouski(参考訳) スピン-1/2フェルミオン系における多体傷の安定性について, 関連物質における最も典型的な摂動下で検討した。 いくつかの傷跡は特定の摂動には全く敏感ではない。 他の場合では摂動理論の第一次に安定である。 我々の分析結果は、(arXiv:2106.10300)で知られている多くのハミルトン派に当てはまる。 数値計算では、ハイゼンベルクとハバードの相互作用を含む変形した$t-J-U$モデルを選択する。 本稿では,初期波動関数の忠実性ではなく,物理的観測性に基づく2つの新しい安定性尺度を提案する。 傷跡の実験的検出を可能にし、理論的および数値的な観点からより信頼性が高い。 これらの測定方法の1つは、正確な多体傷がエネルギーに等間隔にある他のシステムで応用される可能性がある。 小型系や小摂動系では、量子シミュレーターに特に関係する機構として、多体傷が示すさらなる安定性を同定し記述する。 より大きな摂動強度については、多体局在と一致する異なるエルゴディシティ破壊モードを観察する。

We study the stability of the many-body scars in spin-1/2 fermionic systems under the most typical perturbations in relevant materials. We find that some families of scars are completely insensitive to certain perturbations. In some other cases they are stable to the first order in perturbation theory. Our analytical results apply to a large class of Hamiltonians that are known [arXiv:2106.10300] to support exact many-body scars. For the numerical calculations we choose the deformed $t-J-U$ model that includes both Heisenberg and Hubbard interactions. We propose two new stability measures that are based on physical observables rather than the fidelity to the exact initial wavefunction. They enable the experimental detection of scars and are more reliable from the theoretical and numerical perspectives. One of these measures may potentially find applications in other systems where the exact many-body scars are equally spaced in energy. In small systems and at small perturbations, a regime particularly relevant for quantum simulators, we identify and describe an additional stability exhibited by the many-body scars. For larger perturbation strengths we observe a distinct mode of ergodicity breaking that is consistent with many-body localization.
翻訳日:2024-01-10 20:21:27 公開日:2024-01-09
# メモリ制約付きオンライン連続学習のためのストリームデータ要約

Summarizing Stream Data for Memory-Constrained Online Continual Learning ( http://arxiv.org/abs/2305.16645v2 )

ライセンス: Link先を確認
Jianyang Gu, Kai Wang, Wei Jiang, Yang You(参考訳) リプレイベースの手法は、過去のサンプルを補助記憶からリハーサルすることで、オンライン連続学習における効果を証明している。 しかし、メモリに基づいたトレーニングスキームの改善に多くの努力を払っているため、メモリの各サンプルが保持する情報は未検討のままである。 ストレージ空間が制限された状況下では、メモリのインフォメーション性が効果的なリプレイに不可欠となる。 代表的なサンプルを選択するための特定の戦略をデザインする作業もあるが、少数のオリジナルイメージのみを使用することで、ストレージスペースは未だ十分に活用されていない。 そこで本研究では,実画像のトレーニング特性を抽出することにより,ストリームデータ(SSD)からの知識をより情報的なサンプルに要約する。 トレーニング勾配の一貫性と過去のタスクとの関係を維持することにより、要約されたサンプルは、元の画像よりもストリームデータに代表される。 複数のオンライン連続学習ベンチマークにおいて,提案手法がリプレイ効果を著しく向上させるため,大規模な実験を行った。 計算オーバーヘッドが限られているSSDは、非常に制限されたメモリバッファ下でのシーケンシャルCIFAR-100の精度を3%以上向上することを示した。 コード: https://github.com/vimar-gu/ssd。

Replay-based methods have proved their effectiveness on online continual learning by rehearsing past samples from an auxiliary memory. With many efforts made on improving training schemes based on the memory, however, the information carried by each sample in the memory remains under-investigated. Under circumstances with restricted storage space, the informativeness of the memory becomes critical for effective replay. Although some works design specific strategies to select representative samples, by only employing a small number of original images, the storage space is still not well utilized. To this end, we propose to Summarize the knowledge from the Stream Data (SSD) into more informative samples by distilling the training characteristics of real images. Through maintaining the consistency of training gradients and relationship to the past tasks, the summarized samples are more representative for the stream data compared to the original images. Extensive experiments are conducted on multiple online continual learning benchmarks to support that the proposed SSD method significantly enhances the replay effects. We demonstrate that with limited extra computational overhead, SSD provides more than 3% accuracy boost for sequential CIFAR-100 under extremely restricted memory buffer. Code in https://github.com/vimar-gu/SSD.
翻訳日:2024-01-10 20:20:51 公開日:2024-01-09
# union subgraphニューラルネットワーク

Union Subgraph Neural Networks ( http://arxiv.org/abs/2305.15747v3 )

ライセンス: Link先を確認
Jiaxing Xu, Aihu Zhang, Qingtian Bian, Vijay Prakash Dwivedi and Yiping Ke(参考訳) グラフニューラルネットワーク(GNN)は多くのアプリケーション領域でグラフ表現学習に広く使われている。 バニラGNNの表現性は、1次元のWeisfeiler-Leman (1-WL) テストによって上界化され、反復的なメッセージパッシングを通じてルート木に作用する。 本稿では,新しいタイプのサブ構造から抽出した近接接続情報を注入することにより,GNNの強化を図る。 まず, 周辺地域に存在する様々な接続性を調査し, エッジの1ホップ近傍の全体像を捉えることができるunion subgraphと呼ばれるサブ構造を同定する。 次に、3つの優れた特性を持ち、結合部分グラフの高次接続性を効果的にエンコードできる最短パスベースの部分構造記述子を設計する。 エンコードされた隣接コネクティビティを注入することにより、非同型グラフの識別において、1-wlよりも厳密に強力であることが証明された、union subgraph neural network (unionsnn) という新しいモデルを提案する。 さらに、ユニオンサブグラフからのローカルエンコーディングは、任意のメッセージパッシングニューラルネットワーク(MPNN)やTransformerベースのモデルにプラグインとして注入することもできる。 グラフレベルとノードレベルの両方のタスクの18のベンチマークに関する広範な実験は、unionsnnが最先端のベースラインモデルよりも優れた計算効率を示している。 既存のモデルにローカルエンコーディングを注入することで、パフォーマンスを最大11.09%向上させることができる。 私たちのコードはhttps://github.com/AngusMonroe/UnionSNNで利用可能です。

Graph Neural Networks (GNNs) are widely used for graph representation learning in many application domains. The expressiveness of vanilla GNNs is upper-bounded by 1-dimensional Weisfeiler-Leman (1-WL) test as they operate on rooted subtrees through iterative message passing. In this paper, we empower GNNs by injecting neighbor-connectivity information extracted from a new type of substructure. We first investigate different kinds of connectivities existing in a local neighborhood and identify a substructure called union subgraph, which is able to capture the complete picture of the 1-hop neighborhood of an edge. We then design a shortest-path-based substructure descriptor that possesses three nice properties and can effectively encode the high-order connectivities in union subgraphs. By infusing the encoded neighbor connectivities, we propose a novel model, namely Union Subgraph Neural Network (UnionSNN), which is proven to be strictly more powerful than 1-WL in distinguishing non-isomorphic graphs. Additionally, the local encoding from union subgraphs can also be injected into arbitrary message-passing neural networks (MPNNs) and Transformer-based models as a plugin. Extensive experiments on 18 benchmarks of both graph-level and node-level tasks demonstrate that UnionSNN outperforms state-of-the-art baseline models, with competitive computational efficiency. The injection of our local encoding to existing models is able to boost the performance by up to 11.09%. Our code is available at https://github.com/AngusMonroe/UnionSNN.
翻訳日:2024-01-10 20:20:35 公開日:2024-01-09
# 3次元オープンボキャブラリセグメンテーションについて

Weakly Supervised 3D Open-vocabulary Segmentation ( http://arxiv.org/abs/2305.14093v4 )

ライセンス: Link先を確認
Kunhao Liu, Fangneng Zhan, Jiahui Zhang, Muyu Xu, Yingchen Yu, Abdulmotaleb El Saddik, Christian Theobalt, Eric Xing, Shijian Lu(参考訳) 3Dシーンのオープンボキャブラリセグメンテーションは人間の知覚の基本的な機能であり、コンピュータビジョン研究において重要な目的である。 しかし、このタスクは、堅牢で一般化可能なモデルをトレーニングするための大規模で多様な3dopen-vocabulary segmentationデータセットの欠如によって大きく妨げられている。 事前訓練された2Dオープン語彙セグメンテーションモデルからの知識の希薄化は、オープン語彙の特徴を損なう。 学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。 具体的には、シーン内のオブジェクトのオープンボキャブラリーなテキスト記述のみを考えると、クリップとdinoのオープンボキャブラリーなマルチモーダル知識とオブジェクト推論能力をニューラルラミアンスフィールド(nerf)に蒸留し、2d特徴を効果的にビュー一貫性のある3dセグメンテーションに引き上げる。 提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。 本手法は,特定の場面でセグメンテーションアノテーションを用いて訓練した教師付きモデルよりも優れており,2次元画像とテキストイメージペアから3次元オープン語彙セグメンテーションを効果的に学習できることが示唆された。 コードは \url{https://github.com/kunhao-liu/3d-ovs} で入手できる。

Open-vocabulary segmentation of 3D scenes is a fundamental function of human perception and thus a crucial objective in computer vision research. However, this task is heavily impeded by the lack of large-scale and diverse 3D open-vocabulary segmentation datasets for training robust and generalizable models. Distilling knowledge from pre-trained 2D open-vocabulary segmentation models helps but it compromises the open-vocabulary feature as the 2D models are mostly finetuned with close-vocabulary datasets. We tackle the challenges in 3D open-vocabulary segmentation by exploiting pre-trained foundation models CLIP and DINO in a weakly supervised manner. Specifically, given only the open-vocabulary text descriptions of the objects in a scene, we distill the open-vocabulary multimodal knowledge and object reasoning capability of CLIP and DINO into a neural radiance field (NeRF), which effectively lifts 2D features into view-consistent 3D segmentation. A notable aspect of our approach is that it does not require any manual segmentation annotations for either the foundation models or the distillation process. Extensive experiments show that our method even outperforms fully supervised models trained with segmentation annotations in certain scenes, suggesting that 3D open-vocabulary segmentation can be effectively learned from 2D images and text-image pairs. Code is available at \url{https://github.com/Kunhao-Liu/3D-OVS}.
翻訳日:2024-01-10 20:20:07 公開日:2024-01-09
# 形状のViT:計算最適モデル設計のためのスケーリング法則

Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design ( http://arxiv.org/abs/2305.13035v5 )

ライセンス: Link先を確認
Ibrahim Alabdulmohsin, Xiaohua Zhai, Alexander Kolesnikov, Lucas Beyer(参考訳) スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。 このような手法を改良して、幅や深さなどの計算最適モデル形状を推定し、視覚トランスフォーマーでこれをうまく実装した。 我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。 例えば、SoViT-400m/14はILSRCV2012で90.3%の微調整精度を達成し、はるかに大きなViT-g/14を超え、同じ設定でViT-G/14に近づく。 画像分類,キャプション,vqa,ゼロショット転送など,複数のタスクにわたって徹底的な評価を行い,幅広い領域にわたるモデルの有効性と限界の特定を実証した。 全体として、私たちの発見は視覚モデルを盲目的にスケールアップし、より詳細なスケーリングの道を開くという一般的なアプローチに挑戦しています。

Scaling laws have been recently employed to derive compute-optimal model size (number of parameters) for a given compute duration. We advance and refine such methods to infer compute-optimal model shapes, such as width and depth, and successfully implement this in vision transformers. Our shape-optimized vision transformer, SoViT, achieves results competitive with models that exceed twice its size, despite being pre-trained with an equivalent amount of compute. For example, SoViT-400m/14 achieves 90.3% fine-tuning accuracy on ILSRCV2012, surpassing the much larger ViT-g/14 and approaching ViT-G/14 under identical settings, with also less than half the inference cost. We conduct a thorough evaluation across multiple tasks, such as image classification, captioning, VQA and zero-shot transfer, demonstrating the effectiveness of our model across a broad range of domains and identifying limitations. Overall, our findings challenge the prevailing approach of blindly scaling up vision models and pave a path for a more informed scaling.
翻訳日:2024-01-10 20:19:35 公開日:2024-01-09
# 変分分類

Variational Classification ( http://arxiv.org/abs/2305.10406v5 )

ライセンス: Link先を確認
Shehzaad Dhuliawala, Mrinmaya Sachan, Carl Allen(参考訳) 本稿では,ニューラルネットワークソフトマックス分類器の新しい確率論的解釈を提供する潜在変数モデルを提案する。 我々は,変分自己エンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似したモデルの学習目的を導出し,ソフトマックスのクロスエントロピー損失を一般化する。 軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 正確なラベル予測に必要な分布と, 実際に発見された経験的分布との間には, 潜在的な不整合が明らかとなった。 標準ソフトマックス層に見られる暗黙の仮定に代えて,このような矛盾を緩和し,選択された潜在分布を誘導するための変動目標を補強する。 全体として、広く使われているsoftmax分類器の内部動作に関する新しい理論的洞察を提供する。 画像とテキストの分類データセットに対する実証的な評価により, 提案手法は分類精度を維持しつつ, 変形した潜在空間はキャリブレーション, 対向ロバスト性, 分散シフトに対する堅牢性, サンプル効率などの分類器の他の望ましい特性を改善していることがわかった。

We present a latent variable model for classification that provides a novel probabilistic interpretation of neural network softmax classifiers. We derive a variational objective to train the model, analogous to the evidence lower bound (ELBO) used to train variational auto-encoders, that generalises the softmax cross-entropy loss. Treating inputs to the softmax layer as samples of a latent variable, our abstracted perspective reveals a potential inconsistency between their anticipated distribution, required for accurate label predictions, and their empirical distribution found in practice. We augment the variational objective to mitigate such inconsistency and induce a chosen latent distribution, instead of the implicit assumption found in a standard softmax layer. Overall, we provide new theoretical insight into the inner workings of widely-used softmax classifiers. Empirical evaluation on image and text classification datasets demonstrates that our proposed approach, variational classification, maintains classification accuracy while the reshaped latent space improves other desirable properties of a classifier, such as calibration, adversarial robustness, robustness to distribution shift and sample efficiency useful in low data settings.
翻訳日:2024-01-10 20:18:57 公開日:2024-01-09
# FedNC:ネットワーク符号化によるセキュアで効率的なフェデレーション学習手法

FedNC: A Secure and Efficient Federated Learning Method with Network Coding ( http://arxiv.org/abs/2305.03292v3 )

ライセンス: Link先を確認
Yuchen Shi, Zheqi Zhu, Pingyi Fan, Khaled B. Letaief and Chenghui Peng(参考訳) Federated Learning(FL)は有望な分散学習メカニズムであり、プライバシー侵害とシステム効率という2つの大きな課題に直面している。 本研究では,ネットワーク情報理論の観点からFLシステムを再認識し,ネットワーク符号化(NC)にインスパイアされたオリジナルのFL通信フレームワークであるFedNCを定式化する。 fedncの主な考え方は、元のパラメータをランダムに線形に組み合わせて、さらに集約するためにアップロードする前にローカルモデルの情報を混合することである。 符号化方式の利点により、fencはセキュリティ、効率性、堅牢性など、いくつかの重要な方法で従来のflの性能を改善していることを示している。 私たちの知る限りでは、これが NC がFLで導入された最初のフレームワークです。 flが実用的なネットワークフレームワークで進化を続けるにつれて、fedncに基づいてさらに多くの変種を設計できる。

Federated Learning (FL) is a promising distributed learning mechanism which still faces two major challenges, namely privacy breaches and system efficiency. In this work, we reconceptualize the FL system from the perspective of network information theory, and formulate an original FL communication framework, FedNC, which is inspired by Network Coding (NC). The main idea of FedNC is mixing the information of the local models by making random linear combinations of the original parameters, before uploading for further aggregation. Due to the benefits of the coding scheme, both theoretical and experimental analysis indicate that FedNC improves the performance of traditional FL in several important ways, including security, efficiency, and robustness. To the best of our knowledge, this is the first framework where NC is introduced in FL. As FL continues to evolve within practical network frameworks, more variants can be further designed based on FedNC.
翻訳日:2024-01-10 20:18:18 公開日:2024-01-09
# 階層型時間論理仕様に基づく複数ロボットの分解に基づく階層型タスク割当と計画

Decomposition-based Hierarchical Task Allocation and Planning for Multi-Robots under Hierarchical Temporal Logic Specifications ( http://arxiv.org/abs/2308.10393v2 )

ライセンス: Link先を確認
Xusheng Luo, Shaojun Xu, Ruixuan Liu, Changliu Liu(参考訳) 時間論理仕様を用いたロボット計画に関する過去の研究、特に線形時間論理(LTL)は、主に個々のロボットやグループの特異な公式に基づいていた。 しかし、タスクの複雑さが増すにつれて、ltlの公式は避けられないほど長くなり、解釈や仕様作成を複雑にし、プランナーの計算能力に負担がかかる。 最近の開発は、複数の時間論理仕様を含むLTL[1]の階層的な表現であり、より解釈可能なフレームワークを提供している。 しかし,提案した計画アルゴリズムでは,各仕様内のロボットの独立性を仮定し,複雑な時間的制約を伴うマルチロボット協調に限定する。 本研究では,分解に基づく階層的フレームワークを定式化した。 高いレベルでは、各仕様はまず原子サブタスクのセットに分解される。 さらに,タスクネットワークを構築するために,異なる仕様のサブタスク間の時間的関係を推測する。 その後、様々なロボットにサブタスクを割り当てるために混合整数線形プログラムを利用する。 下位レベルでは、サブタスクを実行するためにドメイン固有のコントローラが使用される。 このアプローチはロボットナビゲーションと操作の領域に実験的に適用された。 比較分析を含む徹底的なシミュレーションの結果は,提案手法の有効性を示した。

Past research into robotic planning with temporal logic specifications, notably Linear Temporal Logic (LTL), was largely based on singular formulas for individual or groups of robots. But with increasing task complexity, LTL formulas unavoidably grow lengthy, complicating interpretation and specification generation, and straining the computational capacities of the planners. A recent development has been the hierarchical representation of LTL [1] that contains multiple temporal logic specifications, providing a more interpretable framework. However, the proposed planning algorithm assumes the independence of robots within each specification, limiting their application to multi-robot coordination with complex temporal constraints. In this work, we formulated a decomposition-based hierarchical framework. At the high level, each specification is first decomposed into a set of atomic sub-tasks. We further infer the temporal relations among the sub-tasks of different specifications to construct a task network. Subsequently, a Mixed Integer Linear Program is utilized to assign sub-tasks to various robots. At the lower level, domain-specific controllers are employed to execute sub-tasks. Our approach was experimentally applied to domains of robotic navigation and manipulation. The outcomes of thorough simulations, which included comparative analyses, demonstrated the effectiveness of the proposed approach.
翻訳日:2024-01-10 20:11:57 公開日:2024-01-09
# ダウトの種」を創る:ブラジルと米国における選挙・医療ミス情報のコテージ産業

Sowing 'Seeds of Doubt': Cottage Industries of Election and Medical Misinformation in Brazil and the United States ( http://arxiv.org/abs/2308.02377v2 )

ライセンス: Link先を確認
Amelia Hassoun, Gabrielle Borenstein, Beth Goldberg, Jacob McAuliffe, Katy Osborn(参考訳) 選挙と医療的誤情報の消費と生産を理解するため,ブラジルと米国の31の誤情報作成者と消費者を対象に民族誌調査を行った。 本研究は, ピアツーピアネットワークにおいて誤情報を生成する, 未理解の小型プレイヤー, あるいは「マイクロインフルエンサー」に着目し, 誤情報生態系の研究に寄与する。 マイクロインフルエンサーが使用する4つの重要な戦術について詳述する。 第一に、彼らは典型的には専門家による主張よりも「グレー・エリア」の内容を広め、微妙な美学と修辞的な戦術を使ってモデレーションを避ける。 第2に、メンバーが安全を感じ、コンテンツを信頼する傾向にある、小さくてクローズドなグループに投稿する。 第3に、消費者の感情や社会的ニーズを誤報すること。 最後に、疑わしい種を植え、非公式の専門家としてインフルエンサーへの信頼を築くために、短い反復的なコンテンツを大量に投稿した。 本稿では,これらのマイクロインフルエンサーが誤情報介入やプラットフォームによる誤情報抑制にもたらす影響について論じる。

We conducted ethnographic research with 31 misinformation creators and consumers in Brazil and the US before, during, and after a major election to understand the consumption and production of election and medical misinformation. This study contributes to research on misinformation ecosystems by focusing on poorly understood small players, or "micro-influencers", who create misinformation in peer-to-peer networks. We detail four key tactics that micro-influencers use. First, they typically disseminate "gray area" content rather than expert-falsified claims, using subtle aesthetic and rhetorical tactics to evade moderation. Second, they post in small, closed groups where members feel safe and predisposed to trust content. Third, they explicitly target misinformation consumers' emotional and social needs. Finally, they post a high volume of short, repetitive content to plant seeds of doubt and build trust in influencers as unofficial experts. We discuss the implications these micro-influencers have for misinformation interventions and platforms' efforts to moderate misinformation.
翻訳日:2024-01-10 20:11:22 公開日:2024-01-09
# 大規模言語モデルの不平等--求職勧告による復刻的バイアスの解明

The Unequal Opportunities of Large Language Models: Revealing Demographic Bias through Job Recommendations ( http://arxiv.org/abs/2308.02053v2 )

ライセンス: Link先を確認
Abel Salinas, Parth Vipul Shah, Yuzhong Huang, Robert McCormack, Fred Morstatter(参考訳) 大規模言語モデル(LLM)は、様々な現実世界のアプリケーションに広くデプロイされている。 これらのバイアスを理解することは、特に歴史的に不利なグループにおいて、LSMを使用して意思決定を行う際の下流結果を理解するために重要である。 本研究では,仕事推薦のレンズを通して,llmにおける人口バイアスを分析し,比較するための簡便な方法を提案する。 本稿では,ChatGPTとLLaMAの交差バイアスを2つの最先端LCMで測定し,本手法の有効性を示す。 実験は主にジェンダーのアイデンティティと国籍のバイアスを明らかにすることに焦点を当てたが、この方法は人口統計学的アイデンティティの交点に関連するバイアスを調べるために拡張することができる。 例えば、メキシコ人労働者の低賃金雇用を一貫して示唆するモデルや、女性に対する秘書の役割を推奨するモデルなどです。 本研究は、下流アプリケーションにおけるLCMのバイアスを測定することの重要性を強調し、有害かつ不平等な結果の可能性を理解する。

Large Language Models (LLMs) have seen widespread deployment in various real-world applications. Understanding these biases is crucial to comprehend the potential downstream consequences when using LLMs to make decisions, particularly for historically disadvantaged groups. In this work, we propose a simple method for analyzing and comparing demographic bias in LLMs, through the lens of job recommendations. We demonstrate the effectiveness of our method by measuring intersectional biases within ChatGPT and LLaMA, two cutting-edge LLMs. Our experiments primarily focus on uncovering gender identity and nationality bias; however, our method can be extended to examine biases associated with any intersection of demographic identities. We identify distinct biases in both models toward various demographic identities, such as both models consistently suggesting low-paying jobs for Mexican workers or preferring to recommend secretarial roles to women. Our study highlights the importance of measuring the bias of LLMs in downstream applications to understand the potential for harm and inequitable outcomes.
翻訳日:2024-01-10 20:11:02 公開日:2024-01-09
# 曲面符号の復号化アルゴリズム

Decoding algorithms for surface codes ( http://arxiv.org/abs/2307.14989v4 )

ライセンス: Link先を確認
Antonio deMarti iOlius, Patricio Fuentes, Rom\'an Or\'us, Pedro M. Crespo and Josu Etxezarreta Martinez(参考訳) 量子技術は古典的な方法で計算が難しい問題を解く可能性がある。 残念ながら、量子情報の不安定な性質はエラーを起こしやすい。 このため、量子誤り訂正は、量子情報を信頼できるものにし、フォールトトレラント量子コンピューティングの究極の目標を実現するための貴重なツールである。 表面符号は、2次元のアーキテクチャ、局所演算のみの要求、量子ノイズに対する高い耐性を考えると、誤り訂正量子ビットを構築する最も有望な候補である。 復号アルゴリズムは、任意の誤り訂正スキームの不可欠な要素であり、量子情報に影響を及ぼす誤差の正確な推定を生成することを任務としている。 アルゴリズムのデコーディングの重要な側面は、量子状態が時間経過とともに追加のエラーに直面するため、その速度である。 これは、複雑さと逆を犠牲にしてデコードのパフォーマンスが改善されるという、connundrumのようなトレードオフをもたらす。 本稿では,最先端表面コード復号アルゴリズムに関する詳細な議論を行う。 これらの手法の中核となる操作は、改善された結果の約束を示す既存の変種と共に記述される。 さらに,復号化性能,誤り訂正能力,復号化複雑性の両面を比較した。 コードデコードに関する既存のソフトウェアツールのレビューも提供されている。

Quantum technologies have the potential to solve computationally hard problems that are intractable via classical means. Unfortunately, the unstable nature of quantum information makes it prone to errors. For this reason, quantum error correction is an invaluable tool to make quantum information reliable and enable the ultimate goal of fault-tolerant quantum computing. Surface codes currently stand as the most promising candidates to build error corrected qubits given their two-dimensional architecture, a requirement of only local operations, and high tolerance to quantum noise. Decoding algorithms are an integral component of any error correction scheme, as they are tasked with producing accurate estimates of the errors that affect quantum information, so that it can subsequently be corrected. A critical aspect of decoding algorithms is their speed, since the quantum state will suffer additional errors with the passage of time. This poses a connundrum-like tradeoff, where decoding performance is improved at the expense of complexity and viceversa. In this review, a thorough discussion of state-of-the-art surface code decoding algorithms is provided. The core operation of these methods is described along with existing variants that show promise for improved results. In addition, both the decoding performance, in terms of error correction capability, and decoding complexity, are compared. A review of the existing software tools regarding surface code decoding is also provided.
翻訳日:2024-01-10 20:10:06 公開日:2024-01-09
# G2L:ジオデシックとゲーム理論によるセマンティックアライメントと一様グラウンド

G2L: Semantically Aligned and Uniform Video Grounding via Geodesic and Game Theory ( http://arxiv.org/abs/2307.14277v4 )

ライセンス: Link先を確認
Hongxiang Li, Meng Cao, Xuxin Cheng, Yaowei Li, Zhihong Zhu, Yuexian Zou(参考訳) 最近のビデオグラウンディングは、バニラコントラスト学習をビデオグラウンディングに導入しようと試みている。 しかし、このナイーブ解は準最適であると主張する。 対照的な学習には、(1)類似したサンプルの特徴のemph{alignment}と(2)超球上の正規化特徴の誘導分布のemph{uniformity}という2つの重要な特性が必要である。 ビデオグラウンディングにおける2つの厄介な問題として,(1) 真実と他の瞬間の両方に視覚的実体が存在すること,(2) ビデオ中のいくつかの瞬間だけが注釈付けされていること,(2) バニラ・コントラスト学習は時間的に離れたモーメントと非一貫性なビデオ表現の相関をモデル化できないこと,などがあげられる。 どちらの特徴も、バニラのコントラスト学習はビデオの接地には適さない。 本稿では,ジオデシックとゲーム理論を通した,意味的に整列した一様ビデオグラウンドフレームワークであるgeodesic and game localization (g2l)を提案する。 我々は、モデルが正しいクロスモーダル表現を学ぶのを導く測地距離を利用したモーメント間の相関を定量化する。 さらに,ゲーム理論の新たな視点から,測地線距離サンプリングに基づくセマンティック・シェープリー相互作用を提案し,類似した瞬間における微粒なセマンティックアライメントを学習する。 3つのベンチマーク実験により,本手法の有効性が示された。

The recent video grounding works attempt to introduce vanilla contrastive learning into video grounding. However, we claim that this naive solution is suboptimal. Contrastive learning requires two key properties: (1) \emph{alignment} of features of similar samples, and (2) \emph{uniformity} of the induced distribution of the normalized features on the hypersphere. Due to two annoying issues in video grounding: (1) the co-existence of some visual entities in both ground truth and other moments, \ie semantic overlapping; (2) only a few moments in the video are annotated, \ie sparse annotation dilemma, vanilla contrastive learning is unable to model the correlations between temporally distant moments and learned inconsistent video representations. Both characteristics lead to vanilla contrastive learning being unsuitable for video grounding. In this paper, we introduce Geodesic and Game Localization (G2L), a semantically aligned and uniform video grounding framework via geodesic and game theory. We quantify the correlations among moments leveraging the geodesic distance that guides the model to learn the correct cross-modal representations. Furthermore, from the novel perspective of game theory, we propose semantic Shapley interaction based on geodesic distance sampling to learn fine-grained semantic alignment in similar moments. Experiments on three benchmarks demonstrate the effectiveness of our method.
翻訳日:2024-01-10 20:09:46 公開日:2024-01-09
# エントロピーコミュニケーションへの注意

Attention to Entropic Communication ( http://arxiv.org/abs/2307.11423v2 )

ライセンス: Link先を確認
Torsten En{\ss}lin, Carolin Weidinger, Philipp Frank(参考訳) 特定のデータの重要性を強調する数値重みの概念は、人工知能に非常に関係があることが証明されている。 相対エントロピー(re、別名kullback-leibler divergence)はコミュニケーション理論において中心的な役割を果たす。 ここではこれらの概念と注意と再評価を組み合わせる。 REは、帯域幅制限通信におけるメッセージの最適符号化と、最大エントロピー原理(MEP)による最適なメッセージ復号を導く。 コーディングシナリオでは、reは分析、局所、固有、校正という4つの要件から導出することができる。 コミュニケーションにおける注意制御に使用される重み付きREは、不適切であることが判明した。 適切な注意コミュニケーションが生じるかを確認するため、メッセージ受信者が適切に情報交換を行うことができることを確実にしたいメッセージ送信者のシナリオを分析します。 受信側がMEPを使用してメッセージをデコードした場合、送信側は受信側のユーティリティ機能を知るだけで、受信側の初期知識状態は知らせられる。 実用機能最大値の曲率しか分かっていない場合には、この曲率重み付き再正規化確率関数により、注意関数を正確に伝達することが望ましい。 エントロピック・アテンション・コミュニケーションは、適切な方法で重み付けを可能にするエントロピック・コミュニケーションの望ましい一般化として提案され、技術的応用における最適な通信プロトコルの設計を支援し、ヒューマン・コミュニケーションの理解を支援する。 例えば、我々の分析は、非正直なコミュニケーションパートナーの利益の相違により期待される協力のレベルを導出する方法を示している。

The concept of attention, numerical weights that emphasize the importance of particular data, has proven to be very relevant in artificial intelligence. Relative entropy (RE, aka Kullback-Leibler divergence) plays a central role in communication theory. Here we combine these concepts, attention and RE. RE guides optimal encoding of messages in bandwidth-limited communication as well as optimal message decoding via the maximum entropy principle (MEP). In the coding scenario, RE can be derived from four requirements, namely being analytical, local, proper, and calibrated. Weighted RE, used for attention steering in communications, turns out to be improper. To see how proper attention communication can emerge, we analyze a scenario of a message sender who wants to ensure that the receiver of the message can perform well-informed actions. If the receiver decodes the message using the MEP, the sender only needs to know the receiver's utility function to inform optimally, but not the receiver's initial knowledge state. In case only the curvature of the utility function maxima are known, it becomes desirable to accurately communicate an attention function, in this case a by this curvature weighted and re-normalized probability function. Entropic attention communication is here proposed as the desired generalization of entropic communication that permits weighting while being proper, thereby aiding the design of optimal communication protocols in technical applications and helping to understand human communication. For example, our analysis shows how to derive the level of cooperation expected under misaligned interests of otherwise honest communication partners.
翻訳日:2024-01-10 20:08:53 公開日:2024-01-09
# フォトニックコンポーネント設計のための強化学習

Reinforcement Learning for Photonic Component Design ( http://arxiv.org/abs/2307.11075v2 )

ライセンス: Link先を確認
Donald Witt, Jeff Young, Lukas Chrostowski(参考訳) 本稿では,ナノファブリケーションプロセスにおける不完全性を考慮したナノフォトニックコンポーネント設計のための新しいファブ・イン・ザ・ループ強化学習アルゴリズムを提案する。 この技術の可能性の実証として, 絶縁体単一エッチングプラットフォーム上で, エアクラッド220nmシリコン上に作製したフォトニック結晶格子カプラの設計に適用する。 このファブ・イン・ザ・ループアルゴリズムは挿入損失を8.8から3.24dBに改善する。 ファブ・イン・ザ・ループ・アルゴリズムを用いて生成した最も広い帯域幅設計は、最低点における損失が10.2dB未満の150nm帯域幅をカバーできる。

We present a new fab-in-the-loop reinforcement learning algorithm for the design of nano-photonic components that accounts for the imperfections present in nanofabrication processes. As a demonstration of the potential of this technique, we apply it to the design of photonic crystal grating couplers fabricated on an air clad 220 nm silicon on insulator single etch platform. This fab-in-the-loop algorithm improves the insertion loss from 8.8 to 3.24 dB. The widest bandwidth designs produced using our fab-in-the-loop algorithm can cover a 150 nm bandwidth with less than 10.2 dB of loss at their lowest point.
翻訳日:2024-01-10 20:08:20 公開日:2024-01-09
# 単位円グラフ上の最大独立集合問題の硬さと量子スピードアップの展望

Hardness of the Maximum Independent Set Problem on Unit-Disk Graphs and Prospects for Quantum Speedups ( http://arxiv.org/abs/2307.09442v3 )

ライセンス: Link先を確認
Ruben S. Andrist, Martin J. A. Schuetz, Pierre Minssen, Romina Yalovetzky, Shouvanik Chakrabarti, Dylan Herman, Niraj Kumar, Grant Salton, Ruslan Shaydulin, Yue Sun, Marco Pistoia, Helmut G. Katzgraber(参考訳) rydbergの原子配列は、量子スピードアップのデモンストレーションの有力候補の1つだ。 最大289 qubits (Ebadi et al., Science 376, 1209 (2022)) を用いた最近の実験により、原論文の範囲を超えて幅広い古典的解法を持つ単位ディスクグラフ上の最大独立集合問題について研究した。 我々は,厳密かつヒューリスティックなアルゴリズムを用いて,広範囲な数値研究を行い,問題の難易度を評価する。 共用ジャックのような接続性を持つ準平面インスタンスは、インスタンス固有の微調整をすることなく、コモディティハードウェア上でカスタムとジェネリックの両方の商用解法を用いて、数分で最大数千のノードで最適に解くことができる。 また,ebadiらによって検討された古典的なシミュレーションアニーリングアルゴリズムの制約を緩和することで,量子アルゴリズムとの競合性を示した。 逆に、より大きな接続性または少ない構造を持つインスタンスは、潜在的に桁違いに大きい時間から解法を示す。 これらの結果に基づき,従来より数桁難易度(確立された古典的解法)のインスタンス上で,rydberg原子配列を用いた実験をモチベーションとして,問題硬度を体系的に調整するプロトコルを提案する。

Rydberg atom arrays are among the leading contenders for the demonstration of quantum speedups. Motivated by recent experiments with up to 289 qubits [Ebadi et al., Science 376, 1209 (2022)] we study the maximum independent set problem on unit-disk graphs with a broader range of classical solvers beyond the scope of the original paper. We carry out extensive numerical studies and assess problem hardness, using both exact and heuristic algorithms. We find that quasi-planar instances with Union-Jack-like connectivity can be solved to optimality for up to thousands of nodes within minutes, with both custom and generic commercial solvers on commodity hardware, without any instance-specific fine-tuning. We also perform a scaling analysis, showing that by relaxing the constraints on the classical simulated annealing algorithms considered in Ebadi et al., our implementation is competitive with the quantum algorithms. Conversely, instances with larger connectivity or less structure are shown to display a time-to-solution potentially orders of magnitudes larger. Based on these results we propose protocols to systematically tune problem hardness, motivating experiments with Rydberg atom arrays on instances orders of magnitude harder (for established classical solvers) than previously studied.
翻訳日:2024-01-10 20:07:55 公開日:2024-01-09
# オンラインラプラスモデル選択の再検討

Online Laplace Model Selection Revisited ( http://arxiv.org/abs/2307.06093v2 )

ライセンス: Link先を確認
Jihao Andreas Lin, Javier Antor\'an, Jos\'e Miguel Hern\'andez-Lobato(参考訳) Laplace近似はニューラルネットワーク(NN)のためのクローズドフォームモデル選択の目的を提供する。 NNパラメータをウェイト崩壊強度などのハイパーパラメータと組み合わせて最適化するオンライン版では、ベイジアンディープラーニングコミュニティに新たな関心が寄せられている。 しかし、これらの手法は、損失のモードで近似が実行されるというラプラスの致命的な仮定に反し、それらの音響性に疑問を投げかける。 この研究はオンラインのLaplaceメソッドを再定義し、静的な仮定をしないモード修正されたLaplace証拠の変分境界を目標とすることを示した。 オンラインラプラスとそのモード修正版は静止点を共有している 1. NNパラメータは、Laplaceメソッドの仮定を満たす最大アプリートであり、そして、 2. ハイパーパラメータはラプラスのエビデンスを最大化し、オンラインメソッドを動機付ける。 これらの最適化は、UCI回帰データセットのフルバッチ勾配勾配を用いたオンラインアルゴリズムにより、大まかに達成されていることを実証する。 最適化されたハイパーパラメータは、過剰フィッティングと検証ベースの早期停止を防止します。

The Laplace approximation provides a closed-form model selection objective for neural networks (NN). Online variants, which optimise NN parameters jointly with hyperparameters, like weight decay strength, have seen renewed interest in the Bayesian deep learning community. However, these methods violate Laplace's method's critical assumption that the approximation is performed around a mode of the loss, calling into question their soundness. This work re-derives online Laplace methods, showing them to target a variational bound on a mode-corrected variant of the Laplace evidence which does not make stationarity assumptions. Online Laplace and its mode-corrected counterpart share stationary points where 1. the NN parameters are a maximum a posteriori, satisfying the Laplace method's assumption, and 2. the hyperparameters maximise the Laplace evidence, motivating online methods. We demonstrate that these optima are roughly attained in practise by online algorithms using full-batch gradient descent on UCI regression datasets. The optimised hyperparameters prevent overfitting and outperform validation-based early stopping.
翻訳日:2024-01-10 20:07:28 公開日:2024-01-09
# 位相秩序を有するグラフェンジグザグナノリボンの相図と交差相:局在効果の役割

Phase Diagram and Crossover Phases of Topologically Ordered Graphene Zigzag Nanoribbons: Role of Localization Effects ( http://arxiv.org/abs/2307.04352v2 )

ライセンス: Link先を確認
Hoang Anh Le, In Hwan Lee, Young Heon Kim and S.-R. Eric Yang(参考訳) 我々は, ジグザググラフェンナノリボンの相図を現場での反発, ドーピング, 障害強度の関数として計算した。 位相秩序相は位相相を交差相に遷移させ、非普遍的な位相的絡み合いエントロピーを持つ新しい不規則相である。 トポロジカル秩序は、局所化効果とオンサイト反発の競合によって破壊される。 その結果, 強いオンサイト反発およびドーピングがジグザグエッジ間の非局所的相関を弱めることがわかった。 クロスオーバー相の1つでは、$\frac{e^-}{2}$分の電荷もスピン電荷分離も欠如していたが、ジグザグエッジ間の電荷移動相関は可能であった。 別のクロスオーバーフェーズは$\frac{e^-}{2}$分数電荷を含むが、電荷移動相関は含まない。 低ドープジグザグリボンでは、電子局在とオンサイト反発の相互作用は準縮退ギャップエッジ状態の空間的分離に寄与し、量子揺らぎに対する電荷分数化を保護する。 これらすべての効果において、混合キラルギャップエッジ状態は重要な役割を果たす。 非トポロジー的な強い乱れと強い反発相の性質も観察されている。 位相図の各位相は異なるジグザグエッジ構造を持つ。

We computed the phase diagram of the zigzag graphene nanoribbons as a function of on-site repulsion, doping, and disorder strength. The topologically ordered phase undergoes topological phase transitions into crossover phases, which are new disordered phases with a nonuniversal topological entanglement entropy with significant variance. The topological order is destroyed by competition between localization effects and on-site repulsion. We found that strong on-site repulsion and/or doping weakens the nonlocal correlations between the opposite zigzag edges. In one of the crossover phases, both $\frac{e^-}{2}$ fractional charges and spin-charge separation were absent; however, charge-transfer correlations between the zigzag edges were possible. Another crossover phase contains $\frac{e^-}{2}$ fractional charges, but no charge transfer correlations. In low-doped zigzag ribbons the interplay between electron localization and on-site repulsion contributes to the spatial separation of quasi-degenerate gap-edge states and protects the charge fractionalization against quantum fluctuations. In all these effects, mixed chiral gap-edge states play an important role. The properties of nontopological strongly disordered and strongly repulsive phases are also observed. Each phase of the phase diagram has a different zigzag-edge structure.
翻訳日:2024-01-10 20:07:13 公開日:2024-01-09
# アダプティブ埋め込みとセンスリングによる画像音化拡散モデル刺激

Stimulating the Diffusion Model for Image Denoising via Adaptive Embedding and Ensembling ( http://arxiv.org/abs/2307.03992v2 )

ライセンス: Link先を確認
Tong Li, Hansen Feng, Lizhi Wang, Zhiwei Xiong, Hua Huang(参考訳) 画像のデノイジングは、低歪みで高品質な知覚性能を達成することが非常に要求される計算写真における根本的な問題である。 現在の方法は知覚的なパフォーマンスに苦しむか、大きな歪みに悩まされる。 近年,新しい拡散モデルによって様々なタスクにおける最先端性能が達成され,そのデノナイジング機構は画像のデノナイジングに大きな可能性を示している。 しかし、画像の強調のための刺激拡散モデルは単純ではなく、いくつかの重要な問題を解決する必要がある。 一方、入力の不整合は拡散モデルと画像のデノージングの接続を妨げる。 一方、生成した画像と所望の復号化画像とのコンテンツ不整合は、さらなる歪みをもたらす。 これらの課題に対処するために,拡散モデルを理解し再考することで,DMID(Diffusion Model for Image Denoising)と呼ばれる新しい戦略を提案する。 我々のDMID戦略は、雑音像を事前学習した拡散モデルに埋め込む適応埋め込み法と、復調画像の歪みを低減する適応アンサンブル法とを含む。 dmid戦略は,gaussian画像とreal-world画像の両方に対して,歪みベースおよび知覚指標の最先端性能を実現する。

Image denoising is a fundamental problem in computational photography, where achieving high-quality perceptual performance with low distortion is highly demanding. Current methods either struggle with perceptual performance or suffer from significant distortion. Recently, the emerging diffusion model achieves state-of-the-art performance in various tasks, and its denoising mechanism demonstrates great potential for image denoising. However, stimulating diffusion models for image denoising is not straightforward and requires solving several critical problems. On the one hand, the input inconsistency hinders the connection of diffusion models and image denoising. On the other hand, the content inconsistency between the generated image and the desired denoised image introduces additional distortion. To tackle these problems, we present a novel strategy called Diffusion Model for Image Denoising (DMID) by understanding and rethinking the diffusion model from a denoising perspective. Our DMID strategy includes an adaptive embedding method that embeds the noisy image into a pre-trained diffusion model, and an adaptive ensembling method that reduces distortion in the denoised image. Our DMID strategy achieves state-of-the-art performance on all distortion-based and perceptual metrics, for both Gaussian and real-world image denoising.
翻訳日:2024-01-10 20:06:49 公開日:2024-01-09
# 超低温原子のためのトンネル結合型光マイクロトラップ

Tunnel-coupled optical microtraps for ultracold atoms ( http://arxiv.org/abs/2307.02116v2 )

ライセンス: Link先を確認
Shangguo Zhu, Yun Long, Wei Gou, Mingbo Pu, Xiangang Luo(参考訳) マイクロメートルサイズの光学マイクロトラップに閉じ込められた個々の原子の配列は、量子科学と技術の基礎的で汎用的で強力なプラットフォームとして現れている。 このプラットフォームは量子システムのボトムアップエンジニアリングを可能にし、フレキシブルな幾何学を持つ量子状態の低エントロピー準備と、単一サイトレベルでの操作と検出の機能を提供する。 光マイクロトラックにおけるトンネル結合による超低温イテナント原子の利用は、量子シミュレーションの新たな機会となり、エキゾチックな量子状態、位相、ダイナミクスの探索を可能にする。 ここでは、超低温原子量子系を操作するためのトンネル結合型光学マイクロトラックの開発とその最近の進歩を概説する。

Arrays of individual atoms trapped in optical microtraps with micrometer-scale sizes have emerged as a fundamental, versatile, and powerful platform for quantum sciences and technologies. This platform enables the bottom-up engineering of quantum systems, offering the capability of low-entropy preparation of quantum states with flexible geometry, as well as manipulation and detection at the single-site level. The utilization of ultracold itinerant atoms with tunnel coupling in optical microtraps provides new opportunities for quantum simulation, enabling the exploration of exotic quantum states, phases, and dynamics, which would otherwise be challenging to achieve in conventional optical lattices due to high entropy and limited geometric flexibility. Here the development of tunnel-coupled optical microtraps for the manipulation of ultracold atomic quantum systems and its recent advances are briefly reviewed.
翻訳日:2024-01-10 20:06:28 公開日:2024-01-09
# コンパクトインシシット層を用いたヘルムホルツ方程式のマルチグリッド型深層学習プレコンディショナー

Multigrid-Augmented Deep Learning Preconditioners for the Helmholtz Equation using Compact Implicit Layers ( http://arxiv.org/abs/2306.17486v2 )

ライセンス: Link先を確認
Bar Lerer, Ido Ben-Yair and Eran Treister(参考訳) 高波数に対する離散異種ヘルムホルツ方程式を解くためのディープラーニングに基づく反復的手法を提案する。 従来の反復型マルチグリッドソルバと畳み込みニューラルネットワーク(cnns)をプリコンディショニングによって組み合わせることで,従来のマルチグリッドソルバよりも高速かつスケール性が向上した学習ニューラルネットワークソルバを得る。 我々のアプローチは、この種の従来の神経学的手法に対する3つの主要な貢献を提供する。 まず、畳み込みカーネルが反転するU-Netの粗い格子上に暗黙の層を持つマルチレベルU-NetライクなエンコーダCNNを構築する。 これにより、CNNの視野の問題が軽減され、スケーラビリティが向上する。 第2に,パラメータ数,計算時間,収束率の観点から,従来のcnnプリコンディショナーを改善した。 第3に,ネットワークを合理的なトレーニング手順を維持しつつ,これまで見つからなかった次元の問題にスケール可能なマルチスケールトレーニング手法を提案する。 エンコーダ・ソルバアーキテクチャは,様々な難易度モデルに対する一般化に利用することができ,低速度モデルに対する多くの右辺の解法に有効である。 高波数における不均一な2次元問題に対する数値実験により,新しいアーキテクチャの利点を実証する。

We present a deep learning-based iterative approach to solve the discrete heterogeneous Helmholtz equation for high wavenumbers. Combining classical iterative multigrid solvers and convolutional neural networks (CNNs) via preconditioning, we obtain a learned neural solver that is faster and scales better than a standard multigrid solver. Our approach offers three main contributions over previous neural methods of this kind. First, we construct a multilevel U-Net-like encoder-solver CNN with an implicit layer on the coarsest grid of the U-Net, where convolution kernels are inverted. This alleviates the field of view problem in CNNs and allows better scalability. Second, we improve upon the previous CNN preconditioner in terms of the number of parameters, computation time, and convergence rates. Third, we propose a multiscale training approach that enables the network to scale to problems of previously unseen dimensions while still maintaining a reasonable training procedure. Our encoder-solver architecture can be used to generalize over different slowness models of various difficulties and is efficient at solving for many right-hand sides per slowness model. We demonstrate the benefits of our novel architecture with numerical experiments on a variety of heterogeneous two-dimensional problems at high wavenumbers.
翻訳日:2024-01-10 20:06:14 公開日:2024-01-09
# コヒーレントワンウェイ量子鍵分布の有限鍵解析

Finite-Key Analysis for Coherent One-Way Quantum Key Distribution ( http://arxiv.org/abs/2309.16136v2 )

ライセンス: Link先を確認
Ming-Yang Li, Xiao-Yu Cao, Yuan-Mei Xie, Hua-Lei Yin, Zeng-Bing Chen(参考訳) coherent-one-way (cow) quantum key distribution (qkd) は重要な通信プロトコルであり、実験的に実装され、実用的な製品にデプロイされている。 しかし、COW-QKDの既存のセキュリティ分析では、有限鍵系におけるコヒーレント攻撃に対する短い送信距離または免疫が欠如している。 本稿では,asymptotic においてセキュアな伝送距離を延ばすことが証明された cow-qkd の変種について,普遍的構成可能な枠組みにおける厳密な有限鍵セキュリティ解析を提案する。 量子剰余ハッシュ補題とエントロピーの不確実性関係を組み合わせることで、鍵レート公式を導出する。 統計的パラメータを推定する場合,最近提案されたkatoの不等式を用いてコヒーレント攻撃に対する安全性を確保し,高い鍵レートを達成する。 本稿では,COW-QKDの安全性と実用性を確認し,さらなる理論的研究と実験実施の基盤となる。

Coherent-one-way (COW) quantum key distribution (QKD) is a significant communication protocol that has been implemented experimentally and deployed in practical products due to its simple equipment requirements. However, existing security analyses of COW-QKD either provide a short transmission distance or lack immunity against coherent attacks in the finite-key regime. In this paper, we present a tight finite-key security analysis within the universally composable framework for a variant of COW-QKD, which has been proven to extend the secure transmission distance in the asymptotic case. We combine the quantum leftover hash lemma and entropic uncertainty relation to derive the key rate formula. When estimating statistical parameters, we use the recently proposed Kato's inequality to ensure security against coherent attacks and achieve a higher key rate. Our paper confirms the security and feasibility of COW-QKD for practical application and lays the foundation for further theoretical study and experimental implementation.
翻訳日:2024-01-10 19:58:29 公開日:2024-01-09
# 無限幅2層ReLUニューラルネットワークのためのホモトピー緩和訓練アルゴリズム

Homotopy Relaxation Training Algorithms for Infinite-Width Two-Layer ReLU Neural Networks ( http://arxiv.org/abs/2309.15244v2 )

ライセンス: Link先を確認
Yahong Yang, Qipin Chen, Wenrui Hao(参考訳) 本稿では,従来手法とは対照的にトレーニングプロセスの高速化を目的とした,HRTA(Homotopy Relaxation Training Algorithm)と呼ばれる新しいトレーニング手法を提案する。 提案アルゴリズムは,線形活性化関数とReLU活性化関数をシームレスに結合するホモトピー活性化関数を構築することを含む。 我々は,ニューラル・タンジェント・カーネル(NTK)の文脈において,この手法の詳細な解析を行い,収束率を大幅に改善した。 実験の結果,特に幅の広いネットワークでは理論的な結論が得られた。 このHRTAは、他の活性化機能やディープニューラルネットワークの可能性を示す。

In this paper, we present a novel training approach called the Homotopy Relaxation Training Algorithm (HRTA), aimed at accelerating the training process in contrast to traditional methods. Our algorithm incorporates two key mechanisms: one involves building a homotopy activation function that seamlessly connects the linear activation function with the ReLU activation function; the other technique entails relaxing the homotopy parameter to enhance the training refinement process. We have conducted an in-depth analysis of this novel method within the context of the neural tangent kernel (NTK), revealing significantly improved convergence rates. Our experimental results, especially when considering networks with larger widths, validate the theoretical conclusions. This proposed HRTA exhibits the potential for other activation functions and deep neural networks.
翻訳日:2024-01-10 19:58:10 公開日:2024-01-09
# 糖尿病網膜症予測のためのフィルターとディープラーニングモデルの比較検討

A Comparative Study of Filters and Deep Learning Models to predict Diabetic Retinopathy ( http://arxiv.org/abs/2309.15216v3 )

ライセンス: Link先を確認
Roshan Vasu Muddaluru, Sharvaani Ravikumar Thoguluva, Shruti Prabha, Tanuja Konda Reddy and Dr. Suja Palaniswamy(参考訳) 網膜は視覚システムの必須成分であり、視力の維持は、時間的かつ正確な障害の検出に依存する。 糖尿病網膜症 (dr) の早期発見と重症度分類は, 本研究の主な目的である。 本研究は,inceptionnetv3, densenet121,その他のcnnベースのモデルを含む様々なディープラーニングモデルの結果を比較し,gaussian, grayscale, gaborなどの画像フィルタを用いた。 これらのモデルは微妙な病理変化を検知し、その情報を使って網膜疾患のリスクを推定する。 本研究の目的は,深層学習モデルを用いて糖尿病関連失明の原因であるDRの診断過程を改善することである。 これらのフィルターを網膜画像に適用した後,greyscale,gaussian,gaborフィルタの比較分析を行った。 ガウスフィルタはインセプションnetv3を用いた96%の精度で最も有望なフィルタとして同定されている。

The retina is an essential component of the visual system, and maintaining eyesight depends on the timely and accurate detection of disorders. The early-stage detection and severity classification of Diabetic Retinopathy (DR), a significant risk to the public's health is the primary goal of this work. This study compares the outcomes of various deep learning models, including InceptionNetV3, DenseNet121, and other CNN-based models, utilizing a variety of image filters, including Gaussian, grayscale, and Gabor. These models could detect subtle pathological alterations and use that information to estimate the risk of retinal illnesses. The objective is to improve the diagnostic processes for DR, the primary cause of diabetes-related blindness, by utilizing deep learning models. A comparative analysis between Greyscale, Gaussian and Gabor filters has been provided after applying these filters on the retinal images. The Gaussian filter has been identified as the most promising filter by resulting in 96% accuracy using InceptionNetV3.
翻訳日:2024-01-10 19:57:57 公開日:2024-01-09
# LLMに基づくコード生成におけるバイアステストと緩和

Bias Testing and Mitigation in LLM-based Code Generation ( http://arxiv.org/abs/2309.14345v2 )

ライセンス: Link先を確認
Dong Huang, Qingwen Bu, Jie Zhang, Xiaofei Xie, Junjie Chen, Heming Cui(参考訳) 最先端の大規模言語モデル(llms)を利用することで、自動コード生成モデルはソフトウェア開発手順の生産性向上に重要な役割を果たします。 ソフトウェアコーディングのエコシステムにおいて、llmの採用がより普及するにつれて、問題が発生する。 生成されたコードには、年齢、性別、人種など、社会的バイアスと不公平性が含まれているのだろうか? この問題は、これらのモデルによって生成されたコードに依存するソフトウェアアプリケーションの完全性、公平性、倫理的基盤に関するものである。 本稿では,コード生成タスク用に特別に設計された新しいバイアステストフレームワークを提案する。 この枠組みに基づいて、5つの最先端LLMが生成するコードのバイアスを広範囲に評価する。 調査対象のモデルが生成するコード関数の20.29%から44.93%は、偏りに敏感なタスク(年齢や性別などの敏感な属性を含むタスク)を扱う際に偏りがある。 これは、既存のLLMがコード生成において不公平であり、意図しない、有害なソフトウェア行動のリスクがあることを示している。 コード生成モデルのバイアスを軽減するため、バイアステスト結果を利用してコード(ゼロショット)、ワンショット、少数ショット、および2つのチェーン・オブ・ソート(CoT)プロンプトを改良する5つのバイアス緩和プロンプト戦略を評価する。 評価結果は,これらの戦略がバイアス軽減に有効であることを示している。 全体として、一発学習と二発学習が最も効果的である。 GPT-4では、80%から90%のコードバイアスをワンショット学習で除去できる。

Utilizing state-of-the-art Large Language Models (LLMs), automatic code generation models play a pivotal role in enhancing the productivity of software development procedures. As the adoption of LLMs becomes more widespread in software coding ecosystems, a pressing issue has emerged: does the generated code contain social bias and unfairness, such as those related to age, gender, and race? This issue concerns the integrity, fairness, and ethical foundation of software applications that depend on the code generated by these models, yet is under-explored in the literature. This paper presents a novel bias testing framework that is specifically designed for code generation tasks. Based on this framework, we conduct an extensive evaluation of the bias in code generated by five state-of-the-art LLMs. Our findings reveal that 20.29% to 44.93% code functions generated by the models under study are biased when handling bias sensitive tasks (i.e., tasks that involve sensitive attributes such as age and gender). This indicates that the existing LLMs can be unfair in code generation, posing risks of unintended and harmful software behaviors. To mitigate bias for code generation models, we evaluate five bias mitigation prompt strategies, i.e., utilizing bias testing results to refine the code (zero-shot), one-, few-shot, and two Chain-of-Thought (CoT) prompts. Our evaluation results illustrate that these strategies are all effective in mitigating bias. Overall, one-shot and few-shot learning are the two most effective. For GPT-4, 80% to 90% code bias can be removed with one-shot learning.
翻訳日:2024-01-10 19:57:42 公開日:2024-01-09
# BiSinger:バイリンガル歌声合成

BiSinger: Bilingual Singing Voice Synthesis ( http://arxiv.org/abs/2309.14089v3 )

ライセンス: Link先を確認
Huali Zhou, Yueqian Lin, Yao Shi, Peng Sun, Ming Li(参考訳) 歌声合成(SVS)はテキスト音声合成(TTS)技術で大きな進歩を遂げているが、多言語歌唱音声モデリングはいまだに研究されていない。 本稿では,英語と中国語のマンダリン用バイリンガルpop svsシステムであるbisingerについて述べる。 現在のシステムは言語ごとに別々のモデルを必要としており、中国語と英語の両方を正確に表現することはできない。 このギャップに対処するため、中国語と英語の歌声の共有表現を設計し、CMU辞書とマッピング規則を用いて実現した。 単言語歌唱データセットをオープンソースの歌唱音声変換技術で融合してバイリンガル音声を生成するとともに,バイリンガル音声データの利用の可能性を探る。 実験により、我々の言語非依存の表現と関連するデータセットの取り込みにより、中国語の歌の演奏を維持しながら、英語とコードスウィッチのSVSの性能を向上した単一モデルが実現可能であることを確認した。 オーディオサンプルはhttps://bisinger-svs.github.ioで入手できる。

Although Singing Voice Synthesis (SVS) has made great strides with Text-to-Speech (TTS) techniques, multilingual singing voice modeling remains relatively unexplored. This paper presents BiSinger, a bilingual pop SVS system for English and Chinese Mandarin. Current systems require separate models per language and cannot accurately represent both Chinese and English, hindering code-switch SVS. To address this gap, we design a shared representation between Chinese and English singing voices, achieved by using the CMU dictionary with mapping rules. We fuse monolingual singing datasets with open-source singing voice conversion techniques to generate bilingual singing voices while also exploring the potential use of bilingual speech data. Experiments affirm that our language-independent representation and incorporation of related datasets enable a single model with enhanced performance in English and code-switch SVS while maintaining Chinese song performance. Audio samples are available at https://bisinger-svs.github.io.
翻訳日:2024-01-10 19:57:16 公開日:2024-01-09
# feddcsr: disentangled representation learningによるフェデレーションクロスドメインシーケンシャルレコメンデーション

FedDCSR: Federated Cross-domain Sequential Recommendation via Disentangled Representation Learning ( http://arxiv.org/abs/2309.08420v6 )

ライセンス: Link先を確認
Hongyu Zhang, Dongyi Zheng, Xu Yang, Jiyuan Feng, Qing Liao(参考訳) 近年,複数のドメインからのユーザシーケンスデータを活用するクロスドメインシーケンスレコメンデーション(CSR)が注目されている。 しかし、既存のCSRメソッドは、GDPR(General Data Protection Regulation)に違反しているドメイン間で元のユーザデータを共有する必要がある。 したがって、データプライバシを保ちながら、異なるドメインからの知識を完全に活用するために、連邦学習(FL)とCSRを組み合わせる必要がある。 それでも、異なる領域間での配列の不均一性はFLの全体的な性能に大きな影響を及ぼす。 本稿では,連接表現学習による新しいフェデレーションクロスドメイン逐次推奨フレームワークfederated cross-domainについて述べる。 具体的には、ドメイン間のシーケンス特徴の不均一性に対処するために、ユーザシーケンス機能をドメイン共有機能とドメイン専用機能に分解するinter-intra domain sequence representation disentanglement(srd)というアプローチを導入する。 さらに、ユーザシーケンス上でデータ拡張を行うことで、よりリッチなドメイン排他的特徴を学習するためのドメイン内コントラッシブインフォマックス(CIM)戦略を設計する。 3つの実世界のシナリオに関する大規模な実験は、FedDCSRが既存のベースラインよりも大幅に改善されていることを示している。

Cross-domain Sequential Recommendation (CSR) which leverages user sequence data from multiple domains has received extensive attention in recent years. However, the existing CSR methods require sharing origin user data across domains, which violates the General Data Protection Regulation (GDPR). Thus, it is necessary to combine federated learning (FL) and CSR to fully utilize knowledge from different domains while preserving data privacy. Nonetheless, the sequence feature heterogeneity across different domains significantly impacts the overall performance of FL. In this paper, we propose FedDCSR, a novel federated cross-domain sequential recommendation framework via disentangled representation learning. Specifically, to address the sequence feature heterogeneity across domains, we introduce an approach called inter-intra domain sequence representation disentanglement (SRD) to disentangle the user sequence features into domain-shared and domain-exclusive features. In addition, we design an intra domain contrastive infomax (CIM) strategy to learn richer domain-exclusive features of users by performing data augmentation on user sequences. Extensive experiments on three real-world scenarios demonstrate that FedDCSR achieves significant improvements over existing baselines.
翻訳日:2024-01-10 19:56:38 公開日:2024-01-09
# 一般化キャプションとデュアルフュージョン強化を伴う拡散モデルにおける緩和レプリケーションとコピー

Mitigate Replication and Copying in Diffusion Models with Generalized Caption and Dual Fusion Enhancement ( http://arxiv.org/abs/2309.07254v3 )

ライセンス: Link先を確認
Chenghao Li, Dake Chen, Yuke Zhang, Peter A. Beerel(参考訳) 拡散モデルは高品質な画像を生成する素晴らしい能力を示しているが、トレーニングデータを‘複製’する傾向はプライバシの懸念を生じさせる。 最近の研究では、この複製は訓練用データキャプションの一般化や訓練用画像の重複に起因する可能性があるが、効果的な緩和戦略はいまだに解明されていない。 このギャップに対処するため,本稿では,まずキャプションの一般性を測定し,大言語モデル(LLM)を用いてトレーニングキャプションの一般化を行う。 その後,一般化キャプションを活用し,拡散モデルの複製を緩和する新しい二重融合拡張手法を提案する。 実験により,提案手法は,世代間の多様性と品質を維持しつつ,元の拡散モデルと比較して43.5%の再現性を著しく低減できることを示した。 コードはhttps://github.com/HowardLi0816/dual-fusion-diffusionで入手できる。

While diffusion models demonstrate a remarkable capability for generating high-quality images, their tendency to `replicate' training data raises privacy concerns. Although recent research suggests that this replication may stem from the insufficient generalization of training data captions and duplication of training images, effective mitigation strategies remain elusive. To address this gap, our paper first introduces a generality score that measures the caption generality and employ large language model (LLM) to generalize training captions. Subsequently, we leverage generalized captions and propose a novel dual fusion enhancement approach to mitigate the replication of diffusion models. Our empirical results demonstrate that our proposed methods can significantly reduce replication by 43.5% compared to the original diffusion model while maintaining the diversity and quality of generations. Code is available at https://github.com/HowardLi0816/dual-fusion-diffusion.
翻訳日:2024-01-10 19:56:19 公開日:2024-01-09
# 地理空間気象データに基づく深層ニューラルネットワークによる長期干ばつ予測

Long-term drought prediction using deep neural networks based on geospatial weather data ( http://arxiv.org/abs/2309.06212v3 )

ライセンス: Link先を確認
Vsevolod Grabar, Alexander Marusov, Yury Maximov, Nazar Sotiriadi, Alexander Bulkin, Alexey Zaytsev(参考訳) 農業計画や保険には1年前から予測される高品質の干ばつの問題が不可欠である。 しかし、データの複雑さと乾燥確率性のために、妥当な精度で解決されていない。 干ばつデータに対処するために,開放的気候データを入力として利用できる時空間的ニューラルネットワークモデルを採用するエンドツーエンドのアプローチを導入する。 本研究は,Palmer Drought Severity Index(PDSI)予測の有効性を評価するために,多種多様なモデルと5つの異なる環境領域を用いた。 重要な集約された発見は、TransformerモデルであるEarthFormerの、正確な短期(最大6ヶ月)の予測における例外的なパフォーマンスである。 同時に、畳み込みLSTMは長期的な予測に優れている。 どちらのモデルも高いROC AUCスコアを達成し、1ヶ月前は0.948、予想より12ヶ月前は0.617だった。

The problem of high-quality drought forecasting up to a year in advance is critical for agriculture planning and insurance. Yet, it is still unsolved with reasonable accuracy due to data complexity and aridity stochasticity. We tackle drought data by introducing an end-to-end approach that adopts a spatio-temporal neural network model with accessible open monthly climate data as the input. Our systematic research employs diverse proposed models and five distinct environmental regions as a testbed to evaluate the efficacy of the Palmer Drought Severity Index (PDSI) prediction. Key aggregated findings are the exceptional performance of a Transformer model, EarthFormer, in making accurate short-term (up to six months) forecasts. At the same time, the Convolutional LSTM excels in longer-term forecasting. Both models achieved high ROC AUC scores: 0.948 for one month ahead and 0.617 for twelve months ahead forecasts.
翻訳日:2024-01-10 19:56:04 公開日:2024-01-09
# 非決定性列車時間と決定性試験時間の正規化による深層学習に基づくヌクレイインスタンスセグメンテーションの一般化能力の向上

Improving Generalization Capability of Deep Learning-Based Nuclei Instance Segmentation by Non-deterministic Train Time and Deterministic Test Time Stain Normalization ( http://arxiv.org/abs/2309.06143v2 )

ライセンス: Link先を確認
Amirreza Mahbod, Georg Dorffner, Isabella Ellinger, Ramona Woitek, Sepideh Hatamikia(参考訳) デジタル病理と顕微鏡が出現し、スライドの組織像全体を自動でスキャンし保存できるようになり、取得した画像を分析するためにコンピュータ化手法を使う傾向が高まっている。 様々な病理画像解析タスクの中で、核のインスタンスセグメンテーションは幅広い臨床および研究応用において基本的な役割を果たす。 多くの半自動および完全自動のコンピュータ化手法が核インスタンス分割のために提案されているが、ディープラーニング(DL)ベースのアプローチは最高の性能をもたらすことが示されている。 しかし、そのようなアプローチのパフォーマンスは通常、未発見のデータセットでテストされると劣化する。 本研究では,DLに基づく自動セグメンテーション手法の一般化能力向上のための新しい手法を提案する。 現状のdlベースモデルの1つをベースラインとして利用するだけでなく、非決定論的トレイン時間と決定論的テスト時間染色正規化を取り入れ、セグメンテーション性能を高めるためにセンシングを行う。 1つのトレーニングセットでモデルをトレーニングし、7つのテストデータセットでセグメンテーション性能を評価した。 その結果,提案手法は,ベースラインセグメンテーションモデルと比較して,Diceスコア,集約ジャカード指数,汎光学品質スコアに基づいて,セグメント化核の平均性能を最大4.9%,5.4%,5.9%向上させることがわかった。

With the advent of digital pathology and microscopic systems that can scan and save whole slide histological images automatically, there is a growing trend to use computerized methods to analyze acquired images. Among different histopathological image analysis tasks, nuclei instance segmentation plays a fundamental role in a wide range of clinical and research applications. While many semi- and fully-automatic computerized methods have been proposed for nuclei instance segmentation, deep learning (DL)-based approaches have been shown to deliver the best performances. However, the performance of such approaches usually degrades when tested on unseen datasets. In this work, we propose a novel method to improve the generalization capability of a DL-based automatic segmentation approach. Besides utilizing one of the state-of-the-art DL-based models as a baseline, our method incorporates non-deterministic train time and deterministic test time stain normalization, and ensembling to boost the segmentation performance. We trained the model with one single training set and evaluated its segmentation performance on seven test datasets. Our results show that the proposed method provides up to 4.9%, 5.4%, and 5.9% better average performance in segmenting nuclei based on Dice score, aggregated Jaccard index, and panoptic quality score, respectively, compared to the baseline segmentation model.
翻訳日:2024-01-10 19:55:49 公開日:2024-01-09
# 次はどこへ行くの? ヒューマンモビリティ予測器としての大規模言語モデル

Where Would I Go Next? Large Language Models as Human Mobility Predictors ( http://arxiv.org/abs/2308.15197v2 )

ライセンス: Link先を確認
Xinglei Wang, Meng Fang, Zichao Zeng, Tao Cheng(参考訳) 正確な人間の移動予測は、疫病モデル、輸送計画、緊急対応など、さまざまな領域で多くの重要な応用を支えている。 モビリティデータのスパース性と人々の日常生活活動の確率的性質から、人々の位置を正確に予測することは課題である。 最近開発された大規模言語モデル(LLM)は、多くの言語関連タスクにおいて優れた性能を示したが、人間のモビリティ研究への適用性はまだ明らかになっていない。 このギャップに対処するため、本論文は人間の移動予測タスクにおけるLLMの可能性について考察する。 人間の移動データを解析するためのLLMの言語理解と推論能力を活用する新しい手法 LLM-Mob を提案する。 本研究では,人間の移動における長期的・短期的依存を捉え,予測対象の時間情報を用いて時間認識予測を可能にするために,歴史的滞留と文脈留置の概念を提案する。 さらに,LLMがより正確な予測を生成できるように,文脈包摂的プロンプトを設計する。 本手法の総合評価により, LLM-Mobは, 高精度かつ解釈可能な予測を行う上で優れており, 人体移動予測技術の進歩におけるLLMの未完成の可能性を強調している。 我々の研究は、複雑なドメイン固有モデルの構築から、言語命令を通じて正確な予測を行う汎用LLMへの移行という、人間のモビリティモデリングにおける重要なパラダイムシフトを示唆している。 この作業のコードはhttps://github.com/xlwang233/llm-mobで入手できる。

Accurate human mobility prediction underpins many important applications across a variety of domains, including epidemic modelling, transport planning, and emergency responses. Due to the sparsity of mobility data and the stochastic nature of people's daily activities, achieving precise predictions of people's locations remains a challenge. While recently developed large language models (LLMs) have demonstrated superior performance across numerous language-related tasks, their applicability to human mobility studies remains unexplored. Addressing this gap, this article delves into the potential of LLMs for human mobility prediction tasks. We introduce a novel method, LLM-Mob, which leverages the language understanding and reasoning capabilities of LLMs for analysing human mobility data. We present concepts of historical stays and context stays to capture both long-term and short-term dependencies in human movement and enable time-aware prediction by using time information of the prediction target. Additionally, we design context-inclusive prompts that enable LLMs to generate more accurate predictions. Comprehensive evaluations of our method reveal that LLM-Mob excels in providing accurate and interpretable predictions, highlighting the untapped potential of LLMs in advancing human mobility prediction techniques. We posit that our research marks a significant paradigm shift in human mobility modelling, transitioning from building complex domain-specific models to harnessing general-purpose LLMs that yield accurate predictions through language instructions. The code for this work is available at https://github.com/xlwang233/LLM-Mob.
翻訳日:2024-01-10 19:55:04 公開日:2024-01-09
# 音声対話のためのテキストベース対話状態トラッカーの適応

Adapting Text-based Dialogue State Tracker for Spoken Dialogues ( http://arxiv.org/abs/2308.15053v3 )

ライセンス: Link先を確認
Jaeseok Yoon, Seunghyun Hwang, Ran Han, Jeonguk Bang, Kee-Eung Kim(参考訳) 対話システム技術コンペティション(DSTC)を通じて対話システムに顕著な進歩があったが、音声インタフェースを用いた堅牢なタスク指向対話システムを構築する上での重要な課題の1つである。 テキストベースの対話システムでは、コーパスが書かれた大量のデータセットがあるが、音声対話を持つものは非常に少ないため、ほとんどが進歩している。 しかし、siriやalexaのような音声アシスタントシステムに見られるように、その成功を音声対話に移すことは実際的に重要である。 本稿では,dstc11における音声認識対話システム技術チャレンジトラックに参加する,高度に成功したモデルの構築に向けた技術努力について述べる。 本モデルは,(1)音声とテキストとのギャップを埋める自動音声認識誤り訂正,(2)スロット記述を用いたスロットと値を推定するテキストベース対話システム(d3st),(3)推定スロット値の誤りを復元するための後処理,の3つの主要モジュールからなる。 本研究は,音声対話コーパスにテキストベースの対話状態トラッカを適応させるために,明示的な自動音声認識誤り訂正モジュール,後処理,データ拡張を用いることが重要であることを示す。

Although there have been remarkable advances in dialogue systems through the dialogue systems technology competition (DSTC), it remains one of the key challenges to building a robust task-oriented dialogue system with a speech interface. Most of the progress has been made for text-based dialogue systems since there are abundant datasets with written corpora while those with spoken dialogues are very scarce. However, as can be seen from voice assistant systems such as Siri and Alexa, it is of practical importance to transfer the success to spoken dialogues. In this paper, we describe our engineering effort in building a highly successful model that participated in the speech-aware dialogue systems technology challenge track in DSTC11. Our model consists of three major modules: (1) automatic speech recognition error correction to bridge the gap between the spoken and the text utterances, (2) text-based dialogue system (D3ST) for estimating the slots and values using slot descriptions, and (3) post-processing for recovering the error of the estimated slot value. Our experiments show that it is important to use an explicit automatic speech recognition error correction module, post-processing, and data augmentation to adapt a text-based dialogue state tracker for spoken dialogue corpora.
翻訳日:2024-01-10 19:54:38 公開日:2024-01-09
# フェデレーション学習における分散資源管理のための価格差別ゲーム

Price-Discrimination Game for Distributed Resource Management in Federated Learning ( http://arxiv.org/abs/2308.13838v3 )

ライセンス: Link先を確認
Han Zhang, Halvin Yang and Guopeng Zhang(参考訳) FedAvgのようなバニラ連合学習(FL)では、パラメータサーバ(PS)と複数の分散クライアントが典型的な買い手市場を形成し、FLサービスのPS/購入者数はクライアント/販売者数よりもはるかに少ない。 本稿では、FLの性能向上と、FLに参加するクライアントの動機付けコストの低減を図るため、異なるクライアントに対して同じサービス価格を提供するのではなく、異なるクライアントが提供するサービスの価格を区別することを提案する。 価格の差は、flがもたらした性能改善と、コンピューティングと通信能力の多様性に基づいている。 この目的のために、多目的トレードオフ、クライアント選択、インセンティブ機構を含むFLの分散リソース管理問題に包括的に対処する価格判別ゲーム(PDG)を策定する。 PDGは混合整数非線形プログラミング(MINLP)問題であるため、計算複雑性が低く通信オーバーヘッドの少ない分散半ヒューリスティックアルゴリズムがこの問題を解決するために設計されている。 シミュレーション結果は,提案手法の有効性を検証する。

In vanilla federated learning (FL) such as FedAvg, the parameter server (PS) and multiple distributed clients can form a typical buyer's market, where the number of PS/buyers of FL services is far less than the number of clients/sellers. In order to improve the performance of FL and reduce the cost of motivating clients to participate in FL, this paper proposes to differentiate the pricing for services provided by different clients rather than simply providing the same service pricing for different clients. The price is differentiated based on the performance improvements brought to FL and their heterogeneity in computing and communication capabilities. To this end, a price-discrimination game (PDG) is formulated to comprehensively address the distributed resource management problems in FL, including multi-objective trade-off, client selection, and incentive mechanism. As the PDG is a mixed-integer nonlinear programming (MINLP) problem, a distributed semi-heuristic algorithm with low computational complexity and low communication overhead is designed to solve it. The simulation result verifies the effectiveness of the proposed approach.
翻訳日:2024-01-10 19:54:16 公開日:2024-01-09
# 階層的特徴圧縮と識別による深層表現学習の理解

Understanding Deep Representation Learning via Layerwise Feature Compression and Discrimination ( http://arxiv.org/abs/2311.02960v2 )

ライセンス: Link先を確認
Peng Wang, Xiao Li, Can Yaras, Zhihui Zhu, Laura Balzano, Wei Hu, and Qing Qu(参考訳) 過去10年間で、ディープラーニングは生データから有意義な特徴を学習するための非常に効果的なツールであることが証明された。 しかし、ディープ・ネットワークが階層的特徴学習を階層的に階層的に行うのかという疑問は依然として残っている。 本研究では,中間的特徴の構造を解明し,この謎を明らかにする。 線形層が非線形ネットワークにおける深層の役割を模倣して特徴学習を行うという経験的知見に動機づけられ,マルチクラス分類問題における学習後の各層の出力(特徴)を調査し,ディープリニアネットワークが入力データを出力に変換する方法について検討した。 この目的に向けて,まず,クラス内圧縮の測定指標と中間機能のクラス間識別をそれぞれ定義する。 Through theoretical analysis of these two metrics, we show that the evolution of features follows a simple and quantitative pattern from shallow to deep layers when the input data is nearly orthogonal and the network weights are minimum-norm, balanced, and approximate low-rank: Each layer of the linear network progressively compresses within-class features at a geometric rate and discriminates between-class features at a linear rate with respect to the number of layers that data have passed through. 私たちの知る限りでは、ディープリニアネットワークの階層表現における特徴進化の定量的な特徴付けはこれが初めてである。 実験により, 実験結果の数値的検証だけでなく, 最近の実験結果とよく一致する深い非線形ネットワークにおいても類似したパターンが得られた。 さらに, 転校学習における結果の実際的意義を実証する。 私たちのコードは \url{https://github.com/Heimine/PNC_DLN} で利用可能です。

Over the past decade, deep learning has proven to be a highly effective tool for learning meaningful features from raw data. However, it remains an open question how deep networks perform hierarchical feature learning across layers. In this work, we attempt to unveil this mystery by investigating the structures of intermediate features. Motivated by our empirical findings that linear layers mimic the roles of deep layers in nonlinear networks for feature learning, we explore how deep linear networks transform input data into output by investigating the output (i.e., features) of each layer after training in the context of multi-class classification problems. Toward this goal, we first define metrics to measure within-class compression and between-class discrimination of intermediate features, respectively. Through theoretical analysis of these two metrics, we show that the evolution of features follows a simple and quantitative pattern from shallow to deep layers when the input data is nearly orthogonal and the network weights are minimum-norm, balanced, and approximate low-rank: Each layer of the linear network progressively compresses within-class features at a geometric rate and discriminates between-class features at a linear rate with respect to the number of layers that data have passed through. To the best of our knowledge, this is the first quantitative characterization of feature evolution in hierarchical representations of deep linear networks. Empirically, our extensive experiments not only validate our theoretical results numerically but also reveal a similar pattern in deep nonlinear networks which aligns well with recent empirical studies. Moreover, we demonstrate the practical implications of our results in transfer learning. Our code is available at \url{https://github.com/Heimine/PNC_DLN}.
翻訳日:2024-01-10 19:47:32 公開日:2024-01-09
# PolyThrottle:エッジデバイス上でのエネルギー効率の良いニューラルネットワーク推論

PolyThrottle: Energy-efficient Neural Network Inference on Edge Devices ( http://arxiv.org/abs/2310.19991v2 )

ライセンス: Link先を確認
Minghao Yan, Hongyi Wang, Shivaram Venkataraman(参考訳) ニューラルネットワーク(NN)が多様な分野に展開されるにつれて、そのエネルギー需要は増加する。 いくつかの先行研究は、訓練中のエネルギー消費の削減に重点を置いているが、ML駆動システムの連続運転は、推論中にかなりのエネルギー消費をもたらす。 本稿では、従来の研究で無視されるGPU、メモリ、CPU周波数などのデバイス上のハードウェア要素の構成が、通常の微調整によるNN推論におけるエネルギー消費にどのように影響するかを検討する。 本稿では,Constrained Bayesian Optimization を用いて,各ハードウェアコンポーネント間で構成を最適化するPolyThrottleを提案する。 我々の経験的評価は、人気のあるモデルで最大36%のエネルギーを節約できることを示すエネルギー性能均衡の新しい側面を明らかにする。 また、PolyThrottleがアプリケーション制約を満たしつつ、ほぼ最適設定に迅速に収束できることを検証する。

As neural networks (NN) are deployed across diverse sectors, their energy demand correspondingly grows. While several prior works have focused on reducing energy consumption during training, the continuous operation of ML-powered systems leads to significant energy use during inference. This paper investigates how the configuration of on-device hardware-elements such as GPU, memory, and CPU frequency, often neglected in prior studies, affects energy consumption for NN inference with regular fine-tuning. We propose PolyThrottle, a solution that optimizes configurations across individual hardware components using Constrained Bayesian Optimization in an energy-conserving manner. Our empirical evaluation uncovers novel facets of the energy-performance equilibrium showing that we can save up to 36 percent of energy for popular models. We also validate that PolyThrottle can quickly converge towards near-optimal settings while satisfying application constraints.
翻訳日:2024-01-10 19:47:07 公開日:2024-01-09
# FaultSeg Swin-UNETR: 変圧器を用いた自己教師付き事前学習モデル

FaultSeg Swin-UNETR: Transformer-Based Self-Supervised Pretraining Model for Fault Recognition ( http://arxiv.org/abs/2310.17974v2 )

ライセンス: Link先を確認
Zeren Zhang, Ran Chen, Jinwen Ma(参考訳) 本稿では,自己教師付き事前学習による地震断層認識の強化手法を提案する。 地震断層の解釈は、地球物理学と地質学の分野で非常に重要である。 しかし,従来の地震断層認識手法では,データ品質や量への依存,インタプリタの主観性への感受性など,様々な問題に直面している。 現在, 小型合成データセットに基づく自動故障認識手法は, 実地震データに適用した場合の性能劣化を経験する。 これらの課題に対処するために,我々は比較的容易に入手可能な未ラベル地震データを事前学習に利用して,自己教師型学習の概念を導入した。 具体的には,Swin Transformerモデルをコアネットワークとして使用し,SimMIMプレトレーニングタスクを用いて地震データの不連続性に関連する特徴を抽出した。 エッジ検出技術に触発された微調整フェーズでは,swin-unetrモデルの構造も洗練され,マルチスケールデコードと融合により,より効果的な故障検出が可能となった。 実験の結果,提案手法は,OISおよびODS測定値から,Thebeデータセット上での最先端性能を実現することができた。

This paper introduces an approach to enhance seismic fault recognition through self-supervised pretraining. Seismic fault interpretation holds great significance in the fields of geophysics and geology. However, conventional methods for seismic fault recognition encounter various issues, including dependence on data quality and quantity, as well as susceptibility to interpreter subjectivity. Currently, automated fault recognition methods proposed based on small synthetic datasets experience performance degradation when applied to actual seismic data. To address these challenges, we have introduced the concept of self-supervised learning, utilizing a substantial amount of relatively easily obtainable unlabeled seismic data for pretraining. Specifically, we have employed the Swin Transformer model as the core network and employed the SimMIM pretraining task to capture unique features related to discontinuities in seismic data. During the fine-tuning phase, inspired by edge detection techniques, we have also refined the structure of the Swin-UNETR model, enabling multiscale decoding and fusion for more effective fault detection. Experimental results demonstrate that our proposed method attains state-of-the-art performance on the Thebe dataset, as measured by the OIS and ODS metrics.
翻訳日:2024-01-10 19:46:52 公開日:2024-01-09
# 適度レイノルズ数における流体流の格子ボルツマン・カールマン量子アルゴリズムと回路

Lattice Boltzmann-Carleman quantum algorithm and circuit for fluid flows at moderate Reynolds number ( http://arxiv.org/abs/2310.17973v4 )

ライセンス: Link先を確認
Claudio Sanavio and Sauro Succi(参考訳) 本稿では,Lattice Boltzmann (LB) 法のカールマン線形化に基づく流体流れの量子計算アルゴリズムを提案する。 まず, 古典的カールマン手続きを適度なレイノルズ数, すなわちコルモゴロフのような流れで収束することを示す。 次に、量子回路レイアウトを含む対応する量子アルゴリズムを定式化し、その計算可能性を分析する。 少なくとも 10 から 100 の中間レイノルズ数に対して、カールマン-LB 手続きは 2 次でうまく切り替わることができ、これは非常に励みやすい結果である。 また,単一時間ステップ衝突演算子を実装した量子回路は格子点数によらず一定の深さを持つことを示した。 しかし、そのような深さは1万量子ゲートのオーダーであり、古典的計算に対する量子優位は、今日では達成できないが、短期的には達成可能である。 しかし、マルチステップバージョンの同じ目標は、将来の研究におけるオープンなトピックのままである。

We present a quantum computing algorithm for fluid flows based on the Carleman-linearization of the Lattice Boltzmann (LB) method. First, we demonstrate the convergence of the classical Carleman procedure at moderate Reynolds numbers, namely for Kolmogorov-like flows. Then we proceed to formulate the corresponding quantum algorithm, including the quantum circuit layout and analyze its computational viability. We show that, at least for moderate Reynolds numbers between 10 and 100, the Carleman-LB procedure can be successfully truncated at second order, which is a very encouraging result. We also show that the quantum circuit implementing the single time-step collision operator has a fixed depth, regardless of the number of lattice sites. However, such depth is of the order of ten thousands quantum gates, meaning that quantum advantage over classical computing is not attainable today, but could be achieved in the near-mid term future. The same goal for the multi-step version remains however an open topic for future research.
翻訳日:2024-01-10 19:46:32 公開日:2024-01-09
# テーブル・ツー・テキスト生成における自動論理形式の改良

Automatic Logical Forms improve fidelity in Table-to-Text generation ( http://arxiv.org/abs/2310.17279v2 )

ライセンス: Link先を確認
I\~nigo Alonso, Eneko Agirre(参考訳) テーブル・トゥ・テキストシステムはテーブルのような構造化データから自然言語文を生成する。 エンド・ツー・エンドの技術は事実の正確性(忠実性)が低いが、以前の研究では、選択されたコンテンツと対象テキストの意味を表現した手動論理形式(lf)を使用することで得られると報告した。 手動のステップを考えると、自動lfが効果的かどうか、あるいはコンテンツ選択のみによる改善なのかは明らかでない。 テーブルとコンテンツの選択を与えられたTlTは、まずLFを生成し、次にテキストステートメントを生成します。 LFを使用せず,システム上で30ポイントの忠実度を向上することにより,自動LFの品質が向上することを示す。 実験により、まずコンテンツの自動選択を行い、続いてLogic-to-Text生成が改善され、より少ない範囲でTable-to-Logic解析が改善される。

Table-to-text systems generate natural language statements from structured data like tables. While end-to-end techniques suffer from low factual correctness (fidelity), a previous study reported gains when using manual logical forms (LF) that represent the selected content and the semantics of the target text. Given the manual step, it was not clear whether automatic LFs would be effective, or whether the improvement came from content selection alone. We present TlT which, given a table and a selection of the content, first produces LFs and then the textual statement. We show for the first time that automatic LFs improve quality, with an increase in fidelity of 30 points over a comparable system not using LFs. Our experiments allow to quantify the remaining challenges for high factual correctness, with automatic selection of content coming first, followed by better Logic-to-Text generation and, to a lesser extent, better Table-to-Logic parsing.
翻訳日:2024-01-10 19:46:16 公開日:2024-01-09
# 非ガウス連続変数系を用いた変分量子シミュレーション

Variational quantum simulation using non-Gaussian continuous-variable systems ( http://arxiv.org/abs/2310.15919v2 )

ライセンス: Link先を確認
Paolo Stornati, Antonio Acin, Ulysse Chabaud, Alexandre Dauphin, Valentina Parigi, Federico Centrone(参考訳) 本研究は、フォトニックハードウェアに触発されたフレームワーク内で連続変数システムを活用することで、量子シミュレーションに新たなアプローチを導入する。 第一の焦点は、量子論において生じるような無限次元系に関連するハミルトンの基底状態の静的な性質のシミュレーションである。 現状のフォトニクス技術と互換性のある連続可変変分量子固有解器を提案する。 私たちが導入したフレームワークは、ヒルベルト空間の切り込みを導入することなく、離散変数系と連続変数系を比較することができ、2つの形式のうちの1つがより良く機能するシナリオを調べることができる。 本稿では,Bose-Hubbardモデルの静的特性の研究に適用し,その有効性と実用性を示し,量子物理学における複雑な問題に対処する連続変数量子シミュレーションの可能性を明らかにする。

This work introduces a novel approach to quantum simulation by leveraging continuous-variable systems within a photonic hardware-inspired framework. The primary focus is on simulating static properties of the ground state of Hamiltonians associated with infinite-dimensional systems, such as those arising in quantum field theory. We present a continuous-variable variational quantum eigensolver compatible with state-of-the-art photonic technology. The framework we introduce allows us to compare discrete and continuous variable systems without introducing a truncation of the Hilbert space, opening the possibility to investigate the scenarios where one of the two formalisms performs better. We apply it to the study of static properties of the Bose--Hubbard model and demonstrate its effectiveness and practicality, highlighting the potential of continuous-variable quantum simulations in addressing complex problems in quantum physics.
翻訳日:2024-01-10 19:45:47 公開日:2024-01-09
# 改良型(大規模)言語モデルの一般化のためのデータ拡張

Data Augmentations for Improved (Large) Language Model Generalization ( http://arxiv.org/abs/2310.12803v2 )

ライセンス: Link先を確認
Amir Feder, Yoav Wald, Claudia Shi, Suchi Saria, David Blei(参考訳) スプリアス相関にテキスト分類器が依存すると、デプロイメントの一般化が不十分になり、医療などの安全クリティカルな領域での使用に対する懸念が高まる。 本研究では,データの因果構造に関する知識から導かれる偽データ拡張を用いて,スプリアス特徴に対する介入をシミュレートし,より頑健なテキスト分類法を学ぶことを提案する。 この戦略は,ラベルが属性と突発的に相関している予測問題に適していることを示す。 このような問題の仮定の下では,重要度の再重み付けと比較して,偽データ拡張の好適なサンプル複雑性について考察する。 現実的には、差分法に基づく補助データを用いて例をマッチングし、大言語モデル(LLM)を用いてテキストの条件付き確率を表す。 医療談話と半合成データから臨床診断を学習する介護不変予測器の広範な実験を通じて,介入シミュレーション手法は,ベースライン不変学習アルゴリズムと比較してアウト・オブ・ディストリビューション(OOD)の精度を向上させることを実証した。

The reliance of text classifiers on spurious correlations can lead to poor generalization at deployment, raising concerns about their use in safety-critical domains such as healthcare. In this work, we propose to use counterfactual data augmentation, guided by knowledge of the causal structure of the data, to simulate interventions on spurious features and to learn more robust text classifiers. We show that this strategy is appropriate in prediction problems where the label is spuriously correlated with an attribute. Under the assumptions of such problems, we discuss the favorable sample complexity of counterfactual data augmentation, compared to importance re-weighting. Pragmatically, we match examples using auxiliary data, based on diff-in-diff methodology, and use a large language model (LLM) to represent a conditional probability of text. Through extensive experimentation on learning caregiver-invariant predictors of clinical diagnoses from medical narratives and on semi-synthetic data, we demonstrate that our method for simulating interventions improves out-of-distribution (OOD) accuracy compared to baseline invariant learning algorithms.
翻訳日:2024-01-10 19:45:33 公開日:2024-01-09
# DHOT-GM: 微分階層型最適輸送フレームワークを用いたロバストグラフマッチング

DHOT-GM: Robust Graph Matching Using A Differentiable Hierarchical Optimal Transport Framework ( http://arxiv.org/abs/2310.12081v3 )

ライセンス: Link先を確認
Haoran Cheng, Dixin Luo, Hongteng Xu(参考訳) グラフマッチングは、グラフ間のノード対応を見つけることを目的として、実際には最も重要なグラフ解析タスクの1つである。 既存のアプローチのほとんどは、グラフに隠されたマルチモーダル情報(ノード属性やサブグラフ構造など)を十分に活用していないため、グラフにマッチする際の隣接行列やノード埋め込みに依存している。 本研究では, DHOT-GMと呼ばれる, 微分可能な階層的最適輸送(HOT)フレームワークに基づく, 新規かつ効果的なグラフマッチング手法を提案する。 基本的に,本手法は各グラフを,異なるモーダル情報に対応する関係行列の集合として表現する。 2つのグラフが与えられた場合、すべての関係行列対を列挙してマッチング結果を求め、その結果の重み付き平均化によるノード対応を推定する。 この方法では、2つのグラフ間のHOT距離を計算することができる -- 各マッチング結果は、2つの関係行列間のGromov-Wasserstein (GW) 距離に関連する最適な輸送計画であり、全てのマッチング結果の重みは行列集合上で定義された上位レベルの最適輸送計画の要素である。 そこで本研究では, 熱間距離を微分可能な方法で計算し, 関係行列を調整可能な2レベル最適化アルゴリズムを提案する。 様々なグラフマッチングタスクにおける実験は、最先端のアプローチと比較して、提案手法の優越性と頑健性を示している。

Graph matching is one of the most significant graph analytic tasks in practice, which aims to find the node correspondence across different graphs. Most existing approaches rely on adjacency matrices or node embeddings when matching graphs, whose performances are often sub-optimal because of not fully leveraging the multi-modal information hidden in graphs, such as node attributes, subgraph structures, etc. In this study, we propose a novel and effective graph matching method based on a differentiable hierarchical optimal transport (HOT) framework, called DHOT-GM. Essentially, our method represents each graph as a set of relational matrices corresponding to the information of different modalities. Given two graphs, we enumerate all relational matrix pairs and obtain their matching results, and accordingly, infer the node correspondence by the weighted averaging of the matching results. This method can be implemented as computing the HOT distance between the two graphs -- each matching result is an optimal transport plan associated with the Gromov-Wasserstein (GW) distance between two relational matrices, and the weights of all matching results are the elements of an upper-level optimal transport plan defined on the matrix sets. We propose a bi-level optimization algorithm to compute the HOT distance in a differentiable way, making the significance of the relational matrices adjustable. Experiments on various graph matching tasks demonstrate the superiority and robustness of our method compared to state-of-the-art approaches.
翻訳日:2024-01-10 19:45:12 公開日:2024-01-09
# VKIE:ビデオテキストにおけるキー情報抽出の応用

VKIE: The Application of Key Information Extraction on Video Text ( http://arxiv.org/abs/2310.11650v2 )

ライセンス: Link先を確認
Siyu An, Ye Liu, Haoyuan Peng and Di Yin(参考訳) ビデオから構造化された情報を抽出することは、業界内の多くのダウンストリームアプリケーションにとって重要である。 本稿では,ビデオの視覚テキストから階層的な鍵情報を抽出する重要なタスクを定義する。 これを4つのサブタスクに分割し,PipVKIEとUniVKIEという2つの実装ソリューションを導入する。 PipVKIEは4つのサブタスクを連続的に完了し、UniVKIEはすべてのサブタスクを1つのバックボーンに統合することで改善する。 PipVKIE と UniVKIE は、視覚、テキスト、および特徴表現のための座標からのマルチモーダル情報を利用する。 1つのよく定義されたデータセットに対する大規模な実験は、我々のソリューションが優れた性能と効率的な推論速度を達成することを実証している。

Extracting structured information from videos is critical for numerous downstream applications in the industry. In this paper, we define a significant task of extracting hierarchical key information from visual texts on videos. To fulfill this task, we decouple it into four subtasks and introduce two implementation solutions called PipVKIE and UniVKIE. PipVKIE sequentially completes the four subtasks in continuous stages, while UniVKIE is improved by unifying all the subtasks into one backbone. Both PipVKIE and UniVKIE leverage multimodal information from vision, text, and coordinates for feature representation. Extensive experiments on one well-defined dataset demonstrate that our solutions can achieve remarkable performance and efficient inference speed.
翻訳日:2024-01-10 19:44:46 公開日:2024-01-09
# 有限分岐フラクタル格子上の超伝導の強増強

Strong enhancement of superconductivity on finitely ramified fractal lattices ( http://arxiv.org/abs/2310.11497v2 )

ライセンス: Link先を確認
Askar A. Iliasov, Mikhail I. Katsnelson, Andrey A. Bagrov(参考訳) Sierpinskiガスケット(三角形)およびカーペット(四角)格子を例として、フラクタル超伝導体の特性を理論的に研究する。 そこで我々は, 魅力的なオンサイトポテンシャルを持つHubbardモデルにおける$s$-wave超伝導現象に着目し, Bogoliubov-de Gennesアプローチと超流動剛性理論を用いた。 Sierpinskiガスケットの場合、下層の結晶格子のフラクタル幾何が超伝導に強く寄与することを示し、通常の三角形格子に比べて臨界温度$T_c$が著しく上昇するだけでなく、クーパー対のマクロ位相コヒーレンスも支持することを示した。 対照的に、シエピンスキーのカーペット幾何学は明らかな効果をもたらすものではなく、通常の正方格子と比較して大きな違いは見つからない。 これらの場合の定性的差はフラクタルの異なる分岐特性によって生じると推測する。

Using the Sierpinski gasket (triangle) and carpet (square) lattices as examples, we theoretically study the properties of fractal superconductors. For that, we focus on the phenomenon of $s$-wave superconductivity in the Hubbard model with attractive on-site potential and employ the Bogoliubov-de Gennes approach and the theory of superfluid stiffness. For the case of the Sierpinski gasket, we demonstrate that fractal geometry of the underlying crystalline lattice can be strongly beneficial for superconductivity, not only leading to a considerable increase of the critical temperature $T_c$ as compared to the regular triangular lattice but also supporting macroscopic phase coherence of the Cooper pairs. In contrast, the Sierpinski carpet geometry does not lead to pronounced effects, and we find no substantial difference as compared with the regular square lattice. We conjecture that the qualitative difference between these cases is caused by different ramification properties of the fractals.
翻訳日:2024-01-10 19:44:04 公開日:2024-01-09
# ビデオディープフェイク検出の改善: パッチレベル解析を用いたDCTに基づくアプローチ

Improving Video Deepfake Detection: A DCT-Based Approach with Patch-Level Analysis ( http://arxiv.org/abs/2310.11204v2 )

ライセンス: Link先を確認
Luca Guarnera (1), Salvatore Manganello (1), Sebastiano Battiato (1) ((1) University of Catania)(参考訳) デジタルビデオにおけるディープフェイク検出のための新しいアルゴリズムを提案する。 i-frameは文献に記述されているアプローチよりも高速な計算と解析を提供するために抽出された。 個々のビデオフレーム内の識別領域を特定するために、フレーム全体、背景、顔、目、鼻、口、顔フレームを別々に分析した。 離散コサイン変換(DCT)から、ベータ成分を交流係数から抽出し、標準分類器への入力として使用した。 実験の結果,眼と口の領域は最も差別的であり,解析により映像の性質を判断できることがわかった。

A new algorithm for the detection of deepfakes in digital videos is presented. The I-frames were extracted in order to provide faster computation and analysis than approaches described in the literature. To identify the discriminating regions within individual video frames, the entire frame, background, face, eyes, nose, mouth, and face frame were analyzed separately. From the Discrete Cosine Transform (DCT), the Beta components were extracted from the AC coefficients and used as input to standard classifiers. Experimental results show that the eye and mouth regions are those most discriminative and able to determine the nature of the video under analysis.
翻訳日:2024-01-10 19:43:42 公開日:2024-01-09
# 基礎モデルの年齢におけるリスク評価と統計的意義

Risk Assessment and Statistical Significance in the Age of Foundation Models ( http://arxiv.org/abs/2310.07132v2 )

ライセンス: Link先を確認
Apoorva Nitsure, Youssef Mroueh, Mattia Rigotti, Kristjan Greenewald, Brian Belgodere, Mikhail Yurochkin, Jiri Navratil, Igor Melnyk, and Jerret Ross(参考訳) 本稿では,統計的に有意な基礎モデルの社会技術的リスクを評価するための分布的枠組みを提案する。 提案手法は,実確率変数の1次および2次確率支配に基づく新しい統計的相対性試験に基づく。 本試験における2次統計は, 平均リスクモデルと相関し, 代替案を選択する際のリスクと実用性のバランスをとるために, エコノメトリや数理ファイナンスでよく用いられることを示す。 このフレームワークを用いて,特定メトリクスによって定量化されたガードレールを基礎モデル選択のためのリスク対応アプローチを正式に開発する。 数学ファイナンスにおけるポートフォリオ最適化と選択理論に着想を得て、各モデルのメトリクスポートフォリオをメトリクスの集合を集約する手段として定義し、これらのポートフォリオの確率的優位性に基づいてモデル選択を行う。 実験の統計的意義は, 中央極限定理による漸近解析によって理論的に裏付けられ, ブートストラップ分散推定によって実際にインスタンス化される。 我々は,提案手法を用いて,指示からの漂流と有害コンテンツの出力に関連するリスクに関する各種大規模言語モデルの比較を行った。

We propose a distributional framework for assessing socio-technical risks of foundation models with quantified statistical significance. Our approach hinges on a new statistical relative testing based on first and second order stochastic dominance of real random variables. We show that the second order statistics in this test are linked to mean-risk models commonly used in econometrics and mathematical finance to balance risk and utility when choosing between alternatives. Using this framework, we formally develop a risk-aware approach for foundation model selection given guardrails quantified by specified metrics. Inspired by portfolio optimization and selection theory in mathematical finance, we define a metrics portfolio for each model as a means to aggregate a collection of metrics, and perform model selection based on the stochastic dominance of these portfolios. The statistical significance of our tests is backed theoretically by an asymptotic analysis via central limit theorems instantiated in practice via a bootstrap variance estimate. We use our framework to compare various large language models regarding risks related to drifting from instructions and outputting toxic content.
翻訳日:2024-01-10 19:42:57 公開日:2024-01-09
# FABind:高速かつ高精度なタンパク質-リガンド結合

FABind: Fast and Accurate Protein-Ligand Binding ( http://arxiv.org/abs/2310.06763v5 )

ライセンス: Link先を確認
Qizhi Pei, Kaiyuan Gao, Lijun Wu, Jinhua Zhu, Yingce Xia, Shufang Xie, Tao Qin, Kun He, Tie-Yan Liu, Rui Yan(参考訳) タンパク質とリガンド間の相互作用をモデル化し、その結合構造を正確に予測することは、薬物の発見において非常に難しい課題である。 ディープラーニングの最近の進歩は、サンプリングベースと回帰ベースの方法が2つの顕著なアプローチとして登場し、この問題に対処する上で有望であることを示している。 しかし、これらの方法には顕著な制限がある。 サンプリングベースの方法は、選択のために複数の候補構造を生成する必要があるため、しばしば効率が低下する。 一方,回帰法では予測速度は速いが,精度は低下する可能性がある。 さらに、タンパク質サイズの変化は、しばしば適切な結合ポケットを選択するために外部モジュールを必要とする。 そこで本研究では,ポケット予測とドッキングを組み合わせて,高精度かつ高速なタンパク質-リガンド結合を実現するエンド・ツー・エンドモデルである $\mathbf{FABind}$ を提案する。 $\mathbf{FABind}$にはユニークなリガンドインフォームドポケット予測モジュールが組み込まれており、ドッキングポーズ推定にも利用される。 このモデルは、予測されたポケットを統合してタンパク質-リガンド結合を最適化し、トレーニングと推論の相違を減らすことでドッキングをさらに強化する。 ベンチマークデータセットに関する広範な実験を通じて,提案した$\mathbf{FABind}$は,既存手法と比較して有効性や効率性に強い優位性を示す。 私たちのコードはhttps://github.com/QizhiPei/FABindで利用可能です。

Modeling the interaction between proteins and ligands and accurately predicting their binding structures is a critical yet challenging task in drug discovery. Recent advancements in deep learning have shown promise in addressing this challenge, with sampling-based and regression-based methods emerging as two prominent approaches. However, these methods have notable limitations. Sampling-based methods often suffer from low efficiency due to the need for generating multiple candidate structures for selection. On the other hand, regression-based methods offer fast predictions but may experience decreased accuracy. Additionally, the variation in protein sizes often requires external modules for selecting suitable binding pockets, further impacting efficiency. In this work, we propose $\mathbf{FABind}$, an end-to-end model that combines pocket prediction and docking to achieve accurate and fast protein-ligand binding. $\mathbf{FABind}$ incorporates a unique ligand-informed pocket prediction module, which is also leveraged for docking pose estimation. The model further enhances the docking process by incrementally integrating the predicted pocket to optimize protein-ligand binding, reducing discrepancies between training and inference. Through extensive experiments on benchmark datasets, our proposed $\mathbf{FABind}$ demonstrates strong advantages in terms of effectiveness and efficiency compared to existing methods. Our code is available at https://github.com/QizhiPei/FABind
翻訳日:2024-01-10 19:42:37 公開日:2024-01-09
# 大きくて深い方が良いか? スケールと層をまたいだLLaMAの探索

Is Bigger and Deeper Always Better? Probing LLaMA Across Scales and Layers ( http://arxiv.org/abs/2312.04333v4 )

ライセンス: Link先を確認
Nuo Chen, Ning Wu, Shining Liang, Ming Gong, Linjun Shou, Dongmei Zhang, Jia Li(参考訳) 本稿では,自然言語処理における著名なオープンソース基礎モデルであるllamaに着目し,大規模言語モデル(llms)の詳細な解析を行う。 LLaMAを生成出力で評価する代わりに、複数の選択タスクを設計し、推論や計算などの高次タスクにおける本質的な理解を探索する。 モデルを水平的に検討し、異なるサイズと垂直に比較し、異なる層を評価した。 1) モデルサイズを水平に拡大することは, 新たな知識や計算能力を自動的に付与することはほとんど不可能である。 その代わり、特に数学の問題解決において推論能力を高めることができ、幻覚を減少させるのに役立つが、一定の大きさの閾値を超えるだけである。(2)垂直解析において、ラマの下位層は実質的な算術的・事実的知識を欠き、論理的思考、多言語的・認識的能力を示し、上位層は計算能力と実世界の知識を多く含む。

This paper presents an in-depth analysis of Large Language Models (LLMs), focusing on LLaMA, a prominent open-source foundational model in natural language processing. Instead of assessing LLaMA through its generative output, we design multiple-choice tasks to probe its intrinsic understanding in high-order tasks such as reasoning and computation. We examine the model horizontally, comparing different sizes, and vertically, assessing different layers. We unveil several key and uncommon findings based on the designed probing tasks: (1) Horizontally, enlarging model sizes almost could not automatically impart additional knowledge or computational prowess. Instead, it can enhance reasoning abilities, especially in math problem solving, and helps reduce hallucinations, but only beyond certain size thresholds; (2) In vertical analysis, the lower layers of LLaMA lack substantial arithmetic and factual knowledge, showcasing logical thinking, multilingual and recognitive abilities, with top layers housing most computational power and real-world knowledge.
翻訳日:2024-01-10 19:35:32 公開日:2024-01-09
# strong, less, and superior: ドメイン一般化意味セグメンテーションのためのビジョン基盤モデルを活用する

Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2312.04265v3 )

ライセンス: Link先を確認
Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Ling, Ben Wang, Huaian Chen, Jinjin Zheng(参考訳) 本稿では、まず、ドメイン一般化セマンティックセマンティックセグメンテーション(DGSS)の文脈において、様々なビジョン基礎モデル(VFM)を評価し、活用する。 より強力な事前学習モデルとより少ない訓練可能なパラメータを上向きの一般化性に活用する動機により、DGSSのVFMをパラメータ効率よく活用するための堅牢な微調整手法、すなわちReinを導入する。 トレーニング可能なトークンセットに基づいて構築され、それぞれが異なるインスタンスにリンクされ、機能マップを各レイヤからバックボーン内の次のレイヤに正確に洗練し、転送する。 このプロセスは、単一の画像内のさまざまなカテゴリの多様な改良を生み出す。 トレーニング可能なパラメータが少ないため、ReinはDGSSタスクのVFMを効率的に微調整する。 さまざまな設定にわたる大規模な実験は、Reinが最先端のメソッドを大幅に上回っていることを示している。 注目すべきは、凍結したバックボーン内のトレーニング可能なパラメータのわずか1%で、Reinは実際の都市シーンデータセットにアクセスすることなく、Cityscapesで68.1%のmIoUを達成したことだ。

In this paper, we first assess and harness various Vision Foundation Models (VFMs) in the context of Domain Generalized Semantic Segmentation (DGSS). Driven by the motivation that Leveraging Stronger pre-trained models and Fewer trainable parameters for Superior generalizability, we introduce a robust fine-tuning approach, namely Rein, to parameter-efficiently harness VFMs for DGSS. Built upon a set of trainable tokens, each linked to distinct instances, Rein precisely refines and forwards the feature maps from each layer to the next layer within the backbone. This process produces diverse refinements for different categories within a single image. With fewer trainable parameters, Rein efficiently fine-tunes VFMs for DGSS tasks, surprisingly surpassing full parameter fine-tuning. Extensive experiments across various settings demonstrate that Rein significantly outperforms state-of-the-art methods. Remarkably, with just an extra 1% of trainable parameters within the frozen backbone, Rein achieves a mIoU of 68.1% on the Cityscapes, without accessing any real urban-scene datasets.Code is available at https://github.com/w1oves/Rein.git.
翻訳日:2024-01-10 19:35:12 公開日:2024-01-09
# ps$^3$:セマンティックシンボリックシグネチャに基づく精密パッチ存在試験

PS$^3$: Precise Patch Presence Test based on Semantic Symbolic Signature ( http://arxiv.org/abs/2312.03393v3 )

ライセンス: Link先を確認
Qi Zhan, Xing Hu, Zhiyang Li, Xin Xia, David Lo, and Shanping Li(参考訳) ソフトウェア開発中、脆弱性はユーザにとって大きな脅威となった。 パッチは脆弱性に対処する最も効果的な方法です。 大規模ソフトウェアシステムでは,影響のあるバイナリ毎にセキュリティパッチをテストすることは,システムのセキュリティを確保する上で極めて重要である。 既知の脆弱性に対してバイナリがパッチされているかどうかを特定することは難しい。 既存のアプローチは主に、同じコンパイラオプションでコンパイルされるパッチの検出に重点を置いている。 しかし、開発者は異なる状況で異なるコンパイラオプションでプログラムをコンパイルすることが一般的であり、既存のメソッドでは不正確である。 本稿では,ps3と呼ばれる新しい手法を提案する。 PS3はシンボルエミュレーションを利用して、異なるコンパイラオプションの下で安定なシグネチャを抽出する。 そしてPS3は、参照とターゲットの署名をセマンティックレベルで比較することで、パッチの存在を正確にテストできる。 提案手法の有効性を評価するため、4つのC/C++プロジェクトにおいて,最新のCVEの3,631対(CVE,バイナリ)からなるデータセットを構築した。 実験の結果,PS3は精度,リコール,F1のスコアでそれぞれ0.82,0.97,0.89を得た。 PS3は、F1スコアの33%を改善して最先端のベースラインを上回り、異なるコンパイラオプションで安定している。

During software development, vulnerabilities have posed a significant threat to users. Patches are the most effective way to combat vulnerabilities. In a large-scale software system, testing the presence of a security patch in every affected binary is crucial to ensure system security. Identifying whether a binary has been patched for a known vulnerability is challenging, as there may only be small differences between patched and vulnerable versions. Existing approaches mainly focus on detecting patches that are compiled in the same compiler options. However, it is common for developers to compile programs with very different compiler options in different situations, which causes inaccuracy for existing methods. In this paper, we propose a new approach named PS3, referring to precise patch presence test based on semantic-level symbolic signature. PS3 exploits symbolic emulation to extract signatures that are stable under different compiler options. Then PS3 can precisely test the presence of the patch by comparing the signatures between the reference and the target at semantic level. To evaluate the effectiveness of our approach, we constructed a dataset consisting of 3,631 (CVE, binary) pairs of 62 recent CVEs in four C/C++ projects. The experimental results show that PS3 achieves scores of 0.82, 0.97, and 0.89 in terms of precision, recall, and F1 score, respectively. PS3 outperforms the state-of-the-art baselines by improving 33% in terms of F1 score and remains stable in different compiler options.
翻訳日:2024-01-10 19:34:50 公開日:2024-01-09
# 確率近似の収束率:非有界分散バイアス雑音とその応用

Convergence Rates for Stochastic Approximation: Biased Noise with Unbounded Variance, and Applications ( http://arxiv.org/abs/2312.02828v2 )

ライセンス: Link先を確認
Rajeeva L. Karandikar and M. Vidyasagar(参考訳) 1951年にRobinsとMonroによって導入された確率近似(SA)アルゴリズムは、$\mathbf{f}({\boldsymbol {\theta}}) = \mathbf{0}$という形の方程式を解く標準的な方法である。 もしある関数 $J(\cdot)$ に対して $\mathbf{f}({\boldsymbol {\theta}}) = \nabla J({\boldsymbol {\theta}})$ であれば、SA は $J(\cdot)$ の定常点を見つけるためにも使うことができる。 それぞれの時点で、現在の${\boldsymbol {\theta}}_t$ は ${\boldsymbol {\theta}}_{t+1}$ に更新され、 $\mathbf{f}({\boldsymbol {\theta}}_t) + {\boldsymbol {\xi}}_{t+1}$ という形の雑音の測定値を使用する。 多くの文献において、誤差項 ${\boldsymbol {\xi}}_{t+1}$ は条件付き平均がゼロであり、その条件付き分散は$t$の関数として有界であると仮定されている(ただし、必ずしも${\boldsymbol {\theta}}_t$ についてはそうではない)。 長年にわたり、saは様々な分野に適用されてきたが、その中での焦点は凸最適化と非凸最適化である。 これらの応用では、上記の測定誤差に関する仮定が常に成り立つとは限らない。 ゼロ次法では、誤差は平均値も有界条件分散も持たない。 本稿では,sa理論を拡張し,非零条件平均と非有界条件分散による誤差を包含する。 さらに,アルゴリズムの収束率の推定値を導出して ``optimal step size sequences''' を計算し,収束率を最大化する。

The Stochastic Approximation (SA) algorithm introduced by Robbins and Monro in 1951 has been a standard method for solving equations of the form $\mathbf{f}({\boldsymbol {\theta}}) = \mathbf{0}$, when only noisy measurements of $\mathbf{f}(\cdot)$ are available. If $\mathbf{f}({\boldsymbol {\theta}}) = \nabla J({\boldsymbol {\theta}})$ for some function $J(\cdot)$, then SA can also be used to find a stationary point of $J(\cdot)$. At each time $t$, the current guess ${\boldsymbol {\theta}}_t$ is updated to ${\boldsymbol {\theta}}_{t+1}$ using a noisy measurement of the form $\mathbf{f}({\boldsymbol {\theta}}_t) + {\boldsymbol {\xi}}_{t+1}$. In much of the literature, it is assumed that the error term ${\boldsymbol {\xi}}_{t+1}$ has zero conditional mean, and/or that its conditional variance is bounded as a function of $t$ (though not necessarily with respect to ${\boldsymbol {\theta}}_t$). Over the years, SA has been applied to a variety of areas, out of which the focus in this paper is on convex and nonconvex optimization. As it turns out, in these applications, the above-mentioned assumptions on the measurement error do not always hold. In zero-order methods, the error neither has zero mean nor bounded conditional variance. In the present paper, we extend SA theory to encompass errors with nonzero conditional mean and/or unbounded conditional variance. In addition, we derive estimates for the rate of convergence of the algorithm, and compute the ``optimal step size sequences'' to maximize the estimated rate of convergence.
翻訳日:2024-01-10 19:34:28 公開日:2024-01-09
# 視覚言語モデルを用いたセマンティックス対応運動認識

Semantics-aware Motion Retargeting with Vision-Language Models ( http://arxiv.org/abs/2312.01964v2 )

ライセンス: Link先を確認
Haodong Zhang, ZhiKe Chen, Haocheng Xu, Lei Hao, Xiaofei Wu, Songcen Xu, Zhensong Zhang, Yue Wang, Rong Xiong(参考訳) アニメーションキャラクタ間の動き再ターゲティングには,モーションセマンティクスのキャプチャと保存が不可欠である。 しかし、以前の作品の多くは、意味的な情報を無視したり、人間によって設計されたジョイントレベル表現に依存している。 本稿では,視覚言語モデルを利用して意味のある動作意味論を抽出・維持する新しい意味論認識モーションリターゲティング(smt)手法を提案する。 微分可能なモジュールを用いて3Dモーションを描画する。 次に、視覚言語モデルにレンダリング画像を与え、抽出したセマンティック埋め込みを整合させることにより、高レベルな動きセマンティクスをモーションリターゲティングプロセスに組み込む。 細粒度動作の詳細と高レベルセマンティクスの保持を確保するため,スケルトン対応事前学習と,セマンティクスと幾何学制約による微調整からなる2段階パイプラインを採用する。 提案手法は,高精度な動作セマンティクスを維持しつつ,高品質な動き再ターゲティング結果を生成するのに有効であることを示す。 プロジェクトページはhttps://sites.google.com/view/smtnetにある。

Capturing and preserving motion semantics is essential to motion retargeting between animation characters. However, most of the previous works neglect the semantic information or rely on human-designed joint-level representations. Here, we present a novel Semantics-aware Motion reTargeting (SMT) method with the advantage of vision-language models to extract and maintain meaningful motion semantics. We utilize a differentiable module to render 3D motions. Then the high-level motion semantics are incorporated into the motion retargeting process by feeding the vision-language model with the rendered images and aligning the extracted semantic embeddings. To ensure the preservation of fine-grained motion details and high-level semantics, we adopt a two-stage pipeline consisting of skeleton-aware pre-training and fine-tuning with semantics and geometry constraints. Experimental results show the effectiveness of the proposed method in producing high-quality motion retargeting results while accurately preserving motion semantics. Project page can be found at https://sites.google.com/view/smtnet.
翻訳日:2024-01-10 19:33:41 公開日:2024-01-09
# マルチモーダル部分アライメントを用いた接地言語学習による視覚情報によるBERT表現の拡張

Expand BERT Representation with Visual Information via Grounded Language Learning with Multimodal Partial Alignment ( http://arxiv.org/abs/2312.01592v2 )

ライセンス: Link先を確認
Cong-Duy Nguyen, The-Anh Vu-Le, Thong Nguyen, Tho Quan, Luu Anh Tuan(参考訳) 言語モデルは、既存の視覚基盤言語学習の研究において、言語のみの目的と視覚の両方で監督されている。 しかし、視覚的なデータセットと言語コーパスの分布と規模の違いにより、言語モデルは、基底データで発生したトークンと、そうでないトークンのコンテキストを混合する傾向にある。 その結果、表現学習中に、視覚情報と文の文脈的意味との間にはミスマッチがある。 この制限を克服するために,視覚的基盤情報でBERT表現を強化する接地言語学習法である GroundedBERT を提案する。 GroundedBERTは2つのコンポーネントから構成される。 (i)言語コーパスから学習した単語の文脈表現をキャプチャする独自のBERT (ii)視覚接地モジュールは、視覚接地データセットから得られた視覚情報をキャプチャする。 さらに,この2つのモダリティ間の分数アライメント問題を解くために,その部分的変種である最適輸送(ot)を用いる。 提案手法は,GLUEおよびSQuADデータセットの各種言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。

Language models have been supervised with both language-only objective and visual grounding in existing studies of visual-grounded language learning. However, due to differences in the distribution and scale of visual-grounded datasets and language corpora, the language model tends to mix up the context of the tokens that occurred in the grounded data with those that do not. As a result, during representation learning, there is a mismatch between the visual information and the contextual meaning of the sentence. To overcome this limitation, we propose GroundedBERT - a grounded language learning method that enhances the BERT representation with visually grounded information. GroundedBERT comprises two components: (i) the original BERT which captures the contextual representation of words learned from the language corpora, and (ii) a visual grounding module which captures visual information learned from visual-grounded datasets. Moreover, we employ Optimal Transport (OT), specifically its partial variant, to solve the fractional alignment problem between the two modalities. Our proposed method significantly outperforms the baseline language models on various language tasks of the GLUE and SQuAD datasets.
翻訳日:2024-01-10 19:33:23 公開日:2024-01-09
# 自律運転におけるLiDAR-Camera核融合モデルの対向ロバスト性探索

Exploring Adversarial Robustness of LiDAR-Camera Fusion Model in Autonomous Driving ( http://arxiv.org/abs/2312.01468v2 )

ライセンス: Link先を確認
Bo Yang, Xiaoyu Ji, Zizhi Jin, Yushi Cheng, Wenyuan Xu(参考訳) 本研究は,3次元物体検出におけるLiDAR-camera融合モデルの対角的ロバスト性を評価する。 そこで本研究では,車上における物理的制約点数に制限を加えただけで,融合モデルにより車体を検出不能にする攻撃手法を提案する。 実験結果から,画像データチャネルの変更がなくても,LiDARデータチャネルを操作するだけで融合モデルを欺くことができることがわかった。 この発見は、自動運転分野における安全上の懸念を引き起こす。 さらに, 対向点数, 前方車とLiDAR車との距離, 様々な角度要因が攻撃成功率に与える影響について検討した。 我々は、自動運転車の安全性を高めるための洞察とガイダンスを提供することで、マルチセンサーの堅牢性の理解に寄与できると考えている。

Our study assesses the adversarial robustness of LiDAR-camera fusion models in 3D object detection. We introduce an attack technique that, by simply adding a limited number of physically constrained adversarial points above a car, can make the car undetectable by the fusion model. Experimental results reveal that even without changes to the image data channel, the fusion model can be deceived solely by manipulating the LiDAR data channel. This finding raises safety concerns in the field of autonomous driving. Further, we explore how the quantity of adversarial points, the distance between the front-near car and the LiDAR-equipped car, and various angular factors affect the attack success rate. We believe our research can contribute to the understanding of multi-sensor robustness, offering insights and guidance to enhance the safety of autonomous driving.
翻訳日:2024-01-10 19:33:05 公開日:2024-01-09
# advanced large language model (llm)-driven verilog development: enhanced power, performance, and area optimization in code synthesis

Advanced Large Language Model (LLM)-Driven Verilog Development: Enhancing Power, Performance, and Area Optimization in Code Synthesis ( http://arxiv.org/abs/2312.01022v2 )

ライセンス: Link先を確認
Kiran Thorat, Jiahui Zhao, Yaotian Liu, Hongwu Peng, Xi Xie, Bin Lei, Jeff Zhang, Caiwen Ding(参考訳) 様々な分野におけるadvanced language model (alm)の使用の増加は、特に言語指導に従ってトップ層コンテンツを生成する能力が印象的なため、この調査の中核となっている。 本研究では,電子ハードウェア設計におけるALMの展開について,特にVerilogプログラミングの合成と強化に注目した。 このニッチにおいてALMの生産性を評価し、増幅する革新的なフレームワークを導入する。 この方法論は、almsによるverilogプログラミングの初期作成から始まり、異なるデュアルステージリファインメントプロトコルによって継承される。 プレミアステージでは、コードの運用および言語的精度の向上が優先され、後期ステージでは、熟練したハードウェア設計において重要なコンポーネントであるPower-Performance-Area(PPA)ベンチマークとの整合が重視されている。 この分岐した戦略は、エラー修正とPPAの強化を融合させ、ALMで作成されたVerilogプログラミングのキャリバーに大幅なアップグレードをもたらした。 提案手法は, 言語精度が81.37%, プログラミング合成における操作効率が62.0%, 言語精度が73%, 操作効率が46%と, 現行の最先端技術を上回った。 これらの結果は、複雑な技術領域に取り組むalmsの適性を照らし、ハードウェア設計操作の機械化のポジティブな変化を示唆する。

The increasing use of Advanced Language Models (ALMs) in diverse sectors, particularly due to their impressive capability to generate top-tier content following linguistic instructions, forms the core of this investigation. This study probes into ALMs' deployment in electronic hardware design, with a specific emphasis on the synthesis and enhancement of Verilog programming. We introduce an innovative framework, crafted to assess and amplify ALMs' productivity in this niche. The methodology commences with the initial crafting of Verilog programming via ALMs, succeeded by a distinct dual-stage refinement protocol. The premier stage prioritizes augmenting the code's operational and linguistic precision, while the latter stage is dedicated to aligning the code with Power-Performance-Area (PPA) benchmarks, a pivotal component in proficient hardware design. This bifurcated strategy, merging error remediation with PPA enhancement, has yielded substantial upgrades in the caliber of ALM-created Verilog programming. Our framework achieves an 81.37% rate in linguistic accuracy and 62.0% in operational efficacy in programming synthesis, surpassing current leading-edge techniques, such as 73% in linguistic accuracy and 46% in operational efficacy. These findings illuminate ALMs' aptitude in tackling complex technical domains and signal a positive shift in the mechanization of hardware design operations.
翻訳日:2024-01-10 19:32:51 公開日:2024-01-09
# 翻訳不変系に対するサブシステム固有状態熱化仮説

Subsystem eigenstate thermalization hypothesis for translation invariant systems ( http://arxiv.org/abs/2312.00410v3 )

ライセンス: Link先を確認
Zhiqiang Huang and Xiao-Kan Guo(参考訳) 翻訳不変量子スピン系の固有状態熱化仮説は、最近ランダム行列を用いて証明されている。 本稿では, ランダム行列を使わずに, 変換不変量子系に対する固有状態熱化仮説のサブシステムバージョンについて検討する。 量子分散あるいはBelavkin-Staszewski相対エントロピー上の小さな上界を示すことによって、基本的方法で代数的な収束速度を持つ変換不変量子系に対するサブシステム固有状態熱化仮説を証明できる。

The eigenstate thermalization hypothesis for translation invariant quantum spin systems has been proved recently by using random matrices. In this paper, we study the subsystem version of eigenstate thermalization hypothesis for translation invariant quantum systems without referring to random matrices. By showing the small upper bounds on the quantum variance or the Belavkin-Staszewski relative entropy, we prove the subsystem eigenstate thermalization hypothesis for translation invariant quantum systems with an algebraic speed of convergence in an elementary way.
翻訳日:2024-01-10 19:32:21 公開日:2024-01-09
# mPLUG-PaperOwl:マルチモーダル大言語モデルを用いた科学的ダイアグラム解析

mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model ( http://arxiv.org/abs/2311.18248v2 )

ライセンス: Link先を確認
Anwen Hu, Yaya Shi, Haiyang Xu, Jiabo Ye, Qinghao Ye, Ming Yan, Chenliang Li, Qi Qian, Ji Zhang, Fei Huang(参考訳) 近年、大規模言語モデル(llm)の強力なテキスト作成能力は、論文の読解や執筆を支援する多くのツールを生み出している。 しかし LLM や Multimodal LLM の弱い図解析能力は,特に学術論文の執筆において,適用シナリオを大幅に制限している。 本研究では,より汎用的な学術論文作成に向けて,マルチモーダルllmのマルチモーダル図解析能力の強化に重点を置いている。 高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。 論文の図式と関連する段落を整合させることにより,訓練および評価のための専門的な図解析サンプルを構築する。 m-paperは、画像やラテックスコードのフォーマットの図や表を含む、複数の科学図の合同理解をサポートする最初のデータセットである。 また,利用者の意図に適合させるため,制御信号として「アウトライン」を導入し,ユーザから直接提供したり,自動生成信号に基づいて改訂したりすることができる。 最新のMumtimodal LLMによる総合的な実験により、我々のデータセットでのトレーニングは、図のキャプション、図解析、アウトラインレコメンデーションを含む、より強力な科学的図理解性能を示すことが示された。 データセット、コード、モデルはhttps://github.com/X-PLUG/mPLUG-DocOwl/tree/main/PaperOwlで入手できる。

Recently, the strong text creation ability of Large Language Models(LLMs) has given rise to many tools for assisting paper reading or even writing. However, the weak diagram analysis abilities of LLMs or Multimodal LLMs greatly limit their application scenarios, especially for scientific academic paper writing. In this work, towards a more versatile copilot for academic paper writing, we mainly focus on strengthening the multi-modal diagram analysis ability of Multimodal LLMs. By parsing Latex source files of high-quality papers, we carefully build a multi-modal diagram understanding dataset M-Paper. By aligning diagrams in the paper with related paragraphs, we construct professional diagram analysis samples for training and evaluation. M-Paper is the first dataset to support joint comprehension of multiple scientific diagrams, including figures and tables in the format of images or Latex codes. Besides, to better align the copilot with the user's intention, we introduce the `outline' as the control signal, which could be directly given by the user or revised based on auto-generated ones. Comprehensive experiments with a state-of-the-art Mumtimodal LLM demonstrate that training on our dataset shows stronger scientific diagram understanding performance, including diagram captioning, diagram analysis, and outline recommendation. The dataset, code, and model are available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/PaperOwl.
翻訳日:2024-01-10 19:32:13 公開日:2024-01-09
# 医用画像のディープ・インタラクティブ・セグメンテーション : システムレビューと分類学

Deep Interactive Segmentation of Medical Images: A Systematic Review and Taxonomy ( http://arxiv.org/abs/2311.13964v2 )

ライセンス: Link先を確認
Zdravko Marinov, Paul F. J\"ager, Jan Egger, Jens Kleesiek, Rainer Stiefelhagen(参考訳) 対話的セグメンテーションは、人的フィードバックを取り入れることでコストのかかるアノテーションの効率を高めることを目的とした、医用画像解析における重要な研究分野である。 このフィードバックはクリック、スクリブル、マスクの形式で行われ、モデルの出力を反復的に洗練することで、システムが望ましい振る舞いに向かって効率的に導くことができる。 近年、深層学習に基づくアプローチは、医療画像領域だけで提案されている121の手法によって、この分野の急速な成長をもたらす新たなレベルへと結果をもたらしている。 本論では,包括的分類法,既存手法の体系的見直し,現在の実践の深い分析を特徴とする,この新興分野の構造化的概観について述べる。 これらの貢献に基づいて,この分野の課題と機会について論じる。 例えば、標準化されたベースラインとベンチマークによって取り組まなければならないメソッド間の比較が著しく欠落していることが分かります。

Interactive segmentation is a crucial research area in medical image analysis aiming to boost the efficiency of costly annotations by incorporating human feedback. This feedback takes the form of clicks, scribbles, or masks and allows for iterative refinement of the model output so as to efficiently guide the system towards the desired behavior. In recent years, deep learning-based approaches have propelled results to a new level causing a rapid growth in the field with 121 methods proposed in the medical imaging domain alone. In this review, we provide a structured overview of this emerging field featuring a comprehensive taxonomy, a systematic review of existing methods, and an in-depth analysis of current practices. Based on these contributions, we discuss the challenges and opportunities in the field. For instance, we find that there is a severe lack of comparison across methods which needs to be tackled by standardized baselines and benchmarks.
翻訳日:2024-01-10 19:31:49 公開日:2024-01-09
# InteraSSort: 大規模言語モデルを用いた対話型アソシエーション計画

InteraSSort: Interactive Assortment Planning Using Large Language Models ( http://arxiv.org/abs/2311.12241v2 )

ライセンス: Link先を確認
Saketh Reddy Karra, Theja Tulabandhula(参考訳) 複数の商用製品に不可欠なアソシエーションプランニングは、eコマースと小売のセッティングで研究されている重要な問題である。 問題の多くの変種とビジネスソリューションへの統合は、既存の文献で徹底的に研究されている。 しかし、店内計画の煩雑な複雑さと、強力なドメイン知識を持つ店内プランナーの間での最適化能力の欠如はほとんど見落とされ続けている。 これらの課題は、しばしば複数のステークホルダーとの協力的な取り組みを必要とします。 これらの課題を緩和し,Large Language Models (LLMs) の進歩に乗じるために,対話型対話による意思決定を支援するために,LLMを最適化ツールで拡張するインターアソート(InteraSSort)を提案する。 具体的には,ユーザフレンドリーなインターフェースを特徴とするソリューションを開発した。入力テキストが相互にソートし,最適化したソリューションを出力として受信するように,最適化目標を表現できる。 我々のフレームワークは、対話的な会話を通じて追加の制約を加えることを可能にし、正確かつ高度にカスタマイズされた意思決定を容易にする。 広範囲にわたる運用管理課題に対する我々のフレームワークと潜在的な拡張の有効性を示す大規模な実験を行った。

Assortment planning, integral to multiple commercial offerings, is a key problem studied in e-commerce and retail settings. Numerous variants of the problem along with their integration into business solutions have been thoroughly investigated in the existing literature. However, the nuanced complexities of in-store planning and a lack of optimization proficiency among store planners with strong domain expertise remain largely overlooked. These challenges frequently necessitate collaborative efforts with multiple stakeholders which often lead to prolonged decision-making processes and significant delays. To mitigate these challenges and capitalize on the advancements of Large Language Models (LLMs), we propose an interactive assortment planning framework, InteraSSort that augments LLMs with optimization tools to assist store planners in making decisions through interactive conversations. Specifically, we develop a solution featuring a user-friendly interface that enables users to express their optimization objectives as input text prompts to InteraSSort and receive tailored optimized solutions as output. Our framework extends beyond basic functionality by enabling the inclusion of additional constraints through interactive conversation, facilitating precise and highly customized decision-making. Extensive experiments demonstrate the effectiveness of our framework and potential extensions to a broad range of operations management challenges.
翻訳日:2024-01-10 19:31:34 公開日:2024-01-09
# LLMは推論エラーを見つけることはできないが、修正できる!

LLMs cannot find reasoning errors, but can correct them! ( http://arxiv.org/abs/2311.08516v2 )

ライセンス: Link先を確認
Gladys Tyen, Hassan Mansoor, Victor C\u{a}rbune, Peter Chen, Tony Mak(参考訳) 自己修正は、スタイルや品質の観点からllmアウトプットを改善する(例えば、chen et al., 2023; madaan et al., 2023)ことが期待されているが、近年の自己修正や推論の誤りは、しばしば正しい答えを誤ったものにし、全体的なパフォーマンスを悪化させる(huang et al., 2023)。 本稿では,自己補正過程を,誤検出と出力補正の2つのコアコンポーネントに分解する。 BIG-Bench MistakeはChain-of-Thought推論トレースにおける論理的誤りのデータセットである。 我々は、いくつかの最先端LLMのベンチマーク値を提供し、LLMが論理的誤りを見つけるのに一般的に苦労していることを示す。 出力補正のために,誤り位置に関する情報を与えられた場合に大きな改善を提供するバックトラッキング手法を提案する。 バックトラックは強化学習法に代わる軽量な代替手段であり,60~70%の精度で報酬モデルで有効であることを示す。

While self-correction has shown promise in improving LLM outputs in terms of style and quality (e.g. Chen et al., 2023; Madaan et al., 2023), recent attempts to self-correct logical or reasoning errors often cause correct answers to become incorrect, resulting in worse performances overall (Huang et al., 2023). In this paper, we break down the self-correction process into two core components: mistake finding and output correction. For mistake finding, we release BIG-Bench Mistake, a dataset of logical mistakes in Chain-of-Thought reasoning traces. We provide benchmark numbers for several state-of-the-art LLMs, and demonstrate that LLMs generally struggle with finding logical mistakes. For output correction, we propose a backtracking method which provides large improvements when given information on mistake location. We construe backtracking as a lightweight alternative to reinforcement learning methods, and show that it remains effective with a reward model at 60-70% accuracy.
翻訳日:2024-01-10 19:31:13 公開日:2024-01-09
# スピンオプティカル量子コンピューティングアーキテクチャ

A Spin-Optical Quantum Computing Architecture ( http://arxiv.org/abs/2311.05605v2 )

ライセンス: Link先を確認
Gr\'egoire de Gliniasty and Paul Hilaire and Pierre-Emmanuel Emeriau and Stephen C. Wein and Alexia Salavrakos and Shane Mansfield(参考訳) フォールトトレラント量子コンピューティング用に設計された適応性とモジュール型ハイブリッドアーキテクチャを提案する。 量子エミッタと線形光学的絡み合いゲートを組み合わせることで、物質ベースとフォトニックベースの両方のアプローチの強みを活用できる。 アーキテクチャの重要な特徴は実用性であり、実験的に証明された光学部品の利用に基づいている。 このフレームワークは量子誤り訂正コードの実行を可能にするが、特に遠距離光リンクによる非局所接続を活用し、低密度パリティチェックコードのスケーラビリティを維持している。 その効率を評価するために,物理的モチベーションの誤差モデルを用いてアーキテクチャを評価した。 既存の全フォトニックアーキテクチャに匹敵するロス耐性を示すが、従来のリソース集約型多重化に依存する複雑な線形オプティカルリソース状態生成モジュールは不要である。 アーキテクチャの汎用性は、さらなるパフォーマンス標準を向上するための、未知の道も提供します。

We introduce an adaptable and modular hybrid architecture designed for fault-tolerant quantum computing. It combines quantum emitters and linear-optical entangling gates to leverage the strength of both matter-based and photonic-based approaches. A key feature of the architecture is its practicality, grounded in the utilisation of experimentally proven optical components. Our framework enables the execution of any quantum error correcting code, but in particular maintains scalability for low-density parity check codes by exploiting built-in non-local connectivity through distant optical links. To gauge its efficiency, we evaluated the architecture using a physically motivated error model. It exhibits loss tolerance comparable to existing all-photonic architecture but without the need for intricate linear-optical resource-state-generation modules that conventionally rely on resource-intensive multiplexing. The versatility of the architecture also offers uncharted avenues for further advancing performance standards.
翻訳日:2024-01-10 19:30:51 公開日:2024-01-09
# 多体非エルミート系の位相相

Topological phases of many-body non-Hermitian systems ( http://arxiv.org/abs/2311.03043v2 )

ライセンス: Link先を確認
Kui Cao and Su-Peng Kou(参考訳) 多体フェルミオン非エルミート系は、それぞれエネルギーバンドのトポロジーと量子状態を記述するために2つの異なる位相不変量の集合を必要とするが、後者はまだ研究されていない。 粒子ホール, 線形化時間反転, 線形化キラル対称性によって決定される10種類の対称性クラスを同定する。 各クラスは各次元に関連付けられた位相不変量を持ち、量子状態のトポロジーを規定する。 これらの知見は、多体非エルミート系の位相位相の深い理解の道を開く。

We show that many-body fermionic non-Hermitian systems require two distinct sets of topological invariants to describe the topology of energy bands and quantum states respectively, with the latter yet to be explored. We identify 10 symmetry classes -- determined by particle-hole, linearized time-reversal, and linearized chiral symmetries. Each class has topological invariant associated with each dimension, dictating the topology of quantum states. These findings pave the way for deeper understanding of the topological phases of many-body non-Hermitian systems.
翻訳日:2024-01-10 19:30:37 公開日:2024-01-09
# マトリックス生成状態をもつフェルミオン回路の高速エミュレーション

Fast emulation of fermionic circuits with matrix product states ( http://arxiv.org/abs/2312.17657v2 )

ライセンス: Link先を確認
Justin Provazza, Klaas Gunst, Huanchen Zhai, Garnet K.-L. Chan, Toru Shiozaki, Nicholas C. Rubin, Alec F. White(参考訳) 本稿では,fermionic quantum emulator (fqe)ソフトウェアライブラリのための行列積状態 (mps) 拡張について述べる。 本稿では、スピン1/2フェルミオンの多体波動関数を近似するための対称性適応行列積状態の理論について論じ、FQEインタフェース(MPS-FQE)のオープンソース実装について述べる。 このソフトウェアは、ほとんどの基本テンソル演算にオープンソースのpyblock3とblock2ライブラリを使用し、fqeのドロップイン代替として、より大きなフェルミオン回路をより効率的だが近似的にエミュレーションすることができる。 最後に,より大きな系の近似エミュレーションが期待できる短期的およびフォールトトレラントな量子アルゴリズムについて,量子位相推定のための状態生成戦略のキャラクタリゼーション,異なる変分量子固有ソルバ ans\"atze のテスト,トロッター誤差の数値評価,一般量子力学問題のシミュレーションなど,いくつかの応用例を示す。 これらすべての例において、MPS-FQEによる近似エミュレーションにより、フルステートベクターエミュレータで利用できるシステムよりもはるかに大きいシステムを扱うことができる。

We describe a matrix product state (MPS) extension for the Fermionic Quantum Emulator (FQE) software library. We discuss the theory behind symmetry adapted matrix product states for approximating many-body wavefunctions of spin-1/2 fermions, and we present an open-source, MPS-enabled implementation of the FQE interface (MPS-FQE). The software uses the open-source pyblock3 and block2 libraries for most elementary tensor operations, and it can largely be used as a drop-in replacement for FQE that allows for more efficient, but approximate, emulation of larger fermionic circuits. Finally, we show several applications relevant to both near-term and fault-tolerant quantum algorithms where approximate emulation of larger systems is expected to be useful: characterization of state preparation strategies for quantum phase estimation, the testing of different variational quantum eigensolver Ans\"atze, the numerical evaluation of Trotter errors, and the simulation of general quantum dynamics problems. In all these examples, approximate emulation with MPS-FQE allows us to treat systems that are significantly larger than those accessible with a full statevector emulator.
翻訳日:2024-01-10 19:13:05 公開日:2024-01-09
# LLMを用いたリアルタイムAI協調のための階層型言語エージェント

LLM-Powered Hierarchical Language Agent for Real-time Human-AI Coordination ( http://arxiv.org/abs/2312.15224v2 )

ライセンス: Link先を確認
Jijia Liu, Chao Yu, Jiaxuan Gao, Yuqing Xie, Qingmin Liao, Yi Wu, Yu Wang(参考訳) LLM(Large Language Models)を利用したAIエージェントは、さまざまな複雑なタスクで人間を支援することを可能にし、人間とAIの協調に革命をもたらす。 LLMを利用するエージェントは通常、LLM APIを呼び出し、人工的に設計された複雑なプロンプトを使用する必要がある。 このパラダイムは、コード生成のような最小限のインタラクティブ要求を伴うシナリオでうまく機能するが、ゲームのような高度にインタラクティブでリアルタイムなアプリケーションには適さない。 従来のゲームAIは、しばしば小さなモデルやリアクティブポリシーを採用し、高速な推論を可能にするが、タスクの完了とインタラクション能力に制限がある。 本研究では,プレイヤーが自然言語とコミュニケーションし,注文に協力できるテストベッドとして,オーバークックドを考察する。 本稿では,人間とAIの協調のための階層型言語エージェント(HLA)を提案する。 特に、HLAは階層的なフレームワークを採用し、3つのモジュールで構成されている: 意図的推論と言語相互作用のための熟練したLLM、マクロアクションを生成するためのFast Mindと呼ばれる軽量なLLM、マクロアクションをアトミックアクションに変換するためのExecutorと呼ばれるリアクティブポリシー。 人間の研究では、HLAは他のベースラインエージェントよりも優れており、スローミンドのみのエージェントやファストミンドのみのエージェント、より強力な協調能力、より速い応答、より一貫性のある言語コミュニケーションがある。

AI agents powered by Large Language Models (LLMs) have made significant advances, enabling them to assist humans in diverse complex tasks and leading to a revolution in human-AI coordination. LLM-powered agents typically require invoking LLM APIs and employing artificially designed complex prompts, which results in high inference latency. While this paradigm works well in scenarios with minimal interactive demands, such as code generation, it is unsuitable for highly interactive and real-time applications, such as gaming. Traditional gaming AI often employs small models or reactive policies, enabling fast inference but offering limited task completion and interaction abilities. In this work, we consider Overcooked as our testbed where players could communicate with natural language and cooperate to serve orders. We propose a Hierarchical Language Agent (HLA) for human-AI coordination that provides both strong reasoning abilities while keeping real-time execution. In particular, HLA adopts a hierarchical framework and comprises three modules: a proficient LLM, referred to as Slow Mind, for intention reasoning and language interaction, a lightweight LLM, referred to as Fast Mind, for generating macro actions, and a reactive policy, referred to as Executor, for transforming macro actions into atomic actions. Human studies show that HLA outperforms other baseline agents, including slow-mind-only agents and fast-mind-only agents, with stronger cooperation abilities, faster responses, and more consistent language communications.
翻訳日:2024-01-10 19:12:41 公開日:2024-01-09
# 骨格に基づく人間行動認識のための空間時間デカップリングコントラスト学習

Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based Human Action Recognition ( http://arxiv.org/abs/2312.15144v2 )

ライセンス: Link先を確認
Shaojie Zhang, Jianqin Yin, and Yonghao Dang(参考訳) 骨格に基づく行動認識は人間とコンピュータの相互作用の中心的なタスクである。 しかし、以前の方法の多くは2つの問題に苦しんでいる。 (i)時空間情報混合物から生じる意味曖昧性 (ii)潜在データ分布の明示的な活用(すなわち、クラス内変動とクラス間関係)を見渡すことにより、スケルトンエンコーダの局所的最適解が導かれる。 そこで本研究では,従来のほぼすべてのスケルトンエンコーダに組み込むことができ,テスト時にスケルトンエンコーダに影響を与えない,識別的かつ意味的に異なる表現をシーケンスから得るための時空間デカップリングコントラスト学習(STD-CL)フレームワークを提案する。 具体的には,グローバルな特徴を空間的特徴と時間的特徴に分離し,特徴の時空間結合を低減する。 さらに, 潜在データ分布を明示的に活用するために, 横断意味関係をモデル化し, 特徴を正のペアから抽出し, 負のペアを押し下げる, コントラスト学習に注意的特徴を用いる。 4つのスケルトンエンコーダ(HCN, 2S-AGCN, CTR-GCN, Hyperformer)を持つSTD-CLは, NTU60, NTU120, NW-UCLAのベンチマークでしっかりとした改善が得られた。 コードはリリースされます。

Skeleton-based action recognition is a central task of human-computer interaction. However, most of the previous methods suffer from two issues: (i) semantic ambiguity arising from spatiotemporal information mixture; and (ii) overlooking the explicit exploitation of the latent data distributions (i.e., the intra-class variations and inter-class relations), thereby leading to local optimum solutions of the skeleton encoders. To mitigate this, we propose a spatial-temporal decoupling contrastive learning (STD-CL) framework to obtain discriminative and semantically distinct representations from the sequences, which can be incorporated into almost all previous skeleton encoders and have no impact on the skeleton encoders when testing. Specifically, we decouple the global features into spatial-specific and temporal-specific features to reduce the spatiotemporal coupling of features. Furthermore, to explicitly exploit the latent data distributions, we employ the attentive features to contrastive learning, which models the cross-sequence semantic relations by pulling together the features from the positive pairs and pushing away the negative pairs. Extensive experiments show that STD-CL with four various skeleton encoders (HCN, 2S-AGCN, CTR-GCN, and Hyperformer) achieves solid improvement on NTU60, NTU120, and NW-UCLA benchmarks. The code will be released.
翻訳日:2024-01-10 19:12:14 公開日:2024-01-09
# 金融システム設計のためのテキスト-SQL翻訳の強化

Enhancing Text-to-SQL Translation for Financial System Design ( http://arxiv.org/abs/2312.14725v2 )

ライセンス: Link先を確認
Yewei Song, Saad Ezzini, Xunzhu Tang, Cedric Lothritz, Jacques Klein, Tegawend\'e Bissyand\'e, Andrey Boytsov, Ulrick Ble, Anne Goujon(参考訳) 自然言語質問をSQLクエリに変換するタスクであるText-to-SQLは、さまざまなビジネスプロセスの一部である。 その自動化は新たな課題であり、ソフトウェア実践者が自然言語を使ってリレーショナルデータベースとシームレスに対話できるようにし、ビジネスニーズとソフトウェア能力のギャップを埋める。 本稿では,様々なNLPタスクの最先端技術を実現したLarge Language Models (LLMs)について考察する。 具体的には、テキストからSQLまでのパフォーマンス、評価手法、および入力最適化(プロンプトなど)をベンチマークする。 本稿では,SQLクエリ間の類似性を適切に測定するための2つの新しい指標を提案する。 全体としては,テキストからsqlへのタスクで適切なllmを選択する方法など,さまざまな調査結果をコミュニティと共有しています。 さらに、木ベースの編集距離が、生成したSQLクエリとText2SQLアプローチのベンチマークのオラクルとの類似性を評価するための信頼性の高い指標であることを示す。 このメトリクスは、研究者が事前の作業で生成されたクエリを実行するなど、計算コストのかかる実験を行う必要がなくなるため、重要である。 本研究は、金融ドメインのユースケースを実装し、text2sqlシステムの進歩と、このドメインでの実用化に寄与する。

Text-to-SQL, the task of translating natural language questions into SQL queries, is part of various business processes. Its automation, which is an emerging challenge, will empower software practitioners to seamlessly interact with relational databases using natural language, thereby bridging the gap between business needs and software capabilities. In this paper, we consider Large Language Models (LLMs), which have achieved state of the art for various NLP tasks. Specifically, we benchmark Text-to-SQL performance, the evaluation methodologies, as well as input optimization (e.g., prompting). In light of the empirical observations that we have made, we propose two novel metrics that were designed to adequately measure the similarity between SQL queries. Overall, we share with the community various findings, notably on how to select the right LLM on Text-to-SQL tasks. We further demonstrate that a tree-based edit distance constitutes a reliable metric for assessing the similarity between generated SQL queries and the oracle for benchmarking Text2SQL approaches. This metric is important as it relieves researchers from the need to perform computationally expensive experiments such as executing generated queries as done in prior works. Our work implements financial domain use cases and, therefore contributes to the advancement of Text2SQL systems and their practical adoption in this domain.
翻訳日:2024-01-10 19:11:46 公開日:2024-01-09
# 量子力学のジョルダン代数的定式化と非可換ランダウ問題

Jordan Algebraic Formulation of Quantum Mechanics and The Non-commutative Landau Problem ( http://arxiv.org/abs/2312.12047v2 )

ライセンス: Link先を確認
Tekin Dereli, Ekin S{\i}la Y\"or\"uk(参考訳) 非可換ランダウ問題のジョルダン代数的定式化と調和ポテンシャルについて述べる。 これを達成するために、量子力学のヒルベルト空間バージョンの別の定式化が提示される。 この構成を用いて、非可換ランダウ問題に対応するヒルベルト空間を得る。 非可換パラメータは、ジョルダン代数的設定におけるアソシエータの項で記述される。 この問題から生じる純粋な状態と密度行列を特徴付ける。 これにより、この特定の問題に対する状態ベクトルに対するヨルダン=シュル=オディンガー時間発展方程式が導かれる。

We present a Jordan algebraic formulation of the non-commutative Landau problem coupled to a harmonic potential. To achieve this, an alternative formulation of the Hilbert space version of quantum mechanics is presented. Using this construction, the Hilbert space corresponding to the non-commutative Landau problem is obtained. Non-commutative parameters are then described in terms of an associator in the Jordan algebraic setting. Pure states and density matrices arising from this problem are characterized. This in turn leads us to the Jordan-Schr\"odinger time-evolution equation for the state vectors for this specific problem.
翻訳日:2024-01-10 19:11:25 公開日:2024-01-09
# Customize-It-3D: 主観的知識を用いた単一画像からの高品質3D生成

Customize-It-3D: High-Quality 3D Creation from A Single Image Using Subject-Specific Knowledge Prior ( http://arxiv.org/abs/2312.11535v2 )

ライセンス: Link先を確認
Nan Huang, Ting Zhang, Yuhui Yuan, Dong Chen, Shanghang Zhang(参考訳) 本稿では,参照画像から提供される情報をフル活用して,画像から3D生成に先立ってカスタマイズされた知識を確立する新しい2段階アプローチを提案する。 従来の手法は参照画像と一貫性のある結果を得るのに苦労する一般拡散先行モデルに主に依存するが,本研究では主観的かつマルチモーダル拡散モデルを提案する。 このモデルは、幾何改善のためのシェーディングモードを考慮し、NeRF最適化を支援するだけでなく、粗い結果からテクスチャを強化し、優れた洗練を実現する。 どちらの側面も、3Dコンテンツと主題を忠実に整合させるのに役立ちます。 大規模な実験では、我々の手法であるCustomize-It-3Dの優位性を示し、これまでの成果をかなり上回った。 忠実な360度再現と印象的な視覚的品質を実現し、テキストから3Dまで様々な用途に適している。

In this paper, we present a novel two-stage approach that fully utilizes the information provided by the reference image to establish a customized knowledge prior for image-to-3D generation. While previous approaches primarily rely on a general diffusion prior, which struggles to yield consistent results with the reference image, we propose a subject-specific and multi-modal diffusion model. This model not only aids NeRF optimization by considering the shading mode for improved geometry but also enhances texture from the coarse results to achieve superior refinement. Both aspects contribute to faithfully aligning the 3D content with the subject. Extensive experiments showcase the superiority of our method, Customize-It-3D, outperforming previous works by a substantial margin. It produces faithful 360-degree reconstructions with impressive visual quality, making it well-suited for various applications, including text-to-3D creation.
翻訳日:2024-01-10 19:10:51 公開日:2024-01-09
# 量子情報処理のための捕捉イオン二層結晶

Bilayer crystals of trapped ions for quantum information processing ( http://arxiv.org/abs/2312.10681v3 )

ライセンス: Link先を確認
Samarth Hawaldar, Prakriti Shahi, Allison L. Carter, Ana Maria Rey, John J. Bollinger, Athreya Shankar(参考訳) トラップされたイオンシステムは量子情報処理の主要なプラットフォームであるが、現在は1Dおよび2D配列に制限されており、スケーラビリティとアプリケーション範囲の両方に制限が課されている。 本稿では,この限界を克服するために,数百個のイオンが2つのよく定義された層に自己組織化する2層結晶を実現するために,ペニングトラップを用いる方法を提案する。 これらの二層結晶は、現在の技術で容易に実装できるアンハーモニックトラップポテンシャルを包含することにより可能となる。 本システムでは, 通常のモードについて検討し, 単平面結晶のモードと相違点について検討した。 双層幾何学と正規モードのユニークな性質は、特に量子センシングと量子シミュレーションにおいて新しい機会を開き、単平面結晶では単純ではない。 さらに,2層以上の多層結晶を実現するために,ここで提示したアイデアを拡張できる可能性が示唆された。 本研究は,3次元の空間的次元を効率的に活用し,捕獲イオンの多層3次元結晶を用いた新しい量子情報処理実験の基礎を築いた。

Trapped ion systems are a leading platform for quantum information processing, but they are currently limited to 1D and 2D arrays, which imposes restrictions on both their scalability and their range of applications. Here, we propose a path to overcome this limitation by demonstrating that Penning traps can be used to realize remarkably clean bilayer crystals, wherein hundreds of ions self-organize into two well-defined layers. These bilayer crystals are made possible by the inclusion of an anharmonic trapping potential, which is readily implementable with current technology. We study the normal modes of this system and discover salient differences compared to the modes of single-plane crystals. The bilayer geometry and the unique properties of the normal modes open new opportunities, in particular in quantum sensing and quantum simulation, that are not straightforward in single-plane crystals. Furthermore, we illustrate that it may be possible to extend the ideas presented here to realize multilayer crystals with more than two layers. Our work increases the dimensionality of trapped ion systems by efficiently utilizing all three spatial dimensions and lays the foundation for a new generation of quantum information processing experiments with multilayer 3D crystals of trapped ions.
翻訳日:2024-01-10 19:10:35 公開日:2024-01-09
# STEAM & MoSAFE:SOTIFエラー・障害モデルとAI対応運転自動化の解析

STEAM & MoSAFE: SOTIF Error-and-Failure Model & Analysis for AI-Enabled Driving Automation ( http://arxiv.org/abs/2312.09559v2 )

ライセンス: Link先を確認
Krzysztof Czarnecki and Hiroshi Kuwajima(参考訳) ドライビング・オートメーション・システムズ(DAS)は複雑な道路環境と車両の挙動を考慮し、高度なセンサーと人工知能(AI)に依存している。 これらの特性は、仕様の不十分さと技術的パフォーマンスの制限から生じるユニークな安全性の欠陥を引き起こし、センサーとAIは、大きさや時間的パターンの異なるエラーを導入し、潜在的な安全性リスクを生じさせる。 The Safety of the Intended Functionality (SOTIF) 標準はこれらの懸念に対処するための有望な枠組みとして登場し、危険行動とその原因を特定するシナリオベースの分析に焦点を当てている。 現在の標準は基本的な原因と効果のモデルと高レベルのプロセスガイダンスを提供するが、特にAIのコンテキストにおいて、有害なエラーを特定し評価するために必要な概念は欠如している。 本稿ではこのギャップを埋めるための2つの重要な貢献を紹介する。 まず、SOTIFの時間エラーと失敗モデル(STEAM)をSOTIFの因果モデルの改良として定義し、総合的なシステム設計の視点を提供する。 STEAMはエラー定義を洗練し、エラーシーケンスを導入し、エラーシーケンスパターンとして分類する。 第2に,システム設計モデルに基づく蒸気のインスタンス化を可能にするモデルに基づくsofif解析(mosafe)手法を提案する。 最後に,DASの複雑な安全性問題に対処するために,改良モデルとMoSAFE法の実用性を示す,自動速度制御機能を中心としたケーススタディを提案する。

Driving Automation Systems (DAS) are subject to complex road environments and vehicle behaviors and increasingly rely on sophisticated sensors and Artificial Intelligence (AI). These properties give rise to unique safety faults stemming from specification insufficiencies and technological performance limitations, where sensors and AI introduce errors that vary in magnitude and temporal patterns, posing potential safety risks. The Safety of the Intended Functionality (SOTIF) standard emerges as a promising framework for addressing these concerns, focusing on scenario-based analysis to identify hazardous behaviors and their causes. Although the current standard provides a basic cause-and-effect model and high-level process guidance, it lacks concepts required to identify and evaluate hazardous errors, especially within the context of AI. This paper introduces two key contributions to bridge this gap. First, it defines the SOTIF Temporal Error and Failure Model (STEAM) as a refinement of the SOTIF cause-and-effect model, offering a comprehensive system-design perspective. STEAM refines error definitions, introduces error sequences, and classifies them as error sequence patterns, providing particular relevance to systems employing advanced sensors and AI. Second, this paper proposes the Model-based SOTIF Analysis of Failures and Errors (MoSAFE) method, which allows instantiating STEAM based on system-design models by deriving hazardous error sequence patterns at module level from hazardous behaviors at vehicle level via weakest precondition reasoning. Finally, the paper presents a case study centered on an automated speed-control feature, illustrating the practical applicability of the refined model and the MoSAFE method in addressing complex safety challenges in DAS.
翻訳日:2024-01-10 19:10:15 公開日:2024-01-09
# 地球は平らである:―説得的会話を通してLLMの誤報に対する信念を調査する

The Earth is Flat because...: Investigating LLMs' Belief towards Misinformation via Persuasive Conversation ( http://arxiv.org/abs/2312.09085v4 )

ライセンス: Link先を確認
Rongwu Xu, Brian S. Lin, Shujian Yang, Tianqi Zhang, Weiyan Shi, Tianwei Zhang, Zhixuan Fang, Wei Xu, Han Qiu(参考訳) 大きな言語モデル(LLM)は膨大な量の知識をカプセル化するが、それでも外部の誤情報に弱いままである。 既存の研究は主に、この感受性の挙動を単一ターンで研究している。 しかし、信念は多面的な会話、特に説得力のある会話の間に変化する可能性がある。 そこで本研究では,llmの説得的会話に対する感受性,特に正解できる事実的質問について考察する。 我々はまず、体系的に生成された説得的誤報と組み合わせた事実質問を含むFact to Misinformデータセット(Fact to Misinform)をキュレートする。 そこで我々は,llmsの信念変化を説得力のある対話で追跡するテストフレームワークを開発した。 広範にわたる実験により,LLMの事実知識に対する正しい信念は,様々な説得戦略によって容易に操作できることがわかった。

Large Language Models (LLMs) encapsulate vast amounts of knowledge but still remain vulnerable to external misinformation. Existing research mainly studied this susceptibility behavior in a single-turn setting. However, belief can change during a multi-turn conversation, especially a persuasive one. Therefore, in this study, we delve into LLMs' susceptibility to persuasive conversations, particularly on factual questions that they can answer correctly. We first curate the Farm (i.e., Fact to Misinform) dataset, which contains factual questions paired with systematically generated persuasive misinformation. Then, we develop a testing framework to track LLMs' belief changes in a persuasive dialogue. Through extensive experiments, we find that LLMs' correct beliefs on factual knowledge can be easily manipulated by various persuasive strategies.
翻訳日:2024-01-10 19:09:45 公開日:2024-01-09
# 超伝導量子コンピュータにおけるゲート忠実度を最大化するspulsegen: succinct pulse generator architecture

SPulseGen: Succinct pulse generator architecture maximizing gate fidelity for superconducting quantum computers ( http://arxiv.org/abs/2312.08699v2 )

ライセンス: Link先を確認
Ryosuke Matsuo, Kazuhisa Ogawa, Hidehisa Shiomi, Makoto Negoro, Takefumi Miyoshi, Michihiro Shintani, Hiromitsu Awano, Takashi Sato, Jun Shiomi(参考訳) 本稿では,超伝導量子ビット用RFパルス発生器の費用対効果アーキテクチャを提案する。 既存の作品の多くは、高帯域幅メモリと高性能アナログ回路の両方を必要とする任意の波形発生器(awgs)を使用して、最適化されたrfパルス波形で最高のゲート忠実性を達成する。 提案したパルス発生アーキテクチャは、RFパルスの発生回路と波形の両方を低コストで2乗パルスに単純化する。 このアーキテクチャは、スケーラブルな量子コンピュータを実現する上での大きな障害である電力とコスト集約型AWGの必要性を排除している。 さらに,単一および複数キュービットのゲート操作の忠実度を最大化するためにパルス波形を最適化する手法を提案する。 システム状態が時間とともに進化するトランスモン量子ビットの量子力学シミュレーションは、我々のパルス発生器が理想のrfパルスと実質的に同じゲート忠実性を達成でき、メモリとアナログ回路の性能要件を実質的に低減できることを示す。

This paper proposes a cost-effective architecture for an RF pulse generator for superconducting qubits. Most existing works use arbitrary waveform generators (AWGs) that require both a large amount of high-bandwidth memories and high-performance analog circuits to achieve the highest gate fidelity with an optimized RF pulse waveform. The proposed pulse generator architecture significantly simplifies both the generator circuit and the waveform of the RF pulse to a cost-aware square pulses. This architecture eliminates the requirement for power- and cost-intensive AWG, a major obstacle in realizing scalable quantum computers. Additionally, this paper proposes a process to optimize pulse waveforms to maximize fidelity of gate operations for single and multiple qubits. Quantum dynamics simulation of transmon qubits, wherein the state of system evolves with time, demonstrates that our pulse generator can achieve practically the same gate fidelity as ideal RF pulses, while substantially reducing the performance requirements of memory and analog circuits.
翻訳日:2024-01-10 19:09:30 公開日:2024-01-09
# 文脈学習において比較可能な演目は重要である:演目選択の新しい視点

Comparable Demonstrations are Important in In-Context Learning: A Novel Perspective on Demonstration Selection ( http://arxiv.org/abs/2312.07476v2 )

ライセンス: Link先を確認
Caoyun Fan, Jidong Tian, Yitian Li, Hao He, Yaohui Jin(参考訳) In-Context Learning(ICL)は、大規模言語モデル(LLM)をダウンストリームタスクに適用するための重要なパラダイムである。 ICLの大きな成功にもかかわらず、デモ番号の制限は、デモバイアス、すなわちLSMによって誘導される入力ラベルマッピングがタスクの本質を誤解する可能性がある。 人的経験から着想を得た我々は,実証間関係の観点から,そのようなバイアスを緩和しようと試みる。 具体的には、テキストを最小限に編集して対応するラベルを反転させることで、タスクの本質を強調し、デモ間比較によって潜在的に刺激的な相関を排除し、比較可能なデモ(CD)を構築する。 一連の実験により,(1)LCMにはデモバイアスが存在し,(2)CDはICL,特にアウト・オブ・ディストリビューションのシナリオにおいて優れた性能を示す。 要約すると,本研究では新しい視点からicl機構を探索し,iclのデモンストレーション選択戦略について深い洞察を与える。

In-Context Learning (ICL) is an important paradigm for adapting Large Language Models (LLMs) to downstream tasks through a few demonstrations. Despite the great success of ICL, the limitation of the demonstration number may lead to demonstration bias, i.e. the input-label mapping induced by LLMs misunderstands the task's essence. Inspired by human experience, we attempt to mitigate such bias through the perspective of the inter-demonstration relationship. Specifically, we construct Comparable Demonstrations (CDs) by minimally editing the texts to flip the corresponding labels, in order to highlight the task's essence and eliminate potential spurious correlations through the inter-demonstration comparison. Through a series of experiments on CDs, we find that (1) demonstration bias does exist in LLMs, and CDs can significantly reduce such bias; (2) CDs exhibit good performance in ICL, especially in out-of-distribution scenarios. In summary, this study explores the ICL mechanisms from a novel perspective, providing a deeper insight into the demonstration selection strategy for ICL.
翻訳日:2024-01-10 19:09:12 公開日:2024-01-09
# 知識表現から知識組織へ

From Knowledge Representation to Knowledge Organization and Back ( http://arxiv.org/abs/2312.07302v2 )

ライセンス: Link先を確認
Fausto Giunchiglia and Mayukh Bagchi(参考訳) 知識表現 (kr) と facet-analytical knowledge organization (ko) はそれぞれ、人工知能コミュニティと情報科学コミュニティにおけるデータと知識モデリングの最も顕著な方法論である。 KRは、知識モデリングをサポートするテクノロジの堅牢でスケーラブルなエコシステムを誇っており、しばしばモデル(およびモデルベースのデータ)の品質を過小評価している。 一方、KOは技術駆動ではないが、モデリング(およびモデルベースのデータ)の品質を保証するための指針(カノン)の堅牢なフレームワークを開発した。 本稿では,KR法とfacet-analytical KO法の両方を詳細に解明し,それらの機能的マッピングを提供する。 そこで本研究では、KR手法の標準コンポーネントと、KOが提供したモデリング品質の指針を組み込んだ、KO富化KR手法を提案する。 方法論統合の実践的メリットは、KRに基づく画像アノテーション演習の顕著なケーススタディによって実証されている。

Knowledge Representation (KR) and facet-analytical Knowledge Organization (KO) have been the two most prominent methodologies of data and knowledge modelling in the Artificial Intelligence community and the Information Science community, respectively. KR boasts of a robust and scalable ecosystem of technologies to support knowledge modelling while, often, underemphasizing the quality of its models (and model-based data). KO, on the other hand, is less technology-driven but has developed a robust framework of guiding principles (canons) for ensuring modelling (and model-based data) quality. This paper elucidates both the KR and facet-analytical KO methodologies in detail and provides a functional mapping between them. Out of the mapping, the paper proposes an integrated KO-enriched KR methodology with all the standard components of a KR methodology plus the guiding canons of modelling quality provided by KO. The practical benefits of the methodological integration has been exemplified through a prominent case study of KR-based image annotation exercise.
翻訳日:2024-01-10 19:08:53 公開日:2024-01-09
# グラフェンナノリボンのキラル対称性の破れとトポロジカル電荷

Chiral symmetry breaking and topological charge of graphene nanoribbons ( http://arxiv.org/abs/2312.05487v2 )

ライセンス: Link先を確認
Hyun Cheol Lee and S.-R. Eric Yang(参考訳) 2つのジグザグ縁と2つのアームチェア縁を有する長方形グラフェンナノリボンのエッジ特性について検討した。 自己整合Hartree-Fock場はキラル対称性を破るが、グラフェンナノリボンは短距離交絡対称性保護型トポロジカル絶縁体としての地位を維持していることを示す。 関連する対称性は、ミラーと時間反転演算を組み合わせたものである。 エッジ強磁性を示す非ドープリボンでは、バンドギャップエッジはジグザグエッジ上に位相電荷形式で状態する。 異常連続性方程式の解析により、このトポロジカル電荷はギャップ項によって誘導される。 基底状態がエッジスピン密度波を示す低ドープジグザグリボンでは、このトポロジカル電荷はほぼゼロエネルギーエッジモードとして現れる。

We explore the edge properties of rectangular graphene nanoribbons featuring two zigzag edges and two armchair edges. Although the self-consistent Hartree-Fock fields break chiral symmetry, our work demonstrates that graphene nanoribbons maintain their status as short-range entangled symmetry-protected topological insulators. The relevant symmetry involves combined mirror and time-reversal operations. In undoped ribbons displaying edge ferromagnetism, the band gap edge states with a topological charge form on the zigzag edges. An analysis of the anomalous continuity equation elucidates that this topological charge is induced by the gap term. In low-doped zigzag ribbons, where the ground state exhibits edge spin density waves, this topological charge appears as a nearly zero-energy edge mode.
翻訳日:2024-01-10 19:08:37 公開日:2024-01-09
# 空間スペクトルリカレント変圧器によるハイパースペクトル画像のノイズ化

Hyperspectral Image Denoising via Spatial-Spectral Recurrent Transformer ( http://arxiv.org/abs/2401.03885v2 )

ライセンス: Link先を確認
Guanyiman Fu, Fengchao Xiong, Jianfeng Lu, Jun Zhou, Jiantao Zhou, Yuntao Qian(参考訳) ハイパースペクトラル画像(hsis)は、しばしば画像内メカニズムと環境要因の両方から発生するノイズに苦しむ。 グローバルスペクトル相関 (GSC) や非局所空間自己相似性 (NSS) のような、HSIに特有のドメイン知識を活用することは、効果的な denoising に不可欠である。 既存の手法では、各知識コンポーネントを複数のブロックで独立に利用し、ドメイン知識が強く相互に結びついているHSIの固有の3D特性を見渡して、最適以下の性能をもたらす傾向にある。 この課題に対処するために,HSI復調のための空間スペクトルリカレントトランスU-Net(SSRT-UNet)を提案する。 提案したSSRT-UNetは単一のSSRTブロックにNASとGSCプロパティを統合する。 このブロックは、空間枝とスペクトル枝からなる。 スペクトルブランチは、トランスフォーマーとリカレントニューラルネットワークの組み合わせを使用して、バンド間で再帰的な計算を行い、一定数のバンドを超えたgscの活用を可能にする。 同時に、空間分岐は、GSCの指導の下で、スペクトル分岐と鍵と値を共有することにより、各バンドのNASを符号化する。 この2つの枝間の相互作用は、NSSとGSCの結合利用を可能にし、独立的な治療を避ける。 実験の結果,本手法はいくつかの代替手法に勝ることが判明した。 ソースコードはhttps://github.com/lronkitty/SSRTで入手できる。

Hyperspectral images (HSIs) often suffer from noise arising from both intra-imaging mechanisms and environmental factors. Leveraging domain knowledge specific to HSIs, such as global spectral correlation (GSC) and non-local spatial self-similarity (NSS), is crucial for effective denoising. Existing methods tend to independently utilize each of these knowledge components with multiple blocks, overlooking the inherent 3D nature of HSIs where domain knowledge is strongly interlinked, resulting in suboptimal performance. To address this challenge, this paper introduces a spatial-spectral recurrent transformer U-Net (SSRT-UNet) for HSI denoising. The proposed SSRT-UNet integrates NSS and GSC properties within a single SSRT block. This block consists of a spatial branch and a spectral branch. The spectral branch employs a combination of transformer and recurrent neural network to perform recurrent computations across bands, allowing for GSC exploitation beyond a fixed number of bands. Concurrently, the spatial branch encodes NSS for each band by sharing keys and values with the spectral branch under the guidance of GSC. This interaction between the two branches enables the joint utilization of NSS and GSC, avoiding their independent treatment. Experimental results demonstrate that our method outperforms several alternative approaches. The source code will be available at https://github.com/lronkitty/SSRT.
翻訳日:2024-01-10 19:00:10 公開日:2024-01-09
# ブレンディングは必要なすべて:1兆ドルのパラメーターllmよりも安く、より良い代替手段

Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM ( http://arxiv.org/abs/2401.02994v2 )

ライセンス: Link先を確認
Xiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp(参考訳) 会話型AI研究では、ChatGPTのようなモデルが示すように、多数のパラメータを持つモデルを開発する傾向が顕著です。 これらの拡張モデルは、より優れたチャット応答を生成する傾向にあるが、大きな計算リソースとメモリを必要とする。 より小さなモデルの組み合わせは、特異な大きなモデルと比較して、同等または拡張されたパフォーマンスを協調的に達成できるだろうか? 複数のチャットAIを統合する上で,単純かつ効果的な手法である「ブレンディング」というアプローチを導入する。 我々の実証的な証拠は、特定の小さなモデルが相乗的にブレンドされると、より大きいモデルの能力よりも優れ、または匹敵する可能性があることを示唆している。 例えば、中程度のサイズの3つのモデル(6B/13Bパラメータ)を統合することで、ChatGPT (175B+パラメータ)のようなかなり大きなモデルのパフォーマンス指標に匹敵したり、超えたりすることができる。 この仮説は、30日間にわたってChaiリサーチプラットフォーム上で大きなユーザベースを持つA/Bテスト手法を使って厳格にテストされている。 この結果は、計算要求の急増を伴わずに、チャットAIの有効性を高めるための実行可能なアプローチとして、"ブレンディング"戦略の可能性を強調している。

In conversational AI research, there's a noticeable trend towards developing models with a larger number of parameters, exemplified by models like ChatGPT. While these expansive models tend to generate increasingly better chat responses, they demand significant computational resources and memory. This study explores a pertinent question: Can a combination of smaller models collaboratively achieve comparable or enhanced performance relative to a singular large model? We introduce an approach termed "blending", a straightforward yet effective method of integrating multiple chat AIs. Our empirical evidence suggests that when specific smaller models are synergistically blended, they can potentially outperform or match the capabilities of much larger counterparts. For instance, integrating just three models of moderate size (6B/13B paramaeters) can rival or even surpass the performance metrics of a substantially larger model like ChatGPT (175B+ paramaters). This hypothesis is rigorously tested using A/B testing methodologies with a large user base on the Chai research platform over a span of thirty days. The findings underscore the potential of the "blending" strategy as a viable approach for enhancing chat AI efficacy without a corresponding surge in computational demands.
翻訳日:2024-01-10 18:59:46 公開日:2024-01-09
# 混合臨界系における実行時間予算割り当て

Execution time budget assignment for mixed criticality systems ( http://arxiv.org/abs/2401.02431v2 )

ライセンス: Link先を確認
Mohamed Amine Khelassi (LIGM), Yasmina Abdedda\"im (LIGM)(参考訳) 本稿では,統計分散パラメータを用いてプログラムの実行時間変動を定量化する。 実時間混合臨界システムにおいて,実行時間の変動をいかに利用できるかを示す。 本稿では,その実行時間変動に応じて,各低臨界リアルタイムタスクに割り当てられる実行時間予算を計算するヒューリスティックを提案する。 実験とシミュレーションを用いて,提案したヒューリスティックは,実行時間変動パラメータを考慮しないアルゴリズムと比較して,割り当てられた予算を超える確率を減少させることを示した。

In this paper we propose to quantify execution time variability of programs using statistical dispersion parameters. We show how the execution time variability can be exploited in mixed criticality real-time systems. We propose a heuristic to compute the execution time budget to be allocated to each low criticality real-time task according to its execution time variability. We show using experiments and simulations that the proposed heuristic reduces the probability of exceeding the allocated budget compared to algorithms which do not take into account the execution time variability parameter.
翻訳日:2024-01-10 18:59:27 公開日:2024-01-09
# DiffusionEdge: Crispエッジ検出のための拡散確率モデル

DiffusionEdge: Diffusion Probabilistic Model for Crisp Edge Detection ( http://arxiv.org/abs/2401.02032v2 )

ライセンス: Link先を確認
Yunfan Ye, Kai Xu, Yuhang Huang, Renjiao Yi, Zhiping Cai(参考訳) エンコーダ・デコーダアーキテクチャによって制限され、学習ベースのエッジ検出器は通常、正確さと不快さの両方を満たすエッジマップを予測するのが困難である。 拡散確率モデル (dpm) の最近の成功により, ノイズ化過程が原画像サイズに直接適用されるため, 高精度かつ鮮明なエッジ検出に適していることがわかった。 そこで本稿では,DiffusionEdgeと呼ばれる汎用エッジ検出タスクに対する最初の拡散モデルを提案する。 最終性能を保ちながら高価な計算資源を避けるため,DPMを潜水空間に適用し,画素レベルの不確実性を認識した古典的クロスエントロピー損失を有効にし,蒸留方法で潜水空間のパラメータを直接最適化する。 また,復調処理を高速化するために疎結合アーキテクチャを採用し,特定の周波数の潜伏特性を調整するための適応フーリエフィルタを提案する。 すべての技術設計で、DiffusionEdgeは限られたリソースで安定的にトレーニングすることができ、より少ない拡張戦略で、鮮明で正確なエッジマップを予測できる。 4つのエッジ検出ベンチマークの大規模な実験は、ディフュージョンEdgeの正確さと不快さの両方において優位性を示している。 NYUDv2データセットでは、ODS、OIS(後処理なし)、ACをそれぞれ30.2%、28.1%、65.1%増やす。 コード:https://github.com/GuHuangAI/DiffusionEdge。

Limited by the encoder-decoder architecture, learning-based edge detectors usually have difficulty predicting edge maps that satisfy both correctness and crispness. With the recent success of the diffusion probabilistic model (DPM), we found it is especially suitable for accurate and crisp edge detection since the denoising process is directly applied to the original image size. Therefore, we propose the first diffusion model for the task of general edge detection, which we call DiffusionEdge. To avoid expensive computational resources while retaining the final performance, we apply DPM in the latent space and enable the classic cross-entropy loss which is uncertainty-aware in pixel level to directly optimize the parameters in latent space in a distillation manner. We also adopt a decoupled architecture to speed up the denoising process and propose a corresponding adaptive Fourier filter to adjust the latent features of specific frequencies. With all the technical designs, DiffusionEdge can be stably trained with limited resources, predicting crisp and accurate edge maps with much fewer augmentation strategies. Extensive experiments on four edge detection benchmarks demonstrate the superiority of DiffusionEdge both in correctness and crispness. On the NYUDv2 dataset, compared to the second best, we increase the ODS, OIS (without post-processing) and AC by 30.2%, 28.1% and 65.1%, respectively. Code: https://github.com/GuHuangAI/DiffusionEdge.
翻訳日:2024-01-10 18:59:17 公開日:2024-01-09
# GPS-SSL:事前学習を自己監督学習に注入するためのポジティブサンプリング

GPS-SSL: Guided Positive Sampling to Inject Prior Into Self-Supervised Learning ( http://arxiv.org/abs/2401.01990v2 )

ライセンス: Link先を確認
Aarash Feizi, Randall Balestriero, Adriana Romero-Soriano, Reihaneh Rabbany(参考訳) 我々は,自己監視学習(SSL)の正のサンプル選択に事前知識を注入する一般的な方法である,自己監視学習(GPS-SSL)のガイドポジティヴサンプリングを提案する。 現在のSSLメソッドでは、データ拡張(DA)を使用して、ポジティブなサンプルを生成し、事前の知識を取り入れています。 GPS-SSLは、ユークリッド距離が意味論的関係の有意義なプロキシとなる計量空間を設計することを提案する。 この領域では、近傍のサンプリングから正のサンプルを生成することができる。 任意の事前知識は、採用されたDAとは独立に、その計量空間に埋め込まれる。 その単純さから、GPS-SSLはSimCLRやBYOLなどのSSLメソッドに適用できる。 GPS-SSLの重要な利点は、強力なDAを調整する際の圧力を減らすことである。 例えばGPS-SSLはCifar10で85.58%、DAは37.51%である。 したがって、SSLをDAに依存しないようにするという目標に向かって一歩前進します。 また,強いDAを使用する場合であっても,GPS-SSLは未調査領域のベースラインよりも優れていることを示す。 GPS-SSLと複数のベースラインSSLメソッドを、モデルが強いまたは最小限のデータ拡張を使用する場合、異なるドメインから多くのダウンストリームデータセットに対して評価する。 GPS-SSLが優先知識を原則的にSSLに注入する方法を研究する新たな道を開くことを期待している。

We propose Guided Positive Sampling Self-Supervised Learning (GPS-SSL), a general method to inject a priori knowledge into Self-Supervised Learning (SSL) positive samples selection. Current SSL methods leverage Data-Augmentations (DA) for generating positive samples and incorporate prior knowledge - an incorrect, or too weak DA will drastically reduce the quality of the learned representation. GPS-SSL proposes instead to design a metric space where Euclidean distances become a meaningful proxy for semantic relationship. In that space, it is now possible to generate positive samples from nearest neighbor sampling. Any prior knowledge can now be embedded into that metric space independently from the employed DA. From its simplicity, GPS-SSL is applicable to any SSL method, e.g. SimCLR or BYOL. A key benefit of GPS-SSL is in reducing the pressure in tailoring strong DAs. For example GPS-SSL reaches 85.58% on Cifar10 with weak DA while the baseline only reaches 37.51%. We therefore move a step forward towards the goal of making SSL less reliant on DA. We also show that even when using strong DAs, GPS-SSL outperforms the baselines on under-studied domains. We evaluate GPS-SSL along with multiple baseline SSL methods on numerous downstream datasets from different domains when the models use strong or minimal data augmentations. We hope that GPS-SSL will open new avenues in studying how to inject a priori knowledge into SSL in a principled manner.
翻訳日:2024-01-10 18:58:53 公開日:2024-01-09
# characterEval: ロールプレイング対話エージェント評価のための中国語ベンチマーク

CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent Evaluation ( http://arxiv.org/abs/2401.01275v2 )

ライセンス: Link先を確認
Quan Tu, Shilong Fan, Zihang Tian, Rui Yan(参考訳) 近年,大規模言語モデル (LLM) の出現は, 生成因子に革命をもたらした。 その中でもRPCAs(Role-Playing Conversational Agents)は,ユーザを感情的にエンゲージする能力から注目されている。 しかし、包括的なベンチマークの欠如はこの分野の進展を妨げている。 このギャップを埋めるために、我々は、高品質なデータセットをカスタマイズした、包括的なRPCAアセスメントのための中国のベンチマークである characterEvalを紹介した。 データセットは、1,785のマルチターンロールプレイングダイアログで構成され、23,020のサンプルを含み、中国の小説や脚本から派生した77の文字を含む。 最初はGPT-4による対話抽出,続いて厳密な人間主導品質制御,さらにBaidu Baikeからの詳細な文字プロファイルの強化など,慎重に構築された。 CharacterEvalは、多面的評価アプローチを採用し、4次元の13のターゲットメトリックを包含する。 CharacterEvalの総合的な実験により、中国のLLMは中国のロールプレイング会話において、GPT-4よりも有望な能力を示した。 ソースコード、データソース、報酬モデルはhttps://github.com/morecry/CharacterEval.comで公開されている。

Recently, the advent of large language models (LLMs) has revolutionized generative agents. Among them, Role-Playing Conversational Agents (RPCAs) attract considerable attention due to their ability to emotionally engage users. However, the absence of a comprehensive benchmark impedes progress in this field. To bridge this gap, we introduce CharacterEval, a Chinese benchmark for comprehensive RPCA assessment, complemented by a tailored high-quality dataset. The dataset comprises 1,785 multi-turn role-playing dialogues, encompassing 23,020 examples and featuring 77 characters derived from Chinese novels and scripts. It was carefully constructed, beginning with initial dialogue extraction via GPT-4, followed by rigorous human-led quality control, and enhanced with in-depth character profiles sourced from Baidu Baike. CharacterEval employs a multifaceted evaluation approach, encompassing thirteen targeted metrics on four dimensions. Comprehensive experiments on CharacterEval demonstrate that Chinese LLMs exhibit more promising capabilities than GPT-4 in Chinese role-playing conversation. Source code, data source and reward model will be publicly accessible at https://github.com/morecry/CharacterEval.
翻訳日:2024-01-10 18:58:09 公開日:2024-01-09
# 視覚とそれを超える自己教師型表現学習のためのマスケッドモデリング

Masked Modeling for Self-supervised Representation Learning on Vision and Beyond ( http://arxiv.org/abs/2401.00897v2 )

ライセンス: Link先を確認
Siyuan Li, Luyuan Zhang, Zedong Wang, Di Wu, Lirong Wu, Zicheng Liu, Jun Xia, Cheng Tan, Yang Liu, Baigui Sun, Stan Z. Li(参考訳) ディープラーニング革命が進むにつれ、自己教師あり学習は目覚ましい表現学習能力とラベル付きデータへの依存度によって近年注目を集めている。 これらの様々な自己監督手法の中で、トレーニング中に比例的にマスキングされる元のデータの一部を予測する固有のアプローチとしてマスク付きモデリングが登場している。 このパラダイムは、ディープモデルによる堅牢な表現の学習を可能にし、コンピュータビジョン、自然言語処理、その他のモダリティの文脈で例外的なパフォーマンスを示した。 本稿では,マスキングモデリングフレームワークとその方法論の包括的レビューを行う。 マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。 そこで本研究では,ドメイン間の広範適用を体系的に検討する。 さらに,異なる分野におけるマスクモデリング手法の共通性と相違についても検討する。 本稿では,本稿の終わりに向けて,現在の手法の限界を議論し,マスキングモデリング研究の進展に向けたいくつかの道筋を指摘する。 この調査によるペーパーリストプロジェクトは、 \url{https://github.com/lupin1998/awesome-mim} で見ることができる。

As the deep learning revolution marches on, self-supervised learning has garnered increasing attention in recent years thanks to its remarkable representation learning ability and the low dependence on labeled data. Among these varied self-supervised techniques, masked modeling has emerged as a distinctive approach that involves predicting parts of the original data that are proportionally masked during training. This paradigm enables deep models to learn robust representations and has demonstrated exceptional performance in the context of computer vision, natural language processing, and other modalities. In this survey, we present a comprehensive review of the masked modeling framework and its methodology. We elaborate on the details of techniques within masked modeling, including diverse masking strategies, recovering targets, network architectures, and more. Then, we systematically investigate its wide-ranging applications across domains. Furthermore, we also explore the commonalities and differences between masked modeling methods in different fields. Toward the end of this paper, we conclude by discussing the limitations of current techniques and point out several potential avenues for advancing masked modeling research. A paper list project with this survey is available at \url{https://github.com/Lupin1998/Awesome-MIM}.
翻訳日:2024-01-10 18:57:51 公開日:2024-01-09
# 新しいクラス拡張自己蒸留による連合型授業インクリメンタルラーニング

Federated Class-Incremental Learning with New-Class Augmented Self-Distillation ( http://arxiv.org/abs/2401.00622v2 )

ライセンス: Link先を確認
Zhiyuan Wu, Tianliu He, Sheng Sun, Yuwei Wang, Min Liu, Bo Gao, Xuefeng Jiang(参考訳) フェデレートラーニング(FL)は、生データのプライバシーを確保しつつ、参加者間の協調モデルトレーニングを可能にする。 主流のfl方法論は、実世界のデータの動的な性質、特にボリュームの増加傾向や時間とともにクラスが多様化する傾向を見下ろしている。 この監視により、FL手法は破滅的な忘れ込みに悩まされ、トレーニングされたモデルは、新しいデータを同化して学習した情報を不注意に捨ててしまう。 そこで本研究では,この課題に応答して,新しいfederated class-incremental learning (fcil) 法を提案し,fedclass (federline{fed}erated \underline{c}lass-incremental \underline{l}earning and new-class \underline{a}ugmented \underline{s}elf-di\underline{s}tillation (fedclass) と命名した。 FedCLASSの中核は、歴史モデルのクラススコアを、現在のモデルによって予測される新しいクラススコアで強化し、自己蒸留に組み合わせた知識を利用することで、歴史モデルから現在のモデルへのより十分な正確な知識伝達を可能にすることである。 理論的分析により、フェドクラスは、歴史モデルによって予測された古いクラスのスコアを、新しいクラスがない場合の条件付き確率として、そして現在のモデルによって予測される新しいクラスのスコアを、歴史モデルから派生したクラススコアの条件付き確率として、信頼できる基礎の上に立つことが示されている。 実験により,FedCLASSが4つのベースラインアルゴリズムよりも優れていることを示す。

Federated Learning (FL) enables collaborative model training among participants while guaranteeing the privacy of raw data. Mainstream FL methodologies overlook the dynamic nature of real-world data, particularly its tendency to grow in volume and diversify in classes over time. This oversight results in FL methods suffering from catastrophic forgetting, where the trained models inadvertently discard previously learned information upon assimilating new data. In response to this challenge, we propose a novel Federated Class-Incremental Learning (FCIL) method, named \underline{Fed}erated \underline{C}lass-Incremental \underline{L}earning with New-Class \underline{A}ugmented \underline{S}elf-Di\underline{S}tillation (FedCLASS). The core of FedCLASS is to enrich the class scores of historical models with new class scores predicted by current models and utilize the combined knowledge for self-distillation, enabling a more sufficient and precise knowledge transfer from historical models to current models. Theoretical analyses demonstrate that FedCLASS stands on reliable foundations, considering scores of old classes predicted by historical models as conditional probabilities in the absence of new classes, and the scores of new classes predicted by current models as the conditional probabilities of class scores derived from historical models. Empirical experiments demonstrate the superiority of FedCLASS over four baseline algorithms in reducing average forgetting rate and boosting global accuracy.
翻訳日:2024-01-10 18:57:32 公開日:2024-01-09
# 客観的ポーズ推定のための包括的枠組み

A comprehensive framework for occluded human pose estimation ( http://arxiv.org/abs/2401.00155v2 )

ライセンス: Link先を確認
Linhao Xu, Lin Zhao, Xinxin Sun, Di Wang, Guangyu Li, Kedong Yan(参考訳) 咬合は人間のポーズ推定において重要な課題である。 咬合によって生じる課題は以下の要因によって引き起こされる。 1)データ:オクルードされた人間のポーズサンプルの収集と注釈は、比較的難しい。 2) 特徴: 咬合は, 対象者と干渉者との類似度が高いため, 特徴的混乱を引き起こす可能性がある。 3) 推論: 全身構造情報の損失によりロバストな推論が困難になる。 隠蔽された人間のポーズ推定のために設計された既存の方法は、通常、これらの要因の1つにのみ対処することに焦点を当てる。 本稿では,閉塞による性能劣化に対処するための総合的なフレームワークDAG(Data, Attention, Graph)を提案する。 具体的には, 咬合シナリオをシミュレートするために, インスタンスペーストデータ拡張技術を用いたマスクジョイントを紹介する。 また,適応識別注意モジュール (ADAM) が提案され,対象個人の特徴を効果的に強化する。 さらに,FGMP-GCN(Feature-Guided Multi-Hop GCN)を提案し,身体構造に関する事前知識を十分に探求し,ポーズ推定結果を改善する。 提案手法が既存の手法よりも優れていることを示すために,3つのベンチマークデータセットを用いた大規模実験を行った。 コードとデータは公開される予定だ。

Occlusion presents a significant challenge in human pose estimation. The challenges posed by occlusion can be attributed to the following factors: 1) Data: The collection and annotation of occluded human pose samples are relatively challenging. 2) Feature: Occlusion can cause feature confusion due to the high similarity between the target person and interfering individuals. 3) Inference: Robust inference becomes challenging due to the loss of complete body structural information. The existing methods designed for occluded human pose estimation usually focus on addressing only one of these factors. In this paper, we propose a comprehensive framework DAG (Data, Attention, Graph) to address the performance degradation caused by occlusion. Specifically, we introduce the mask joints with instance paste data augmentation technique to simulate occlusion scenarios. Additionally, an Adaptive Discriminative Attention Module (ADAM) is proposed to effectively enhance the features of target individuals. Furthermore, we present the Feature-Guided Multi-Hop GCN (FGMP-GCN) to fully explore the prior knowledge of body structure and improve pose estimation results. Through extensive experiments conducted on three benchmark datasets for occluded human pose estimation, we demonstrate that the proposed method outperforms existing methods. Code and data will be publicly available.
翻訳日:2024-01-10 18:57:01 公開日:2024-01-09
# 3つの近距離結合スピン1/2系による磁気制御量子熱デバイス

Magnetically controlled quantum thermal devices via three nearest-neighbor coupled spin-1/2 systems ( http://arxiv.org/abs/2401.04315v1 )

ライセンス: Link先を確認
Yi-jia Yang, Yu-qiang Liu, Zheng Liu, Chang-shui Yu(参考訳) 磁場によって制御される3つの近接結合スピン-1/2系に基づく量子熱デバイスを提案する。 系の定常熱挙動を系統的に研究する。 本システムでは, 2つの熱貯留層にそれぞれ2つの端子が接触している場合, 垂直磁場が熱輸送を完全に遮断できるため, 異なるパラメータ範囲の磁場方向を調整することにより, ゼロから特定の値への熱電流を制御できる完全熱変調器として機能する。 さらに、第3の熱貯水池が中間スピンを摂動すると、変調器も達成できる。 また, 定常熱電流が消失しない2つの部分空間に系の分離を誘導することで, 初期状態の操作による熱電流の制御を余分にできることがわかった。 また、この素子のトランジスタとしての性能は、磁場を制御し、多彩な増幅挙動、特に実質的な増幅係数を達成して向上することができる。

A quantum thermal device based on three nearest-neighbor coupled spin-1/2 systems controlled by the magnetic field is proposed. We systematically study the steady-state thermal behaviors of the system. When the two terminals of our system are in contact with two thermal reservoirs, respectively, the system behaves as a perfect thermal modulator that can manipulate heat current from zero to specific values by adjusting magnetic field direction over different parameter ranges, since the longitudinal magnetic field can completely block the heat transport. Significantly, the modulator can also be achieved when a third thermal reservoir perturbs the middle spin. We also find that the transverse field can induce the system to separate into two subspaces in which neither steady-state heat current vanishes, thus providing an extra level of control over the heat current through the manipulation of the initial state. In addition, the performance of this device as a transistor can be enhanced by controlling the magnetic field, achieving versatile amplification behaviors, in particular substantial amplification factors.
翻訳日:2024-01-10 18:25:07 公開日:2024-01-09
# フラクショナル次連続ダイナミクスを用いたグラフニューラルネットワークの結合:ロバストネススタディ

Coupling Graph Neural Networks with Fractional Order Continuous Dynamics: A Robustness Study ( http://arxiv.org/abs/2401.04331v1 )

ライセンス: Link先を確認
Qiyu Kang, Kai Zhao, Yang Song, Yihang Xie, Yanan Zhao, Sijie Wang, Rui She, and Wee Peng Tay(参考訳) 本研究では,グラフニューラル分数次微分方程式(FDE)モデルのロバスト性について精査する。 このフレームワークは、時間差分カプトー微分を実装することで、従来のグラフニューラル(整数階)常微分方程式(ODE)モデルを超えて拡張する。 分数計算を利用することで、従来のグラフニューラルネットワークodeモデルに見られるメモリレスマルコフ更新から逸脱して、機能更新プロセス中に長期記憶を考慮できる。 グラフニューラルODEモデルよりもグラフニューラルFDEモデルの優位性は、攻撃や摂動のない環境で確立されている。 従来のグラフニューラルODEモデルは、既存の文献における敵攻撃の存在下での安定性とレジリエンスの程度が証明されているが、グラフニューラルFDEモデルの堅牢性は、特に敵対的条件下では、ほとんど解明されていない。 本稿では,グラフニューラルFDEモデルの堅牢性を詳細に評価する。 我々は,グラフニューラルFDEモデルの頑健性特性を概説する理論基盤を確立し,入力やグラフトポロジの乱れに対して,より厳密な出力摂動境界を維持することを強調した。 実験結果より,グラフニューラルネットワークfdeモデルのロバスト性がさらに向上し,対向ロバストなアプリケーションにおけるその可能性を強調した。

In this work, we rigorously investigate the robustness of graph neural fractional-order differential equation (FDE) models. This framework extends beyond traditional graph neural (integer-order) ordinary differential equation (ODE) models by implementing the time-fractional Caputo derivative. Utilizing fractional calculus allows our model to consider long-term memory during the feature updating process, diverging from the memoryless Markovian updates seen in traditional graph neural ODE models. The superiority of graph neural FDE models over graph neural ODE models has been established in environments free from attacks or perturbations. While traditional graph neural ODE models have been verified to possess a degree of stability and resilience in the presence of adversarial attacks in existing literature, the robustness of graph neural FDE models, especially under adversarial conditions, remains largely unexplored. This paper undertakes a detailed assessment of the robustness of graph neural FDE models. We establish a theoretical foundation outlining the robustness characteristics of graph neural FDE models, highlighting that they maintain more stringent output perturbation bounds in the face of input and graph topology disturbances, compared to their integer-order counterparts. Our empirical evaluations further confirm the enhanced robustness of graph neural FDE models, highlighting their potential in adversarially robust applications.
翻訳日:2024-01-10 17:17:58 公開日:2024-01-09
# BD-MSA:マルチスケール特徴情報集約によるVHRリモートセンシング画像変化検出方法

BD-MSA: Body decouple VHR Remote Sensing Image Change Detection method guided by multi-scale feature information aggregation ( http://arxiv.org/abs/2401.04330v1 )

ライセンス: Link先を確認
Yonghui Tan, Xiaolong Li, Yishu Chen and Jinquan Ai(参考訳) リモートセンシング画像変化検出(RSCD)の目的は、同じ場所で撮影された両時間画像の違いを検出することである。 深層学習はRSCDタスクに広く使われており、結果認識の点で重要な結果をもたらしている。 しかし, 衛星の撮影角度, 薄い雲の影響, 特定の照明条件により, リモートセンシング画像の撮影領域におけるファジィエッジの問題は, 現在のRSCDアルゴリズムでは適切に扱えない。 この問題を解決するため、我々は、トレーニングおよび予測フェーズにおいて、チャネル内のグローバルおよびローカルの特徴マップ情報と特徴マップの空間次元の両方を収集する新しいモデルであるBD-MSA(Body Deouple Multi-Scale by fearure Aggregation Change Detection)を提案した。 このアプローチにより,変化領域の境界情報を抽出すると同時に,変化領域の本体を境界から切り離すことができる。 この論文に記載されたモデルの評価基準と評価効果が、公開されているデータセット dsifn-cd と s2looking で他のモデルと比較した場合に最適であることが多くの研究で示されている。

The purpose of remote sensing image change detection (RSCD) is to detect differences between bi-temporal images taken at the same place. Deep learning has been extensively used to RSCD tasks, yielding significant results in terms of result recognition. However, due to the shooting angle of the satellite, the impacts of thin clouds, and certain lighting conditions, the problem of fuzzy edges in the change region in some remote sensing photographs cannot be properly handled using current RSCD algorithms. To solve this issue, we proposed a Body Decouple Multi-Scale by fearure Aggregation change detection (BD-MSA), a novel model that collects both global and local feature map information in the channel and space dimensions of the feature map during the training and prediction phases. This approach allows us to successfully extract the change region's boundary information while also divorcing the change region's main body from its boundary. Numerous studies have shown that the assessment metrics and evaluation effects of the model described in this paper on the publicly available datasets DSIFN-CD and S2Looking are the best when compared to other models.
翻訳日:2024-01-10 17:17:35 公開日:2024-01-09
# 空間分割多重絡み合いに基づくマルチコアファイバ上の量子暗号の実装

Implementation of space-division multiplexed entanglement-based quantum cryptography over multicore fiber ( http://arxiv.org/abs/2401.04327v1 )

ライセンス: Link先を確認
Evelyn A. Ortega, Jorge Fuenzalida, Krishna Dovzhik, Rodrigo F. Shiozaki, Juan Carlos Alvarado-Zacarias, Rodrigo Amezcua-Correa, Martin Bohmann, S\"oren Wengerowsky and Rupert Ursin(参考訳) 量子通信の実装は効率的で信頼性の高い量子チャネルを必要とする。 光ファイバは量子状態分布の理想的な候補であることが証明されている。 したがって、今日の取り組みは、高データ伝送と長距離実装への課題を克服するものである。 本稿では,マルチコアファイバを用いた空間分割多重化による秘密鍵レート向上実験を行った。 本手法は,自発的パラメトリックダウンコンバージョンによって生成された光子対の運動量相関を利用する。 偏光結合光子対を19コアのマルチコアファイバに分散した。 411mのマルチコアファイバーを伝送した後のエンタングルメント視認性から、6コアと12コアの構成の秘密鍵速度を推定した。

Quantum communication implementations require efficient and reliable quantum channels. Optical fibers have proven to be an ideal candidate for distributing quantum states. Thus, today's efforts address overcoming issues towards high data transmission and long-distance implementations. Here, we experimentally demonstrate the secret key rate enhancement via space-division multiplexing using a multicore fiber. Our multiplexing technique exploits the momentum correlation of photon pairs generated by spontaneous parametric down-conversion. We distributed polarization-entangled photon pairs into opposite cores within a 19-core multicore fiber. We estimated the secret key rates in a configuration with 6 and 12 cores from the entanglement visibility after transmission through 411 m long multicore fiber.
翻訳日:2024-01-10 17:17:14 公開日:2024-01-09
# radarcam-depth: 学習メトリックスケールによる深度推定のためのレーダーカメラ融合

RadarCam-Depth: Radar-Camera Fusion for Depth Estimation with Learned Metric Scale ( http://arxiv.org/abs/2401.04325v1 )

ライセンス: Link先を確認
Han Li, Yukai Ma, Yaqing Gu, Kewei Hu, Yong Liu, Xingxing Zuo(参考訳) 本稿では,単視点画像と希薄でノイズの多いレーダポイント雲の融合に基づく,距離密集深度推定のための新しい手法を提案する。 異種レーダーと画像データの直接融合、あるいはそれらの符号化は、重要なアーティファクト、ぼやけた境界、そして準最適精度を持つ密度の深い深度マップを生成する傾向にある。 この問題を回避するために,広義でロバストな単眼深度予測を,希薄でノイズの多いレーダデータから生じる密集した距離スケールで拡張することを学ぶ。 本研究では,モノキュラー深度予測,モノキュラー深さのグローバルスケールアライメントとスパースレーダポイント,レーダーポイントとイメージパッチの関連を学習した擬似拡散スケール推定,スケールマップ学習器を用いた高密度深さの局所スケールリファインメントの4段階の高精度・細密深度推定のためのレーダーカメラフレームワークを提案する。 提案手法は,難解なnuScenesデータセットと自己コンパイルしたZJU-4DRadarCamデータセットにおいて,平均絶対誤差(MAE)を25.6%,40.2%削減することにより,最先端のRadar-Camera深度推定法を著しく上回っている。

We present a novel approach for metric dense depth estimation based on the fusion of a single-view image and a sparse, noisy Radar point cloud. The direct fusion of heterogeneous Radar and image data, or their encodings, tends to yield dense depth maps with significant artifacts, blurred boundaries, and suboptimal accuracy. To circumvent this issue, we learn to augment versatile and robust monocular depth prediction with the dense metric scale induced from sparse and noisy Radar data. We propose a Radar-Camera framework for highly accurate and fine-detailed dense depth estimation with four stages, including monocular depth prediction, global scale alignment of monocular depth with sparse Radar points, quasi-dense scale estimation through learning the association between Radar points and image patches, and local scale refinement of dense depth using a scale map learner. Our proposed method significantly outperforms the state-of-the-art Radar-Camera depth estimation methods by reducing the mean absolute error (MAE) of depth estimation by 25.6% and 40.2% on the challenging nuScenes dataset and our self-collected ZJU-4DRadarCam dataset, respectively.
翻訳日:2024-01-10 17:17:05 公開日:2024-01-09
# ニーズを良く把握する:分析推論によるLLMによるマーケティング需要の構造的理解に向けて

Know Your Needs Better: Towards Structured Understanding of Marketer Demands with Analogical Reasoning Augmented LLMs ( http://arxiv.org/abs/2401.04319v1 )

ライセンス: Link先を確認
Junjie Wang, Dan Yang, Binbin Hu, Yue Shen, Ziqi Liu, Wen Zhang, Jinjie Gu, Zhiqiang Zhang(参考訳) 本稿では,非専門家のマーケターが,自然言語形式の要求のみに応じてターゲットユーザを選択できる,新たなユーザターゲティング手法について検討する。 この問題の鍵は、自然言語を実用的な構造化論理言語、すなわちマーケター要求の構造化された理解に変換する方法である。 大規模言語モデル(LLM)の印象的な自然言語処理能力を考えると,LLMを活用してこの問題を解決する。 過去の研究では、LLMの推論能力は、チェーン・オブ・シンクレット(CoT)のプロンプトによって効果的に向上できることが示されている。 既存のメソッドには、(1)単純な"Let's Think by Step"の呪文を使うか、あるいはプロンプトと質問の互換性を考慮せずにデモで固定例を提供するか、LLMを構造化言語変換のような複雑な推論タスクでは非効率にする。 2) 従来手法は, 工業的シナリオには適さない, クローズドソースモデルや過大なモデルで実装されることが多い。 そこで本研究では,ARALLM (Analogical Reasoning Augmented Large Language Models) とPrompting (Analogical Reasoning based Prompting) とReasoning-Augmented Multi-Task Model Distillation の2つのモジュールを提案する。

In this paper, we explore a new way for user targeting, where non-expert marketers could select their target users solely given demands in natural language form. The key to this issue is how to transform natural languages into practical structured logical languages, i.e., the structured understanding of marketer demands. Considering the impressive natural language processing ability of large language models (LLMs), we try to leverage LLMs to solve this issue. Past research indicates that the reasoning ability of LLMs can be effectively enhanced through chain-of-thought (CoT) prompting. But existing methods still have some limitations: (1) Previous methods either use simple "Let's think step by step" spells or provide fixed examples in demonstrations without considering compatibility between prompts and questions, making LLMs ineffective in some complex reasoning tasks such as structured language transformation. (2) Previous methods are often implemented in closed-source models or excessively large models, which is not suitable in industrial practical scenarios. Based on these, we propose ARALLM (i.e., Analogical Reasoning Augmented Large Language Models) consisting of two modules: Analogical Reasoning based Prompting and Reasoning-Augmented Multi-Task Model Distillation.
翻訳日:2024-01-10 17:16:36 公開日:2024-01-09
# AIを使ったWiFi屋内イメージングのブレークスルー

Vision Reimagined: AI-Powered Breakthroughs in WiFi Indoor Imaging ( http://arxiv.org/abs/2401.04317v1 )

ライセンス: Link先を確認
Jianyang Shi, Bowen Zhang, Amartansh Dubey, Ross Murch and Liwen Jing(参考訳) 室内イメージングはロボティクスやモノのインターネットにとって重要なタスクだ。 全方位信号としてのWiFiは、受動的撮像を行い、最新の情報をすべての接続デバイスに同期させる有望な候補である。 これは、WiFi屋内イメージングを、計測されたWiFi電力を高解像度の屋内画像に変換するマルチモーダル画像生成タスクとして考える最初の研究である。 提案するWiFi-GENネットワークは,物理モデルに基づく逆転法により実現された形状復元精度の275%を実現する。 さらに、Frechet Inception Distanceスコアは82%に大幅に低下した。 このタスクのモデルの有効性を検討するため、最初の大規模データセットは、80,000対のWiFi信号と撮像ターゲットを含む。 我々のモデルは、非線形性、不確かさ、不確かさを含むモデルベースの手法の課題を、生成AIネットワークの膨大なパラメータに吸収する。 このネットワークは、計測されたWiFi信号と所望の撮像出力に最も適するよう設計されている。 再現性のため、受理時にデータとコードを公開します。

Indoor imaging is a critical task for robotics and internet-of-things. WiFi as an omnipresent signal is a promising candidate for carrying out passive imaging and synchronizing the up-to-date information to all connected devices. This is the first research work to consider WiFi indoor imaging as a multi-modal image generation task that converts the measured WiFi power into a high-resolution indoor image. Our proposed WiFi-GEN network achieves a shape reconstruction accuracy that is 275% of that achieved by physical model-based inversion methods. Additionally, the Frechet Inception Distance score has been significantly reduced by 82%. To examine the effectiveness of models for this task, the first large-scale dataset is released containing 80,000 pairs of WiFi signal and imaging target. Our model absorbs challenges for the model-based methods including the non-linearity, ill-posedness and non-certainty into massive parameters of our generative AI network. The network is also designed to best fit measured WiFi signals and the desired imaging output. For reproducibility, we will release the data and code upon acceptance.
翻訳日:2024-01-10 17:16:12 公開日:2024-01-09
# 自己エバースト型ロバスト予測

Private Truly-Everlasting Robust-Prediction ( http://arxiv.org/abs/2401.04311v1 )

ライセンス: Link先を確認
Uri Stemmer(参考訳) Private Everlasting Prediction (PEP) - Naorらによって最近導入された。 2023]は,学習者が公に仮説を公表しない,微分的プライベート学習のモデルである。 その代わりに、"prediction oracle"へのブラックボックスアクセスを提供し、基盤となるディストリビューションから引き出されたラベルなし例の終りのないストリームのラベルを予測できる。 重要な点として、PEPは初期トレーニングセットとエンドツーエンドの分類クエリストリームの両方に対してプライバシを提供する。 我々は, PEPの定義に対する2つの概念的修正と, 従来の作業よりも大幅に改善された新しい構成を提案する。 具体的には、(1)ロバスト性: PEPは、すべての分類クエリが正しい基底分布から引き出されることを前提として、精度のみを保証する。 いくつかのアウトオブディストリビューションクエリは、正しい分布からサンプリングされた将来のクエリであっても、将来のクエリに対するoracleの予測の有効性を損なう可能性がある。 我々は、このような毒殺に対する堅牢性をPEPの定義に組み込み、その入手方法を示す。 2) プライバシーパラメータの依存性 $\delta$ in the time horizon: 私たちは、PEPに適した緩和されたプライバシー定義を提示します。 これにより、サンプルの複雑さが$t$から独立しているpepのアルゴリズムを得ることができます。 これは、サンプルの複雑さが$polylog(T)$で増加する以前の作業とは対照的である。 (3)新しい構成: PEPの以前の構成は、ターゲットクラスのVC次元において二次的なサンプル複雑性を示す。 軸整列矩形に対する PEP の新たな構成と、(二次的ではなく)次元において線形なサンプル複雑性を示す決定文について述べる。 我々の構成は強固な堅牢性特性を満たしている。

Private Everlasting Prediction (PEP), recently introduced by Naor et al. [2023], is a model for differentially private learning in which the learner never publicly releases a hypothesis. Instead, it provides black-box access to a "prediction oracle" that can predict the labels of an endless stream of unlabeled examples drawn from the underlying distribution. Importantly, PEP provides privacy both for the initial training set and for the endless stream of classification queries. We present two conceptual modifications to the definition of PEP, as well as new constructions exhibiting significant improvements over prior work. Specifically, (1) Robustness: PEP only guarantees accuracy provided that all the classification queries are drawn from the correct underlying distribution. A few out-of-distribution queries might break the validity of the prediction oracle for future queries, even for future queries which are sampled from the correct distribution. We incorporate robustness against such poisoning attacks into the definition of PEP, and show how to obtain it. (2) Dependence of the privacy parameter $\delta$ in the time horizon: We present a relaxed privacy definition, suitable for PEP, that allows us to disconnect the privacy parameter $\delta$ from the number of total time steps $T$. This allows us to obtain algorithms for PEP whose sample complexity is independent from $T$, thereby making them "truly everlasting". This is in contrast to prior work where the sample complexity grows with $polylog(T)$. (3) New constructions: Prior constructions for PEP exhibit sample complexity that is quadratic in the VC dimension of the target class. We present new constructions of PEP for axis-aligned rectangles and for decision-stumps that exhibit sample complexity linear in the dimension (instead of quadratic). We show that our constructions satisfy very strong robustness properties.
翻訳日:2024-01-10 17:15:53 公開日:2024-01-09
# 深層アクティブラーニングとデータサブセット選択の進歩:情報理論直観による統一原則

Advancing Deep Active Learning & Data Subset Selection: Unifying Principles with Information-Theory Intuitions ( http://arxiv.org/abs/2401.04305v1 )

ライセンス: Link先を確認
Andreas Kirsch(参考訳) 本論文は,深層学習モデルのラベルと訓練効率を向上させることにより,深層学習の実践性を高めることを目的としている。 そこで本研究では,データサブセット選択手法,特に情報理論に基づくアクティブラーニングとアクティブサンプリングについて検討する。 アクティブ学習はラベル効率が向上し、アクティブサンプリングはトレーニング効率が向上する。 監視されたディープラーニングモデルは、ラベル付きデータによる広範なトレーニングを必要とすることが多い。 ラベル取得は高価で時間を要するため、大規模モデルのトレーニングはリソース集約的であり、学術研究以外での採用を妨げる。 「深層学習におけるデータサブセット選択のための既存の手法は、しばしばヒューリスティックスに依存したり、原理的な情報理論の基礎を欠いている。 対照的に、本論文は、情報理論に触発されたより原理的なアプローチを追求する深層学習におけるデータサブセット選択とその応用に関するいくつかの目的を考察する。 まず、単一のフォワードパスディープニューラルネットワークにおいて、疫学的およびアレタリックな不確実性を取り除き、様々な形の不確実性とそのデータサブセット選択との関連性に関する有用な直観と洞察を提供する。 次に,(ベイジアン)深層学習におけるアクティブラーニングとデータサブセット選択のための様々なアプローチを提案し,検討する。 最後に,重みや予測空間における情報量近似に対する様々な既存および提案手法について述べる。 この研究の根底にあるのは、ランダム変数と観測結果の両方を含む情報理論量の原則的で実践的な表記である。 この論文は、統一的な視点から働くことの利点を示し、深層学習の実践的応用への私たちの貢献の潜在的影響を強調している。

At its core, this thesis aims to enhance the practicality of deep learning by improving the label and training efficiency of deep learning models. To this end, we investigate data subset selection techniques, specifically active learning and active sampling, grounded in information-theoretic principles. Active learning improves label efficiency, while active sampling enhances training efficiency. Supervised deep learning models often require extensive training with labeled data. Label acquisition can be expensive and time-consuming, and training large models is resource-intensive, hindering the adoption outside academic research and ``big tech.'' Existing methods for data subset selection in deep learning often rely on heuristics or lack a principled information-theoretic foundation. In contrast, this thesis examines several objectives for data subset selection and their applications within deep learning, striving for a more principled approach inspired by information theory. We begin by disentangling epistemic and aleatoric uncertainty in single forward-pass deep neural networks, which provides helpful intuitions and insights into different forms of uncertainty and their relevance for data subset selection. We then propose and investigate various approaches for active learning and data subset selection in (Bayesian) deep learning. Finally, we relate various existing and proposed approaches to approximations of information quantities in weight or prediction space. Underpinning this work is a principled and practical notation for information-theoretic quantities that includes both random variables and observed outcomes. This thesis demonstrates the benefits of working from a unified perspective and highlights the potential impact of our contributions to the practical application of deep learning.
翻訳日:2024-01-10 17:15:24 公開日:2024-01-09
# Transformer Oversmoothing における記録線の設定

Setting the Record Straight on Transformer Oversmoothing ( http://arxiv.org/abs/2401.04301v1 )

ライセンス: Link先を確認
Gb\`etondji J-S Dovonon, Michael M. Bronstein, Matt J. Kusner(参考訳) トランスフォーマーベースのモデルは最近、さまざまなドメインでかなり成功しています。 同時に、最近の研究はトランスフォーマーが本質的に低域通過フィルタであり、徐々に入力を過度に過度に処理し、表現の表現性を低下させることを示した。 この欠点を考えると、トランスフォーマーはこれらの成功をどうやって達成できるのか? 本研究では、トランスフォーマーは本質的に低域通過フィルタではないことを示す。 代わりに、トランスフォーマーがオーバームースかどうかは、更新方程式の固有スペクトルに依存する。 我々の分析は、過密化や階級崩壊の密接な関係の現象における先行研究を延長する。 その結果、多くのトランスフォーマーモデルが過度な動きを避ける条件を満たした注意と重みを持つことがわかった。 この解析に基づいて,そのスペクトルの制御を可能にする変圧器更新方程式の重みをパラメータ化する方法を導出し,過スムーシングが発生しないようにする。 オーバースムーシングの最近のソリューションと比較して、我々のアプローチは、より多くのレイヤ、少ないデータポイント、破損したデータでトレーニングしても、一般化を改善する。

Transformer-based models have recently become wildly successful across a diverse set of domains. At the same time, recent work has shown that Transformers are inherently low-pass filters that gradually oversmooth the inputs, reducing the expressivity of their representations. A natural question is: How can Transformers achieve these successes given this shortcoming? In this work we show that in fact Transformers are not inherently low-pass filters. Instead, whether Transformers oversmooth or not depends on the eigenspectrum of their update equations. Our analysis extends prior work in oversmoothing and in the closely-related phenomenon of rank collapse. We show that many successful Transformer models have attention and weights which satisfy conditions that avoid oversmoothing. Based on this analysis, we derive a simple way to parameterize the weights of the Transformer update equations that allows for control over its spectrum, ensuring that oversmoothing does not occur. Compared to a recent solution for oversmoothing, our approach improves generalization, even when training with more layers, fewer datapoints, and data that is corrupted.
翻訳日:2024-01-10 17:14:57 公開日:2024-01-09
# 量子テレポーテーションによる重力波検出のための周波数依存性スクイーズ

Frequency-dependent squeezing for gravitational-wave detection through quantum teleportation ( http://arxiv.org/abs/2401.04295v1 )

ライセンス: Link先を確認
Yohei Nishino, Stefan Danilishin, Yutaro Enomoto, Teng Zhang(参考訳) 地上の干渉型重力波検出器は弱い力の高精度なセンサーであり、光の量子揺らぎによって検出帯域全体の感度が制限される。 検出ポートに周波数依存性の吸引真空を注入し、狭帯域で低損失の光共振器を用いて、各信号周波数でスクイーズ楕円を最適回転させることで、この制限に対処する。 本研究は、量子テレポーテーションと光の絡み合った状態の原理を用いた新しいスキームを紹介する。 アインシュタイン望遠鏡xylophone検出器の低周波検出器の基本設計であるデチューン信号再生ペロ・ミシェルソン干渉計において、主干渉計のコア光学にフィルタ空洞や修正を加えることなく、広帯域で量子ノイズを抑制することができる。

Ground-based interferometric gravitational wave detectors are highly precise sensors for weak forces, limited in sensitivity across their detection band by quantum fluctuations of light. Current and future instruments address this limitation by injecting frequency-dependent squeezed vacuum into the detection port, utilizing narrow-band, low-loss optical cavities for optimal rotation of the squeezing ellipse at each signal frequency. This study introduces a novel scheme employing the principles of quantum teleportation and entangled states of light. It allows achieving broadband suppression of quantum noise in detuned signal recycled-Fabry-Perot--Michelson interferometers, which is the baseline design of the low-frequency detector within the Einstein Telescope xylophone detector, without requiring additional filter cavities or modifications to the core optics of the main interferometer.
翻訳日:2024-01-10 17:14:42 公開日:2024-01-09
# StarCraftImage:マルチエージェント環境のための空間推論手法をプロトタイピングするデータセット

StarCraftImage: A Dataset For Prototyping Spatial Reasoning Methods For Multi-Agent Environments ( http://arxiv.org/abs/2401.04290v1 )

ライセンス: Link先を確認
Sean Kulinski, Nicholas R. Waytowich, James Z. Hare, David I. Inouye(参考訳) イベント予測、エージェントタイプ識別、欠落データ計算などのマルチエージェント環境における空間推論タスクは、複数のアプリケーション(例えば、センサネットワーク上の自律監視や強化学習のためのサブタスクなど)において重要である。 StarCraft IIのゲームは知的(および敵対的な)マルチエージェント動作をエンコードし、これらのタスクのテストベッドを提供するが、これらのタスクをプロトタイピングするためのシンプルで標準化された表現を抽出することは困難であり、再現性を妨げている。 対照的に、MNISTとCIFAR10は極端に単純であるにもかかわらず、MLメソッドの迅速なプロトタイピングと再現性を実現している。 これらのデータセットの簡易化に続いて、複雑なマルチエージェント動作を示すStarCraft IIリプレイに基づくベンチマーク空間推論データセットを構築し、MNISTやCIFAR10と同じくらい使いやすくする。 具体的には、255の連続したゲーム状態のウィンドウを慎重に要約し、6万のリプレイから360万の要約画像を作成します。 我々は,単位型毎に1つのチャネルを含む超スペクトル画像,cifar10を模倣したrgb画像,mnistを模倣したグレースケール画像の3つのフォーマットを開発した。 このデータセットが空間推論手法のプロトタイピングにどのように使用できるかを示す。 すべてのデータセット、抽出用コード、およびデータセットローディング用のコードは、https://starcraftdata.davidinouye.comにある。

Spatial reasoning tasks in multi-agent environments such as event prediction, agent type identification, or missing data imputation are important for multiple applications (e.g., autonomous surveillance over sensor networks and subtasks for reinforcement learning (RL)). StarCraft II game replays encode intelligent (and adversarial) multi-agent behavior and could provide a testbed for these tasks; however, extracting simple and standardized representations for prototyping these tasks is laborious and hinders reproducibility. In contrast, MNIST and CIFAR10, despite their extreme simplicity, have enabled rapid prototyping and reproducibility of ML methods. Following the simplicity of these datasets, we construct a benchmark spatial reasoning dataset based on StarCraft II replays that exhibit complex multi-agent behaviors, while still being as easy to use as MNIST and CIFAR10. Specifically, we carefully summarize a window of 255 consecutive game states to create 3.6 million summary images from 60,000 replays, including all relevant metadata such as game outcome and player races. We develop three formats of decreasing complexity: Hyperspectral images that include one channel for every unit type (similar to multispectral geospatial images), RGB images that mimic CIFAR10, and grayscale images that mimic MNIST. We show how this dataset can be used for prototyping spatial reasoning methods. All datasets, code for extraction, and code for dataset loading can be found at https://starcraftdata.davidinouye.com
翻訳日:2024-01-10 17:14:26 公開日:2024-01-09
# コントラスト学習による知識接地対話のロバスト性向上

Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive Learning ( http://arxiv.org/abs/2401.04361v1 )

ライセンス: Link先を確認
Jiaan Wang, Jianfeng Qu, Kexin Wang, Zhixu Li, Wen Hua, Ximing Li, An Liu(参考訳) 知識基底対話(KGD)は、与えられた対話コンテキストと外部知識(例えば知識グラフ、KGs)に基づいて情報応答を生成することを学習する。 近年,大規模言語モデル(LLM)や事前学習技術が出現し,知識ベース対話に大きな成功を収めている。 しかし、実際のアプリケーションでKGDシステムを構築する際には、避けられない様々な現実のノイズが存在する。 例えば、対話の文脈は、ミススペルや略語のような摂動を伴うかもしれない。 さらに、kgは一般的に非可逆性に苦しめられ、誤った事実や時代遅れの事実を含むこともある。 このような現実世界のノイズは、KGDシステムの堅牢性に挑戦し、現実世界での応用を妨げる。 本稿では,KGDの堅牢性向上のためのエンティティベースのコントラスト学習フレームワークを提案する。 具体的には、KGDサンプルの実体情報を用いて、それぞれ意味非関連な摂動を含む正と負の両方のサンプルを作成する。 対照的な学習フレームワークは、kgdモデルがこれら2つのタイプの摂動を認識していることを保証する。 3つのベンチマークデータセットによる実験結果から,提案手法は自動評価スコアの点から新たな評価性能を実現し,その有効性と可能性を検証した。 さらに,提案手法は,ノイズ設定と少数ショット設定の両方において,比較モデルよりも優れた応答を生成できることを示す。

Knowledge-grounded dialogue (KGD) learns to generate an informative response based on a given dialogue context and external knowledge (\emph{e.g.}, knowledge graphs; KGs). Recently, the emergence of large language models (LLMs) and pre-training techniques has brought great success to knowledge-grounded dialogue. However, when building KGD systems in real applications, there are various real-world noises that are inevitable to face. For example, the dialogue context might involve perturbations such as misspellings and abbreviations. In addition, KGs typically suffer from incompletion and also might contain erroneous and outdated facts. Such real-world noises pose a challenge to the robustness of KGD systems and hinder their applications in the real world. In this paper, we propose an entity-based contrastive learning framework for improving the robustness of KGD. Specifically, we make use of the entity information in a KGD sample to create both its positive and negative samples which involve semantic-irrelevant and semantic-relevant perturbations, respectively. The contrastive learning framework ensures the KGD model is aware of these two types of perturbations, thus generating informative responses with the potentially noisy inputs in real applications. Experimental results on three benchmark datasets show that our method achieves new state-of-the-art performance in terms of automatic evaluation scores, verifying its effectiveness and potentiality. Furthermore, we show that our method can generate better responses than comparison models in both the noisy and the few-shot settings.
翻訳日:2024-01-10 17:06:39 公開日:2024-01-09
# 無監督ポイントクラウド登録のための反復フィードバックネットワーク

Iterative Feedback Network for Unsupervised Point Cloud Registration ( http://arxiv.org/abs/2401.04357v1 )

ライセンス: Link先を確認
Yifan Xie, Boyu Wang, Shiqi Li and Jihua Zhu(参考訳) コンピュータビジョンの基本的な問題として、ポイントクラウド登録は、一対のポイントクラウドを整列させる最適な変換を求めることを目的としている。 ほとんどの既存手法では、情報フローは通常前方転送であり、ハイレベル情報から低レベル情報へのガイダンスを欠いている。 さらに、過剰な高レベル情報は過度に冗長であり、それを直接使用すると、元の低レベル情報と矛盾する可能性がある。 本稿では,非教師付きポイントクラウド登録のための新しい反復フィードバックネットワーク(ifnet)を提案する。 具体的には、私たちのifnetは一連のフィードバック登録ブロック(frb)モジュール上に構築されています。 これらのFRBモジュールは、時間とともにカスケードされ、繰り返し展開される。 さらに、フィードバック変換器は、低レベルの特徴を洗練するために使用されるフィードバック高レベルの特徴から、関連する情報を効率的に選択するように設計されている。 さらに、ジオメトリ認識ディスクリプタ(geometry-awareness descriptor)を組み込んで、ほとんどの幾何学的情報を最大限に活用することで、より正確な登録結果を得ることができます。 さまざまなベンチマークデータセットに対する大規模な実験は、IFNetの優れた登録性能を示している。

As a fundamental problem in computer vision, point cloud registration aims to seek the optimal transformation for aligning a pair of point clouds. In most existing methods, the information flows are usually forward transferring, thus lacking the guidance from high-level information to low-level information. Besides, excessive high-level information may be overly redundant, and directly using it may conflict with the original low-level information. In this paper, we propose a novel Iterative Feedback Network (IFNet) for unsupervised point cloud registration, in which the representation of low-level features is efficiently enriched by rerouting subsequent high-level features. Specifically, our IFNet is built upon a series of Feedback Registration Block (FRB) modules, with each module responsible for generating the feedforward rigid transformation and feedback high-level features. These FRB modules are cascaded and recurrently unfolded over time. Further, the Feedback Transformer is designed to efficiently select relevant information from feedback high-level features, which is utilized to refine the low-level features. What's more, we incorporate a geometry-awareness descriptor to empower the network for making full use of most geometric information, which leads to more precise registration results. Extensive experiments on various benchmark datasets demonstrate the superior registration performance of our IFNet.
翻訳日:2024-01-10 17:06:14 公開日:2024-01-09
# シーン認識のための知識強化マルチパースペクティブ映像表現学習

Knowledge-enhanced Multi-perspective Video Representation Learning for Scene Recognition ( http://arxiv.org/abs/2401.04354v1 )

ライセンス: Link先を確認
Xuzheng Yu, Chen Jiang, Wei Zhang, Tian Gan, Linlin Chao, Jianan Zhao, Yuan Cheng, Qingpei Guo, Wei Chu(参考訳) 現実世界のアプリケーションにおけるビデオデータの爆発的増加に伴い、ビデオの包括的表現がますます重要になる。 本稿では,映像中のシーンを分類するハイレベルな映像表現を学習することを目的として,映像シーン認識の課題に対処する。 現実的シナリオにおけるビデオコンテンツの多様性と複雑さのため、この課題は依然として課題である。 既存の作品の多くは、時間的な視点で視覚的またはテキスト的な情報のみからビデオのシーンを識別し、単一のフレームに隠された貴重な情報を無視する。 これら2つの視点はこの課題に意味があり、相互補完的でありながら、外部から導入された知識はビデオの理解を促進することができる。 本研究では,複数の視点,すなわち時間的および非時間的視点から映像表現をモデル化し,その2つの視点を自己蒸留によりエンドツーエンドに統合する,新たな2ストリームフレームワークを提案する。 さらに,映像シーン認識のタスクに自然に知識を導入するのに寄与する,知識を付加した特徴融合とラベル予測手法を設計する。 実世界のデータセットを用いて実験を行い,提案手法の有効性を示した。

With the explosive growth of video data in real-world applications, a comprehensive representation of videos becomes increasingly important. In this paper, we address the problem of video scene recognition, whose goal is to learn a high-level video representation to classify scenes in videos. Due to the diversity and complexity of video contents in realistic scenarios, this task remains a challenge. Most existing works identify scenes for videos only from visual or textual information in a temporal perspective, ignoring the valuable information hidden in single frames, while several earlier studies only recognize scenes for separate images in a non-temporal perspective. We argue that these two perspectives are both meaningful for this task and complementary to each other, meanwhile, externally introduced knowledge can also promote the comprehension of videos. We propose a novel two-stream framework to model video representations from multiple perspectives, i.e. temporal and non-temporal perspectives, and integrate the two perspectives in an end-to-end manner by self-distillation. Besides, we design a knowledge-enhanced feature fusion and label prediction method that contributes to naturally introducing knowledge into the task of video scene recognition. Experiments conducted on a real-world dataset demonstrate the effectiveness of our proposed method.
翻訳日:2024-01-10 17:05:53 公開日:2024-01-09
# メトロポリタンファイバーを用いた分散原子時計の計数と計測

Counting and metrology of distributed atomic clocks using metropolitan fiber ( http://arxiv.org/abs/2401.04353v1 )

ライセンス: Link先を確認
Jialiang Wang, Deling Zeng, Youzhen Gui, Lian Dong, Rong Wei(参考訳) 上海光学微細構造研究所 (siom) と上海計測試験研究所 (simt) との間で, 原子時計ネットワークの分散を実証した。 1つのファイバリンクと4つのクロックで転送される3つのクロックの周波数信号は、2つの実験室で比較可能であり、両者の比較結果を比較すると、周波数信号の整合性は1E-15以下の順であることがわかった。 また,e-15レベルにおける2つの位置間の一貫性も達成した。 この方式は、遠隔原子時計の分散時間計数と周波数分布を実現することができる。

We demonstrate a distributed atomic clocks network between Shanghai Institute of Optics and fine Mechanics (SIOM) and Shanghai Institute of Measurement and Test (SIMT). The frequency signals from three different clocks transfer in one fiber link and four clocks can have comparison in two different labs.By comparing the results of the comparison between the two labs, it was found that the consistency of the frequency signal is on the order of lower than 1E-15. And we also achieve consistency between two locations at the E-15 level of frequency reporting. This scheme can achieve distributed time counting and frequency dissemination of remote atomic clocks, which is a new exploration of the future time keeping laboratory mode.
翻訳日:2024-01-10 17:05:31 公開日:2024-01-09
# 可変動作条件下における残余有用寿命推定モデルによる変化点検出

A Change Point Detection Integrated Remaining Useful Life Estimation Model under Variable Operating Conditions ( http://arxiv.org/abs/2401.04351v1 )

ライセンス: Link先を確認
Anushiya Arunan, Yan Qin, Xiaoli Li, Chau Yuen(参考訳) 劣化過程の開始を知らせることにより、健康状態評価は、複雑な機器の信頼性維持有用寿命(RUL)推定のための重要な予備段階となる。 本稿では,可変動作条件下でも個々のデバイスの変化点を検出するための新しい時空間ダイナミクス学習ベースモデルを提案し,学習変化点を用いてrul推定精度を向上させる。 オフラインモデル開発において、多変量センサデータは分解され、複数の動作条件にわたる通常の動作ダイナミクスを一般化し代表する融合時間相関特徴を学習する。 デバイスレベルの変化点の教師なし検出のために,これらの学習した時間的特徴から,正常動作の統計と制御限界閾値を動的に構築する。 そして、検出された変化点から、長期記憶(LSTM)に基づくRUL推定モデルをトレーニングするための劣化データラベル付けを通知する。 オンライン監視中、オフライントレーニングから導かれる制御限界を破るために、クエリ装置の時間相関ダイナミクスを監視する。 変更点が検出されると、デバイスのrulを訓練されたオフラインモデルで推定し、早期の予防措置を行う。 C-MAPSSターボファンエンジンをケーススタディとして, 不均一な変化点を考慮しない既存のLSTMベースRUL推定モデルと比較して, 運転条件が6つある2つのシナリオに対して, 精度を5.6\%, 7.5\%向上させた。

By informing the onset of the degradation process, health status evaluation serves as a significant preliminary step for reliable remaining useful life (RUL) estimation of complex equipment. This paper proposes a novel temporal dynamics learning-based model for detecting change points of individual devices, even under variable operating conditions, and utilises the learnt change points to improve the RUL estimation accuracy. During offline model development, the multivariate sensor data are decomposed to learn fused temporal correlation features that are generalisable and representative of normal operation dynamics across multiple operating conditions. Monitoring statistics and control limit thresholds for normal behaviour are dynamically constructed from these learnt temporal features for the unsupervised detection of device-level change points. The detected change points then inform the degradation data labelling for training a long short-term memory (LSTM)-based RUL estimation model. During online monitoring, the temporal correlation dynamics of a query device is monitored for breach of the control limit derived in offline training. If a change point is detected, the device's RUL is estimated with the well-trained offline model for early preventive action. Using C-MAPSS turbofan engines as the case study, the proposed method improved the accuracy by 5.6\% and 7.5\% for two scenarios with six operating conditions, when compared to existing LSTM-based RUL estimation models that do not consider heterogeneous change points.
翻訳日:2024-01-10 17:05:19 公開日:2024-01-09
# ゼロショット対向ロバストネスのための事前学習モデルによるファインチューニング

Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness ( http://arxiv.org/abs/2401.04350v1 )

ライセンス: Link先を確認
Sibo Wang, Jie Zhang, Zheng Yuan, Shiguang Shan(参考訳) CLIPのような大規模事前学習型視覚言語モデルは、様々なタスクにまたがって印象的なパフォーマンスを示し、目立ったゼロショットの一般化能力を示している。 既存の作品は通常、敵の例に対する防御方法として敵の訓練(微調整)を用いる。 しかし、CLIPモデルへの直接適用は過度に適合し、一般化のためのモデルの能力が損なわれる可能性がある。 本稿では,予備ブランチを慎重に設計することにより,前訓練モデルからの監督を活かし,モデルのゼロショット攻撃性を高めるプリトレーニングモデル誘導制御(pmg-aft)法を提案する。 具体的には, PMG-AFT は, 対象モデルの特徴と事前学習モデルの特徴との間の距離を最小化し, 事前学習モデルが既に取得した一般化特徴の保存を目的としている。 15のゼロショットデータセットに対する大規模な実験により、PMG-AFTは最先端の手法よりも大幅に優れ、平均4.99%の精度でトップ1の堅牢さが向上した。 さらに, 本手法では, 洗浄精度を平均8.72%向上させる。

Large-scale pre-trained vision-language models like CLIP have demonstrated impressive performance across various tasks, and exhibit remarkable zero-shot generalization capability, while they are also vulnerable to imperceptible adversarial examples. Existing works typically employ adversarial training (fine-tuning) as a defense method against adversarial examples. However, direct application to the CLIP model may result in overfitting, compromising the model's capacity for generalization. In this paper, we propose Pre-trained Model Guided Adversarial Fine-Tuning (PMG-AFT) method, which leverages supervision from the original pre-trained model by carefully designing an auxiliary branch, to enhance the model's zero-shot adversarial robustness. Specifically, PMG-AFT minimizes the distance between the features of adversarial examples in the target model and those in the pre-trained model, aiming to preserve the generalization features already captured by the pre-trained model. Extensive Experiments on 15 zero-shot datasets demonstrate that PMG-AFT significantly outperforms the state-of-the-art method, improving the top-1 robust accuracy by an average of 4.99%. Furthermore, our approach consistently improves clean accuracy by an average of 8.72%.
翻訳日:2024-01-10 17:04:55 公開日:2024-01-09
# lampat:adversarial trainingを用いた多言語パラフレージングのための低ランク適応

LAMPAT: Low-Rank Adaption for Multilingual Paraphrasing Using Adversarial Training ( http://arxiv.org/abs/2401.04348v1 )

ライセンス: Link先を確認
Khoi M.Le and Trinh Pham and Tho Quan and Anh Tuan Luu(参考訳) パラフレーズ(paraphrases)は、異なる単語や文構造を用いて同じ意味を伝えるテキストである。 これは、多くの自然言語処理タスク、特にデータ不足が重大な問題である低リソース言語を扱う場合に、自動データ拡張ツールとして使用できる。 多言語環境でパラフレーズを生成するために、以前の研究では機械翻訳分野からの知識、すなわち同じ言語でゼロショット機械翻訳によってパラフレーズを形成する。 人間の評価は良好だが、これらの手法は並列翻訳データセットを必要とするため、並列コーパスを持たない言語には適用できない。 この問題を緩和するために、我々は、LAMPAT ($\textbf{L}$ow-rank $\textbf{A}$daptation for $\textbf{M}$ultilingual $\textbf{P}$araphrasing using $\textbf{A}$dversarial $\textbf{T}$raining という、単言語データセットが人間に似た文を生成するのに十分な、最初の教師なし多言語パラフレーズモデルを提案した。 実験を通して,本手法は英語だけでなく,目に見えない言語にも適用可能であることがわかった。 データとコードはhttps://github.com/phkhanhtrinh23/LAMPATで入手できる。

Paraphrases are texts that convey the same meaning while using different words or sentence structures. It can be used as an automatic data augmentation tool for many Natural Language Processing tasks, especially when dealing with low-resource languages, where data shortage is a significant problem. To generate a paraphrase in multilingual settings, previous studies have leveraged the knowledge from the machine translation field, i.e., forming a paraphrase through zero-shot machine translation in the same language. Despite good performance on human evaluation, those methods still require parallel translation datasets, thus making them inapplicable to languages that do not have parallel corpora. To mitigate that problem, we proposed the first unsupervised multilingual paraphrasing model, LAMPAT ($\textbf{L}$ow-rank $\textbf{A}$daptation for $\textbf{M}$ultilingual $\textbf{P}$araphrasing using $\textbf{A}$dversarial $\textbf{T}$raining), by which monolingual dataset is sufficient enough to generate a human-like and diverse sentence. Throughout the experiments, we found out that our method not only works well for English but can generalize on unseen languages as well. Data and code are available at https://github.com/phkhanhtrinh23/LAMPAT.
翻訳日:2024-01-10 17:04:34 公開日:2024-01-09
# RomniStereo: 連続した全方位ステレオマッチング

RomniStereo: Recurrent Omnidirectional Stereo Matching ( http://arxiv.org/abs/2401.04345v1 )

ライセンス: Link先を確認
Hualie Jiang, Rui Xu, Minglang Tan and Wenjie Jiang(参考訳) Omnidirectional stereo matching (OSM)は360^{\circ}$ depth Senssionにとって必須かつ信頼性の高い手段である。 しかし、従来のステレオマッチングの研究に続き、従来のSOTA(State-of-the-art)手法は3Dエンコーダデコーダブロックを使ってコストを調整し、システム全体が複雑で準最適である。 近年,リカレントall-pairs field transforms (raft) に基づくアプローチでは,2次元のリカレントアップデートが採用され,画像マッチングタスク, \ie,光フロー,ステレオマッチングが効率的に改善されている。 OSMとRAFTのギャップを埋めるため,OSMの球状スイーピングの出力を逐次更新に必要な入力にシームレスに変換し,全方向ステレオマッチング(RomniStereo)アルゴリズムを作成するための適応重み付け方式を主に提案する。 さらに,RomniStereoの性能向上に寄与する2つのテクニック,すなわち,グリッド埋め込みと適応型コンテキスト特徴生成を導入する。 我々の最良のモデルは、5つのデータセットにわたる以前のSOTAベースラインよりも平均MAEメトリックを40.7\%改善します。 結果を視覚化すると、モデルが合成と現実的な両方の例で明らかな利点を示します。 コードは \url{https://github.com/halleyjiang/romnistereo} で入手できる。

Omnidirectional stereo matching (OSM) is an essential and reliable means for $360^{\circ}$ depth sensing. However, following earlier works on conventional stereo matching, prior state-of-the-art (SOTA) methods rely on a 3D encoder-decoder block to regularize the cost volume, causing the whole system complicated and sub-optimal results. Recently, the Recurrent All-pairs Field Transforms (RAFT) based approach employs the recurrent update in 2D and has efficiently improved image-matching tasks, \ie, optical flow, and stereo matching. To bridge the gap between OSM and RAFT, we mainly propose an opposite adaptive weighting scheme to seamlessly transform the outputs of spherical sweeping of OSM into the required inputs for the recurrent update, thus creating a recurrent omnidirectional stereo matching (RomniStereo) algorithm. Furthermore, we introduce two techniques, \ie, grid embedding and adaptive context feature generation, which also contribute to RomniStereo's performance. Our best model improves the average MAE metric by 40.7\% over the previous SOTA baseline across five datasets. When visualizing the results, our models demonstrate clear advantages on both synthetic and realistic examples. The code is available at \url{https://github.com/HalleyJiang/RomniStereo}.
翻訳日:2024-01-10 17:03:59 公開日:2024-01-09
# ゼロ次最適化による大規模言語モデルのプライベート微調整

Private Fine-tuning of Large Language Models with Zeroth-order Optimization ( http://arxiv.org/abs/2401.04343v1 )

ライセンス: Link先を確認
Xinyu Tang, Ashwinee Panda, Milad Nasr, Saeed Mahloujifar, Prateek Mittal(参考訳) プライベートデータセット上の微調整された大規模な事前トレーニングモデルは、プライバシーを侵害するリスクを負う可能性がある。 差分プライバシーは、アルゴリズムの安定性を強制することによってプライバシーリスクを軽減するためのフレームワークである。 DP-SGDは、プライバシ保存方式でプライベートデータを使用したトレーニングモデルを可能にするが、パフォーマンス損失と重要なエンジニアリング上の課題という形で、新たな障害を生じさせる。 DP-ZO(DP-ZO)は,ゼロオーダー最適化を民営化し,学習データのプライバシーを保護した大規模言語モデルを微調整する手法である。 この手法の設計に関する重要な洞察は、我々が使っているゼロ次アルゴリズムであるspsaの勾配の方向は常にランダムであり、プライベートデータに依存する唯一の情報はステップサイズ、すなわちスカラーである。 したがって、メモリ効率のよいスカラーステップサイズを民営化するだけでよいのです。 DP-ZOはLaplaceかGaussianノイズでインスタンス化できるが、保守的なプライバシー予算の下で、さまざまなタスクやモデルサイズにわたる強力なプライバシー利用トレードオフを提供する。 1つの注目すべき結果として、DP-ZOは、SQuADから1000のトレーニングサンプルに対してOPT-66Bを微調整すると、プライバシーのためにわずか1,10^{-5})$-DPで1.86\%のパフォーマンス劣化を示す。

Fine-tuning large pretrained models on private datasets may run the risk of violating privacy. Differential privacy is a framework for mitigating privacy risks by enforcing algorithmic stability. DP-SGD enables training models with private data in a privacy-preserving manner, but raises new obstacles in the form of performance loss and significant engineering challenges. We introduce DP-ZO, a new method for fine-tuning large language models that preserves the privacy of training data by privatizing zeroth-order optimization. A key insight into the design of our method is that the direction of the gradient in SPSA, the zeroth-order algorithm we use, is always random and the only information that depends on private data is the step size, i.e., a scalar. Therefore, we only need to privatize the scalar step size, which is memory-efficient. DP-ZO, which can be instantiated with either Laplace or Gaussian noise, provides a strong privacy-utility trade-off across different tasks, and model sizes, under conservative privacy budgets. One noteworthy result is that DP-ZO exhibits just $1.86\%$ performance degradation due to privacy at $(1,10^{-5})$-DP when fine-tuning OPT-66B on 1000 training samples from SQuAD.
翻訳日:2024-01-10 17:03:34 公開日:2024-01-09
# 量子拡散モデルを用いたメモリ効率の良いパーソナライゼーション

Memory-Efficient Personalization using Quantized Diffusion Model ( http://arxiv.org/abs/2401.04339v1 )

ライセンス: Link先を確認
Hyogon Ryu, Seohyun Lim, Hyunjung Shim(参考訳) 安定拡散XL、Imagen、Dall-E3のような10億パラメータ拡散モデルの台頭は、生成AIの分野を著しく前進させる。 しかし、その大規模な性質は、リソースの要求が高く、推論速度が遅いため、微調整やデプロイメントに困難をもたらす。 この論文は、微調整量子化拡散モデルの比較的未解明で有望な領域を探求する。 細調整量子化パラメータのPEQA,ポストトレーニング量子化のQ-Diffusion,パーソナライズのためのDreamBoothの3つのモデルをカスタマイズすることで,強力なベースラインを確立する。 本分析は,ベースラインモデルにおける主観と即時忠実性の顕著なトレードオフを明らかにする。 これらの問題に対処するために,拡散モデルにおける異なる時間ステップの役割に着想を得た2つの戦略を導入する。s1は選択された間隔でのみ微調整パラメータの単一セットを最適化し,s2は異なる時間ステップ間隔に特化した複数の微調整パラメータセットを作成する。 我々のアプローチはパーソナライズを向上するだけでなく、迅速な忠実度や画質を保ち、ベースラインを質的・定量的に著しく上回る。 コードは公開される予定だ。

The rise of billion-parameter diffusion models like Stable Diffusion XL, Imagen, and Dall-E3 markedly advances the field of generative AI. However, their large-scale nature poses challenges in fine-tuning and deployment due to high resource demands and slow inference speed. This paper ventures into the relatively unexplored yet promising realm of fine-tuning quantized diffusion models. We establish a strong baseline by customizing three models: PEQA for fine-tuning quantization parameters, Q-Diffusion for post-training quantization, and DreamBooth for personalization. Our analysis reveals a notable trade-off between subject and prompt fidelity within the baseline model. To address these issues, we introduce two strategies, inspired by the distinct roles of different timesteps in diffusion models: S1 optimizing a single set of fine-tuning parameters exclusively at selected intervals, and S2 creating multiple fine-tuning parameter sets, each specialized for different timestep intervals. Our approach not only enhances personalization but also upholds prompt fidelity and image quality, significantly outperforming the baseline qualitatively and quantitatively. The code will be made publicly available.
翻訳日:2024-01-10 17:03:09 公開日:2024-01-09
# G-Meta: 大規模リコメンダシステムのためのGPUクラスタにおける分散メタ学習

G-Meta: Distributed Meta Learning in GPU Clusters for Large-Scale Recommender Systems ( http://arxiv.org/abs/2401.04338v1 )

ライセンス: Link先を確認
Youshao Xiao, Shangchun Zhao, Zhenglei Zhou, Zhaoxin Huan, Lin Ju, Xiaolu Zhang, Lin Wang, Jun Zhou(参考訳) 近年,新たなパラダイムであるメタラーニングが深層学習勧告モデル(DLRM)に広く適用され,特にコールドスタートシナリオにおける統計的性能が著しく向上している。 しかし、既存のシステムはメタラーニングベースのDLRMモデルに適合せず、GPUクラスタにおける分散トレーニングの効率性に関して重大な問題を抱えている。 これは、従来のディープラーニングパイプラインが2つのタスク固有のデータセットと2つの更新ループに最適化されていないためである。 本稿では,最適化に基づくメタDLRMモデルのための大規模学習のための高性能なフレームワークを,textbf{G}PUクラスタ,すなわちtextbf{G}-Meta上で提供する。 まず、g-metaはデータ並列性とモデル並列性の両方を利用し、計算と通信効率に関して注意深くオーケストレーションし、高速分散トレーニングを可能にする。 次に,i/oボトルネックを軽減するための効率的なデータ取り込みのためのメタioパイプラインを提案する。 様々な実験結果から,g-metaは統計的性能を損なうことなく顕著なトレーニング速度を達成した。 2022年初頭から、G-MetaはAlipayのコア広告とレコメンデーションシステムにデプロイされ、モデルの継続的デリバリを4倍に縮小した。 また、Alipayのホームページ表示広告におけるコンバージョンレート(CVR)の6.48\%の改善とCPM(Cost Per Mille)の1.06\%向上を、より大きなトレーニングサンプルとタスクの恩恵で得る。

Recently, a new paradigm, meta learning, has been widely applied to Deep Learning Recommendation Models (DLRM) and significantly improves statistical performance, especially in cold-start scenarios. However, the existing systems are not tailored for meta learning based DLRM models and have critical problems regarding efficiency in distributed training in the GPU cluster. It is because the conventional deep learning pipeline is not optimized for two task-specific datasets and two update loops in meta learning. This paper provides a high-performance framework for large-scale training for Optimization-based Meta DLRM models over the \textbf{G}PU cluster, namely \textbf{G}-Meta. Firstly, G-Meta utilizes both data parallelism and model parallelism with careful orchestration regarding computation and communication efficiency, to enable high-speed distributed training. Secondly, it proposes a Meta-IO pipeline for efficient data ingestion to alleviate the I/O bottleneck. Various experimental results show that G-Meta achieves notable training speed without loss of statistical performance. Since early 2022, G-Meta has been deployed in Alipay's core advertising and recommender system, shrinking the continuous delivery of models by four times. It also obtains 6.48\% improvement in Conversion Rate (CVR) and 1.06\% increase in CPM (Cost Per Mille) in Alipay's homepage display advertising, with the benefit of larger training samples and tasks.
翻訳日:2024-01-10 17:02:50 公開日:2024-01-09
# サブグラフフェデレーション学習のための深層能率私的隣人生成

Deep Efficient Private Neighbor Generation for Subgraph Federated Learning ( http://arxiv.org/abs/2401.04336v1 )

ライセンス: Link先を確認
Ke Zhang, Lichao Sun, Bolin Ding, Siu Ming Yiu, Carl Yang(参考訳) ベヘモスグラフはしばしば断片化され、多くの現実的なアプリケーションで分散サブグラフとして複数のデータ所有者によって個別に保存される。 データプライバシを損なうことなく、各ローカルクライアントがグローバルグラフ全体のサブグラフを保持するsubgraph federated learning(subgraph fl)シナリオを検討して、グローバルに一般化されたグラフマイニングモデルを得るのは自然である。 部分グラフの欠落による局所部分グラフ上の不完全情報伝搬の独特な課題を克服するため, 従来の研究は, 隣接するジェネレータとGNNの連成FLを介し, 地域住民の増大を図っている。 しかし、彼らの技術設計はFLの実用性、効率性、プライバシーの目標に関して重大な制限がある。 本稿では,これらの課題に包括的に取り組むためのFedDEPを提案する。 FedDEPは,(1)GNN埋め込みを利用した深部近傍世代,(2)埋め込みプロトタイピングによる近接世代に対する効率的な擬似FL,(3)ノイズのないエッジ局所微分プライバシによるプライバシ保護という,一連の新しい技術設計で構成されている。 我々はFedDEPの正しさと効率を分析し、そのプライバシーに関する理論的保証を提供する。 4つの実世界のデータセットの実証結果は、提案手法の明確な利点を正当化する。

Behemoth graphs are often fragmented and separately stored by multiple data owners as distributed subgraphs in many realistic applications. Without harming data privacy, it is natural to consider the subgraph federated learning (subgraph FL) scenario, where each local client holds a subgraph of the entire global graph, to obtain globally generalized graph mining models. To overcome the unique challenge of incomplete information propagation on local subgraphs due to missing cross-subgraph neighbors, previous works resort to the augmentation of local neighborhoods through the joint FL of missing neighbor generators and GNNs. Yet their technical designs have profound limitations regarding the utility, efficiency, and privacy goals of FL. In this work, we propose FedDEP to comprehensively tackle these challenges in subgraph FL. FedDEP consists of a series of novel technical designs: (1) Deep neighbor generation through leveraging the GNN embeddings of potential missing neighbors; (2) Efficient pseudo-FL for neighbor generation through embedding prototyping; and (3) Privacy protection through noise-less edge-local-differential-privacy. We analyze the correctness and efficiency of FedDEP, and provide theoretical guarantees on its privacy. Empirical results on four real-world datasets justify the clear benefits of proposed techniques.
翻訳日:2024-01-10 17:02:24 公開日:2024-01-09
# ロボットのための大規模言語モデル:機会、課題、展望

Large Language Models for Robotics: Opportunities, Challenges, and Perspectives ( http://arxiv.org/abs/2401.04334v1 )

ライセンス: Link先を確認
Jiaqi Wang, Zihao Wu, Yiwei Li, Hanqi Jiang, Peng Shu, Enze Shi, Huawen Hu, Chong Ma, Yiheng Liu, Xuhui Wang, Yincheng Yao, Xuan Liu, Huaqin Zhao, Zhengliang Liu, Haixing Dai, Lin Zhao, Bao Ge, Xiang Li, Tianming Liu, and Shu Zhang(参考訳) 大規模言語モデル(llm)は大幅に拡張され、様々なドメインにまたがって統合されている。 ロボットタスクプランニングの分野では、LLMは高度な推論と言語理解能力を利用して、自然言語命令に基づいて正確で効率的なアクションプランを定式化する。 しかし、ロボットが複雑な環境と相互作用する具体的タスクでは、テキストのみのLLMはロボットの視覚知覚との互換性が欠如しているため、しばしば課題に直面している。 本研究では, LLMとマルチモーダル LLM のロボットタスクへの統合について概観する。 さらに,マルチモーダル GPT-4V を利用して,自然言語命令とロボット視覚認識を組み合わせることで,具体的タスク計画を強化するフレームワークを提案する。 この結果から,GPT-4Vはロボットの動作性能を効果的に向上させることが示唆された。 様々なロボットタスクにおけるLLMとマルチモーダルLLMの広範な調査と評価は、LLM中心のインボディードインテリジェンスに対する理解を深め、人間-ロボット-環境相互作用のギャップを埋めるための先見的な洞察を提供する。

Large language models (LLMs) have undergone significant expansion and have been increasingly integrated across various domains. Notably, in the realm of robot task planning, LLMs harness their advanced reasoning and language comprehension capabilities to formulate precise and efficient action plans based on natural language instructions. However, for embodied tasks, where robots interact with complex environments, text-only LLMs often face challenges due to a lack of compatibility with robotic visual perception. This study provides a comprehensive overview of the emerging integration of LLMs and multimodal LLMs into various robotic tasks. Additionally, we propose a framework that utilizes multimodal GPT-4V to enhance embodied task planning through the combination of natural language instructions and robot visual perceptions. Our results, based on diverse datasets, indicate that GPT-4V effectively enhances robot performance in embodied tasks. This extensive survey and evaluation of LLMs and multimodal LLMs across a variety of robotic tasks enriches the understanding of LLM-centric embodied intelligence and provides forward-looking insights toward bridging the gap in Human-Robot-Environment interaction.
翻訳日:2024-01-10 17:01:59 公開日:2024-01-09
# 量子プロセッサ上の長寿命位相時間結晶秩序

Long-lived topological time-crystalline order on a quantum processor ( http://arxiv.org/abs/2401.04333v1 )

ライセンス: Link先を確認
Liang Xiang, Wenjie Jiang, Zehang Bao, Zixuan Song, Shibo Xu, Ke Wang, Jiachen Chen, Feitong Jin, Xuhao Zhu, Zitian Zhu, Fanhao Shen, Ning Wang, Chuanyu Zhang, Yaozu Wu, Yiren Zou, Jiarun Zhong, Zhengyi Cui, Aosai Zhang, Ziqi Tan, Tingting Li, Yu Gao, Jinfeng Deng, Xu Zhang, Hang Dong, Pengfei Zhang, Si Jiang, Weikang Li, Zhide Lu, Zheng-Zhi Sun, Hekang Li, Zhen Wang, Chao Song, Qiujiang Guo, Fangli Liu, Zhe-Xuan Gong, Alexey V. Gorshkov, Norman Y. Yao, Thomas Iadecola, Francisco Machado, H. Wang and Dong-Ling Deng(参考訳) トポロジカルに秩序づけられた物質相は、ランダウの対称性を破り、長距離の絡み合いや局所摂動に対する内在的堅牢性のような様々な興味深い性質を特徴とする。 周期的に駆動される系への拡張は、熱平衡で禁止されるエキゾチックな新しい現象を引き起こす。 ここでは,2乗格子上にプログラム可能な超伝導量子ビットを配置した予熱トポロジカル秩序の時間結晶である,そのような現象のシグネチャを報告する。 超伝導量子ビットを表面符号ハミルトニアンで周期的に駆動することにより、非局所論理演算子の時空応答にのみ現れる離散時間遷移対称性破断ダイナミクスを観測する。 さらに、観測されたダイナミクスを、非ゼロ位相エンタングルメントエントロピーの測定とその後のダイナミクスの研究により、下層のトポロジ的秩序に結び付ける。 その結果, 雑音中規模量子プロセッサを用いたエキゾチックな位相秩序非平衡相を探索する可能性が示唆された。

Topologically ordered phases of matter elude Landau's symmetry-breaking theory, featuring a variety of intriguing properties such as long-range entanglement and intrinsic robustness against local perturbations. Their extension to periodically driven systems gives rise to exotic new phenomena that are forbidden in thermal equilibrium. Here, we report the observation of signatures of such a phenomenon -- a prethermal topologically ordered time crystal -- with programmable superconducting qubits arranged on a square lattice. By periodically driving the superconducting qubits with a surface-code Hamiltonian, we observe discrete time-translation symmetry breaking dynamics that is only manifested in the subharmonic temporal response of nonlocal logical operators. We further connect the observed dynamics to the underlying topological order by measuring a nonzero topological entanglement entropy and studying its subsequent dynamics. Our results demonstrate the potential to explore exotic topologically ordered nonequilibrium phases of matter with noisy intermediate-scale quantum processors.
翻訳日:2024-01-10 17:01:39 公開日:2024-01-09
# Mix-GENEO: デジタル画像を検出する多パラメータ持続ホモロジーのためのフレキシブルフィルタ

Mix-GENEO: A flexible filtration for multiparameter persistent homology detects digital images ( http://arxiv.org/abs/2401.04332v1 )

ライセンス: Link先を確認
Jiaxing He, Bingzhe Hou, Tieru Wu, Yue Xin(参考訳) トポロジカルデータ解析の分野における2つの重要な問題は、オブジェクト上の実用的なマルチフィルタを定義し、TDAの幾何学的検出能力を示すことである。 この問題に動機づけられ,マルチジェネート,マルチジェネート,ミックスジェネートという3つの多重濾過を行い,有界関数の部分空間の擬メトリックに関して,マルチジェネーのインターリービング距離とマルチパラメータパーシステンスランドスの両方の安定性を証明した。 また,Multi-DGENEOとmix-GENEOの上限値の推定を行った。 最後に,MNISTデータセットを用いてディジタル画像の幾何学的および位相的差異を検出できることを実証する実験結果を提案する。

Two important problems in the field of Topological Data Analysis are defining practical multifiltrations on objects and showing ability of TDA to detect the geometry. Motivated by the problems, we constuct three multifiltrations named multi-GENEO, multi-DGENEO and mix-GENEO, and prove the stability of both the interleaving distance and multiparameter persistence landscape of multi-GENEO with respect to the pseudometric of the subspace of bounded functions. We also give the estimations of upper bound for multi-DGENEO and mix-GENEO. Finally, we provide experiment results on MNIST dataset to demonstrate our bifiltrations have ability to detect geometric and topological differences of digital images.
翻訳日:2024-01-10 17:01:18 公開日:2024-01-09
# Chain-of-Table:テーブル理解のための推論チェインにおけるテーブルの進化

Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding ( http://arxiv.org/abs/2401.04398v1 )

ライセンス: Link先を確認
Zilong Wang, Hao Zhang, Chun-Liang Li, Julian Martin Eisenschlos, Vincent Perot, Zifeng Wang, Lesly Miculicich, Yasuhisa Fujii, Jingbo Shang, Chen-Yu Lee, Tomas Pfister(参考訳) 大規模言語モデル(llms)を用いたテーブルベース推論は、テーブルベースの質問応答や事実検証など、多くのテーブル理解タスクに取り組むための有望な方向である。 一般的な推論と比較すると、テーブルベースの推論は自由形式の質問と半構造化された表データの両方から基礎となる意味を抽出する必要がある。 Chain-of-Thoughtとその類似したアプローチは、推論チェーンをテキストコンテキストの形式で組み込んでいるが、それでも、推論チェーンにおける表データの有効活用方法には疑問の余地がある。 そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。 具体的には、テキスト内学習を用いてLCMをガイドし、反復的に操作を生成してテーブルを更新し、表の推論チェーンを表す。 従って、LCMは前の操作の結果に基づいて次の操作を動的に計画することができる。 このテーブルの連続的な進化は連鎖を形成し、与えられた表問題の推論過程を示す。 チェーンは中間結果の構造化情報を持ち、より正確で信頼性の高い予測を可能にする。 Chain-of-Tableは、WikiTQ、FeTaQA、TabFactのベンチマークで、複数のLSM選択で最新のパフォーマンスを実現している。

Table-based reasoning with large language models (LLMs) is a promising direction to tackle many table understanding tasks, such as table-based question answering and fact verification. Compared with generic reasoning, table-based reasoning requires the extraction of underlying semantics from both free-form questions and semi-structured tabular data. Chain-of-Thought and its similar approaches incorporate the reasoning chain in the form of textual context, but it is still an open question how to effectively leverage tabular data in the reasoning chain. We propose the Chain-of-Table framework, where tabular data is explicitly used in the reasoning chain as a proxy for intermediate thoughts. Specifically, we guide LLMs using in-context learning to iteratively generate operations and update the table to represent a tabular reasoning chain. LLMs can therefore dynamically plan the next operation based on the results of the previous ones. This continuous evolution of the table forms a chain, showing the reasoning process for a given tabular problem. The chain carries structured information of the intermediate results, enabling more accurate and reliable predictions. Chain-of-Table achieves new state-of-the-art performance on WikiTQ, FeTaQA, and TabFact benchmarks across multiple LLM choices.
翻訳日:2024-01-10 16:44:08 公開日:2024-01-09
# アクティブラーニングにおける高次認知モデルの役割

The Role of Higher-Order Cognitive Models in Active Learning ( http://arxiv.org/abs/2401.04397v1 )

ライセンス: Link先を確認
Oskar Keurulainen, Gokhan Alcan, Ville Kyrki(参考訳) 人間と効率的に協力できる機械の構築は、人工知能の長年の目標だった。 特に不確実性が存在する場合、最適な協力のためには、人間と人工エージェントが互いの行動をモデル化し、これらのモデルを使用して基礎となる目標、信念、意図を推測し、複数のレベルの再帰を伴う可能性がある。 人間の行動における高次認知の実証的証拠は、認知科学、言語学、ロボット工学における過去の研究によってもたらされる。 我々は、人間をアクティブなデータソースとして利用する人間のフィードバックのためのアクティブな学習のための新しいパラダイムを提唱する。 特に,エージェントのレベルの増加が,アクティブラーニングシステムと教師間の合理的コミュニケーションの質的に異なる形態をもたらすかについて議論する。 さらに,高次認知モデルを用いた能動的学習の実践例を提案する。 これは、このモデルが生成するユニークな振る舞いの基盤となる計算研究に付随する。

Building machines capable of efficiently collaborating with humans has been a longstanding goal in artificial intelligence. Especially in the presence of uncertainties, optimal cooperation often requires that humans and artificial agents model each other's behavior and use these models to infer underlying goals, beliefs or intentions, potentially involving multiple levels of recursion. Empirical evidence for such higher-order cognition in human behavior is also provided by previous works in cognitive science, linguistics, and robotics. We advocate for a new paradigm for active learning for human feedback that utilises humans as active data sources while accounting for their higher levels of agency. In particular, we discuss how increasing level of agency results in qualitatively different forms of rational communication between an active learning system and a teacher. Additionally, we provide a practical example of active learning using a higher-order cognitive model. This is accompanied by a computational study that underscores the unique behaviors that this model produces.
翻訳日:2024-01-10 16:43:48 公開日:2024-01-09
# 雑音ラベルによる学習:2つの期待値の相互接続

Learning with Noisy Labels: Interconnection of Two Expectation-Maximizations ( http://arxiv.org/abs/2401.04390v1 )

ライセンス: Link先を確認
Heewon Kim, Hyun Sung Chang, Kiho Cho, Jaeyun Lee, Bohyung Han(参考訳) 労働集約型ラベリングは、ディープラーニングに基づくコンピュータビジョンアルゴリズムの開発においてボトルネックとなる。 このため、不完全なラベルを扱うことが注目され、研究の活発な分野となっている。 雑音データ中の構造的多様体を見つけるタスクとして形式化された雑音ラベル(LNL)問題による学習に対処する。 この枠組みでは、2つの期待最大化(em)サイクルに基づく適切な目的関数と最適化アルゴリズムを提供する。 2つのEMサイクルに関連付けられたネットワークは目的関数を最適化するために協力し、一方のモデルはクリーンラベルと破損ラベルを区別し、もう一方は破損ラベルを修復する。 このアプローチにより、最後には非折り畳み式LNLフライホイールモデルが得られる。 実験により, 各種ラベル雑音下でのマージンがかなり大きい複数の標準ベンチマークにおいて, 最先端性能を実現することができた。

Labor-intensive labeling becomes a bottleneck in developing computer vision algorithms based on deep learning. For this reason, dealing with imperfect labels has increasingly gained attention and has become an active field of study. We address learning with noisy labels (LNL) problem, which is formalized as a task of finding a structured manifold in the midst of noisy data. In this framework, we provide a proper objective function and an optimization algorithm based on two expectation-maximization (EM) cycles. The separate networks associated with the two EM cycles collaborate to optimize the objective function, where one model is for distinguishing clean labels from corrupted ones while the other is for refurbishing the corrupted labels. This approach results in a non-collapsing LNL-flywheel model in the end. Experiments show that our algorithm achieves state-of-the-art performance in multiple standard benchmarks with substantial margins under various types of label noise.
翻訳日:2024-01-10 16:43:34 公開日:2024-01-09
# きめ細かいモデルパラメータ摂動による機械学習

Machine unlearning through fine-grained model parameters perturbation ( http://arxiv.org/abs/2401.04385v1 )

ライセンス: Link先を確認
Zhiwei Zuo, Zhuo Tang, Kenli Li, Anwitaman Datta(参考訳) データレコードの抽出とトレーニングされたモデルへの影響の低減を含む機械学習技術は、ユーザのプライバシ保護の目標に役立ちながら、計算コストを大幅に削減する。 重度摂動に基づくアンラーニングは一般的なアプローチであるが、通常はグローバルなパラメータの変更を伴う。 我々は,計算コストを扱いやすく保ちながら,プライバシニーズに対処し得る,不規則なマシンアンラーニング戦略を乱用した,きめ細かいトップkパラメータとランダムkパラメータを提案する。 また,本手法の有効性を実証するために,学習データと学習データの両方にまたがるモデルの一般化性能を考慮し,機械学習の有効性を評価する。 非学習効果とモデル一般化をよりよく評価するために,記憶保持率と記憶保持率という新しい指標を提案する。 しかし、不正確な機械学習では、未学習戦略の適用後に発生する忘れの程度を定量化するには、現在のメトリクスが不十分である。 そこで本研究では,学習対象データの分布を微妙に乱すSPD-GANを提案する。 そして、未学習プロセスの前後における混乱した未学習データのモデルの性能差を計測し、未学習の程度を評価する。 これらの革新的な技術とメトリクスを実装することで、モデル性能を犠牲にすることなく、機械学習アプリケーションにおける計算効率の高いプライバシー保護を実現する。 さらに,このアプローチは,未学習の程度を評価する新しい手法を提供する。

Machine unlearning techniques, which involve retracting data records and reducing influence of said data on trained models, help with the user privacy protection objective but incur significant computational costs. Weight perturbation-based unlearning is a general approach, but it typically involves globally modifying the parameters. We propose fine-grained Top-K and Random-k parameters perturbed inexact machine unlearning strategies that address the privacy needs while keeping the computational costs tractable. In order to demonstrate the efficacy of our strategies we also tackle the challenge of evaluating the effectiveness of machine unlearning by considering the model's generalization performance across both unlearning and remaining data. To better assess the unlearning effect and model generalization, we propose novel metrics, namely, the forgetting rate and memory retention rate. However, for inexact machine unlearning, current metrics are inadequate in quantifying the degree of forgetting that occurs after unlearning strategies are applied. To address this, we introduce SPD-GAN, which subtly perturbs the distribution of data targeted for unlearning. Then, we evaluate the degree of unlearning by measuring the performance difference of the models on the perturbed unlearning data before and after the unlearning process. By implementing these innovative techniques and metrics, we achieve computationally efficacious privacy protection in machine learning applications without significant sacrifice of model performance. Furthermore, this approach provides a novel method for evaluating the degree of unlearning.
翻訳日:2024-01-10 16:43:20 公開日:2024-01-09
# 分解相転移の順序パラメータとしてのクリロフ複雑性

Krylov complexity as an order parameter for deconfinement phase transitions at large $N$ ( http://arxiv.org/abs/2401.04383v1 )

ライセンス: Link先を確認
Takanori Anegawa, Norihiro Iizuka, Mitsuhiro Nishida(参考訳) クリロフ複雑性は、非可積分格子および量子力学系におけるカオスの診断として提案されており、システムがカオスであれば、クリロフ複雑性は時間とともに指数関数的に増大する。 しかし、クリャロフ複雑性が場の量子論に適用されるとき、自由理論においても時間とともに指数関数的に成長する。 この自由理論の指数的成長は、単に非コンパクト空間の連続運動量によるものであり、理論の質量スペクトルとは無関係である。 したがって、空間を十分にコンパクト化することにより、連続運動量によるクリロフ複雑性の指数的成長を回避できる。 本稿では,$\mathcal{o}=\textrm{tr}[f_{\mu\nu}f^{\mu\nu}] のような作用素のクリロフ複雑性を,そのようなコンパクト化された空間上の大きな n$ 量子場理論における閉じ込め・解禁遷移の順序パラメータとして提案する。 我々は、運動量と質量スペクトルによるスペクトルの連続性を区別するために、有限温度でのコンパクト化の処方を明示的に与える。 次に、スペクトルのホログラフィック解析を用いて、大きな$N$極限における$\mathcal{N}=4, 0$ $SU(N)$ Yang-Mills理論のクリロフ複雑性を計算し、Krylov複雑性の挙動が質量スペクトルの連続性を通しての閉じ込め/分解相転移を反映していることを示す。

Krylov complexity has been proposed as a diagnostic of chaos in non-integrable lattice and quantum mechanical systems, and if the system is chaotic, Krylov complexity grows exponentially with time. However, when Krylov complexity is applied to quantum field theories, even in free theory, it grows exponentially with time. This exponential growth in free theory is simply due to continuous momentum in non-compact space and has nothing to do with the mass spectrum of theories. Thus by compactifying space sufficiently, exponential growth of Krylov complexity due to continuous momentum can be avoided. In this paper, we propose that the Krylov complexity of operators such as $\mathcal{O}=\textrm{Tr}[F_{\mu\nu}F^{\mu\nu}]$ can be an order parameter of confinement/deconfinement transitions in large $N$ quantum field theories on such a compactified space. We explicitly give a prescription of the compactification at finite temperature to distinguish the continuity of spectrum due to momentum and mass spectrum. We then calculate the Krylov complexity of $\mathcal{N}=4, 0$ $SU(N)$ Yang-Mills theories in the large $N$ limit by using holographic analysis of the spectrum and show that the behavior of Krylov complexity reflects the confinement/deconfinement phase transitions through the continuity of mass spectrum.
翻訳日:2024-01-10 16:42:55 公開日:2024-01-09
# カテゴリー6Dポッドトラッカーを用いた実世界空中視誘導に向けて

Towards Real-World Aerial Vision Guidance with Categorical 6D Pose Tracker ( http://arxiv.org/abs/2401.04377v1 )

ライセンス: Link先を確認
Jingtao Sun, Yaonan Wang, Danwei Wang(参考訳) オブジェクト6-DoFのポーズを追跡することは、さまざまな下流ロボットタスクや現実世界のアプリケーションに不可欠である。 本稿では,カテゴリーレベルの6-DoFポーズトラッキングを利用して,空中ロボット操作のための空中視覚誘導の現実ロボットタスクについて検討する。 航空条件は、ピッチやロールの迅速な視点変化など、必然的に特別な課題をもたらす。 この課題と課題を支援するために、まず、ロバスト6DoF(Robust6DoF)というロバストなカテゴリレベルのポーズトラッカーを導入する。 このトラッカーは、形状と時間的事前知識を利用して、粗大な方法で事前構造適応監視の下で生成される最適なフレーム間キーポイントペアを探索する。 特に,我々のRobust6DoFでは,時間的動的フィルタリングと形状相似フィルタリングの両方によるフレーム間差とクラス内形状変化の問題に対処するために,空間時間拡張モジュールを採用している。 さらに,Pose-Aware Discrete Servo(PAD-Servo)戦略について述べる。 エアロロボティクスの操作の構造的特性をよりよく適合させるために、2つのサーボアクションポリシーを含んでいる。 4つのよく知られた公開ベンチマークでの発掘実験は、我々のRobust6DoFの優位性を示している。 実世界のテストは、我々のRobust6DoFとPAD-Servoが現実世界の空中ロボットアプリケーションで容易に利用できることを直接確認します。

Tracking the object 6-DoF pose is crucial for various downstream robot tasks and real-world applications. In this paper, we investigate the real-world robot task of aerial vision guidance for aerial robotics manipulation, utilizing category-level 6-DoF pose tracking. Aerial conditions inevitably introduce special challenges, such as rapid viewpoint changes in pitch and roll. To support this task and challenge, we firstly introduce a robust category-level 6-DoF pose tracker (Robust6DoF). This tracker leverages shape and temporal prior knowledge to explore optimal inter-frame keypoint pairs, generated under a priori structural adaptive supervision in a coarse-to-fine manner. Notably, our Robust6DoF employs a Spatial-Temporal Augmentation module to deal with the problems of the inter-frame differences and intra-class shape variations through both temporal dynamic filtering and shape-similarity filtering. We further present a Pose-Aware Discrete Servo strategy (PAD-Servo), serving as a decoupling approach to implement the final aerial vision guidance task. It contains two servo action policies to better accommodate the structural properties of aerial robotics manipulation. Exhaustive experiments on four well-known public benchmarks demonstrate the superiority of our Robust6DoF. Real-world tests directly verify that our Robust6DoF along with PAD-Servo can be readily used in real-world aerial robotic applications.
翻訳日:2024-01-10 16:42:29 公開日:2024-01-09
# 連続可変真の多部絡み合いの最小基準

Minimal criteria for continuous-variable genuine multipartite entanglement ( http://arxiv.org/abs/2401.04376v1 )

ライセンス: Link先を確認
Olga Leskovjanov\'a and Ladislav Mi\v{s}ta Jr(参考訳) 我々は二次作用素の第二モーメントに対する真のマルチモード絡み合い基準のセットを導出する。 この基準は、位置のばらつきの和と運動量二次結合の間の不確実性関係の共通形を持つ。 基準のユニークな特徴は、和が少なくとも2つのモードの組み合わせの最小の分散数を含むことである。 基準を適用するために知っておくべき2番目のモーメントの数は、既存の基準の2次スケーリングとは対照的に、モードの数に線形にしかスケールしない。 各基準は木グラフに関連付けられており、基礎となる木の構造にのみ基づく基準の直接的構築方法の開発が可能となった。 提案手法の実用性は,最大6モードのガウス状態の真の多モード絡みが検出される多くの例を見出すことによって実証される。 設計基準は, 大規模多モード状態における真のマルチパーティイト絡みの検証に特に適しており, 調査対象の2モード近傍の辺縁共分散行列のセットのみが利用可能である。

We derive a set of genuine multi-mode entanglement criteria for second moments of the quadrature operators. The criteria have a common form of the uncertainty relation between sums of variances of position and momentum quadrature combinations. A unique feature of the criteria is that the sums contain the least possible number of variances of at most two-mode combinations. The number of second moments we need to know to apply the criteria thus scales only linearly with the number of modes, as opposed to the quadratic scaling of the already existing criteria. Each criterion is associated with a tree graph, which allowed us to develop a direct method of construction of the criteria based solely on the structure of the underlying tree. The practicality of the proposed criteria is demonstrated by finding a number of examples of Gaussian states of up to six modes, whose genuine multi-mode entanglement is detected by them. The designed criteria are particularly suitable for verification of genuine multipartite entanglement in large multi-mode states or when only a set of two-mode nearest-neighbour marginal covariance matrices of the investigated state is available.
翻訳日:2024-01-10 16:42:00 公開日:2024-01-09
# 説明可能な人工知能(XAI):データマイニングの展望

Towards Explainable Artificial Intelligence (XAI): A Data Mining Perspective ( http://arxiv.org/abs/2401.04374v1 )

ライセンス: Link先を確認
Haoyi Xiong and Xuhong L and Xiaofei Zhang and Jiamin Chen and Xinhao Sun and Yuchen Li and Zeyi Sun and Mengnan Du(参考訳) ディープニューラルネットワーク(DNN)の複雑さと透明性の欠如を考えると、これらのシステムをより解釈しやすくしたり、アクセス可能な言葉でそれらの振る舞いを説明するために、広範囲な努力がなされている。 アルゴリズムとモデル中心の視点に焦点を当てたほとんどのレビューとは異なり、この研究は、データ収集、処理、分析が説明可能なAI(XAI)にどのように貢献するかを「データ中心」の視点で検証する。 We categorize existing work into three categories subject to their purposes: interpretations of deep models, referring to feature attributions and reasoning processes that correlate data points with model outputs; influences of training data, examining the impact of training data nuances, such as data valuation and sample anomalies, on decision-making processes; and insights of domain knowledge, discovering latent patterns and fostering new knowledge from data and models to advance social values and scientific discovery. 具体的には、トレーニングログ、チェックポイント、モデル、その他のdnn行動記述子だけでなく、画像、テキスト、表データなどのモダリティをまたいだデータのトレーニングとテストに関するデータマイニング操作にxai方法論を蒸留します。 このようにして,本研究では,データマイニング手法と応用の観点から,xaiを包括的かつデータ中心に検討する。

Given the complexity and lack of transparency in deep neural networks (DNNs), extensive efforts have been made to make these systems more interpretable or explain their behaviors in accessible terms. Unlike most reviews, which focus on algorithmic and model-centric perspectives, this work takes a "data-centric" view, examining how data collection, processing, and analysis contribute to explainable AI (XAI). We categorize existing work into three categories subject to their purposes: interpretations of deep models, referring to feature attributions and reasoning processes that correlate data points with model outputs; influences of training data, examining the impact of training data nuances, such as data valuation and sample anomalies, on decision-making processes; and insights of domain knowledge, discovering latent patterns and fostering new knowledge from data and models to advance social values and scientific discovery. Specifically, we distill XAI methodologies into data mining operations on training and testing data across modalities, such as images, text, and tabular data, as well as on training logs, checkpoints, models and other DNN behavior descriptors. In this way, our study offers a comprehensive, data-centric examination of XAI from a lens of data mining methods and applications.
翻訳日:2024-01-10 16:41:42 公開日:2024-01-09
# 拡散写像を用いた安定生成モデリング

Stable generative modeling using diffusion maps ( http://arxiv.org/abs/2401.04372v1 )

ライセンス: Link先を確認
Georg Gottwald, Fengyi Li, Youssef Marzouk, Sebastian Reich(参考訳) 十分な数のトレーニングサンプルしか入手できない未知の分布からのサンプリングの問題を考える。 このような設定は、最近生成モデリングの文脈にかなりの関心を寄せている。 本稿では,拡散写像とランゲヴィンダイナミクスを組み合わせた生成モデルを提案する。 拡散マップは、利用可能なトレーニングサンプルからドリフト項を近似するために使用され、新しいサンプルを生成するために離散時間ランゲヴィンサンプリング器で実装される。 カーネル帯域幅を未調整のランゲヴィンアルゴリズムで使用する時間ステップサイズに合わせることで、時間ステッピングの剛性確率微分方程式に典型的な安定性問題を効果的に回避する。 より正確には、新しい分割ステップスキームを導入し、生成されたサンプルがトレーニングサンプルの凸包内に留まることを保証する。 我々のフレームワークは自然に拡張して条件付きサンプルを生成することができる。 提案手法は,次元の増大を伴う合成データセットと,確率的サブグリッドスケールパラメトリゼーション条件付きサンプリング問題を用いて提案手法の性能を示す。

We consider the problem of sampling from an unknown distribution for which only a sufficiently large number of training samples are available. Such settings have recently drawn considerable interest in the context of generative modelling. In this paper, we propose a generative model combining diffusion maps and Langevin dynamics. Diffusion maps are used to approximate the drift term from the available training samples, which is then implemented in a discrete-time Langevin sampler to generate new samples. By setting the kernel bandwidth to match the time step size used in the unadjusted Langevin algorithm, our method effectively circumvents any stability issues typically associated with time-stepping stiff stochastic differential equations. More precisely, we introduce a novel split-step scheme, ensuring that the generated samples remain within the convex hull of the training samples. Our framework can be naturally extended to generate conditional samples. We demonstrate the performance of our proposed scheme through experiments on synthetic datasets with increasing dimensions and on a stochastic subgrid-scale parametrization conditional sampling problem.
翻訳日:2024-01-10 16:41:22 公開日:2024-01-09
# nパス干渉計の一般化波-粒子混合実験

Generalized wave-particle-Mixdness triality for n-path interferometers ( http://arxiv.org/abs/2401.04370v1 )

ライセンス: Link先を確認
Y. T. Tsui, and Sunho Kim(参考訳) ボーア相補性の表現の1つである波動粒子双対性は、通常、経路予測可能性と干渉縞の可視性によって定量化される。 量子資源理論の発展に伴い、波動粒子双対性の定量的解析が増加し、そのほとんどは特定の関数の形で表現されている。 本稿では,純状態のコヒーレンス測度を対称凸関数に変換することにより,純状態の経路情報測度を求める。 そして、経路情報測度としての関数が混合状態に対しても有効であることを示す。 さらに, 一般化された波動粒子混合特性も確立する。 テキストで提案される混合度は完全な混合度尺度ではないが、混合度尺度のいくつかの条件を満たす。 資源理論の観点から、我々が確立した経路情報は、予測可能性の資源の尺度として利用することができ、また、確立したトライアリティ関係は、一貫性、予測可能性、純度、混合度の関係をある程度明らかにする。 本手法では、コヒーレンス測度または経路情報のいずれかが与えられた場合、特定の波形-粒子-混合性軌跡を確立することができる。 これは波動、粒子および他の物理量化器間の接続を確立する上で重要な役割を果たす。

The wave-particle duality, as one of the expressions of Bohr complementarity, is usually quantified by path predictability and the visibility of interference fringes. With the development of quantum resource theory, the quantitative analysis of wave-particle duality is increasing, most of which are expressed in the form of specific functions. In this paper, we obtain the path information measure for pure states by converting the coherence measure for pure state into a symmetric concave function. Then we prove the function as a path information measure is also valid for mixed states. Furthermore, we also establish a generalized wave-particle-mixedness traility. Although the mixedness proposed in the text is not a complete mixedness measure, it also satisfies some conditions of mixdness measure. From the perspective of resource theory, the path information we establish can be used as the measure of the resource of predictability, and the triaility relationship we establish reveals the relationship among coherence, predictability, purity and mixdness degree to a certain extent. According to our method, given either coherence measure or path information, a particular form of wave-particle-mixedness traility can be established. This will play an important role in establishing connections between wave, particle and other physical quantifiers.
翻訳日:2024-01-10 16:41:06 公開日:2024-01-09
# 機械学習による大気質予測:低リソース環境におけるグローバルな視点

Air Quality Forecasting Using Machine Learning: A Global perspective with Relevance to Low-Resource Settings ( http://arxiv.org/abs/2401.04369v1 )

ライセンス: Link先を確認
Mulomba Mukendi Christian, Hyebong Choi(参考訳) 大気汚染は世界で4番目に大きな死因となっている。 この領域で広範な研究が行われているが、ほとんどのアプローチは予測に関して大きなデータセットに依存している。 これにより、低リソース設定での適用性は制限されるが、より脆弱である。 本研究では,2ヶ月の空気質データを用いた空気質予測のための新しい機械学習手法を提案する。 世界気象レポジトリを活用することで、197都市の気象、大気汚染物質、大気汚染指数の特徴を翌日の大気質を予測することが検討された。 いくつかの機械学習モデルの評価は、信頼性のある予測を生成するためのランダムフォレストアルゴリズムの有効性を示し、特に回帰よりも分類に適用した場合、モデルの一般化可能性を高めるアプローチが42%向上し、回帰は0.38、分類は0.89となった。 予測に自信を与えるため、解釈可能な機械学習が検討された。 最後に、技術ライセンスビジネスモデルの仮案を含む高リソースおよび低リソース設定におけるこのソリューションの実装を比較したコスト見積を行う。 この研究は、資源が限られている国々が独自に空気質を予測できる可能性を強調し、より大きなデータセットがさらなる予測を洗練するのを待っている。

Air pollution stands as the fourth leading cause of death globally. While extensive research has been conducted in this domain, most approaches rely on large datasets when it comes to prediction. This limits their applicability in low-resource settings though more vulnerable. This study addresses this gap by proposing a novel machine learning approach for accurate air quality prediction using two months of air quality data. By leveraging the World Weather Repository, the meteorological, air pollutant, and Air Quality Index features from 197 capital cities were considered to predict air quality for the next day. The evaluation of several machine learning models demonstrates the effectiveness of the Random Forest algorithm in generating reliable predictions, particularly when applied to classification rather than regression, approach which enhances the model's generalizability by 42%, achieving a cross-validation score of 0.38 for regression and 0.89 for classification. To instill confidence in the predictions, interpretable machine learning was considered. Finally, a cost estimation comparing the implementation of this solution in high-resource and low-resource settings is presented including a tentative of technology licensing business model. This research highlights the potential for resource-limited countries to independently predict air quality while awaiting larger datasets to further refine their predictions.
翻訳日:2024-01-10 16:40:44 公開日:2024-01-09
# 集中治療室における薬物特徴の統合による急性腎臓損傷予測の強化

Enhancing Acute Kidney Injury Prediction through Integration of Drug Features in Intensive Care Units ( http://arxiv.org/abs/2401.04368v1 )

ライセンス: Link先を確認
Gabriel D. M. Manalu, Mulomba Mukendi Christian, Songhee You, Hyebong Choi(参考訳) 急性腎障害(AKI)予測と腎障害薬(腎臓機能に悪影響を及ぼす薬物)との関係は、まだ重要なケア環境で研究されていない。 この研究のギャップに寄与する要因の1つは、対応する薬物表現に処方データを処理することの難しさと、これらの薬物表現の包括的理解の欠如により、集中治療単位(ICU)コンテキストにおける薬物モダリティの限定的な調査である。 本研究では,患者処方データをモダリティとして利用する新しいアプローチを提案することで,このギャップを解消した。 本研究は電子健康記録(EHR)データに基づいて,関連患者処方情報を抽出し,その薬剤表現に変換し,拡張接続指紋(ECFP)を作成した。 さらに,臨床薬品表現に応用した機械学習モデルと1次元畳み込みニューラルネットワーク(CNN)を開発し,AKIを予測したこれまでの研究で使われていない手順を確立した。 以上の結果より, 薬物注入と他のコホート機能の統合によるAKI予測の顕著な改善が認められた。 ecfp分子指紋に代表される薬物の特徴と、人口統計学や検査値などの共通のコホート特徴を用いることで、薬物表現を特徴として含まない基準モデルよりも、aki予測タスクのモデル性能が大幅に向上し、当社のアプローチが既存のベースライン技術を強化し、icu設定におけるakiの予測における薬物データとの関連性を強調していることを示す。

The relationship between acute kidney injury (AKI) prediction and nephrotoxic drugs, or drugs that adversely affect kidney function, is one that has yet to be explored in the critical care setting. One contributing factor to this gap in research is the limited investigation of drug modalities in the intensive care unit (ICU) context, due to the challenges of processing prescription data into the corresponding drug representations and a lack in the comprehensive understanding of these drug representations. This study addresses this gap by proposing a novel approach that leverages patient prescription data as a modality to improve existing models for AKI prediction. We base our research on Electronic Health Record (EHR) data, extracting the relevant patient prescription information and converting it into the selected drug representation for our research, the extended-connectivity fingerprint (ECFP). Furthermore, we adopt a unique multimodal approach, developing machine learning models and 1D Convolutional Neural Networks (CNN) applied to clinical drug representations, establishing a procedure which has not been used by any previous studies predicting AKI. The findings showcase a notable improvement in AKI prediction through the integration of drug embeddings and other patient cohort features. By using drug features represented as ECFP molecular fingerprints along with common cohort features such as demographics and lab test values, we achieved a considerable improvement in model performance for the AKI prediction task over the baseline model which does not include the drug representations as features, indicating that our distinct approach enhances existing baseline techniques and highlights the relevance of drug data in predicting AKI in the ICU setting
翻訳日:2024-01-10 16:40:24 公開日:2024-01-09
# 患者報告体験の確率的感情と感情モデリング

Probabilistic emotion and sentiment modelling of patient-reported experiences ( http://arxiv.org/abs/2401.04367v1 )

ライセンス: Link先を確認
Curtis Murray, Lewis Mitchell, Jonathan Tuke, Mark Mackay(参考訳) 本研究は,オンライン患者体験物語から患者感情をモデル化する新しい手法を提案する。 ケアオピニオンから患者に報告された経験を分析し,患者と介護者の相互作用と臨床結果に関連する重要な感情的テーマを明らかにするために,メタデータネットワークトピックスモデリングを用いた。 文脈に有意義な話題を予測器として用い,ナイーブベイズ分類器を用いて,多段感情とバイナリ感情の両方を予測できる確率的・文脈特異的感情推薦システムを開発した。 本モデルにおける予測感情の性能は, 情報検索指標 ndcg と q-measure を用いて評価し, f1 スコア 0.921 となり, 標準感情レキシコンを有意に上回った。 患者からのフィードバックを理解し、従来の収集方法を強化し、個別の患者ケアを通知する透過的で費用対効果の高い方法を提供する。 我々の発見は、Rパッケージとインタラクティブダッシュボードを通じてアクセスでき、医療研究者や実践者にとって貴重なツールを提供する。

This study introduces a novel methodology for modelling patient emotions from online patient experience narratives. We employed metadata network topic modelling to analyse patient-reported experiences from Care Opinion, revealing key emotional themes linked to patient-caregiver interactions and clinical outcomes. We develop a probabilistic, context-specific emotion recommender system capable of predicting both multilabel emotions and binary sentiments using a naive Bayes classifier using contextually meaningful topics as predictors. The superior performance of our predicted emotions under this model compared to baseline models was assessed using the information retrieval metrics nDCG and Q-measure, and our predicted sentiments achieved an F1 score of 0.921, significantly outperforming standard sentiment lexicons. This method offers a transparent, cost-effective way to understand patient feedback, enhancing traditional collection methods and informing individualised patient care. Our findings are accessible via an R package and interactive dashboard, providing valuable tools for healthcare researchers and practitioners.
翻訳日:2024-01-10 16:39:51 公開日:2024-01-09
# SoK:顔のディープフェイク検出装置

SoK: Facial Deepfake Detectors ( http://arxiv.org/abs/2401.04364v1 )

ライセンス: Link先を確認
Binh M. Le, Jiwon Kim, Shahroz Tariq, Kristen Moore, Alsharif Abuadbba, Simon S. Woo(参考訳) ディープフェイクは、創造と普及の容易さから、社会に深刻な脅威として急速に現れてきた。 この状況はディープフェイク検出技術の開発を加速させた。 しかし、既存の検出器の多くは、実験室が生成したデータセットの検証に大きく依存しているため、新しい、新しい、そして現実世界のディープフェイク技術に効果的に対応できない可能性がある。 本稿では,最新のディープフェイク検出器の広範囲かつ包括的なレビューと解析を行い,いくつかの重要な基準に照らして評価する。 これらの基準は、これらの検出器を4つの高レベル群と13のきめ細かい部分群に分類し、全て統一された標準概念の枠組みと整合する。 この分類と枠組みは、検出器の有効性に影響する要因について深く実践的な洞察を提供する。 我々は,ブラックボックス,ホワイトボックス,グレーボックスの設定など,様々な標準的な攻撃シナリオにおける16個の主要検出器の一般化可能性を評価する。 我々の体系化された分析と実験は、ディープフェイク検出器とその一般化可能性の深い理解の土台となり、様々な攻撃シナリオに対応可能な検出器を作成することに焦点を当てた将来の研究の道を開いた。 さらに、この研究はディープフェイクに対するより積極的な防御を開発するための洞察を提供する。

Deepfakes have rapidly emerged as a profound and serious threat to society, primarily due to their ease of creation and dissemination. This situation has triggered an accelerated development of deepfake detection technologies. However, many existing detectors rely heavily on lab-generated datasets for validation, which may not effectively prepare them for novel, emerging, and real-world deepfake techniques. In this paper, we conduct an extensive and comprehensive review and analysis of the latest state-of-the-art deepfake detectors, evaluating them against several critical criteria. These criteria facilitate the categorization of these detectors into 4 high-level groups and 13 fine-grained sub-groups, all aligned with a unified standard conceptual framework. This classification and framework offer deep and practical insights into the factors that affect detector efficacy. We assess the generalizability of 16 leading detectors across various standard attack scenarios, including black-box, white-box, and gray-box settings. Our systematized analysis and experimentation lay the groundwork for a deeper understanding of deepfake detectors and their generalizability, paving the way for future research focused on creating detectors adept at countering various attack scenarios. Additionally, this work offers insights for developing more proactive defenses against deepfakes.
翻訳日:2024-01-10 16:39:33 公開日:2024-01-09
# スケッチ抽出における拡散過程における代表的特徴抽出

Representative Feature Extraction During Diffusion Process for Sketch Extraction with One Example ( http://arxiv.org/abs/2401.04362v1 )

ライセンス: Link先を確認
Kwan Yun, Youngseo Kim, Kwanggyoon Seo, Chang Wook Seo, Junyong Noh(参考訳) DiffSketchは、画像から様々なスタイル化されたスケッチを生成する方法である。 提案手法は,事前学習した拡散モデル内での深部特徴の豊かな意味論から代表的特徴を選択することに焦点を当てる。 この新しいスケッチ生成方法は、1つの手描きで訓練することができる。 さらに、訓練された発電機を流線形抽出器に蒸留することにより、効率的なスケッチ抽出を実現する。 解析により拡散特徴を識別し,これらの特徴をVAE特徴と統合してスケッチを作成する。 さらに,条件付き生成手法を用いたモデル学習のためのサンプリング手法を提案する。 DiffSketchの蒸留法は, 既存のスケッチ抽出法に勝るだけでなく, スケッチ抽出作業において, 拡散型スタイリゼーション法を超越していることを確認した。

We introduce DiffSketch, a method for generating a variety of stylized sketches from images. Our approach focuses on selecting representative features from the rich semantics of deep features within a pretrained diffusion model. This novel sketch generation method can be trained with one manual drawing. Furthermore, efficient sketch extraction is ensured by distilling a trained generator into a streamlined extractor. We select denoising diffusion features through analysis and integrate these selected features with VAE features to produce sketches. Additionally, we propose a sampling scheme for training models using a conditional generative approach. Through a series of comparisons, we verify that distilled DiffSketch not only outperforms existing state-of-the-art sketch extraction methods but also surpasses diffusion-based stylization methods in the task of extracting sketches.
翻訳日:2024-01-10 16:39:11 公開日:2024-01-09
# 量子実験におけるフロンティア科学:CERNにおけるAEgIS

Frontier science in a quantum experiment: AEgIS at CERN ( http://arxiv.org/abs/2401.04440v1 )

ライセンス: Link先を確認
Georgy Kornakov and Jakub Zieli\'nski(参考訳) 原子や分子レベルでの物質の精密な操作は、生物学、医学、物質科学、量子技術、電子工学などの様々な分野に影響を及ぼすナノ技術革命の道を開いた。 CERNのAntiproton Decelerator施設では、AEgIS実験は最先端技術を利用して、物質と反物質の両方を含む合成エキゾチックな原子を保存し、操作する。 このような実験は、基本的相互作用をよりよく理解し、宇宙に反物質がないという謎を解き明かす可能性を秘めている。 さらに、発達した技術は、量子センシングおよび量子コンピューティング応用の重要な側面であるイオンの量子状態を制御する技術フロンティアを前進させる。

Precise manipulation of matter at the atomic or molecular level has provided the path for the nanotechnological revolution impacting diverse fields such as biology, medicine, material science, quantum technologies, and electronics. At the Antiproton Decelerator facility at CERN, the AEgIS experiment utilises state-of-the-art technology to store and manipulate synthesised exotic atoms containing both matter and antimatter. Such experiments lay the groundwork for a better understanding of the fundamental interactions and hold the potential to unravel the enigma of the absence of antimatter in our universe. Additionally, the developed techniques advance the technological frontier of controlling the quantum states of ions, a critical aspect of quantum sensing and quantum computing applications.
翻訳日:2024-01-10 16:22:41 公開日:2024-01-09
# 光子減算とテレアンプリフィケーションを用いた多成分cat符号の誤り抑制

Error suppression in multicomponent cat codes with photon subtraction and teleamplification ( http://arxiv.org/abs/2401.04439v1 )

ライセンス: Link先を確認
Saurabh U. Shringarpure, Yong Siah Teo and Hyunseok Jeong(参考訳) 多光子状態は、受動損失チャネルによるデコヒーレンスから、ノイズのない減衰とチャネル後のノイズのない増幅を施すことで保護できることが知られている。 本研究では,4成分の猫符号に対するマルチフォトン減算とテレアンプリケーションを併用し,検出と環境損失による誤差を効果的に抑制する手法を提案する。 多光子サブトラクションからのバックアクションは、猫状態に符号化された量子ビットを、高い光子数を抑制することにより変更し、同時に、元の量子ビットをテレアンプリフィケーションとエラー修正により効果的に回収し、量子情報を保存する。 現実的な光子減算とテレアンプリフィケーションに基づくスキームと最適な誤り補正マップにより、最低成功確率が約3.42\%$、環境損失率が$10\%、検出器効率が$5\%、コヒーレント状態の振幅が 2 である猫の状態が十分大きい場合、最低値が$93.5\%$ (82\%$) 以上となる。 これは、直接量子通信や光プラットフォーム上の符号化量子ビットの保存など、ノイズの多い中間スケール量子(NISQ)時代の量子情報タスクにおいて、大きな受動的損失と戦うための有望な標準となる。

It is known that multiphoton states can be protected from decoherence due to a passive loss channel by applying noiseless attenuation before and noiseless amplification after the channel. In this work, we propose the combined use of multiphoton subtraction on four-component cat codes and teleamplification to effectively suppress errors under detection and environmental losses. The back-action from multiphoton subtraction modifies the encoded qubit encoded on cat states by suppressing the higher photon numbers, while simultaneously ensuring that the original qubit can be recovered effectively through teleamplification followed by error correction, thus preserving its quantum information. With realistic photon subtraction and teleamplification-based scheme followed by optimal error-correcting maps, one can achieve a worst-case fidelity (over all encoded pure states) of over $93.5\%$ ($82\%$ with only noisy teleamplification) at a minimum success probability of about $3.42\%$, under a $10\%$ environmental-loss rate, $95\%$ detector efficiency and sufficiently large cat states with the coherent-state amplitudes of 2. This sets a promising standard for combating large passive losses in quantum-information tasks in the noisy intermediate-scale quantum (NISQ) era, such as direct quantum communication or the storage of encoded qubits on the photonic platform.
翻訳日:2024-01-10 16:22:27 公開日:2024-01-09
# 次元縮小法を用いたハイパースペクトルイメージングにおける異常検出の実証的解析

Empirical Analysis of Anomaly Detection on Hyperspectral Imaging Using Dimension Reduction Methods ( http://arxiv.org/abs/2401.04437v1 )

ライセンス: Link先を確認
Dongeon Kim, YeongHyeon Park(参考訳) 近年の研究では、紫外線や赤外線を含む見えない波長を可視化できるため、製品中の異物を検出するためにハイパースペクトルイメージング(HSI)が試みられている。 HSIの巨大な画像チャネルを考えると、PCAやUMAPのようないくつかの次元削減手法は削減できるが、基本的な制限を緩和することはできない。 2) 重要なチャネルの説明能力の低下。 本稿では,上記の手法を回避するために,異常検出におけるチャネル低減の一手法として,hsiを提案する。 特徴抽出法(PCA や UMAP など)と異なり、特徴選択は影響によって特徴をソートし、より説明性が良く、タスク最適化およびコスト効率のよい分光カメラを再設計することができる。 MVTec ADデータセットを用いた広範囲な実験結果から,特徴抽出法は異常検出性能を保ちながら,特徴抽出に基づくアプローチと比較して,推測段階で6.90倍高速であることを確認した。 最終的に、効果的かつ高速な機能選択の利点を結論付けます。

Recent studies try to use hyperspectral imaging (HSI) to detect foreign matters in products because it enables to visualize the invisible wavelengths including ultraviolet and infrared. Considering the enormous image channels of the HSI, several dimension reduction methods-e.g., PCA or UMAP-can be considered to reduce but those cannot ease the fundamental limitations, as follows: (1) latency of HSI capturing. (2) less explanation ability of the important channels. In this paper, to circumvent the aforementioned methods, one of the ways to channel reduction, on anomaly detection proposed HSI. Different from feature extraction methods (i.e., PCA or UMAP), feature selection can sort the feature by impact and show better explainability so we might redesign the task-optimized and cost-effective spectroscopic camera. Via the extensive experiment results with synthesized MVTec AD dataset, we confirm that the feature selection method shows 6.90x faster at the inference phase compared with feature extraction-based approaches while preserving anomaly detection performance. Ultimately, we conclude the advantage of feature selection which is effective yet fast.
翻訳日:2024-01-10 16:21:53 公開日:2024-01-09
# 長期半教師付き学習における不確実性認識サンプリング

Uncertainty-aware Sampling for Long-tailed Semi-supervised Learning ( http://arxiv.org/abs/2401.04435v1 )

ライセンス: Link先を確認
Kuo Yang, Duo Li, Menghan Hu, Guangtao Zhai, Xiaokang Yang, Xiao-Ping Zhang(参考訳) 不均衡クラスを持つ半教師付き学習では、データの長期分布は支配クラスに対するモデル予測バイアスを増大させ、より頻度の低いクラスのパフォーマンスを損なう。 既存の手法では、モデルトレーニングのための十分な信頼性の高い擬似ラベルの選定が困難であり、異なるトレーニング段階に基づいてより信頼性の高い擬似ラベルの選択を調整するメカニズムが欠如している。 この問題を軽減するため,尾付きクラスにおけるモデル性能がトレーニング段階によって異なることを考慮し,擬似ラベルサンプリングのモデリングプロセスに不確実性を導入する。 例えば、モデルトレーニングの初期段階において、モデルの限られた予測精度は、不確実な擬似ラベルのより高いレートをもたらす。 これに対応するために,不確かさを意識した動的閾値選択(UDTS)手法を提案する。 このアプローチにより、モデルは異なる訓練段階における擬似ラベルの不確かさを認識し、異なるクラスの選択閾値を適応的に調整することができる。 FixMatchなどの他の方法と比較して、UDTSは、CIFAR10-LT、CIFAR100-LT、STL-10-LT、および医療画像データセットのTioMNISTにおいて、それぞれ約5.26%、1.75%、9.96%、1.28%の精度を達成している。 UDTSのソースコードは、https://github.com/yangk/UDTSで公開されている。

For semi-supervised learning with imbalance classes, the long-tailed distribution of data will increase the model prediction bias toward dominant classes, undermining performance on less frequent classes. Existing methods also face challenges in ensuring the selection of sufficiently reliable pseudo-labels for model training and there is a lack of mechanisms to adjust the selection of more reliable pseudo-labels based on different training stages. To mitigate this issue, we introduce uncertainty into the modeling process for pseudo-label sampling, taking into account that the model performance on the tailed classes varies over different training stages. For example, at the early stage of model training, the limited predictive accuracy of model results in a higher rate of uncertain pseudo-labels. To counter this, we propose an Uncertainty-Aware Dynamic Threshold Selection (UDTS) approach. This approach allows the model to perceive the uncertainty of pseudo-labels at different training stages, thereby adaptively adjusting the selection thresholds for different classes. Compared to other methods such as the baseline method FixMatch, UDTS achieves an increase in accuracy of at least approximately 5.26%, 1.75%, 9.96%, and 1.28% on the natural scene image datasets CIFAR10-LT, CIFAR100-LT, STL-10-LT, and the medical image dataset TissueMNIST, respectively. The source code of UDTS is publicly available at: https://github.com/yangk/UDTS.
翻訳日:2024-01-10 16:21:36 公開日:2024-01-09
# 微小地震計測と機械学習による海波データ再構成

Sea wave data reconstruction using micro-seismic measurements and machine learning methods ( http://arxiv.org/abs/2401.04431v1 )

ライセンス: Link先を確認
Lorenzo Iafolla, Emiliano Fiorenza, Massimo Chiappini, Cosmo Carmisciano, Valerio Antonio Iafolla(参考訳) 海波モニタリングは、気象モデルや波動モデルの検証など、海洋学における多くの応用において重要である。 従来のin situソリューションは、しばしば標準として認識されるムーアブイに基づいている。 しかし、厳しい環境にさらされているため、信頼性がなく、頻繁にメンテナンスが必要で、データセットには多くのギャップがある。 これまでの制限を克服するため,ブイ,マイクロ地震観測ステーション,機械学習アルゴリズムなどのシステムを提案する。 作業原理は,波浪によって発生する微小地震信号の測定に基づいている。 そのため、機械学習アルゴリズムは、微細地震データから欠落したブイデータを再構築するために訓練される。 マイクロサイスミックステーションを屋内に設置できるため、機械学習アルゴリズムが行方不明のブイデータの正確な再構成を提供する一方で、高い信頼性が保証される。 本研究では,データを処理し,機械学習アルゴリズムを開発し,学習し,再構成精度を評価する手法を提案する。 調査では,2014年に北チレニア海から採取した実験データを用いて,波高と波高の両面でデータ再構成が可能であることを示した。 このアプローチは、この研究で提示された新しいソリューションの基礎となる手法であるデータサイエンスから着想を得たものだ。 例えば、前回の研究では議論されなかった海波の周期の推定は、機械学習では比較的単純だった。 その結果, 新システムはブイの信頼性の問題を克服し, 精度が同じであることを実証した。

Sea wave monitoring is key in many applications in oceanography such as the validation of weather and wave models. Conventional in situ solutions are based on moored buoys whose measurements are often recognized as a standard. However, being exposed to a harsh environment, they are not reliable, need frequent maintenance, and the datasets feature many gaps. To overcome the previous limitations, we propose a system including a buoy, a micro-seismic measuring station, and a machine learning algorithm. The working principle is based on measuring the micro-seismic signals generated by the sea waves. Thus, the machine learning algorithm will be trained to reconstruct the missing buoy data from the micro-seismic data. As the micro-seismic station can be installed indoor, it assures high reliability while the machine learning algorithm provides accurate reconstruction of the missing buoy data. In this work, we present the methods to process the data, develop and train the machine learning algorithm, and assess the reconstruction accuracy. As a case of study, we used experimental data collected in 2014 from the Northern Tyrrhenian Sea demonstrating that the data reconstruction can be done both for significant wave height and wave period. The proposed approach was inspired from Data Science, whose methods were the foundation for the new solutions presented in this work. For example, estimating the period of the sea waves, often not discussed in previous works, was relatively simple with machine learning. In conclusion, the experimental results demonstrated that the new system can overcome the reliability issues of the buoy keeping the same accuracy.
翻訳日:2024-01-10 16:21:11 公開日:2024-01-09
# i-rebalance:需要均衡のためのパーソナライズされた車両配置

i-Rebalance: Personalized Vehicle Repositioning for Supply Demand Balance ( http://arxiv.org/abs/2401.04429v1 )

ライセンス: Link先を確認
Haoyang Chen, Peiyan Sun, Qiyuan Song, Wanyuan Wang, Weiwei Wu, Wencan Zhang, Guanyu Gao, Yan Lyu(参考訳) 配車プラットフォームは需要と供給のバランスをとるという課題に直面している。 既存の車両再配置技術は、しばしばドライバーを均質なエージェントとして扱い、再配置の遵守を前提として決定的にそれらを移動させる。 本稿では,より現実的で運転者中心のシナリオとして,ドライバーが独自のクルーズの好みを持ち,自ら推奨するか否かを判断する。 深部強化学習(DRL)を用いた個別車両再配置手法i-Rebalanceを提案する。 i-rebalanceは、99人の実際のドライバーによる現場ユーザー調査を通じて、再配置推奨を受けるドライバーの判断を見積もる。 供給需要のバランスを最適化し、同時に嗜好満足度を高めるため、i-Re Balanceは2台のDRLエージェントで順次再配置戦略を持つ: アイドル車の再配置順序を決定するグリッドエージェントと、事前に定義された順序で各車両にパーソナライズされたレコメンデーションを提供する車両エージェントである。 この逐次学習戦略は、従来の共同行動法と比較して、より小さな行動空間内でより効果的な政策訓練を促進する。 実世界の軌道データの評価では、i-リバランスはドライバーの受け入れ率を38.07%、ドライバーの総収入を9.97%改善している。

Ride-hailing platforms have been facing the challenge of balancing demand and supply. Existing vehicle reposition techniques often treat drivers as homogeneous agents and relocate them deterministically, assuming compliance with the reposition. In this paper, we consider a more realistic and driver-centric scenario where drivers have unique cruising preferences and can decide whether to take the recommendation or not on their own. We propose i-Rebalance, a personalized vehicle reposition technique with deep reinforcement learning (DRL). i-Rebalance estimates drivers' decisions on accepting reposition recommendations through an on-field user study involving 99 real drivers. To optimize supply-demand balance and enhance preference satisfaction simultaneously, i-Rebalance has a sequential reposition strategy with dual DRL agents: Grid Agent to determine the reposition order of idle vehicles, and Vehicle Agent to provide personalized recommendations to each vehicle in the pre-defined order. This sequential learning strategy facilitates more effective policy training within a smaller action space compared to traditional joint-action methods. Evaluation of real-world trajectory data shows that i-Rebalance improves driver acceptance rate by 38.07% and total driver income by 9.97%.
翻訳日:2024-01-10 16:20:48 公開日:2024-01-09
# メタフォレスト:メタラーニングによるランダム林のドメイン一般化

Meta-forests: Domain generalization on random forests with meta-learning ( http://arxiv.org/abs/2401.04425v1 )

ライセンス: Link先を確認
Yuyang Sun, Panagiotis Kosmas(参考訳) ドメイン一般化(domain generalization)は、複数のソースドメインから学習することで、モデルを対象とするドメインで適切に実行する、一般的な機械学習テクニックである。 ドメインの一般化は、オブジェクト認識やバイオメディシンなど、データが制限され、困難で、収集に費用がかかる場合に有用である。 本稿では,メタラーニング戦略と最大平均不一致尺度を組み込んだランダムフォレストモデルに基づく「メタフォレスト」と呼ばれる新しいドメイン一般化アルゴリズムを提案する。 メタフォレストの目的は,木間の相関を減らし,強度を高めることで分類器の一般化能力を高めることである。 より具体的には、メタフォレストはメタタスクごとにメタラーニングの最適化を行い、また、最大平均差を正規化の用語として利用し、メタテストプロセスの一般化性能の悪さを罰する。 提案アルゴリズムの有効性を評価するため,従来の研究で使用した2つの公開オブジェクト認識データセットとグルコースモニタリングデータセットを用いて評価を行った。 以上の結果から,メタフォレストは,オブジェクト認識とグルコースモニタリングのデータセットにおける一般化性能において最先端のアプローチよりも優れていることが示された。

Domain generalization is a popular machine learning technique that enables models to perform well on the unseen target domain, by learning from multiple source domains. Domain generalization is useful in cases where data is limited, difficult, or expensive to collect, such as in object recognition and biomedicine. In this paper, we propose a novel domain generalization algorithm called "meta-forests", which builds upon the basic random forests model by incorporating the meta-learning strategy and maximum mean discrepancy measure. The aim of meta-forests is to enhance the generalization ability of classifiers by reducing the correlation among trees and increasing their strength. More specifically, meta-forests conducts meta-learning optimization during each meta-task, while also utilizing the maximum mean discrepancy as a regularization term to penalize poor generalization performance in the meta-test process. To evaluate the effectiveness of our algorithm, we test it on two publicly object recognition datasets and a glucose monitoring dataset that we have used in a previous study. Our results show that meta-forests outperforms state-of-the-art approaches in terms of generalization performance on both object recognition and glucose monitoring datasets.
翻訳日:2024-01-10 16:20:26 公開日:2024-01-09
# 意味概念埋め込みに基づくテキスト類似度の推定

Estimating Text Similarity based on Semantic Concept Embeddings ( http://arxiv.org/abs/2401.04422v1 )

ライセンス: Link先を確認
Tim vor der Br\"uck and Marc Pouly(参考訳) 使いやすさと正確性のため、word2vec (w2v) の埋め込みは、単語、文、文書全体の意味表現や意味的類似度の推定において大きな成功を収めている。 しかし、人間の思考過程を適切に表現していない表面表現から直接抽出し、高度にあいまいな単語に対して性能が低いという欠点がある。 そこで本研究では,sn(multinet semantic network)形式に基づく意味概念埋め込み(semantic concept embeddeds,ce)を提案する。 マーケティング対象グループ配布タスクの評価の結果,従来の単語埋め込みと意味的CEを組み合わせることで,予測対象グループの精度を高めることができた。

Due to their ease of use and high accuracy, Word2Vec (W2V) word embeddings enjoy great success in the semantic representation of words, sentences, and whole documents as well as for semantic similarity estimation. However, they have the shortcoming that they are directly extracted from a surface representation, which does not adequately represent human thought processes and also performs poorly for highly ambiguous words. Therefore, we propose Semantic Concept Embeddings (CE) based on the MultiNet Semantic Network (SN) formalism, which addresses both shortcomings. The evaluation on a marketing target group distribution task showed that the accuracy of predicted target groups can be increased by combining traditional word embeddings with semantic CEs.
翻訳日:2024-01-10 16:20:03 公開日:2024-01-09
# アモルファス材料中の強結合欠陥の量子熱弁とダイオード

Quantum heat valve and diode of strongly coupled defects in amorphous material ( http://arxiv.org/abs/2401.04417v1 )

ライセンス: Link先を確認
Yu-qiang Liu, Yi-Jia Yang, Ting-ting Ma, Zheng Liu, and Chang-shui Yu(参考訳) 機械的ひずみはアモルファス材料中の2レベル原子の周波数を制御することができる。 本研究では,熱スイッチとバルブの機能を実現するために,機械的ひずみを制御することで熱輸送の大きさと方向を操作するために2つの結合2レベル原子を用いる。 その結果, 広域の圧電電圧範囲で異なる温度で高効率熱ダイオードを実現することができることがわかった。 また, 整流係数の温度および熱貯留層のカップリング依存性についても検討した。 その結果, 温度差が大きいほど改質効果が大きいことがわかった。 非対称系-保存結合強度は伝熱の大きさを増大させ、非対称および対称結合強度が熱ダイオードの性能に及ぼす影響は相補的である。 これは、熱輸送の大きさと流れの好みを調節し制御する効率的な方法を提供するかもしれない。 この研究は量子熱機械の設計とチューニングに関する洞察を与えるかもしれない。

The mechanical strain can control the frequency of two-level atoms in amorphous material. In this work, we would like to employ two coupled two-level atoms to manipulate the magnitude and direction of heat transport by controlling mechanical strain to realize the function of a thermal switch and valve. It is found that a high-performance heat diode can be realized in the wide Piezo voltage range at different temperatures. We also discuss the dependence of the rectification factor on temperatures and couplings of heat reservoirs. We find that the higher temperature differences correspond to the larger rectification effect. The asymmetry system-reservoir coupling strength can enhance the magnitude of heat transfer, and the impact of asymmetric and symmetric coupling strength on the performance of the heat diode is complementary. It may provide an efficient way to modulate and control heat transport's magnitude and flow preference. This work may give insight into designing and tuning quantum heat machines.
翻訳日:2024-01-10 16:19:50 公開日:2024-01-09
# リコメンダシステムのトレーニングにおける微粒埋め込み次元最適化

Fine-Grained Embedding Dimension Optimization During Training for Recommender Systems ( http://arxiv.org/abs/2401.04408v1 )

ライセンス: Link先を確認
Qinyi Luo, Penghan Wang, Wei Zhang, Fan Lai, Jiachen Mao, Xiaohan Wei, Jun Song, Wei-Yu Tsai, Shuai Yang, Yuxi Hu and Xuehai Qian(参考訳) 現代のDeep Learning Recommender Models (DLRM) における巨大な埋め込みテーブルは、トレーニングと推論の間、極めて大きなメモリを必要とする。 本稿では,トレーニングのメモリフットプリントを削減するため,FIITED(FIne-fine In-Training Embedding Dimension Optimization)を提案する。 埋め込みベクトルは等しく重要でないという観測から、fiitedはトレーニング中に個々の埋め込みベクトルの次元を連続的に調整し、より重要な埋め込みに長い次元を割り当て、データの動的変化に適応させる。 埋め込み次元調整を効率よく実装し、メモリ節約を効果的に行うために、仮想ハッシュ化物理インデックス式ハッシュテーブルに基づく新しい埋め込み記憶システムを構築した。 2つの業界モデルでの実験では、FIITEDはトレーニングされたモデルの品質を維持しながら埋め込みのサイズを65%以上削減でき、最先端のイントレーニング型埋め込みプルーニング法よりもはるかに多くのメモリを節約できる。 公開クリックスルーレート予測データセットでは、FIITEDは93.75%-99.75%の埋め込みを精度の低下なく再現することができる。

Huge embedding tables in modern Deep Learning Recommender Models (DLRM) require prohibitively large memory during training and inference. Aiming to reduce the memory footprint of training, this paper proposes FIne-grained In-Training Embedding Dimension optimization (FIITED). Given the observation that embedding vectors are not equally important, FIITED adjusts the dimension of each individual embedding vector continuously during training, assigning longer dimensions to more important embeddings while adapting to dynamic changes in data. A novel embedding storage system based on virtually-hashed physically-indexed hash tables is designed to efficiently implement the embedding dimension adjustment and effectively enable memory saving. Experiments on two industry models show that FIITED is able to reduce the size of embeddings by more than 65% while maintaining the trained model's quality, saving significantly more memory than a state-of-the-art in-training embedding pruning method. On public click-through rate prediction datasets, FIITED is able to prune up to 93.75%-99.75% embeddings without significant accuracy loss.
翻訳日:2024-01-10 16:19:34 公開日:2024-01-09
# デコヒーレンス下のシュワルツシルト時空における真の三成分非局所性と絡み合いの増幅

Amplification of genuine tripartite nonlocality and entanglement in the Schwarzschild spacetime under decoherence ( http://arxiv.org/abs/2401.04407v1 )

ライセンス: Link先を確認
Chunyao Liu, Zhengwen Long, Qiliang He(参考訳) シュワルツシルトブラックホールの背景における真の三部体非局所性(GTN)と真の三部体エンタングルメント(GTE)のデコヒーレンス下での局所濾過操作による増幅について検討した。 物理的にアクセス可能なGTNと物理的にアクセス可能なGTEは、ホーキング効果とデコヒーレンスにより減少することが示されている。 物理的にアクセス可能なGTNの「沈む」死は、いくつかの臨界ホーキング温度で起こり、臨界ホーキング温度はデコヒーレンス強度が増加するにつれて低下する。 特に, 局所フィルタリング処理を施すことにより, "スドデンデス" の臨界ホーキング温度を長くすることができることが判明した。 さらに、物理的にアクセス可能なGTEは、ほとんどの場合において無限ホーキング温度の極限でゼロの安定値に近づくが、デコヒーレンスパラメータ p が 1 未満であれば、デコヒーレンス強度が十分大きいときにGTEの「隠れ死」が起こる。 なお、非ゼロ安定値のGTEは、デコヒーレンスの存在下であっても局所フィルタリング操作を行うことで増大させることができる。 最後に, 物理的に到達不能なGTNとGTEの生成をデコヒーレンスの下で検討し, 物理的に到達不能なGTNは生成できないが, 物理的に到達不能なGTEは生成でき, GTEはブラックホールの事象の地平線を通過できるが, GTNは生成できないことを示した。 また, 物理的にアクセス不能なGTEは, システムがデコヒーレンスに悩まされている場合でも, 局所フィルタリング操作を適用することで増大させることができる。

We investigate the amplification of the genuine tripartite nonlocality (GTN) and the genuine tripartite entanglement (GTE) of Dirac particles in the background of a Schwarzschild black hole by a local filtering operation under decoherence. It is shown that both the physically accessible GTN and the physically accessible GTE are decreased by the Hawking effect and decoherence. The "sudden" death of the physically accessible GTN occurs at some critical Hawking temperature, and the critical Hawking temperature degrades as the decoherence strength increases. In particular, it is found that the critical Hawking temperature of "sudden death" can be prolonged by applying the local filtering operation, which means that the physically accessible GTN can exist for a longer time. Furthermore, we also find that the physically accessible GTE approaches to the nonzero stable value in the limit of infinite Hawking temperature for most cases, but if the decoherence parameter p is less than 1, the "sudden death" of GTE will take place when the decoherence strength is large enough. It is worth noting that the nonzero stable value of GTE can be increased by performing the local filtering operation, even in the presence of decoherence. Finally, we explore the generation of physically inaccessible GTN and GTE of other tripartite subsystems under decoherence, it is shown that the physically inaccessible GTN cannot be produced, but the physically inaccessible GTE can be produced, namely, GTE can pass through the event horizon of black hole, but the GTN cannot do it. In addition, we can see that the generated physically inaccessible GTE can be increased by applying the local filtering operation, even if the system suffers decoherence.
翻訳日:2024-01-10 16:19:14 公開日:2024-01-09
# mapai: 建物のセグメンテーションにおける精度

MapAI: Precision in Building Segmentation ( http://arxiv.org/abs/2401.04406v1 )

ライセンス: Link先を確認
Sander Riis{\o}en Jyhne, Morten Goodwin, Per Arne Andersen, Ivar Oveland, Alexander Salveson Nossum, Karianne Ormseth, Mathilde {\O}rstavik, Andrew C. Flatman(参考訳) MapAI: ビルドセグメンテーションの精度(Precision in Building Segmentation)は、ノルウェーのアグダー大学の人工知能研究センター(CAIR)、ノルウェーのマッピング機関、AI:Hub、Norkart、デンマークのデータサプライ・インフラストラクチャー機関と共同で、ノルウェー人工知能研究コンソーシアム(NORA)とのコンペティションである。 大会は2022年秋に開催される。 航空画像とレーザーデータを用いた建物のセグメンテーションに焦点を当てたnorthern lights deep learning conferenceで締めくくられる予定だ。 建物を分割するための2つの異なるタスクを提案し、第1のタスクは空中画像のみを利用でき、第2のタスクは空中画像の有無に関わらずレーザーデータ(LiDAR)を使用する必要がある。 さらに、IoUとBundary IoUを用いてモデルの精度を適切に評価し、後者は結果の境界を評価するIoU尺度である。 参加者にトレーニングデータセットを提供し,評価のためのテストデータセットを保持する。

MapAI: Precision in Building Segmentation is a competition arranged with the Norwegian Artificial Intelligence Research Consortium (NORA) in collaboration with Centre for Artificial Intelligence Research at the University of Agder (CAIR), the Norwegian Mapping Authority, AI:Hub, Norkart, and the Danish Agency for Data Supply and Infrastructure. The competition will be held in the fall of 2022. It will be concluded at the Northern Lights Deep Learning conference focusing on the segmentation of buildings using aerial images and laser data. We propose two different tasks to segment buildings, where the first task can only utilize aerial images, while the second must use laser data (LiDAR) with or without aerial images. Furthermore, we use IoU and Boundary IoU to properly evaluate the precision of the models, with the latter being an IoU measure that evaluates the results' boundaries. We provide the participants with a training dataset and keep a test dataset for evaluation.
翻訳日:2024-01-10 16:18:33 公開日:2024-01-09
# 効率の良いビットレートラダー推定のための最適符号化分解能予測

Optimal Transcoding Resolution Prediction for Efficient Per-Title Bitrate Ladder Estimation ( http://arxiv.org/abs/2401.04405v1 )

ライセンス: Link先を確認
Jinhai Yang, Mengxi Guo, Shijie Zhao, Junlin Li, Li Zhang(参考訳) 適応型ビデオストリーミングは、異質なネットワーク条件とエンドユーザの要求を満たすために、効率的なビットレートラダーの構築を必要とする。 字幕ごとの最適化符号化は通常、パレート最適操作点を検索するために多数の符号化パラメータをトラバースする。 近年,プリエンコードオーバヘッド低減のために,コンテント最適化ビットレートラグの予測を試みた。 しかし、既存の手法ではパレートフロントの符号化パラメータを推定することが多い。 本稿では,各プリセットビットレートにおける最適変換分解能を直接予測し,効率的なビットレートラグ構築を提案する。 時空間-時間的特徴をキャプチャし,マルチタスク分類問題としてトランスコーディング解像度を予測するために,時空間注意ゲートリカレントネットワークを採用する。 本研究では,コンテンツ最適化ビットレートラダーを事前エンコーディングなしで効率的に決定できることを実証する。 提案手法は,Bj{\o}ntegaard Delta の損失率1.21%の基底トラスビットレート分解能対をよく近似し,最先端の固定ラグよりも大幅に向上する。

Adaptive video streaming requires efficient bitrate ladder construction to meet heterogeneous network conditions and end-user demands. Per-title optimized encoding typically traverses numerous encoding parameters to search the Pareto-optimal operating points for each video. Recently, researchers have attempted to predict the content-optimized bitrate ladder for pre-encoding overhead reduction. However, existing methods commonly estimate the encoding parameters on the Pareto front and still require subsequent pre-encodings. In this paper, we propose to directly predict the optimal transcoding resolution at each preset bitrate for efficient bitrate ladder construction. We adopt a Temporal Attentive Gated Recurrent Network to capture spatial-temporal features and predict transcoding resolutions as a multi-task classification problem. We demonstrate that content-optimized bitrate ladders can thus be efficiently determined without any pre-encoding. Our method well approximates the ground-truth bitrate-resolution pairs with a slight Bj{\o}ntegaard Delta rate loss of 1.21% and significantly outperforms the state-of-the-art fixed ladder.
翻訳日:2024-01-10 16:18:11 公開日:2024-01-09
# MST: インタラクティブセグメンテーションによる適応型マルチスケールトークン

MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation ( http://arxiv.org/abs/2401.04403v1 )

ライセンス: Link先を確認
Long Xu, Shanghong Li, Yongquan Chen, Jun Luo(参考訳) インフォマティクスの分野では、対話的セグメンテーションが人間とコンピュータの相互作用とデータアノテーションへの応用で注目されている。 しかし、既存のアルゴリズムでは、大きなターゲットと小さなターゲットのセグメンテーションの精度のバランスが難しいため、ユーザーインタラクションの数が増加することが多い。 これを解決するために、トークン類似性を利用した新しいマルチスケールトークン適応アルゴリズムが考案され、様々なターゲットサイズにまたがるセグメンテーションを強化する。 このアルゴリズムは差別化可能なトップkトークン選択機構を利用し、効率的なマルチスケールトークンインタラクションを維持しながら、より少ないトークンを使用することができる。 さらに、目標トークンと背景トークンの判別性を向上させるために、対照損失が導入され、目標と類似したトークンの正確性と堅牢性が向上する。 大規模なベンチマークでは、現在の手法と比較して、アルゴリズムが最先端(SOTA)のパフォーマンスを達成することが示されている。 インタラクティブなデモとすべての再現可能なコードは、https://github.com/hahamyt/mstで公開される。

In the field of Industrial Informatics, interactive segmentation has gained significant attention for its application in human-computer interaction and data annotation. Existing algorithms, however, face challenges in balancing the segmentation accuracy between large and small targets, often leading to an increased number of user interactions. To tackle this, a novel multi-scale token adaptation algorithm, leveraging token similarity, has been devised to enhance segmentation across varying target sizes. This algorithm utilizes a differentiable top-k tokens selection mechanism, allowing for fewer tokens to be used while maintaining efficient multi-scale token interaction. Furthermore, a contrastive loss is introduced to better discriminate between target and background tokens, improving the correctness and robustness of the tokens similar to the target. Extensive benchmarking shows that the algorithm achieves state-of-the-art (SOTA) performance compared to current methods. An interactive demo and all reproducible codes will be released at https://github.com/hahamyt/mst.
翻訳日:2024-01-10 16:17:50 公開日:2024-01-09
# IGNITE:時系列電子健康記録におけるImputationsの個別化

IGNITE: Individualized GeNeration of Imputations in Time-series Electronic health records ( http://arxiv.org/abs/2401.04402v1 )

ライセンス: Link先を確認
Ghadeer O. Ghosheh, Jin Li, Tingting Zhu(参考訳) 電子健康記録はパーソナライズされた医療を運転する上で貴重なモダリティを示しており、治療は個人レベルの違いに合わせて調整される。 この目的のために、多くのデータ駆動機械学習と統計モデルは、患者の生理的および治療効果を研究するために、長手EHRの富に依存している。 しかし, 経時的 EHR は軽度であり, 欠如も情報化され, 患者の健康状態が反映される傾向にあった。 したがって、パーソナライズド・メディカルのためのデータ駆動モデルの成功は、生理的データ、治療、およびデータの欠落値からEHRデータがどのように表現されるかに大きく依存する。 そこで本研究では,多変量データにまたがる患者動態を時間とともに学習し,個人の人口統計学的特徴や治療状況に応じて,個別化された現実的価値を生成する,新たなディープラーニングモデルを提案する。 提案モデルであるignite(individualized generation of imputations in time-series electronic health records)では,条件付き双変量オートエンコーダを2段階注意で拡張し,個人に欠落値を生成する。 igniteではさらに、個々の観測データと欠落パターンに基づいて、モデルが値を生成するのに役立つ、新しい個別化欠落マスク(imm)を提案する。 我々は、IGNITEの使用をさらに拡張し、パーソナライズされたデータシンセサイザーに提供し、そこでは、これまで観測されなかった、あるいは様々な用途で新しい患者を産み出すことができる。 我々は,このモデルを3つの大規模公開データセット上で検証し,IGNITEが欠落データ再構成とタスク予測において最先端のアプローチより優れていることを示す。

Electronic Health Records present a valuable modality for driving personalized medicine, where treatment is tailored to fit individual-level differences. For this purpose, many data-driven machine learning and statistical models rely on the wealth of longitudinal EHRs to study patients' physiological and treatment effects. However, longitudinal EHRs tend to be sparse and highly missing, where missingness could also be informative and reflect the underlying patient's health status. Therefore, the success of data-driven models for personalized medicine highly depends on how the EHR data is represented from physiological data, treatments, and the missing values in the data. To this end, we propose a novel deep-learning model that learns the underlying patient dynamics over time across multivariate data to generate personalized realistic values conditioning on an individual's demographic characteristics and treatments. Our proposed model, IGNITE (Individualized GeNeration of Imputations in Time-series Electronic health records), utilises a conditional dual-variational autoencoder augmented with dual-stage attention to generate missing values for an individual. In IGNITE, we further propose a novel individualized missingness mask (IMM), which helps our model generate values based on the individual's observed data and missingness patterns. We further extend the use of IGNITE from imputing missingness to a personalized data synthesizer, where it generates missing EHRs that were never observed prior or even generates new patients for various applications. We validate our model on three large publicly available datasets and show that IGNITE outperforms state-of-the-art approaches in missing data reconstruction and task prediction.
翻訳日:2024-01-10 16:17:33 公開日:2024-01-09
# 火災との戦い: 誤情報検出データセットの作成を敵に促す

Fighting Fire with Fire: Adversarial Prompting to Generate a Misinformation Detection Dataset ( http://arxiv.org/abs/2401.04481v1 )

ライセンス: Link先を確認
Shrey Satapara, Parth Mehta, Debasis Ganguly, Sandip Modha(参考訳) gpt、bard、llamaなどの大規模言語モデル(llm)の言語生成能力の最近の成功は、フェイクニュースの生成と誤情報の拡散を通じて、集団の扇動や共同的な憎悪を引き起こす際の誤用を懸念する可能性がある。 従来の誤った情報基盤トラスデータセットの開発方法は、データアノテートに必要な広範囲な手作業のため、うまくスケールしない。 本稿では,誤情報を特定するために,LLMに基づく銀標準地中真実データセットを作成する手法を提案する。 具体的には、信頼できるニュース記事が与えられた場合、提案手法では、llmsにオリジナルの記事の要約バージョンを自動的に生成するように促す。 提案手法のプロンプトは,生成したサマリー,例えば不正確な量,誤った帰属などにおいて,特定のタイプの事実的不正確性を生成するための制御機構として機能する。 本データセットの有用性を検討するために,誤情報検出のタスクに対して,教師付きモデルの範囲をトレーニングする一連の実験を行った。

The recent success in language generation capabilities of large language models (LLMs), such as GPT, Bard, Llama etc., can potentially lead to concerns about their possible misuse in inducing mass agitation and communal hatred via generating fake news and spreading misinformation. Traditional means of developing a misinformation ground-truth dataset does not scale well because of the extensive manual effort required to annotate the data. In this paper, we propose an LLM-based approach of creating silver-standard ground-truth datasets for identifying misinformation. Specifically speaking, given a trusted news article, our proposed approach involves prompting LLMs to automatically generate a summarised version of the original article. The prompts in our proposed approach act as a controlling mechanism to generate specific types of factual incorrectness in the generated summaries, e.g., incorrect quantities, false attributions etc. To investigate the usefulness of this dataset, we conduct a set of experiments where we train a range of supervised models for the task of misinformation detection.
翻訳日:2024-01-10 16:10:46 公開日:2024-01-09
# TwinBooster: 分子特性予測のための大言語モデルのバローツインとグラディエントブースティング

TwinBooster: Synergising Large Language Models with Barlow Twins and Gradient Boosting for Enhanced Molecular Property Prediction ( http://arxiv.org/abs/2401.04478v1 )

ライセンス: Link先を確認
Maximilian G. Schuh, Davide Boldini, Stephan A. Sieber(参考訳) 医薬品の発見と開発の成功は、分子活性と性質の正確な予測に依存する。 ケイ素の分子特性予測では顕著なポテンシャルが示されているが、その使用法は大量のデータが利用可能なアッセイに限られている。 本研究では,テキスト情報に基づく生物学的アッセイと,新たな自己教師型学習アプローチを用いたシームズニューラルネットワークであるBarlow Twinsを併用した,微調整された大規模言語モデルを用いた。 このアーキテクチャは、測定情報と分子指紋の両方を使って真の分子情報を抽出する。 TwinBoosterは最先端のゼロショット学習タスクを提供することで、目に見えないバイオアッセイや分子の性質の予測を可能にする。 注目すべきは、私たちの人工知能パイプラインがFS-Molベンチマークで優れたパフォーマンスを示していることです。 このブレークスルーは、データは通常不足している重要な特性予測タスクへのディープラーニングの適用を実証している。 薬物の発見および開発における活性分子の早期同定を促進させることにより、この方法は新規治療法の同定を合理化する可能性を秘めている。

The success of drug discovery and development relies on the precise prediction of molecular activities and properties. While in silico molecular property prediction has shown remarkable potential, its use has been limited so far to assays for which large amounts of data are available. In this study, we use a fine-tuned large language model to integrate biological assays based on their textual information, coupled with Barlow Twins, a Siamese neural network using a novel self-supervised learning approach. This architecture uses both assay information and molecular fingerprints to extract the true molecular information. TwinBooster enables the prediction of properties of unseen bioassays and molecules by providing state-of-the-art zero-shot learning tasks. Remarkably, our artificial intelligence pipeline shows excellent performance on the FS-Mol benchmark. This breakthrough demonstrates the application of deep learning to critical property prediction tasks where data is typically scarce. By accelerating the early identification of active molecules in drug discovery and development, this method has the potential to help streamline the identification of novel therapeutics.
翻訳日:2024-01-10 16:10:26 公開日:2024-01-09
# レコメンダシステムにおける埋め込みモデルとセマンティクスモデルの組み合わせによるポストホックな説明

Combining Embedding-Based and Semantic-Based Models for Post-hoc Explanations in Recommender Systems ( http://arxiv.org/abs/2401.04474v1 )

ライセンス: Link先を確認
Ngoc Luyen Le and Marie-H\'el\`ene Abel and Philippe Gouspillou(参考訳) 今日のデータ豊富な環境では、レコメンダシステムは意思決定支援システムにおいて重要な役割を果たす。 これらの推奨についてパーソナライズされたレコメンデーションと説明を提供する。 埋め込みベースのモデルは広く使われているにもかかわらず、しばしば解釈可能性の欠如に悩まされ、信頼とユーザーのエンゲージメントを損なう。 本稿では,埋め込み型モデルと意味型モデルを組み合わせて,オントロジーに基づく知識グラフを活用して解釈性と説明可能性を向上させる手法を提案する。 構造化されたフレームワーク内でデータを整理することで、オントロジーはエンティティ間の複雑な関係のモデリングを可能にする。 私たちが定義したフレームワークは、レコメンデーションシステムにおけるポストホックな説明のための埋め込みモデルとセマンティックベースのモデルを組み合わせることで、意味があり分かりやすい説明を生み出し、ユーザの信頼と満足度を高め、eコマースセクターにおけるレコメンデーターシステムの採用を促進することを目的としています。

In today's data-rich environment, recommender systems play a crucial role in decision support systems. They provide to users personalized recommendations and explanations about these recommendations. Embedding-based models, despite their widespread use, often suffer from a lack of interpretability, which can undermine trust and user engagement. This paper presents an approach that combines embedding-based and semantic-based models to generate post-hoc explanations in recommender systems, leveraging ontology-based knowledge graphs to improve interpretability and explainability. By organizing data within a structured framework, ontologies enable the modeling of intricate relationships between entities, which is essential for generating explanations. By combining embedding-based and semantic based models for post-hoc explanations in recommender systems, the framework we defined aims at producing meaningful and easy-to-understand explanations, enhancing user trust and satisfaction, and potentially promoting the adoption of recommender systems across the e-commerce sector.
翻訳日:2024-01-10 16:10:07 公開日:2024-01-09
# 基礎モデル学習における効果的なフェデレーション学習手法の検討

A Survey on Efficient Federated Learning Methods for Foundation Model Training ( http://arxiv.org/abs/2401.04472v1 )

ライセンス: Link先を確認
Herbert Woisetschl\"ager, Alexander Isenko, Shiqiang Wang, Ruben Mayer, Hans-Arno Jacobsen(参考訳) 連合学習(federated learning, fl)は,プライバシ保護による共同トレーニングを促進するための確立された技術である。 しかしながら、flに対する新しいアプローチでは、小さなディープラーニングモデルのみに関わる貢献をしばしば議論している。 トランスフォーマーモデルが素晴らしい成功を収めたことにより、以下の疑問が生まれます。 flアプリケーションで基礎モデルを運用するには、何が必要でしょうか? FLアプリケーションにおいて計算と通信が同様の時間を要することを知るため,FLアプリケーションにおける計算と通信の効率性に着目した新しい分類法を提案する。 これらの方法は、トレーニング時間を最適化し、クライアントとサーバ間の通信を減らすことを目的としている。 また、広く使われているFLフレームワークの現状を考察し、FL研究等における既存のアプローチに基づく今後の研究の可能性について議論する。

Federated Learning (FL) has become an established technique to facilitate privacy-preserving collaborative training. However, new approaches to FL often discuss their contributions involving small deep-learning models only. With the tremendous success of transformer models, the following question arises: What is necessary to operationalize foundation models in an FL application? Knowing that computation and communication often take up similar amounts of time in FL, we introduce a novel taxonomy focused on computational and communication efficiency methods in FL applications. This said, these methods aim to optimize the training time and reduce communication between clients and the server. We also look at the current state of widely used FL frameworks and discuss future research potentials based on existing approaches in FL research and beyond.
翻訳日:2024-01-10 16:09:47 公開日:2024-01-09
# TransportationGames:(マルチモーダル)大規模言語モデルの交通知識のベンチマーク

TransportationGames: Benchmarking Transportation Knowledge of (Multimodal) Large Language Models ( http://arxiv.org/abs/2401.04471v1 )

ライセンス: Link先を確認
Xue Zhang, Xiangyu Shi, Xinyue Lou, Rui Qi, Yufeng Chen, Jinan Xu, Wenjuan Han(参考訳) 大規模言語モデル(LLM)とマルチモーダル言語モデル(MLLM)は優れた汎用能力を示しており、法律、経済学、輸送、医学など多くの専門分野において適応性を示している。 現在、特定の分野における(M)LLMの性能を検証するために多くのドメイン固有ベンチマークが提案されている。 様々な分野において、交通は数十億人の人々の経済、環境、生活の質に影響を与えるため、現代社会において重要な役割を担っている。 しかし,交通知識(M)LLMがどの程度持っているか,交通関連タスクを確実に実行できるかは不明である。 このギャップに対処するため,交通分野における(M)LLMの評価のための,慎重に設計された徹底的な評価ベンチマークであるTransportGamesを提案する。 実世界のシナリオにおける応用を包括的に検討し,ブルームの分類学の最初の3段階を参照することにより,選択したタスクによる交通知識の記憶,理解,適用において,様々な(M)LLMの性能を検証した。 実験の結果、いくつかのモデルではうまく機能するが、全体的な改善の余地は十分にあることが示された。 我々は、TransportGamesのリリースが将来の研究の基盤となり、交通分野における(M)LLMの実装と適用を加速することを期待している。

Large language models (LLMs) and multimodal large language models (MLLMs) have shown excellent general capabilities, even exhibiting adaptability in many professional domains such as law, economics, transportation, and medicine. Currently, many domain-specific benchmarks have been proposed to verify the performance of (M)LLMs in specific fields. Among various domains, transportation plays a crucial role in modern society as it impacts the economy, the environment, and the quality of life for billions of people. However, it is unclear how much traffic knowledge (M)LLMs possess and whether they can reliably perform transportation-related tasks. To address this gap, we propose TransportationGames, a carefully designed and thorough evaluation benchmark for assessing (M)LLMs in the transportation domain. By comprehensively considering the applications in real-world scenarios and referring to the first three levels in Bloom's Taxonomy, we test the performance of various (M)LLMs in memorizing, understanding, and applying transportation knowledge by the selected tasks. The experimental results show that although some models perform well in some tasks, there is still much room for improvement overall. We hope the release of TransportationGames can serve as a foundation for future research, thereby accelerating the implementation and application of (M)LLMs in the transportation domain.
翻訳日:2024-01-10 16:09:36 公開日:2024-01-09
# 炭化ケイ素中の核スピンのシングルショット読み出し

Single-Shot Readout of a Nuclear Spin in Silicon Carbide ( http://arxiv.org/abs/2401.04470v1 )

ライセンス: Link先を確認
Xiao-Yi Lai, Ren-Zhou Fang, Tao Li, Ren-Zhu Su, Jia Huang, Hao Li, Li-Xing You, Xiao-Hui Bao, Jian-Wei Pan(参考訳) フォトニックインタフェースを持つ固体量子ビットは量子ネットワークに非常に有望である。 炭化ケイ素の色中心は、膜やナノ構造と統合しても優れた光学的およびスピンコヒーレンスを示す。 さらに、電子スピンと結合した核スピンは長寿命の量子記憶として機能する。 以前のパイオニアリングの研究は、単一の核スピンの初期化を認識し、電子スピンとの絡み合いを示した。 本稿では,SiCにおける核スピンに対する単発読み出しの最初の実現について報告する。 測定期間が1.13msで決定論的読み出し忠実度が98.2%, 2段階読み出し方式が99.5%, 成功率89.8%であった。 我々の研究は、将来の量子ネットワークのためにSiCの電子スピンと核スピンの両方を利用する実験ツールボックスを補完する。

Solid-state qubits with a photonic interface is very promising for quantum networks. Color centers in silicon carbide have shown excellent optical and spin coherence, even when integrated with membranes and nano-structures. Additionally, nuclear spins coupled with electron spins can serve as long-lived quantum memories. Pioneering work in previous has realized the initialization of a single nuclear spin and demonstrated its entanglement with an electron spin. In this paper, we report the first realization of single-shot readout for a nuclear spin in SiC. We obtain a deterministic readout fidelity of 98.2% with a measurement duration of 1.13 ms. With a dual-step readout scheme, we obtain a readout fidelity as high as 99.5% with a success efficiency of 89.8%. Our work complements the experimental toolbox of harnessing both electron and nuclear spins in SiC for future quantum networks.
翻訳日:2024-01-10 16:09:12 公開日:2024-01-09
# MagicVideo-V2:マルチステージ高美的ビデオ生成

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation ( http://arxiv.org/abs/2401.04468v1 )

ライセンス: Link先を確認
Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng(参考訳) テキスト記述から高精細なビデオ生成への需要が高まり、この分野で重要な研究が進められている。 本稿では,テキスト・ツー・イメージ・モデル,ビデオモーション・ジェネレータ,参照画像埋め込みモジュール,フレーム補間モジュールをエンドツーエンドのビデオ生成パイプラインに統合するMagicVideo-V2を紹介する。 MagicVideo-V2は、これらのアーキテクチャデザインの利点を生かして、美しくて高解像度なビデオを作りだすことができる。 Runway、Pika 1.0、Morph、Moon Valley、Stable Video Diffusionモデルといった主要なテキスト対ビデオシステムよりも、大規模なユーザ評価による優れたパフォーマンスを示している。

The growing demand for high-fidelity video generation from textual descriptions has catalyzed significant research in this field. In this work, we introduce MagicVideo-V2 that integrates the text-to-image model, video motion generator, reference image embedding module and frame interpolation module into an end-to-end video generation pipeline. Benefiting from these architecture designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution video with remarkable fidelity and smoothness. It demonstrates superior performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph, Moon Valley and Stable Video Diffusion model via user evaluation at large scale.
翻訳日:2024-01-10 16:08:57 公開日:2024-01-09
# 炭化ケイ素における核スピン量子ビットの高忠実性光読み出し

High fidelity optical readout of a nuclear spin qubit in Silicon Carbide ( http://arxiv.org/abs/2401.04465v1 )

ライセンス: Link先を確認
Erik Hesselmeier, Pierre Kuna, Wolfgang Knolle, Florian Kaiser, Nguyen Tien Son, Misagh Ghezellou, Jawad Ul-Hassan, Vadim Vorobyov, J\"org Wrachtrup(参考訳) 量子状態の読み取りはqubitプラットフォームの成功にとって重要な要件である。 本研究では、繰り返し読み出し手法に基づくv2中心核スピンの高忠実度量子状態読み出しを実証する。 最大99.5$\,\%$ readout fidelity と 99$\,\%$ の状態準備をデモした。 この効率的な読み出しを用いて、測定により核スピンを初期化し、ラビとラムジーの栄養を実証する。 最後に、弱結合二原子核スピン浴の量子センシングへの応用に、核スピンを長寿命メモリとして用いる。

Quantum state readout is a key requirement for a successful qubit platform. In this work we demonstrate a high fidelity quantum state readout of a V2 center nuclear spin based on a repetitive readout technique. We demonstrate up to 99.5$\,\%$ readout fidelity and 99$\,\%$ for state preparation. Using this efficient readout we initialise the nuclear spin by measurement and demonstrate its Rabi and Ramsey nutation. Finally, we use the nuclear spin as a long lived memory for quantum sensing application of weakly coupled diatomic nuclear spin bath.
翻訳日:2024-01-10 16:08:43 公開日:2024-01-09
# PhilEO Bench氏:地球空間基盤モデルの評価

PhilEO Bench: Evaluating Geo-Spatial Foundation Models ( http://arxiv.org/abs/2401.04464v1 )

ライセンス: Link先を確認
Casper Fibaek, Luke Camilleri, Andreas Luyts, Nikolaos Dionelis, Bertrand Le Saux(参考訳) 地球観測衛星(EO)は大量のデータを収集し、センチネル2星座は毎日1.6TBのデータを生成する。 これにより、Remote Sensingは機械学習(ML)ソリューションに適したデータリッチなドメインになります。 しかしながら、EOにMLモデルを適用する際のボトルネックは、アノテーションとしての注釈付きデータが欠如していることである。 その結果、この領域の研究は、自己監督学習とファンデーションモデルアプローチに焦点を当てた。 本稿では、EOファンデーションモデルのための新しい評価フレームワークであるPhilEO Benchを導入することにより、公平で均一なベンチマークで異なるファンデーションモデルを評価する必要性に対処する。 このフレームワークは、テストベッドと、ビル密度推定、道路分割、土地被覆分類の3つの下流タスクのラベルを含む400GBのSentinel-2データセットからなる。 我々は,Prithvi や SatMAE など,異なる基礎モデルを評価するフレームワークを用いて,複数の n ショットと収束率で実験を行った。

Massive amounts of unlabelled data are captured by Earth Observation (EO) satellites, with the Sentinel-2 constellation generating 1.6 TB of data daily. This makes Remote Sensing a data-rich domain well suited to Machine Learning (ML) solutions. However, a bottleneck in applying ML models to EO is the lack of annotated data as annotation is a labour-intensive and costly process. As a result, research in this domain has focused on Self-Supervised Learning and Foundation Model approaches. This paper addresses the need to evaluate different Foundation Models on a fair and uniform benchmark by introducing the PhilEO Bench, a novel evaluation framework for EO Foundation Models. The framework comprises of a testbed and a novel 400 GB Sentinel-2 dataset containing labels for three downstream tasks, building density estimation, road segmentation, and land cover classification. We present experiments using our framework evaluating different Foundation Models, including Prithvi and SatMAE, at multiple n-shots and convergence rates.
翻訳日:2024-01-10 16:08:35 公開日:2024-01-09
# d3ad:動的変量拡散確率モデルによる異常検出

D3AD: Dynamic Denoising Diffusion Probabilistic Model for Anomaly Detection ( http://arxiv.org/abs/2401.04463v1 )

ライセンス: Link先を確認
Justin Tebbe, Jawad Tayyub(参考訳) 拡散モデルは、名目データ分布を捉え、再構成を通して異常を識別することで、異常検出に有用な応用を見出した。 それらの利点にもかかわらず、様々なスケールの異常、特に欠落したコンポーネント全体のような大きな異常をローカライズするのに苦労している。 そこで本稿では,前回導入した暗黙的条件付け手法であるmeng et al. (2022) を3つの重要な方法で拡張することにより,拡散モデルの能力を高める新しい枠組みを提案する。 まず、初期異常予測によって導かれる前方プロセスにおける可変ノイズ発生ステップを可能にする動的ステップサイズ計算を導入する。 第二に、ノイズが加わらずにのみスケールした入力をデノナイズすることが従来のデノナイズ処理より優れていることを示す。 第3に、大きな欠落したコンポーネントの再構築を妨げる細部を抽象化するために、潜在空間に画像を投影する。 さらに,対象領域のニュアンスを効果的に把握するための微調整機構を提案する。 本手法は,2つの異常検出データセットであるvisaとbtadの厳密な評価を行い,最先端の性能を得る。 重要な点として,本フレームワークは,拡散に基づく異常検出における重要な進歩を示すため,スケールに関わらず,効果的に異常の局所化を行う。

Diffusion models have found valuable applications in anomaly detection by capturing the nominal data distribution and identifying anomalies via reconstruction. Despite their merits, they struggle to localize anomalies of varying scales, especially larger anomalies like entire missing components. Addressing this, we present a novel framework that enhances the capability of diffusion models, by extending the previous introduced implicit conditioning approach Meng et al. (2022) in three significant ways. First, we incorporate a dynamic step size computation that allows for variable noising steps in the forward process guided by an initial anomaly prediction. Second, we demonstrate that denoising an only scaled input, without any added noise, outperforms conventional denoising process. Third, we project images in a latent space to abstract away from fine details that interfere with reconstruction of large missing components. Additionally, we propose a fine-tuning mechanism that facilitates the model to effectively grasp the nuances of the target domain. Our method undergoes rigorous evaluation on two prominent anomaly detection datasets VISA and BTAD, yielding state-of-the-art performance. Importantly, our framework effectively localizes anomalies regardless of their scale, marking a pivotal advancement in diffusion-based anomaly detection.
翻訳日:2024-01-10 16:08:19 公開日:2024-01-09
# データサイエンスにおける縦断的実践に基づく倫理訓練

Character comes from practice: longitudinal practice-based ethics training in data science ( http://arxiv.org/abs/2401.04454v1 )

ライセンス: Link先を確認
Louise Bezuidenhout, Emanuele Ratti(参考訳) 本章では、徳理論の枠組みを基礎としたデータサイエンスにおける非伝統的なRCRトレーニングを提案する。 まず、rcrトレーニングの目標は、特定のモラル能力の育成を促進することであると論じて、このアプローチをより理論的に詳細に記述する。 理想は美徳の育成であるが、rcrモジュールによって許される限られた空間は、表面能力やプロト・ヴァーチューの育成を助長するだけであり、これは学生がデータサイエンス環境における道徳的、政治的問題に親しむのに役立つ。 第3に,日常的なデータサイエンス活動の技術的・社会的課題を通じて(スキル獲得のように)環境獲得(proto-)が起こることを強調し,(proto-)virtue能力を開発し,倫理的に堅牢なデータシステムの開発を支援する機会を提供することにより,このアプローチを運用する。 最後に、このアプローチの実装方法の具体例について論じる。 特に,この手法を用いて,CODATA-RDAデータサイエンスサマースクールに参加する学生にデータ倫理を教える方法について述べる。

In this chapter, we propose a non-traditional RCR training in data science that is grounded into a virtue theory framework. First, we delineate the approach in more theoretical detail, by discussing how the goal of RCR training is to foster the cultivation of certain moral abilities. We specify the nature of these abilities: while the ideal is the cultivation of virtues, the limited space allowed by RCR modules can only facilitate the cultivation of superficial abilities or proto-virtues, which help students to familiarize with moral and political issues in the data science environment. Third, we operationalize our approach by stressing that (proto-)virtue acquisition (like skill acquisition) occurs through the technical and social tasks of daily data science activities, where these repetitive tasks provide the opportunities to develop (proto-)virtue capacity and to support the development of ethically robust data systems. Finally, we discuss a concrete example of how this approach has been implemented. In particular, we describe how this method is applied to teach data ethics to students participating in the CODATA-RDA Data Science Summer Schools.
翻訳日:2024-01-10 16:07:54 公開日:2024-01-09
# AIコンペティションとベンチマーク、実践的問題:提案、資金提供、スポンサー、賞、普及、宣伝

AI Competitions and Benchmarks, Practical issues: Proposals, grant money, sponsors, prizes, dissemination, publicity ( http://arxiv.org/abs/2401.04452v1 )

ライセンス: Link先を確認
Magali Richard (TIMC-MAGe), Yuna Blum (IGDR), Justin Guinney, Gustavo Stolovitzky, Adrien Pav\~ao (LRI)(参考訳) この章では、AIコンペティションの組織化に関わる実践的な側面を概観する。 まず、参加を奨励する戦略について議論し、効果的なコミュニケーション技術に触れ、分野におけるトレンドトピックと整合し、賞の構造化、採用機会の可能性などについて論じる。 そして、コミュニティのエンゲージメントの本質に移行し、組織的ベストプラクティスと効果的な方法でチャレンジアウトプットを広めます。 最後に、この章では、課題を効果的に管理し実行するためのロジスティクス、コスト、必要な人力、リソース割り当てについて論じている。 これらの実践的な問題を調べることで、読者は、開始から完了まで、AIコンペティション組織の多面的な風景をナビゲートするための実用的な洞察を得ることができる。

This chapter provides a comprehensive overview of the pragmatic aspects involved in organizing AI competitions. We begin by discussing strategies to incentivize participation, touching upon effective communication techniques, aligning with trending topics in the field, structuring awards, potential recruitment opportunities, and more. We then shift to the essence of community engagement, and into organizational best practices and effective means of disseminating challenge outputs. Lastly, the chapter addresses the logistics, exposing on costs, required manpower, and resource allocation for effectively managing and executing a challenge. By examining these practical problems, readers will gain actionable insights to navigate the multifaceted landscape of AI competition organization, from inception to completion.
翻訳日:2024-01-10 16:07:32 公開日:2024-01-09
# 手書き文書の非破壊検査のための新しいデータセット

A Novel Dataset for Non-Destructive Inspection of Handwritten Documents ( http://arxiv.org/abs/2401.04448v1 )

ライセンス: Link先を確認
Eleonora Breci (1), Luca Guarnera (1), Sebastiano Battiato (1) ((1) University of Catania)(参考訳) 法医学的手書き検査は、写本の著者を適切に定義または仮説化するために手書きの文書を検査することを目的とした法医学の分野である。 これらの分析は、2つ以上の(デジタル化された)文書を比較し、固有の局所的特徴とグローバルな特徴を包括的に比較する。 相関関係が存在し、特定のベストプラクティスが満たされれば、分析対象の文書が同一個人によって書かれたと確認することができる。 重要な特徴を抽出し比較できる高度なツールを作成する必要性は、ほぼ完全に自動化されたプロセスによる最先端ソフトウェアの開発につながり、手書きの法医学的検査を改善し、ますます客観的な評価を達成している。 これは純粋に数学的概念に基づくアルゴリズム解によって可能となる。 特定のデータセットでトレーニングされた機械学習とディープラーニングモデルは、そのタスクを最適に解決するための重要な要素であることが判明した。 本稿では,従来の「ペンと紙」アプローチ(後にデジタル化)で記述された21の文書と,タブレットなどの共通装置で直接取得された文書と,特定のパイプラインに従って取得された124人の異なる人物による362の手書き写本からなる,2つのサブセットからなる,新たな挑戦的なデータセットを提案する。 従来の手書き文書とデジタルツール(タブレットなど)による文書の比較を行った。 提案するデータセットの予備結果は,第1サブセット(紙,ペン,後のデジタル化およびタブレット)では90%の分類精度を達成でき,第2部分では96%の精度が得られた。 データセットはhttps://iplab.dmi.unict.it/mfs/forensic-handwriting- analysis/novel-dataset-2023/で利用可能である。

Forensic handwriting examination is a branch of Forensic Science that aims to examine handwritten documents in order to properly define or hypothesize the manuscript's author. These analysis involves comparing two or more (digitized) documents through a comprehensive comparison of intrinsic local and global features. If a correlation exists and specific best practices are satisfied, then it will be possible to affirm that the documents under analysis were written by the same individual. The need to create sophisticated tools capable of extracting and comparing significant features has led to the development of cutting-edge software with almost entirely automated processes, improving the forensic examination of handwriting and achieving increasingly objective evaluations. This is made possible by algorithmic solutions based on purely mathematical concepts. Machine Learning and Deep Learning models trained with specific datasets could turn out to be the key elements to best solve the task at hand. In this paper, we proposed a new and challenging dataset consisting of two subsets: the first consists of 21 documents written either by the classic ``pen and paper" approach (and later digitized) and directly acquired on common devices such as tablets; the second consists of 362 handwritten manuscripts by 124 different people, acquired following a specific pipeline. Our study pioneered a comparison between traditionally handwritten documents and those produced with digital tools (e.g., tablets). Preliminary results on the proposed datasets show that 90% classification accuracy can be achieved on the first subset (documents written on both paper and pen and later digitized and on tablets) and 96% on the second portion of the data. The datasets are available at https://iplab.dmi.unict.it/mfs/forensic-handwriting-analysis/novel-dataset-2023/.
翻訳日:2024-01-10 16:07:18 公開日:2024-01-09
# データフローダイアグラムがソフトウェアセキュリティ分析に与える影響:実証実験

How Dataflow Diagrams Impact Software Security Analysis: an Empirical Experiment ( http://arxiv.org/abs/2401.04446v1 )

ライセンス: Link先を確認
Simon Schneider, Nicol\'as E. D\'iaz Ferreyra, Pierre-Jean Qu\'eval, Georg Simhandl, Uwe Zdun, Riccardo Scandariato(参考訳) ソフトウェアシステムのモデルはソフトウェア開発ライフサイクルを通して使われます。 dataflow diagram(dfds)は特に、セキュリティ分析のための確立されたリソースです。 脅威モデリングのような多くのテクニックは、解析されたアプリケーションのDFDに基づいている。 しかし、セキュリティ分析設定におけるアナリストのパフォーマンスへの影響については、これまで検討されていない。 本稿では,この効果を調べるために実施した実験結果について述べる。 グループ内設計の後、参加者は特定のマイクロサービスアプリケーションのセキュリティ関連のタスクを解決するように求められた。 制御条件では,参加者はソースコードを手作業で検査しなければならなかった。 モデル支援条件では、解析対象のDFDと、ソースコード内のアーティファクトにモデル項目をリンクするトレーサビリティ情報も提供される。 対象者(n = 24)は, モデル支援条件において, 解析タスクの正解が有意に良好であった(解析正解率41%)。 さらに, 提供されたトレーサビリティ情報を用いたことを報告した被験者は, 回答のエビデンス(315%の証拠の正確性向上)が向上した。 最後に,dfdsをセキュリティ分析に使用する際の3つの課題を,実験で得られた知見に基づいて特定した。

Models of software systems are used throughout the software development lifecycle. Dataflow diagrams (DFDs), in particular, are well-established resources for security analysis. Many techniques, such as threat modelling, are based on DFDs of the analysed application. However, their impact on the performance of analysts in a security analysis setting has not been explored before. In this paper, we present the findings of an empirical experiment conducted to investigate this effect. Following a within-groups design, participants were asked to solve security-relevant tasks for a given microservice application. In the control condition, the participants had to examine the source code manually. In the model-supported condition, they were additionally provided a DFD of the analysed application and traceability information linking model items to artefacts in source code. We found that the participants (n = 24) performed significantly better in answering the analysis tasks correctly in the model-supported condition (41% increase in analysis correctness). Further, participants who reported using the provided traceability information performed better in giving evidence for their answers (315% increase in correctness of evidence). Finally, we identified three open challenges of using DFDs for security analysis based on the insights gained in the experiment.
翻訳日:2024-01-10 16:06:29 公開日:2024-01-09
# 知識注入に基づく画像分類網強化手法

Image classification network enhancement methods based on knowledge injection ( http://arxiv.org/abs/2401.04441v1 )

ライセンス: Link先を確認
Yishuang Tian, Ning Wang, Liang Zhang(参考訳) 現在のディープニューラルネットワークアルゴリズムは、画像ラベルペアのようなエンドツーエンドのトレーニング監視手法にとどまっており、従来のアルゴリズムでは結果の理由を説明するのが難しく、予測ロジックの理解や解析が難しい。 現在のアルゴリズムでは、既存の人間の知識情報を使用せず、モデルが人間の認知モデルと一致せず、モデルが人間の使用に適さないようにしている。 本発明は、上記問題を解決するために、人間知識に基づく深層ニューラルネットワークトレーニング方法を提供し、人間の認識モデルを用いて深層ニューラルネットワークトレーニングモデルを構築し、既存の人間知識情報を用いて深層ニューラルネットワークトレーニングモデルを構築する。 本稿では,多段階階層型深層ニューラルネットワークアーキテクチャと多段階階層型深層学習フレームワークからなる多段階階層型深層学習アルゴリズムを提案する。 実験の結果,提案アルゴリズムはニューラルネットワークの隠れた情報を効果的に説明できることがわかった。 本研究の目的は,知識注入が分類課題に与える影響を分析することによって,深層ニューラルネットワーク(dnn)の解釈性を向上させることである。 知識データと画像分類データに一致する知識注入データセットを構築した。 ナレッジインジェクションデータセットは、論文における実験のためのベンチマークデータセットである。 本モデルでは,異なるスケールにおける隠れレイヤの解釈性と分類タスク性能の向上を表現している。

The current deep neural network algorithm still stays in the end-to-end training supervision method like Image-Label pairs, which makes traditional algorithm is difficult to explain the reason for the results, and the prediction logic is difficult to understand and analyze. The current algorithm does not use the existing human knowledge information, which makes the model not in line with the human cognition model and makes the model not suitable for human use. In order to solve the above problems, the present invention provides a deep neural network training method based on the human knowledge, which uses the human cognition model to construct the deep neural network training model, and uses the existing human knowledge information to construct the deep neural network training model. This paper proposes a multi-level hierarchical deep learning algorithm, which is composed of multi-level hierarchical deep neural network architecture and multi-level hierarchical deep learning framework. The experimental results show that the proposed algorithm can effectively explain the hidden information of the neural network. The goal of our study is to improve the interpretability of deep neural networks (DNNs) by providing an analysis of the impact of knowledge injection on the classification task. We constructed a knowledge injection dataset with matching knowledge data and image classification data. The knowledge injection dataset is the benchmark dataset for the experiments in the paper. Our model expresses the improvement in interpretability and classification task performance of hidden layers at different scales.
翻訳日:2024-01-10 16:05:37 公開日:2024-01-09
# MERA:ロシアにおける総合的なLCM評価

MERA: A Comprehensive LLM Evaluation in Russian ( http://arxiv.org/abs/2401.04531v1 )

ライセンス: Link先を確認
Alena Fenogenova, Artem Chervyakov, Nikita Martynov, Anastasia Kozlova, Maria Tikhonova, Albina Akhmetgareeva, Anton Emelyanov, Denis Shevelev, Pavel Lebedev, Leonid Sinev, Ulyana Isaeva, Katerina Kolomeytseva, Daniil Moskovskiy, Elizaveta Goncharova, Nikita Savushkin, Polina Mikhailova, Denis Dimitrov, Alexander Panchenko, Sergei Markov(参考訳) 過去数年間、AI研究の最も顕著な進歩の1つは、基礎モデル(FM)であり、言語モデル(LM)の台頭に基づいている。 モデルのサイズが大きくなるにつれて、LMは測定可能な側面の強化と新しい定性的特徴の開発を示す。 しかし、研究者の注意とLM応用の急速な成長にもかかわらず、その能力、限界、関連するリスクをよりよく理解する必要がある。 これらの課題に対処するために,ロシア語を指向した基礎モデルを評価するための新しい指導ベンチマークである,ロシア語アーキテクチャのマルチモーダル評価(MERA)を導入する。 このベンチマークは、11のスキルドメインで生成モデルを評価する21のタスクを含み、データ漏洩の排除を保証するブラックボックステストとして設計されている。 本稿では,FMとLMを,他のモードに拡張可能なゼロおよび少数ショットの固定命令設定で評価する手法を提案する。 本研究では,評価手法,mera評価のためのオープンソースコードベース,提出システムを備えたリーダボードを提案する。 オープンなLMをベースラインとして評価し,人間のレベルをはるかに下回っていることを確認した。 我々はMERAを公開し、今後の研究をガイドし、グラウンディングモデルの特徴を予測し、評価手順を標準化し、潜在的な社会的欠点に対処する。

Over the past few years, one of the most notable advancements in AI research has been in foundation models (FMs), headlined by the rise of language models (LMs). As the models' size increases, LMs demonstrate enhancements in measurable aspects and the development of new qualitative features. However, despite researchers' attention and the rapid growth in LM application, the capabilities, limitations, and associated risks still need to be better understood. To address these issues, we introduce an open Multimodal Evaluation of Russian-language Architectures (MERA), a new instruction benchmark for evaluating foundation models oriented towards the Russian language. The benchmark encompasses 21 evaluation tasks for generative models in 11 skill domains and is designed as a black-box test to ensure the exclusion of data leakage. The paper introduces a methodology to evaluate FMs and LMs in zero- and few-shot fixed instruction settings that can be extended to other modalities. We propose an evaluation methodology, an open-source code base for the MERA assessment, and a leaderboard with a submission system. We evaluate open LMs as baselines and find that they are still far behind the human level. We publicly release MERA to guide forthcoming research, anticipate groundbreaking model features, standardize the evaluation procedure, and address potential societal drawbacks.
翻訳日:2024-01-10 15:47:46 公開日:2024-01-09
# 準定常位相減衰による安定化符号のコヒーレント誤差

Coherent errors in stabilizer codes caused by quasistatic phase damping ( http://arxiv.org/abs/2401.04530v1 )

ライセンス: Link先を確認
D\'avid Pataki, \'Aron M\'arton, J\'anos K. Asb\'oth, Andr\'as P\'alyi(参考訳) 量子誤差補正は実用的な量子コンピュータの開発にとって重要な課題であり、近年は実験的に大きな進歩を遂げている。 固体量子ビットにおいて、主要な情報損失機構の1つは位相フリップ誤差によってモデル化されるデファスである。 ここでは,1/f雑音によるラーモア周波数変動の影響を記述する,より微妙な誤差モデルである擬似位相減衰を導入する。 多サイクル誤差補正の観点から、このモデルが単純な位相反転誤差モデルとどのように異なるかを示す。 表面符号を考慮すれば,準静的位相減衰と読み出し誤差の存在下で,誤差しきい値に対する数値的証拠が得られる。 スピン量子ビットおよび超伝導量子ビットに対する結果の影響について論じる。

Quantum error correction is a key challenge for the development of practical quantum computers, a direction in which significant experimental progress has been made in recent years. In solid-state qubits, one of the leading information loss mechanisms is dephasing, usually modelled by phase flip errors. Here, we introduce quasistatic phase damping, a more subtle error model which describes the effect of Larmor frequency fluctuations due to 1/f noise. We show how this model is different from a simple phase flip error model, in terms of multi-cycle error correction. Considering the surface code, we provide numerical evidence for an error threshold, in the presence of quasistatic phase damping and readout errors. We discuss the implications of our results for spin qubits and superconducting qubits.
翻訳日:2024-01-10 15:47:25 公開日:2024-01-09
# LUNA: 言語理解と自然性評価のためのフレームワーク

LUNA: A Framework for Language Understanding and Naturalness Assessment ( http://arxiv.org/abs/2401.04522v1 )

ライセンス: Link先を確認
Marat Saidov and Aleksandra Bakalova and Ekaterina Taktasheva and Vladislav Mikhailov and Ekaterina Artemova(参考訳) 自然言語生成(NLG)モデルの評価が注目され、生成したテキストの様々な側面を評価する指標の開発が進められている。 LUNAは、20NLG評価メトリクスのための統一インターフェースを導入することで、この問題に対処する。 これらのメトリクスは、文字列ベースのn-gramオーバーラップから静的埋め込みと事前学習された言語モデルの利用まで、参照依存度と採用するテキスト表現の種類に基づいて分類される。 LUNAの直接的な設計は、数行のコードだけで、新しいメトリクスで簡単に拡張できる。 LUNAは、生成されたテキストを評価するユーザフレンドリーなツールを提供する。

The evaluation of Natural Language Generation (NLG) models has gained increased attention, urging the development of metrics that evaluate various aspects of generated text. LUNA addresses this challenge by introducing a unified interface for 20 NLG evaluation metrics. These metrics are categorized based on their reference-dependence and the type of text representation they employ, from string-based n-gram overlap to the utilization of static embeddings and pre-trained language models. The straightforward design of LUNA allows for easy extension with novel metrics, requiring just a few lines of code. LUNA offers a user-friendly tool for evaluating generated texts.
翻訳日:2024-01-10 15:47:13 公開日:2024-01-09
# 重力誘起エンタングルメントにおける破壊的干渉の役割

Essential role of destructive interference in the gravitationally induced entanglement ( http://arxiv.org/abs/2401.04520v1 )

ライセンス: Link先を確認
Aiham M. Rostom(参考訳) 重力によって引き起こされる絡み合いは、ニュートン重力相互作用を用いて2つのメソスコピック粒子の間に生じる量子絡み合いの一種である。 重力の量子的側面を研究するための新しいプラットフォームとして多くの注目を集めている。 本稿では,重力誘起の絡み合いを純粋な干渉効果として解析し,破壊的量子干渉に伴う符号変化のみによって引き起こされることを示す。 また、絡み合いが最大でない場合、粒子の1つに対する破壊干渉の準備は、他の粒子の最大視認性干渉パターンを回復できることを示した。 したがって、非最大エンタングル状態は、要求(粒子の質量とその相互作用時間、分離距離、源)を減少させ、エンタングルメントに関する情報を同時に保持できるため、実験試験に極めて有効である。 その結果、信号対雑音比の改善が実証され、実験試験に必要な最小要件を決定するパラメータが定義される。

The gravitationally induced entanglement is a type of quantum entanglement that can be generated between two mesoscopic particles using their Newtonian gravitational interaction. It has attracted a great deal of attention as a new platform for studying quantum aspects of gravity. The present paper analyzes the gravitationally induced entanglement as a pure interference effect and shows that the entanglement is induced solely by a sign change associated with the destructive quantum interference. It is also shown that when the entanglement is non-maximal, the preparation for destructive interference for one of the particles can recover a maximum visibility interference pattern for the other particle. Therefore, the non-maximally entangled state can be extremely effective for experimental testing since it can help in reducing requirements (on masses of the particles and their interaction duration, separation distances and sources) and preserve the information about entanglement at the same time. As a result, the improvement in the signal-to-noise ratio is demonstrated and a parameter that determines minimal requirements for experimental testing is defined.
翻訳日:2024-01-10 15:47:03 公開日:2024-01-09
# 批判批判

The Critique of Critique ( http://arxiv.org/abs/2401.04518v1 )

ライセンス: Link先を確認
Shichao Sun, Junlong Li, Weizhe Yuan, Ruifeng Yuan, Wenjie Li, Pengfei Liu(参考訳) モデル生成コンテンツの品質を評価するための自然言語記述としての批判は、大規模言語モデル(llm)の訓練、評価、洗練において重要な役割を果たすことが証明されている。 しかし、批判そのものの質を評価するには原則的な理解が欠如している。 本稿では,二面から批判を評価する枠組みとしてメタ批判(metacritique)と呼ばれる批判の批判,すなわち正確性スコアとしての事実性,リコールスコアとしての包括性,を開拓した。 我々は、F1スコアと呼ばれる総合評価値として、精度とリコールの調和平均を計算する。 信頼性の高い評価結果を得るため,我々はこの批判をよりきめ細かい方法で記述する原子情報単位(aius)を提案する。 MetaCritiqueは各AIUを考慮に入れ、スコアに対するAIUの判断を集約する。 さらに,評価プロセスが複雑な推論を伴うことを前提として,メタクリティークは各判断を支持する自然言語の論理的根拠を提供する。 我々は,4つのタスク(質問応答,推論,エンタテインメント,要約)に300の批判(2653 AIU)を含むメタ評価データセットを構築し,その実現可能性と有効性を示すために比較研究を行った。 また、MetaCritiqueによって判断される優れた批判がより良い洗練につながることを示し、生成人工知能が我々のMetaCritiqueで大幅に進歩する可能性を示している。 関連するコードとメタ評価データセットをhttps://github.com/GAIR-NLP/MetaCritique.comでリリースします。

Critique, as a natural language description for assessing the quality of model-generated content, has been proven to play an essential role in the training, evaluation, and refinement of Large Language Models (LLMs). However, there is a lack of principled understanding in evaluating the quality of the critique itself. In this paper, we pioneer the critique of critique, termed MetaCritique, which is a framework to evaluate the critique from two aspects, i.e., factuality as precision score and comprehensiveness as recall score. We calculate the harmonic mean of precision and recall as the overall rating called F1 score. To obtain a reliable evaluation outcome, we propose Atomic Information Units (AIUs), which describe the critique in a more fine-grained manner. MetaCritique takes each AIU into account and aggregates each AIU's judgment for the overall score. Moreover, given the evaluation process involves intricate reasoning, our MetaCritique provides a natural language rationale to support each judgment. We construct a meta-evaluation dataset containing 300 critiques (2653 AIUs) across four tasks (question answering, reasoning, entailment, and summarization), and we conduct a comparative study to demonstrate the feasibility and effectiveness. Experiments also show superior critique judged by MetaCritique leads to better refinement, indicating generative artificial intelligence indeed has the potential to be significantly advanced with our MetaCritique. We will release relevant code and meta-evaluation datasets at https://github.com/GAIR-NLP/MetaCritique.
翻訳日:2024-01-10 15:46:45 公開日:2024-01-09
# 大規模言語モデルを用いたゼロショットハイパーネム予測のためのプロンプト法の検討

Exploring Prompt-Based Methods for Zero-Shot Hypernym Prediction with Large Language Models ( http://arxiv.org/abs/2401.04515v1 )

ライセンス: Link先を確認
Mikhail Tikhomirov and Natalia Loukachevitch(参考訳) 本稿では,大言語モデル(LLM)を用いたハイパーネミー予測に対するゼロショットアプローチについて検討する。 本研究は,テキスト確率計算に基づく手法を用いて,様々な生成プロンプトに適用する。 実験は,言語モデルプロンプトの有効性と古典パターンとの強い相関関係を示し,より小さなモデルを用いて事前のプロンプト選択を行うことができることを示した。 また,自動識別された同義語を用いて,追加情報付きプロンプトを増強することにより,同義語を予測するプロンプトやハイパーニーミー予測の改善も検討する。 より高度な概念を予測するための反復的手法が開発され、BLESSデータセットの品質をさらに向上する(MAP = 0.8)。

This article investigates a zero-shot approach to hypernymy prediction using large language models (LLMs). The study employs a method based on text probability calculation, applying it to various generated prompts. The experiments demonstrate a strong correlation between the effectiveness of language model prompts and classic patterns, indicating that preliminary prompt selection can be carried out using smaller models before moving to larger ones. We also explore prompts for predicting co-hyponyms and improving hypernymy predictions by augmenting prompts with additional information through automatically identified co-hyponyms. An iterative approach is developed for predicting higher-level concepts, which further improves the quality on the BLESS dataset (MAP = 0.8).
翻訳日:2024-01-10 15:46:21 公開日:2024-01-09
# コードを書き直す: 大規模言語モデル拡張コード検索のための簡単な方法

Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search ( http://arxiv.org/abs/2401.04514v1 )

ライセンス: Link先を確認
Haochen Li, Xin Zhou, Zhiqi Shen(参考訳) コード検索において、クエリを増強するための典型的なコードスニペットを生成するGeneration-Augmented Retrieval(GAR)フレームワークは、特にLarge Language Models(LLMs)のコード生成機能において、コードスニペットと自然言語クエリ間のモダリティの不整合の主な課題に対処する、有望な戦略として登場した。 しかし, 予備調査の結果, LLM 拡張フレームワークによる改善はある程度制約されていることが示唆された。 この制限は、生成したコードが機能的に正確であり、コードベースの真理的なコードから顕著な様式的な逸脱をしばしば表示するという事実による可能性がある。 本稿では,基礎的なGARフレームワークを拡張し,コードベース内でコード(ReCo)を書き換えてスタイルの正規化を行うシンプルな手法を提案する。 実験の結果、ReCoはスパース(最大35.7%)、ゼロショット密度(最大27.6%)、微調整密度(最大23.6%)の検索設定を多様な検索シナリオで大幅に向上させることが示された。 ReCoの利点をさらに解明し、コードスタイルの正規化の研究を促進するために、コード内のスタイリスティックな類似性を定量化するための最初の指標であるCode Style similarityを紹介します。 特に,我々の経験的発見は,スタイル的ニュアンスを捉える上で,既存の指標が不十分であることを明らかにする。

In code search, the Generation-Augmented Retrieval (GAR) framework, which generates exemplar code snippets to augment queries, has emerged as a promising strategy to address the principal challenge of modality misalignment between code snippets and natural language queries, particularly with the demonstrated code generation capabilities of Large Language Models (LLMs). Nevertheless, our preliminary investigations indicate that the improvements conferred by such an LLM-augmented framework are somewhat constrained. This limitation could potentially be ascribed to the fact that the generated codes, albeit functionally accurate, frequently display a pronounced stylistic deviation from the ground truth code in the codebase. In this paper, we extend the foundational GAR framework and propose a simple yet effective method that additionally Rewrites the Code (ReCo) within the codebase for style normalization. Experimental results demonstrate that ReCo significantly boosts retrieval accuracy across sparse (up to 35.7%), zero-shot dense (up to 27.6%), and fine-tuned dense (up to 23.6%) retrieval settings in diverse search scenarios. To further elucidate the advantages of ReCo and stimulate research in code style normalization, we introduce Code Style Similarity, the first metric tailored to quantify stylistic similarities in code. Notably, our empirical findings reveal the inadequacy of existing metrics in capturing stylistic nuances.
翻訳日:2024-01-10 15:46:06 公開日:2024-01-09
# Zero Shot Audio to Audio Emotion Transfer with Speaker Disentanglement (英語)

Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement ( http://arxiv.org/abs/2401.04511v1 )

ライセンス: Link先を確認
Soumya Dutta and Sriram Ganapathy(参考訳) オーディオ・トゥ・オーディオ(A2A)スタイル転送の問題は、ソースオーディオのコンテンツ関連属性を保存しながら、ソースオーディオのスタイル特徴をターゲットオーディオのスタイル特徴に置き換えることである。 本稿では,ZEST(Zero-shot Emotion Style Transfer)と呼ばれる効率的なアプローチを提案し,音源から話者と音声の内容を保持しながら,対象音源に埋め込まれた感情的内容の伝達を可能にする。 提案システムは,音声を意味トークン,話者表現,感情埋め込みに分解して構築する。 これらの要因を用いて,音声信号のピッチ輪郭を再構成し,音声信号を再構成するデコーダを訓練する枠組みを提案する。 モデルは自己超越に基づく再構築損失を用いて訓練される。 変換中は、感情の埋め込みはターゲットオーディオからのみ導出され、その他の要素はソースオーディオから導出される。 実験では,ソースやターゲットオーディオから並列トレーニングデータやラベルを使わずに,客観的および主観的品質評価を用いて,提案したZESTモデルのゼロショット感情伝達能力を示す。

The problem of audio-to-audio (A2A) style transfer involves replacing the style features of the source audio with those from the target audio while preserving the content related attributes of the source audio. In this paper, we propose an efficient approach, termed as Zero-shot Emotion Style Transfer (ZEST), that allows the transfer of emotional content present in the given source audio with the one embedded in the target audio while retaining the speaker and speech content from the source. The proposed system builds upon decomposing speech into semantic tokens, speaker representations and emotion embeddings. Using these factors, we propose a framework to reconstruct the pitch contour of the given speech signal and train a decoder that reconstructs the speech signal. The model is trained using a self-supervision based reconstruction loss. During conversion, the emotion embedding is alone derived from the target audio, while rest of the factors are derived from the source audio. In our experiments, we show that, even without using parallel training data or labels from the source or target audio, we illustrate zero shot emotion transfer capabilities of the proposed ZEST model using objective and subjective quality evaluations.
翻訳日:2024-01-10 15:45:39 公開日:2024-01-09
# koopman理論を用いたデータ駆動非線形モデル削減:統合制御形式とnmpcケーススタディ

Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated Control Form and NMPC Case Study ( http://arxiv.org/abs/2401.04508v1 )

ライセンス: Link先を確認
Jan C. Schulze and Alexander Mitsos(参考訳) 制御付き非線形力学系のデータ駆動モデル還元にはkoopman理論を用いる。 そこで本研究では,遅延座標符号化とフルステートデコードを組み合わせた汎用モデル構造を提案する。 提案するモデルを学習する深層学習手法を提案する。 本手法が正確な制御モデルを提供し,高純度低温蒸留塔のリアルタイム非線形モデル予測制御を可能にすることを示す。

We use Koopman theory for data-driven model reduction of nonlinear dynamical systems with controls. We propose generic model structures combining delay-coordinate encoding of measurements and full-state decoding to integrate reduced Koopman modeling and state estimation. We present a deep-learning approach to train the proposed models. A case study demonstrates that our approach provides accurate control models and enables real-time capable nonlinear model predictive control of a high-purity cryogenic distillation column.
翻訳日:2024-01-10 15:45:18 公開日:2024-01-09
# TechGPT-2.0:知識グラフ構築の課題を解決するための大規模言語モデルプロジェクト

TechGPT-2.0: A large language model project to solve the task of knowledge graph construction ( http://arxiv.org/abs/2401.04507v1 )

ライセンス: Link先を確認
Jiaqi Wang, Yuying Chang, Zhong Li, Ning An, Qi Ma, Lei Hei, Haibo Luo, Yifei Lu, Feiliang Ren(参考訳) 大規模言語モデルは多様な自然言語処理タスクにおいて堅牢な性能を示している。 本報告では,知識グラフ構築タスクにおける大規模言語モデルの能力向上を目的としたプロジェクトであるTechGPT-2.0を紹介し,NLPアプリケーションにおける名前付きエンティティ認識(NER)と関係トリプル抽出(RTE)タスクについて紹介する。 さらに、中国のオープンソースモデルコミュニティ内の研究に利用できるllmとしても機能する。 長文処理に特化した2つの7B大言語モデルウェイトとQLoRAウェイトを提供していますが、特にTechGPT-2.0はHuaweiのAscendサーバでトレーニングされています。 TechGPT-1.0から全ての機能を継承し、特に医学や法分野において、堅牢なテキスト処理能力を示す。 さらに, 地理領域, 交通機関, 組織, 文学作品, 生物学, 自然科学, 天文学的対象, 建築など, 様々な分野のテキストを処理できるように, モデルに新たな機能を導入する。 これらの拡張は、幻覚、難解なクエリ、長いテキストを扱うモデルの適性も強化した。 本報告では,HuaweiのAscendサーバのフル微調整プロセスについて,Ascendサーバデバッグ,命令微調整データ処理,モデルトレーニングの経験を包括的に詳細に紹介する。 私たちのコードはhttps://github.com/neukg/TechGPT-2.0で利用可能です。

Large language models have exhibited robust performance across diverse natural language processing tasks. This report introduces TechGPT-2.0, a project designed to enhance the capabilities of large language models specifically in knowledge graph construction tasks, including named entity recognition (NER) and relationship triple extraction (RTE) tasks in NLP applications. Additionally, it serves as a LLM accessible for research within the Chinese open-source model community. We offer two 7B large language model weights and a QLoRA weight specialized for processing lengthy texts.Notably, TechGPT-2.0 is trained on Huawei's Ascend server. Inheriting all functionalities from TechGPT-1.0, it exhibits robust text processing capabilities, particularly in the domains of medicine and law. Furthermore, we introduce new capabilities to the model, enabling it to process texts in various domains such as geographical areas, transportation, organizations, literary works, biology, natural sciences, astronomical objects, and architecture. These enhancements also fortified the model's adeptness in handling hallucinations, unanswerable queries, and lengthy texts. This report provides a comprehensive and detailed introduction to the full fine-tuning process on Huawei's Ascend servers, encompassing experiences in Ascend server debugging, instruction fine-tuning data processing, and model training. Our code is available at https://github.com/neukg/TechGPT-2.0
翻訳日:2024-01-10 15:45:10 公開日:2024-01-09
# ゲート型量子コンピュータ上の量子場理論のシミュレーション

Simulating quantum field theories on gate-based quantum computers ( http://arxiv.org/abs/2401.04496v1 )

ライセンス: Link先を確認
Gayathree M. Vinod and Anil Shaji(参考訳) この理論の光面定式化を用いて,ゲート型量子コンピュータ上で1+1時間次元の量子場理論のシミュレーションを行う。 湯川モデル場理論の非摂動的シミュレーションはIBMのシミュレータ上で検証され、IBM Qiskitを用いてクラウド上の小型のIBM回路ベースの量子プロセッサ上でも実証されている。 光前線の定式化により、単一のパラメータ、すなわち調和分解能を変調することで、計算のリソース要求と複雑さを精度と詳細で制御することができる。 ボソニック励起のための量子演算子も作成され、これら全ての粒子を含む理論をシミュレートするために既に利用可能なフェルミイオン系と併用された。 既存のゲートベースのノイズ中間量子(NISQ)デバイスで利用可能な論理量子ビットの数を制限することにより、トロッタ化近似も用いられる。 各種プロセスの断面, 生存確率など, 実験的に関係のある量を計算することができることを示す。 また、達成可能な高調波分解能の境界や、現在のNISQデバイスでサポートされている量子ビット数や回路深度に制限されたトロッターステップによる不正確性についても検討する。

We implement a simulation of a quantum field theory in 1+1 space-time dimensions on a gate-based quantum computer using the light front formulation of the theory. The nonperturbative simulation of the Yukawa model field theory is verified on IBM's simulator and is also demonstrated on a small-scale IBM circuit-based quantum processor, on the cloud, using IBM Qiskit. The light front formulation allows for controlling the resource requirement and complexity of the computation with commensurate trade-offs in accuracy and detail by modulating a single parameter, namely the harmonic resolution. Qubit operators for the bosonic excitations were also created and were used along with the fermionic ones already available, to simulate the theory involving all of these particles. With the restriction on the number of logical qubits available on the existent gate-based Noisy Intermediate-Scale Quantum (NISQ) devices, the trotterization approximation is also used. We show that experimentally relevant quantities like cross-sections for various processes, survival probabilities of various states, etc. can be computed. We also explore the inaccuracies introduced by the bounds on achievable harmonic resolution and Trotter steps placed by the limited number of qubits and circuit depth supported by present-day NISQ devices.
翻訳日:2024-01-10 15:44:43 公開日:2024-01-09
# SpiNNaker2:イベントベースおよび非同期機械学習のための大規模ニューロモーフィックシステム

SpiNNaker2: A Large-Scale Neuromorphic System for Event-Based and Asynchronous Machine Learning ( http://arxiv.org/abs/2401.04491v1 )

ライセンス: Link先を確認
Hector A. Gonzalez, Jiaxin Huang, Florian Kelber, Khaleelulla Khan Nazeer, Tim Langer, Chen Liu, Matthias Lohrmann, Amirhossein Rostami, Mark Sch\"one, Bernhard Vogginger, Timo C. Wunderlich, Yexin Yan, Mahmoud Akl, Christian Mayr(参考訳) 人工知能(ANN)とGPUやTPUといったドメイン固有のハードウェアアクセラレータの共同進歩は、機械学習研究の多くの領域を引き継いだ。 この開発には、より大きなモデルとより多くのデータに必要な計算要求の急速な増加が伴う。 同時に、コンテキスト内学習のような基礎モデルの新たな性質は、機械学習アプリケーションに新たな機会をもたらす。 しかし、そのようなアプリケーションの計算コストは、データセンターにおける技術の制限要因であり、モバイルデバイスやエッジシステムではより重要である。 現代システムのエネルギーフットプリントと非自明なレイテンシを仲介するために、ニューロモルフィックコンピューティングシステムは低消費電力アナログとデジタル技術を利用して神経生物学システムの計算原理を深く統合する。 SpiNNaker2はスケーラブルな機械学習のために開発されたデジタルニューロモルフィックチップである。 SpiNNaker2のイベントベースおよび非同期設計により、数千のチップを含む大規模なシステムを構成することができる。 これはspinnaker2システムの動作原理を特徴とし、新しい機械学習アプリケーションのプロトタイプを概説する。 これらの応用は、annから生物に触発されたスパイクニューラルネットワークから、汎用的なイベントベースのニューラルネットワークまで幅広い。 SpiNNaker2の開発とデプロイの成功により、我々は、次世代の機械学習システムのためのイベントベースおよび非同期アルゴリズムの進歩を促進することを目指している。

The joint progress of artificial neural networks (ANNs) and domain specific hardware accelerators such as GPUs and TPUs took over many domains of machine learning research. This development is accompanied by a rapid growth of the required computational demands for larger models and more data. Concurrently, emerging properties of foundation models such as in-context learning drive new opportunities for machine learning applications. However, the computational cost of such applications is a limiting factor of the technology in data centers, and more importantly in mobile devices and edge systems. To mediate the energy footprint and non-trivial latency of contemporary systems, neuromorphic computing systems deeply integrate computational principles of neurobiological systems by leveraging low-power analog and digital technologies. SpiNNaker2 is a digital neuromorphic chip developed for scalable machine learning. The event-based and asynchronous design of SpiNNaker2 allows the composition of large-scale systems involving thousands of chips. This work features the operating principles of SpiNNaker2 systems, outlining the prototype of novel machine learning applications. These applications range from ANNs over bio-inspired spiking neural networks to generalized event-based neural networks. With the successful development and deployment of SpiNNaker2, we aim to facilitate the advancement of event-based and asynchronous algorithms for future generations of machine learning systems.
翻訳日:2024-01-10 15:44:19 公開日:2024-01-09
# 最適な生存木:動的プログラミングアプローチ

Optimal Survival Trees: A Dynamic Programming Approach ( http://arxiv.org/abs/2401.04489v1 )

ライセンス: Link先を確認
Tim Huisman, Jacobus G. M. van der Linden, Emir Demirovi\'c(参考訳) サバイバル分析は、過去のデータに基づいて、死亡時期や、その他の特異な非再発事象を研究し予測するが、死亡の正確な時期は未知である。 生存木は、個体群を再帰的に分割し、各葉ノードで異なる生存分布を予測することによって、コンパクトな人間可理解モデルにおける複雑な非線形関係の発見を可能にする。 我々は動的プログラミングを用いて、最適性を保証する最初の生存木法を提供し、ヒューリスティックスの最適性ギャップを評価する。 木を深さ2まで計算する特別なアルゴリズムにより,本手法のスケーラビリティを向上する。 実験の結果,本手法は実例のヒューリスティックよりも優れており,実例でも同様の性能が得られることがわかった。

Survival analysis studies and predicts the time of death, or other singular unrepeated events, based on historical data, while the true time of death for some instances is unknown. Survival trees enable the discovery of complex nonlinear relations in a compact human comprehensible model, by recursively splitting the population and predicting a distinct survival distribution in each leaf node. We use dynamic programming to provide the first survival tree method with optimality guarantees, enabling the assessment of the optimality gap of heuristics. We improve the scalability of our method through a special algorithm for computing trees up to depth two. The experiments show that our method's run time even outperforms some heuristics for realistic cases while obtaining similar out-of-sample performance with the state-of-the-art.
翻訳日:2024-01-10 15:44:01 公開日:2024-01-09
# 近道:スパイクニューラルネットワークのトレーニングのための勾配消失の緩和

Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks ( http://arxiv.org/abs/2401.04486v1 )

ライセンス: Link先を確認
Yufei Guo, Yuanpei Chen(参考訳) Spiking Neural Network(SNN)は生物学的にインスパイアされたニューラルネットワーク基盤であり、最近大きな注目を集めている。 二分スパイクアクティベーションを利用して情報を伝達し、乗算を加算に置き換え、高いエネルギー効率をもたらす。 しかしながら、SNNの訓練は、発射スパイクプロセスの未定義の勾配のため、直接的に課題となる。 従来の作業では、バックプロパゲーション中の発射プロセスを置き換えるために代替機能を使用する様々な代理勾配訓練手法が用いられてきたが、これらのアプローチは固有の問題を無視している。 この問題に対処するため,本論文では,損失から浅い層へ直接勾配を伝達することを提唱するショートカットバックプロパゲーション手法を提案する。 これにより,浅層に直接勾配を提示することで,勾配消失問題を大幅に軽減することができる。 さらに、この手法は推論フェーズ中にいかなる負担も生じない。 最終精度と訓練の容易さのバランスを両立させるため,ネットワークの性能をさらに向上させるように,学習期間とともに動的に変化するバランス係数を誘導し,進化的トレーニングフレームワークを提案する。 複数の一般的なネットワーク構造を用いた静的および動的データセット上での広範な実験により,本手法が最先端手法を一貫して上回っていることが明らかとなった。

The Spiking Neural Network (SNN) is a biologically inspired neural network infrastructure that has recently garnered significant attention. It utilizes binary spike activations to transmit information, thereby replacing multiplications with additions and resulting in high energy efficiency. However, training an SNN directly poses a challenge due to the undefined gradient of the firing spike process. Although prior works have employed various surrogate gradient training methods that use an alternative function to replace the firing process during back-propagation, these approaches ignore an intrinsic problem: gradient vanishing. To address this issue, we propose a shortcut back-propagation method in our paper, which advocates for transmitting the gradient directly from the loss to the shallow layers. This enables us to present the gradient to the shallow layers directly, thereby significantly mitigating the gradient vanishing problem. Additionally, this method does not introduce any burden during the inference phase. To strike a balance between final accuracy and ease of training, we also propose an evolutionary training framework and implement it by inducing a balance coefficient that dynamically changes with the training epoch, which further improves the network's performance. Extensive experiments conducted over static and dynamic datasets using several popular network structures reveal that our method consistently outperforms state-of-the-art methods.
翻訳日:2024-01-10 15:43:49 公開日:2024-01-09
# 音声認識における新しい単語の連続学習

Continuously Learning New Words in Automatic Speech Recognition ( http://arxiv.org/abs/2401.04482v1 )

ライセンス: Link先を確認
Christian Huber and Alexander Waibel(参考訳) 最近の進歩にもかかわらず、自動音声認識(ASR)システムはまだ完璧には程遠い。 典型的なエラーには、頭字語、名前付きエンティティ、ほとんどまたは全くデータがないドメイン固有の特別な単語が含まれる。 本稿では,これらの単語認識の問題に対処するため,自己教師付き連続学習手法を提案する。 対応するスライドを用いた講義講演の音声を考えると,過去の作業から記憶強調されたasrモデルを用いて,新しい単語をスライドから復号するモデルに偏りを与える。 そこで本研究では,新たに検出した単語を含む発話を適応データセットに収集する。 次に、モデルの各重み行列に付加される低ランク行列重みを適応させることにより、この集合上で連続学習を行う。 この手続きは、多くの講演で繰り返される。 このアプローチでは,モデルの一般的な性能を維持しつつ,より頻繁に発生する場合(80%以上のリコール)に,新たな単語のパフォーマンスが向上することを示す。

Despite recent advances, Automatic Speech Recognition (ASR) systems are still far from perfect. Typical errors include acronyms, named entities and domain-specific special words for which little or no data is available. To address the problem of recognizing these words, we propose an self-supervised continual learning approach. Given the audio of a lecture talk with corresponding slides, we bias the model towards decoding new words from the slides by using a memory-enhanced ASR model from previous work. Then, we perform inference on the talk, collecting utterances that contain detected new words into an adaptation dataset. Continual learning is then performed on this set by adapting low-rank matrix weights added to each weight matrix of the model. The whole procedure is iterated for many talks. We show that with this approach, we obtain increasing performance on the new words when they occur more frequently (more than 80% recall) while preserving the general performance of the model.
翻訳日:2024-01-10 15:43:29 公開日:2024-01-09
# 拡散モデルのトレーニング後量子化のための分布アライメントの強化

Enhanced Distribution Alignment for Post-Training Quantization of Diffusion Models ( http://arxiv.org/abs/2401.04585v1 )

ライセンス: Link先を確認
Xuewen Liu, Zhikai Li, Junrui Xiao, Qingyi Gu(参考訳) 拡散モデルは反復雑音推定により画像生成タスクにおいて大きな成功を収めた。 しかし、重いノイズ発生プロセスと複雑なニューラルネットワークは、現実のシナリオにおける低レイテンシアプリケーションを妨げる。 量子化はモデルの複雑さを効果的に軽減し、微調整を必要としない後学習量子化(PTQ)は、デノナイジングプロセスの加速に非常に有望である。 不運なことに, 従来の拡散モデルのPTQ法は, キャリブレーションサンプルレベルと再構成出力レベルの両方の分布ミスマッチ問題に悩まされており, 性能が特に低ビットの場合において, はるかに良好ではないことが判明した。 本稿では, 拡散モデル(eda-dm)の学習後量子化のための分布アライメントの強化を提案する。 具体的には,キャリブレーションサンプルレベルでは,潜在空間の密度と多様性に基づいてキャリブレーションサンプルを選択し,その分布と全体サンプルとのアラインメントを容易にするとともに,再構成出力レベルでは,量子化モデルと全精度モデルの出力を異なるネットワーク粒度で調整可能な細粒度ブロック再構成を提案する。 EDA-DMは、未条件および条件付き両方のシナリオにおいて、既存のトレーニング後の量子化フレームワークよりも優れた性能を示す。 低ビット精度では、我々の手法による量子化モデルは、ほとんどのデータセットの完全精度モデルよりも優れている。

Diffusion models have achieved great success in image generation tasks through iterative noise estimation. However, the heavy denoising process and complex neural networks hinder their low-latency applications in real-world scenarios. Quantization can effectively reduce model complexity, and post-training quantization (PTQ), which does not require fine-tuning, is highly promising in accelerating the denoising process. Unfortunately, we find that due to the highly dynamic distribution of activations in different denoising steps, existing PTQ methods for diffusion models suffer from distribution mismatch issues at both calibration sample level and reconstruction output level, which makes the performance far from satisfactory, especially in low-bit cases. In this paper, we propose Enhanced Distribution Alignment for Post-Training Quantization of Diffusion Models (EDA-DM) to address the above issues. Specifically, at the calibration sample level, we select calibration samples based on the density and diversity in the latent space, thus facilitating the alignment of their distribution with the overall samples; and at the reconstruction output level, we propose Fine-grained Block Reconstruction, which can align the outputs of the quantized model and the full-precision model at different network granularity. Extensive experiments demonstrate that EDA-DM outperforms the existing post-training quantization frameworks in both unconditional and conditional generation scenarios. At low-bit precision, the quantized models with our method even outperform the full-precision models on most datasets.
翻訳日:2024-01-10 15:37:57 公開日:2024-01-09
# 解剖学的多視点データを用いた非画像型予測のためのディープネットワーク

A Deep Network for Explainable Prediction of Non-Imaging Phenotypes using Anatomical Multi-View Data ( http://arxiv.org/abs/2401.04579v1 )

ライセンス: Link先を確認
Yuxiang Wei, Yuqian Chen, Tengfei Xue, Leo Zekelman, Nikos Makris, Yogesh Rathi, Weidong Cai, Fan Zhang, Lauren J. O' Donnell(参考訳) 大規模なデータセットには、結果を改善するためにマルチビュー学習方法によって活用できる補完的な情報を提供する複数の特徴セットやビューが含まれていることが多い。 各脳の解剖構造を複数の特徴セットで記述した解剖学的多視点データについて検討する。 特に、拡散MRIによる白色物質の微細構造と接続特性のセットと、構造MRIによるグレー物質領域と厚さ特徴のセットに焦点を当てる。 本研究では,多視点アプローチを適用した機械学習手法を用いて,年齢層(年齢),運動(強度),認知(画像語彙)を含む非画像表現型予測を改善する。 本稿では,異なる解剖学的ビューを用いて予測性能を向上させるための説明可能なマルチビューネットワーク(EMV-Net)を提案する。 このネットワークでは、個々の解剖学的ビューをビュー固有の特徴抽出器で処理し、各ビューから抽出された情報を学習可能な重みで融合する。 この後、ウェーブレット変換ベースのモジュールがビューをまたいだ補完情報を取得し、ビュー固有の情報を校正する。 さらに、キャリブレータは、解剖学的構造の解釈の重要性を示すために注意に基づくキャリブレーションスコアを生成する。

Large datasets often contain multiple distinct feature sets, or views, that offer complementary information that can be exploited by multi-view learning methods to improve results. We investigate anatomical multi-view data, where each brain anatomical structure is described with multiple feature sets. In particular, we focus on sets of white matter microstructure and connectivity features from diffusion MRI, as well as sets of gray matter area and thickness features from structural MRI. We investigate machine learning methodology that applies multi-view approaches to improve the prediction of non-imaging phenotypes, including demographics (age), motor (strength), and cognition (picture vocabulary). We present an explainable multi-view network (EMV-Net) that can use different anatomical views to improve prediction performance. In this network, each individual anatomical view is processed by a view-specific feature extractor and the extracted information from each view is fused using a learnable weight. This is followed by a wavelet transform-based module to obtain complementary information across views which is then applied to calibrate the view-specific information. Additionally, the calibrator produces an attention-based calibration score to indicate anatomical structures' importance for interpretation.
翻訳日:2024-01-10 15:37:31 公開日:2024-01-09
# 概念クラスタの複雑さに基づくWebスケールデータセットの効率的なプルーニング

Effective pruning of web-scale datasets based on complexity of concept clusters ( http://arxiv.org/abs/2401.04578v1 )

ライセンス: Link先を確認
Amro Abbas, Evgenia Rusak, Kushal Tirumala, Wieland Brendel, Kamalika Chaudhuri, Ari S. Morcos(参考訳) 大規模なWebスケールデータセットを使用することで、機械学習モデルでは前例のないパフォーマンス向上が達成されている。 トレーニングとデータ効率を改善するために、我々はCLIPスタイルのモデルをトレーニングするための大規模マルチモーダルデータセットのプルーニングの限界を押し進める。 ImageNetクラスタのデータサンプルに対する今日の最も効果的なプルーニング手法は、埋め込みとプルーンにより、最もプロトタイプ的なサンプルを分離する。 このアプローチをlaionに拡大し、pruning rateは概念に特有で、概念の複雑さに適応すべきであることを指摘して改善します。 シンプルで直感的な複雑性測定を使って、トレーニングコストを通常のトレーニングの4分の1に削減できます。 LAIONデータセットからフィルタリングすることで、より小さな高品質なデータセットでのトレーニングが、トレーニングコストを大幅に削減して、より高いパフォーマンスにつながることが分かる。 より具体的には、ImageNetゼロショット精度でLAIONで訓練されたOpenCLIP-ViT-B32モデルを1.1pで上回ります。 しかし、データとトレーニングの計算は27.7%に過ぎない。 トレーニングコストは大幅に削減されているが、ImageNet Dist. shifts、検索タスク、VTABの改善も見られる。 DataComp Mediumのベンチマークでは,38のタスクに対して,最先端のImageNetゼロショット精度と競合平均ゼロショット精度を実現する。

Utilizing massive web-scale datasets has led to unprecedented performance gains in machine learning models, but also imposes outlandish compute requirements for their training. In order to improve training and data efficiency, we here push the limits of pruning large-scale multimodal datasets for training CLIP-style models. Today's most effective pruning method on ImageNet clusters data samples into separate concepts according to their embedding and prunes away the most prototypical samples. We scale this approach to LAION and improve it by noting that the pruning rate should be concept-specific and adapted to the complexity of the concept. Using a simple and intuitive complexity measure, we are able to reduce the training cost to a quarter of regular training. By filtering from the LAION dataset, we find that training on a smaller set of high-quality data can lead to higher performance with significantly lower training costs. More specifically, we are able to outperform the LAION-trained OpenCLIP-ViT-B32 model on ImageNet zero-shot accuracy by 1.1p.p. while only using 27.7% of the data and training compute. Despite a strong reduction in training cost, we also see improvements on ImageNet dist. shifts, retrieval tasks and VTAB. On the DataComp Medium benchmark, we achieve a new state-of-the-art ImageNet zero-shot accuracy and a competitive average zero-shot accuracy on 38 evaluation tasks.
翻訳日:2024-01-10 15:37:11 公開日:2024-01-09
# 単一非自己回帰変換器を用いたマスケオーディオ生成

Masked Audio Generation using a Single Non-Autoregressive Transformer ( http://arxiv.org/abs/2401.04577v1 )

ライセンス: Link先を確認
Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk, Alexandre D\'efossez, Jade Copet, Gabriel Synnaeve, Yossi Adi(参考訳) 本稿では,複数の音声トークンストリーム上で直接動作するマスク付き生成シーケンスモデリング手法MAGNeTを紹介する。 前作とは異なり、MAGNeTは単段非自己回帰トランスで構成されている。 学習中,マスキングスケジューラから得られたマスキングトークンのスパンを予測し,推論中,複数の復号ステップを用いて徐々に出力シーケンスを構築する。 生成音声の品質をさらに高めるために,外部事前学習モデルを利用してマグネットから予測値を再調整・ランク付けし,後段の復号処理に使用する新しいリコーリング法を提案する。 最後に,自己回帰モデルと非自己回帰モデルを融合して,最初の数秒を自己回帰的に生成し,残りのシーケンスを並列に復号する,ハイブリッドバージョンのマグネットを探索する。 テキスト・ツー・ミュージックおよびテキスト・ツー・オーディオ生成のタスクにおけるマグネットの効率を実証し,客観的指標と人間研究の両方を考慮し,広範な経験的評価を行う。 提案手法は評価されたベースラインに匹敵するが、かなり高速である(自己回帰ベースラインよりもx7が速い)。 アブレーション研究と解析により,マグネットを構成する各成分の重要性,および自己回帰モデルと非自己回帰モデルとのトレードオフ,レイテンシ,スループット,生成品質について考察した。 サンプルはデモページhttps://pages.cs.huji.ac.il/adiyoss-lab/magnetで入手できます。

We introduce MAGNeT, a masked generative sequence modeling method that operates directly over several streams of audio tokens. Unlike prior work, MAGNeT is comprised of a single-stage, non-autoregressive transformer. During training, we predict spans of masked tokens obtained from a masking scheduler, while during inference we gradually construct the output sequence using several decoding steps. To further enhance the quality of the generated audio, we introduce a novel rescoring method in which, we leverage an external pre-trained model to rescore and rank predictions from MAGNeT, which will be then used for later decoding steps. Lastly, we explore a hybrid version of MAGNeT, in which we fuse between autoregressive and non-autoregressive models to generate the first few seconds in an autoregressive manner while the rest of the sequence is being decoded in parallel. We demonstrate the efficiency of MAGNeT for the task of text-to-music and text-to-audio generation and conduct an extensive empirical evaluation, considering both objective metrics and human studies. The proposed approach is comparable to the evaluated baselines, while being significantly faster (x7 faster than the autoregressive baseline). Through ablation studies and analysis, we shed light on the importance of each of the components comprising MAGNeT, together with pointing to the trade-offs between autoregressive and non-autoregressive modeling, considering latency, throughput, and generation quality. Samples are available on our demo page https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT.
翻訳日:2024-01-10 15:36:50 公開日:2024-01-09
# Let's Go Shopping (LGS) -- ビジュアル概念理解のためのWebスケールイメージテキストデータセット

Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding ( http://arxiv.org/abs/2401.04575v1 )

ライセンス: Link先を確認
Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho(参考訳) 画像分類やキャプションなどのニューラルネットワークの視覚および視覚言語応用は、非自明なデータ収集プロセスを必要とする大規模な注釈付きデータセットに依存している。 この時間を要する取り組みは、大規模なデータセットの出現を妨げ、研究者や実践者が少数の選択肢に制限する。 したがって、画像の収集と注釈のより効率的な方法を求める。 以前の取り組みでは、html alt-textsとcrawled social media postingsからキャプションを集めたが、これらのデータソースはノイズ、スパーシティ、主観性に苦しんでいる。 このため、クリーンライン、インフォメーション、フルーエンシーという3つの基準を満たした商業ショッピングウェブサイトに目を向ける。 Let's Go Shopping(LGS)データセットは,公開可能なEコマースWebサイトから1500万のイメージキャプチャペアを備えた,大規模なパブリックデータセットである。 既存の一般ドメインデータセットと比較すると、lgsイメージはフォアグラウンドオブジェクトに焦点を合わせ、より複雑なバックグラウンドを持つ。 既存のベンチマークデータセットでトレーニングされた分類器は電子商取引データに容易に一般化できないが、特定の自己監督型視覚特徴抽出器はより一般化できる。 さらに、LGSの高品質なEコマース中心の画像とバイモーダルな性質は、視覚言語によるバイモーダルなタスクに有利である。

Vision and vision-language applications of neural networks, such as image classification and captioning, rely on large-scale annotated datasets that require non-trivial data-collecting processes. This time-consuming endeavor hinders the emergence of large-scale datasets, limiting researchers and practitioners to a small number of choices. Therefore, we seek more efficient ways to collect and annotate images. Previous initiatives have gathered captions from HTML alt-texts and crawled social media postings, but these data sources suffer from noise, sparsity, or subjectivity. For this reason, we turn to commercial shopping websites whose data meet three criteria: cleanliness, informativeness, and fluency. We introduce the Let's Go Shopping (LGS) dataset, a large-scale public dataset with 15 million image-caption pairs from publicly available e-commerce websites. When compared with existing general-domain datasets, the LGS images focus on the foreground object and have less complex backgrounds. Our experiments on LGS show that the classifiers trained on existing benchmark datasets do not readily generalize to e-commerce data, while specific self-supervised visual feature extractors can better generalize. Furthermore, LGS's high-quality e-commerce-focused images and bimodal nature make it advantageous for vision-language bi-modal tasks: LGS enables image-captioning models to generate richer captions and helps text-to-image generation models achieve e-commerce style transfer.
翻訳日:2024-01-10 15:36:23 公開日:2024-01-09
# 自動ゲームテストのためのロバスト模倣学習

Robust Imitation Learning for Automated Game Testing ( http://arxiv.org/abs/2401.04572v1 )

ライセンス: Link先を確認
Pierluigi Vito Amadori, Timothy Bradley, Ryan Spick, Guy Moss(参考訳) ゲーム開発は長いプロセスであり、製品が市場に出るまでに多くの段階が必要となる。 テスト担当者はコードのエラーを検索するために繰り返しタスクを実行する必要があるため、ヒューマンプレイテストは最も時間がかかります。 したがって、自動テストは、開発コストと効率を劇的に改善するため、ゲーム業界にとって重要な技術と見なされている。 本研究では,行動クローニング(BC)とエネルギーベースモデル(EBM)を組み合わせた新しい模倣学習型アーキテクチャであるEVOLUTEを提案する。 EVOLUTEは、自律エージェントのアクション空間を連続的および離散的なタスクに分割する、2ストリームアンサンブルモデルである。 EBMストリームは継続的なタスクを処理し、より洗練され適応的なコントロールを持ち、BCストリームは個別のアクションを処理し、トレーニングを容易にする。 本研究では,攻撃対象を連続的に特定するためにエージェントが要求されるシューティング・アンド・ドライビングゲームにおけるEVOLUTEの性能を評価する。 提案したモデルは、標準的なBCアプローチよりも高い一般化能力を持ち、幅広い振る舞いとより高いパフォーマンスを示す。 また、EVOLUTEは純粋なエンドツーエンドのEMMモデルよりもトレーニングが簡単で、データセット内では個別のタスクが極めて少ないため、トレーニング中に可能なアクションのより広範なセットをモデルトレーニングに導くことができる。

Game development is a long process that involves many stages before a product is ready for the market. Human play testing is among the most time consuming, as testers are required to repeatedly perform tasks in the search for errors in the code. Therefore, automated testing is seen as a key technology for the gaming industry, as it would dramatically improve development costs and efficiency. Toward this end, we propose EVOLUTE, a novel imitation learning-based architecture that combines behavioural cloning (BC) with energy based models (EBMs). EVOLUTE is a two-stream ensemble model that splits the action space of autonomous agents into continuous and discrete tasks. The EBM stream handles the continuous tasks, to have a more refined and adaptive control, while the BC stream handles discrete actions, to ease training. We evaluate the performance of EVOLUTE in a shooting-and-driving game, where the agent is required to navigate and continuously identify targets to attack. The proposed model has higher generalisation capabilities than standard BC approaches, showing a wider range of behaviours and higher performances. Also, EVOLUTE is easier to train than a pure end-to-end EBM model, as discrete tasks can be quite sparse in the dataset and cause model training to explore a much wider set of possible actions while training.
翻訳日:2024-01-10 15:35:55 公開日:2024-01-09
# 出血脳卒中セグメンテーションと出血量推定のための自動カスケードモデル

An Automatic Cascaded Model for Hemorrhagic Stroke Segmentation and Hemorrhagic Volume Estimation ( http://arxiv.org/abs/2401.04570v1 )

ライセンス: Link先を確認
Weijin Xu, Zhuang Sha, Huihua Yang, Rongcai Jiang, Zhanying Li, Wentao Liu, Ruisheng Su(参考訳) 出血性脳卒中(HS)は急速に発症し、深刻な状態であり、大きな健康上の脅威を引き起こす。 コンピュータ断層撮影 (ct) 画像における出血領域の迅速かつ正確な定義と出血量の推定は, 治療計画における臨床医の補助となり, 患者の治療成績の向上に繋がる。 本稿では,大まかなCT画像から細かなCT画像への出血領域の2段階のセグメンテーションを行うために,UNetに基づいてカスケード3Dモデルを構築し,そのセグメンテーション領域から出血量を自動的に算出する。 出血性脳卒中ctスキャン341例のデータセットにおいて,提案モデルでは,従来のtada式と比較して,出血量推定よりも高い精度 (dsc 85.66%) と高い計算効率 (1サンプルあたり6.2秒) を有する高品質セグメンテーション結果が得られた。

Hemorrhagic Stroke (HS) has a rapid onset and is a serious condition that poses a great health threat. Promptly and accurately delineating the bleeding region and estimating the volume of bleeding in Computer Tomography (CT) images can assist clinicians in treatment planning, leading to improved treatment outcomes for patients. In this paper, a cascaded 3D model is constructed based on UNet to perform a two-stage segmentation of the hemorrhage area in CT images from rough to fine, and the hemorrhage volume is automatically calculated from the segmented area. On a dataset with 341 cases of hemorrhagic stroke CT scans, the proposed model provides high-quality segmentation outcome with higher accuracy (DSC 85.66%) and better computation efficiency (6.2 second per sample) when compared to the traditional Tada formula with respect to hemorrhage volume estimation.
翻訳日:2024-01-10 15:35:31 公開日:2024-01-09
# 離散粒子群最適化による暗号ブール関数の設計

A Discrete Particle Swarm Optimizer for the Design of Cryptographic Boolean Functions ( http://arxiv.org/abs/2401.04567v1 )

ライセンス: Link先を確認
Luca Mariot, Alberto Leporati, Luca Manzoni(参考訳) 本稿では,暗号特性に優れた平衡ブール関数探索のための粒子群最適化器を提案する。 このアルゴリズムは、粒子の位置のハミングウェイトを保存するhu、eberhart、shiによる置換psoの修正版であり、ミラン、クラーク、ドーソンによって考案されたヒルクライミング法と組み合わせて、ブール関数の相関免疫からの非線形性と偏差を改善する。 PSO速度方程式のパラメータは、局所一様サンプリング(LUS)と連続遺伝的アルゴリズム(CGA)という2つのメタ最適化手法を用いて調整され、CGAはより良い結果をもたらす。 CGA進化パラメータを用いて、PSOアルゴリズムは、$n=7$から$n=12$変数までのブール関数の空間上で実行される。 実験の結果は, 非線形性, 相関免疫, 伝播基準の組合せを含むブール関数を, 他の最適化法で得られた関数に対して生成することを観察した。

A Particle Swarm Optimizer for the search of balanced Boolean functions with good cryptographic properties is proposed in this paper. The algorithm is a modified version of the permutation PSO by Hu, Eberhart and Shi which preserves the Hamming weight of the particles positions, coupled with the Hill Climbing method devised by Millan, Clark and Dawson to improve the nonlinearity and deviation from correlation immunity of Boolean functions. The parameters for the PSO velocity equation are tuned by means of two meta-optimization techniques, namely Local Unimodal Sampling (LUS) and Continuous Genetic Algorithms (CGA), finding that CGA produces better results. Using the CGA-evolved parameters, the PSO algorithm is then run on the spaces of Boolean functions from $n=7$ to $n=12$ variables. The results of the experiments are reported, observing that this new PSO algorithm generates Boolean functions featuring similar or better combinations of nonlinearity, correlation immunity and propagation criterion with respect to the ones obtained by other optimization methods.
翻訳日:2024-01-10 15:35:13 公開日:2024-01-09
# 顔映像から心拍数と血圧を推定するための位相シフト型遠隔光胸シンチグラフィ

Phase-shifted remote photoplethysmography for estimating heart rate and blood pressure from facial video ( http://arxiv.org/abs/2401.04560v1 )

ライセンス: Link先を確認
Gyutae Hwang, Sang Jun Lee(参考訳) ヒトの健康は高血圧、不整脈、脳卒中などの心血管疾患に深刻な影響を受けることがある。 心拍数と血圧は、循環器系のモニタリングと心血管疾患の早期診断に重要な生体情報である。 既存の心拍数を推定する方法は、センサを皮膚表面に接触させる必要のある心電図と光胸腔造影に基づいている。 さらに、血圧測定のためのカテーテルおよびカフ法は不便であり、適用性に制限がある。 そこで本論文では,心拍数と血圧を視覚的に推定する手法を提案する。 本論文では,2段階の深層学習フレームワークとして,DRP-NetとBBP-Netを併用した2段階の深層学習手法を提案する。 第1段階では、drp-netが頭蓋および顔面領域の遠隔光胸腺造影(rppg)信号を推定し、これらの位相シフトrppg信号を用いて心拍数を推定する。 第2段階では、BBP-Netは時間的特徴を統合し、アクラル信号と顔面rPPG信号の位相差を分析し、SBPとDBPの値を推定する。 心拍数を推定する精度を向上させるため,フレーム補間モデルに基づくデータ拡張手法を適用した。 さらに, bbp-net は, スケールド・シグモイド機能を組み込むことにより, 血圧を予め定義された範囲内で推定する。 その結果,平均絶対誤差(MAE)を1.78 BPMと推定し,最近のMMSE-HRデータセットと比較すると,MAEを34.31%削減した。 収縮期血圧 (SBP) と拡張期血圧 (DBP) を推定するためのMAEは10.19 mmHg, 7.09 mmHgであった。 V4Vデータセットでは、心拍数のMAE、SBP、DBPはそれぞれ3.83 BPM、13.64 mmHg、9.4 mmHgであった。

Human health can be critically affected by cardiovascular diseases, such as hypertension, arrhythmias, and stroke. Heart rate and blood pressure are important biometric information for the monitoring of cardiovascular system and early diagnosis of cardiovascular diseases. Existing methods for estimating the heart rate are based on electrocardiography and photoplethyomography, which require contacting the sensor to the skin surface. Moreover, catheter and cuff-based methods for measuring blood pressure cause inconvenience and have limited applicability. Therefore, in this thesis, we propose a vision-based method for estimating the heart rate and blood pressure. This thesis proposes a 2-stage deep learning framework consisting of a dual remote photoplethysmography network (DRP-Net) and bounded blood pressure network (BBP-Net). In the first stage, DRP-Net infers remote photoplethysmography (rPPG) signals for the acral and facial regions, and these phase-shifted rPPG signals are utilized to estimate the heart rate. In the second stage, BBP-Net integrates temporal features and analyzes phase discrepancy between the acral and facial rPPG signals to estimate SBP and DBP values. To improve the accuracy of estimating the heart rate, we employed a data augmentation method based on a frame interpolation model. Moreover, we designed BBP-Net to infer blood pressure within a predefined range by incorporating a scaled sigmoid function. Our method resulted in estimating the heart rate with the mean absolute error (MAE) of 1.78 BPM, reducing the MAE by 34.31 % compared to the recent method, on the MMSE-HR dataset. The MAE for estimating the systolic blood pressure (SBP) and diastolic blood pressure (DBP) were 10.19 mmHg and 7.09 mmHg. On the V4V dataset, the MAE for the heart rate, SBP, and DBP were 3.83 BPM, 13.64 mmHg, and 9.4 mmHg, respectively.
翻訳日:2024-01-10 15:34:55 公開日:2024-01-09
# HyperGANStrument:ピッチ不変ハイパーネットによる楽器音の合成と編集

HyperGANStrument: Instrument Sound Synthesis and Editing with Pitch-Invariant Hypernetworks ( http://arxiv.org/abs/2401.04558v1 )

ライセンス: Link先を確認
Zhe Zhang and Taketo Akama(参考訳) ganstrumentは、ピッチ不変特徴抽出器とインスタンスコンディショニング技術を用いてganを活用し、現実的な楽器音の合成に顕著な能力を示している。 本研究では,ユーザが提供する音の編集性を高めるために,事前学習したGANStrumentジェネレータの重みを入力として調整する,ピッチ不変なハイパーネットを導入したHyperGANStrumentを提案する。 ハイパーネットワーク変調は、入力音の再構成における発電機へのフィードバックを提供する。 さらに, ハイパーネットワークの逆方向の微調整方式を利用して, 発電機の復元精度と生成多様性を向上させる。 実験結果から,提案モデルはGANStrumentの生成能力を向上するだけでなく,合成音の編集性を大幅に向上させることがわかった。 オーディオのサンプルはオンラインのデモページにある。

GANStrument, exploiting GANs with a pitch-invariant feature extractor and instance conditioning technique, has shown remarkable capabilities in synthesizing realistic instrument sounds. To further improve the reconstruction ability and pitch accuracy to enhance the editability of user-provided sound, we propose HyperGANStrument, which introduces a pitch-invariant hypernetwork to modulate the weights of a pre-trained GANStrument generator, given a one-shot sound as input. The hypernetwork modulation provides feedback for the generator in the reconstruction of the input sound. In addition, we take advantage of an adversarial fine-tuning scheme for the hypernetwork to improve the reconstruction fidelity and generation diversity of the generator. Experimental results show that the proposed model not only enhances the generation capability of GANStrument but also significantly improves the editability of synthesized sounds. Audio examples are available at the online demo page.
翻訳日:2024-01-10 15:34:21 公開日:2024-01-09
# 線形再帰的特徴機械による低ランク行列の復元

Linear Recursive Feature Machines provably recover low-rank matrices ( http://arxiv.org/abs/2401.04553v1 )

ライセンス: Link先を確認
Adityanarayanan Radhakrishnan, Mikhail Belkin, Dmitriy Drusvyatskiy(参考訳) 機械学習の根本的な問題は、ニューラルネットワークがいかに正確な予測を行うかを理解することだ。 ニューラルネットワークの一般的なトレーニングアルゴリズムは、特徴学習と呼ばれるプロセスである次元削減を暗黙的に実行する、という説明が考えられる。 最近の研究は、平均勾配外積 (AGOP) と呼ばれる古典的な統計推定器から特徴学習の効果を導出できることを示した。 著者らは, (1) 特徴ベクトルの再重み付けと (2) 変換空間における予測関数の学習を交互に行い, 特徴学習を明示的に行うアルゴリズムとして再帰的特徴量機械(rfms)を提案した。 本研究では, 疎線形回帰と低ランク行列回復に起因した過度パラメータ化問題に焦点をあてて, RFM の次元化の方法に関する最初の理論的保証を開発する。 具体的には、線形モデル(lin-RFM)に制限されたRAMが、よく研究された反復再重み付き最小二乗法(IRLS)アルゴリズムを一般化することを示す。 その結果,ニューラルネットワークにおける特徴学習と古典的スパースリカバリアルゴリズムとの関係が明らかになった。 さらに、数百万の欠落したエントリで行列にスケールするlin-RFMの実装も提供する。 我々の実装は、SVDのない標準IRLSアルゴリズムよりも高速である。 また、疎線形回帰と低ランク行列完備化のために、深い線形ネットワークを上回ります。

A fundamental problem in machine learning is to understand how neural networks make accurate predictions, while seemingly bypassing the curse of dimensionality. A possible explanation is that common training algorithms for neural networks implicitly perform dimensionality reduction - a process called feature learning. Recent work posited that the effects of feature learning can be elicited from a classical statistical estimator called the average gradient outer product (AGOP). The authors proposed Recursive Feature Machines (RFMs) as an algorithm that explicitly performs feature learning by alternating between (1) reweighting the feature vectors by the AGOP and (2) learning the prediction function in the transformed space. In this work, we develop the first theoretical guarantees for how RFM performs dimensionality reduction by focusing on the class of overparametrized problems arising in sparse linear regression and low-rank matrix recovery. Specifically, we show that RFM restricted to linear models (lin-RFM) generalizes the well-studied Iteratively Reweighted Least Squares (IRLS) algorithm. Our results shed light on the connection between feature learning in neural networks and classical sparse recovery algorithms. In addition, we provide an implementation of lin-RFM that scales to matrices with millions of missing entries. Our implementation is faster than the standard IRLS algorithm as it is SVD-free. It also outperforms deep linear networks for sparse linear regression and low-rank matrix completion.
翻訳日:2024-01-10 15:34:05 公開日:2024-01-09
# WaveletFormerNet: 現実世界の非均一・高密度フォッグ除去のためのトランスフォーマーベースウェーブレットネットワーク

WaveletFormerNet: A Transformer-based Wavelet Network for Real-world Non-homogeneous and Dense Fog Removal ( http://arxiv.org/abs/2401.04550v1 )

ライセンス: Link先を確認
Shengli Zhang, Zhiyong Tao, and Sen Lin(参考訳) 深い畳み込みニューラルネットワークは合成霧の除去に著しく成功したが、実世界で密度の高い霧や非均質な霧などの複雑な霧条件で撮影された画像を処理できることは不可欠である。 しかし、実世界のヘイズ分布は複雑であり、ダウンサンプリングは特徴マップの解像度や画像の解像度が低下するにつれて、出力結果の色歪みや詳細の損失につながる可能性がある。 十分なトレーニングデータを取得することの難しさに加えて、オーバーフィッティングは霧のような画像処理のためのディープラーニング技術にも生じ、これはモデルの一般化能力を制限し、現実のシナリオにおける実用上の課題を提起する。 そこで本稿では,実世界のフォギー画像復元のためのトランスフォーマーベースのウェーブレットネットワーク (waveletformernet) を提案する。 離散ウェーブレット変換を、ウェーブレットフォーマおよびiウェーブレットフォーマブロックの提案により視覚トランスフォーマに組み込むことにより、ダウンサンプリングによる画像のテクスチャディテールロスと色歪みの軽減を図る。 並列畳み込みをトランスフォーマーブロックに導入し、軽量な機構でマルチ周波数情報のキャプチャを可能にする。 さらに,画像の解像度を維持し,特徴抽出能力を向上させる機能集約モジュール(FAM)を実装した。 広範な実験により、waveletformernetは、小さなモデルの複雑さの定量的および質的評価によって示されるように、最先端の手法よりも優れた性能を示している。 さらに,実世界のほこり除去とアプリケーションテストの満足度は,コンピュータビジョン関連アプリケーションにおけるWaveletFormerNetの優れた一般化能力と性能の向上を示す。

Although deep convolutional neural networks have achieved remarkable success in removing synthetic fog, it is essential to be able to process images taken in complex foggy conditions, such as dense or non-homogeneous fog, in the real world. However, the haze distribution in the real world is complex, and downsampling can lead to color distortion or loss of detail in the output results as the resolution of a feature map or image resolution decreases. In addition to the challenges of obtaining sufficient training data, overfitting can also arise in deep learning techniques for foggy image processing, which can limit the generalization abilities of the model, posing challenges for its practical applications in real-world scenarios. Considering these issues, this paper proposes a Transformer-based wavelet network (WaveletFormerNet) for real-world foggy image recovery. We embed the discrete wavelet transform into the Vision Transformer by proposing the WaveletFormer and IWaveletFormer blocks, aiming to alleviate texture detail loss and color distortion in the image due to downsampling. We introduce parallel convolution in the Transformer block, which allows for the capture of multi-frequency information in a lightweight mechanism. Additionally, we have implemented a feature aggregation module (FAM) to maintain image resolution and enhance the feature extraction capacity of our model, further contributing to its impressive performance in real-world foggy image recovery tasks. Extensive experiments demonstrate that our WaveletFormerNet performs better than state-of-the-art methods, as shown through quantitative and qualitative evaluations of minor model complexity. Additionally, our satisfactory results on real-world dust removal and application tests showcase the superior generalization ability and improved performance of WaveletFormerNet in computer vision-related applications.
翻訳日:2024-01-10 15:33:42 公開日:2024-01-09
# UBfuzz:サニタイザ実装でバグを見つける

UBfuzz: Finding Bugs in Sanitizer Implementations ( http://arxiv.org/abs/2401.04538v1 )

ライセンス: Link先を確認
Shaohua Li, Zhendong Su(参考訳) 本稿では,コンパイラのサニタイザ実装を検証するためのテストフレームワークを提案する。 私たちのコアコンポーネントは、(1)未定義の振る舞い(ub)を含むプログラムを生産するために特別に設計されたプログラムジェネレータ、(2)サニタイザーテスト用の新しいテストオラクルです。 プログラムジェネレータは、有効なシードプログラムにubを導入する汎用的かつ効果的なアプローチであるシャドーステートメント挿入を用いる。 生成したUBプログラムはその後、複数のサニタイザ実装の差分テストに使用される。 それでも、散在するサニタイザレポートは、コンパイラ最適化またはサニタイザバグに由来する可能性がある。 消毒剤のバグによって相違が生じているかどうかを正確に判定するために,クラッシュサイトマッピングと呼ばれる新しいテストオラクルを導入する。 われわれの技術は、消毒剤を検査するための実用ツールUBfuzzに組み込まれている。 5ヶ月のテスト期間を通じて、UBfuzzはGCCとLLVMサニタイザの両方で31のバグを発見した。 これらのバグは、プログラム内の特定のubが報告されていないサニタイザーの深刻な偽陰性問題を明らかにする。 この研究は、この重要な研究領域におけるさらなる調査の道を開くものだ。

In this paper, we propose a testing framework for validating sanitizer implementations in compilers. Our core components are (1) a program generator specifically designed for producing programs containing undefined behavior (UB), and (2) a novel test oracle for sanitizer testing. The program generator employs Shadow Statement Insertion, a general and effective approach for introducing UB into a valid seed program. The generated UB programs are subsequently utilized for differential testing of multiple sanitizer implementations. Nevertheless, discrepant sanitizer reports may stem from either compiler optimization or sanitizer bugs. To accurately determine if a discrepancy is caused by sanitizer bugs, we introduce a new test oracle called crash-site mapping. We have incorporated our techniques into UBfuzz, a practical tool for testing sanitizers. Over a five-month testing period, UBfuzz successfully found 31 bugs in both GCC and LLVM sanitizers. These bugs reveal the serious false negative problems in sanitizers, where certain UBs in programs went unreported. This research paves the way for further investigation in this crucial area of study.
翻訳日:2024-01-10 15:33:12 公開日:2024-01-09
# 交渉による言語モデルエージェンシーの評価

Evaluating Language Model Agency through Negotiations ( http://arxiv.org/abs/2401.04536v1 )

ライセンス: Link先を確認
Tim R. Davidson, Veniamin Veselovsky, Martin Josifoski, Maxime Peyrard, Antoine Bosselut, Michal Kosinski, Robert West(参考訳) 企業や組織、政府は、エージェントのような振る舞いを示すために言語モデル(LM)の顕著な能力をますます活用している。 LMは自律性を高めてタスクを実行するために採用されているため、信頼性とスケーラブルな評価ベンチマークが緊急に必要となる。 現在、主に静的なLMベンチマークは、そのような動的アプリケーションを評価するのに不適である。 そこで本研究では,交渉ゲームのレンズを用いて,LM性能とアライメントを共同評価する。 我々は、この共通タスクは、LMの意思決定プロセスに関する洞察を提供しながら、現実世界のデプロイメント条件をよりよく反映していると論じる。 重要な点として、交渉ゲームにより、マルチターンおよびクロスモデル相互作用の研究、複雑さの変調、および評価におけるサイドステップの偶発的データ漏洩について研究することができる。 我々は,様々な交渉ゲームにおいて,複数の大手プロバイダから公開されているLMの6つの結果を報告する。 注目すべき発見は (i) オープンソースモデルは、現在これらのタスクを完了できない。 (二 協力交渉ゲームが困難であること。) (iii)最も強力なモデルは必ずしも「勝つ」とは限らない。

Companies, organizations, and governments increasingly exploit Language Models' (LM) remarkable capability to display agent-like behavior. As LMs are adopted to perform tasks with growing autonomy, there exists an urgent need for reliable and scalable evaluation benchmarks. Current, predominantly static LM benchmarks are ill-suited to evaluate such dynamic applications. Thus, we propose jointly evaluating LM performance and alignment through the lenses of negotiation games. We argue that this common task better reflects real-world deployment conditions while offering insights into LMs' decision-making processes. Crucially, negotiation games allow us to study multi-turn, and cross-model interactions, modulate complexity, and side-step accidental data leakage in evaluation. We report results for six publicly accessible LMs from several major providers on a variety of negotiation games, evaluating both self-play and cross-play performance. Noteworthy findings include: (i) open-source models are currently unable to complete these tasks; (ii) cooperative bargaining games prove challenging; and (iii) the most powerful models do not always "win".
翻訳日:2024-01-10 15:32:57 公開日:2024-01-09
# 半教師付きディープソボレフ回帰:推定、変数選択、およびそれ以上

Semi-Supervised Deep Sobolev Regression: Estimation, Variable Selection and Beyond ( http://arxiv.org/abs/2401.04535v1 )

ライセンス: Link先を確認
Zhao Ding and Chenguang Duan and Yuling Jiao and Jerry Zhijian Yang(参考訳) 本研究では,半教師付きディープソボレフレグレッセプタであるsdoreを提案し,基礎となる回帰関数とその勾配を非パラメトリックに推定する。 SDOREは、勾配ノルム正規化による経験的リスクを最小限に抑えるために、ディープニューラルネットワークを使用している。 我々は、SDOREの収束率を総合的に分析し、回帰関数の最小値の最適値を確立する。 また,重要な領域シフトが存在する場合でも,関連するプラグイン勾配推定器の収束率を導出する。 これらの理論的知見は、半教師付き学習においてラベルなしデータを活用することの証明可能な利点を示しながら、正規化パラメータの選択とニューラルネットワークのサイズを決定する上で、事前のガイダンスを提供する。 我々の知る限り、SDOREは回帰関数とその勾配を同時に推定する最初の証明可能なニューラルネットワークベースのアプローチであり、非パラメトリック変数選択や逆問題を含む様々な応用がある。 SDOREの有効性は、広範囲の数値シミュレーションと実データ解析によって検証される。

We propose SDORE, a semi-supervised deep Sobolev regressor, for the nonparametric estimation of the underlying regression function and its gradient. SDORE employs deep neural networks to minimize empirical risk with gradient norm regularization, allowing computation of the gradient norm on unlabeled data. We conduct a comprehensive analysis of the convergence rates of SDORE and establish a minimax optimal rate for the regression function. Crucially, we also derive a convergence rate for the associated plug-in gradient estimator, even in the presence of significant domain shift. These theoretical findings offer valuable prior guidance for selecting regularization parameters and determining the size of the neural network, while showcasing the provable advantage of leveraging unlabeled data in semi-supervised learning. To the best of our knowledge, SDORE is the first provable neural network-based approach that simultaneously estimates the regression function and its gradient, with diverse applications including nonparametric variable selection and inverse problems. The effectiveness of SDORE is validated through an extensive range of numerical simulations and real data analysis.
翻訳日:2024-01-10 15:32:39 公開日:2024-01-09
# データ再アップロード量子ニューラルネットワークによる埋め込み量子カーネルのトレーニング

Training embedding quantum kernels with data re-uploading quantum neural networks ( http://arxiv.org/abs/2401.04642v1 )

ライセンス: Link先を確認
Pablo Rodriguez-Grasa, Yue Ban, Mikel Sanz(参考訳) カーネルメソッドは機械学習において重要な役割を担い、量子システムの拡張であるエンベディング量子カーネル(EQK)は非常に有望なパフォーマンスを示している。 しかし、EQKの適切な埋め込みを選択することは難しい。 データ再アップロードに基づいて$p$-qubit Quantum Neural Network (QNN)を提案し、タスクに対して最適な$q$-qubit EQK(p$-to-q$)を特定する。 この方法はカーネルマトリックスを1回だけ構築する必要があり、効率が向上する。 特に、2つのケースに焦点を当てています: $n$-to-$n$。ここでは、$n$-qubit qnnをトレーニングするためのスケーラブルなアプローチと、1-qubit qnnのトレーニングを利用して強力なeqkを構築することを示しています。

Kernel methods play a crucial role in machine learning and the Embedding Quantum Kernels (EQKs), an extension to quantum systems, have shown very promising performance. However, choosing the right embedding for EQKs is challenging. We address this by proposing a $p$-qubit Quantum Neural Network (QNN) based on data re-uploading to identify the optimal $q$-qubit EQK for a task ($p$-to-$q$). This method requires constructing the kernel matrix only once, offering improved efficiency. In particular, we focus on two cases: $n$-to-$n$, where we propose a scalable approach to train an $n$-qubit QNN, and $1$-to-$n$, demonstrating that the training of a single-qubit QNN can be leveraged to construct powerful EQKs.
翻訳日:2024-01-10 15:25:35 公開日:2024-01-09
# 分類問題への大規模言語モデルAPIの適用

Applying Large Language Models API to Issue Classification Problem ( http://arxiv.org/abs/2401.04637v1 )

ライセンス: Link先を確認
Gabriel Aracena, Kyle Luster, Fabio Santos, Igor Steinmacher, Marco A. Gerosa(参考訳) 問題レポートの効果的な優先順位付けは、リソース割り当てを最適化し、重要な問題に迅速に対処するために、ソフトウェア工学において不可欠である。 しかし、優先順位付けのためのイシューレポートのマニュアル分類は面倒でスケーラビリティに欠ける。 あるいは、多くのオープンソースソフトウェア(OSS)プロジェクトでは、適切なトレーニングのためにかなりのデータセットに依存するにもかかわらず、このタスクに自動化プロセスを採用している。 この研究は、より小さなデータセットでトレーニングされた場合でも、課題優先順位付けの信頼性を保証する自動化アプローチを考案することを目指している。 提案手法は,GPT(Generative Pre-trained Transformer)のパワーを活用し,このタスクを効率的に処理できる可能性を認識する。 このようなモデルの能力を活用して,信頼性を維持しつつ広範なトレーニングデータの必要性を軽減し,課題報告を正確に優先順位付けする堅牢なシステムを開発することを目的とする。 本研究では,トレーニングデータセットの削減による課題レポートの正確なラベル付けと優先順位付けを行う,信頼性の高いGPTベースのアプローチを開発した。 大量のデータ要求への依存を減らし、数秒の微調整にフォーカスすることで、ソフトウェア工学における課題優先順位付けをよりアクセスしやすく効率的なソリューションを提供する。 本モデルでは,各プロジェクトのイシュータイプを精度93.2%,リコール95%,f1-score89.3%と予測した。

Effective prioritization of issue reports is crucial in software engineering to optimize resource allocation and address critical problems promptly. However, the manual classification of issue reports for prioritization is laborious and lacks scalability. Alternatively, many open source software (OSS) projects employ automated processes for this task, albeit relying on substantial datasets for adequate training. This research seeks to devise an automated approach that ensures reliability in issue prioritization, even when trained on smaller datasets. Our proposed methodology harnesses the power of Generative Pre-trained Transformers (GPT), recognizing their potential to efficiently handle this task. By leveraging the capabilities of such models, we aim to develop a robust system for prioritizing issue reports accurately, mitigating the necessity for extensive training data while maintaining reliability. In our research, we have developed a reliable GPT-based approach to accurately label and prioritize issue reports with a reduced training dataset. By reducing reliance on massive data requirements and focusing on few-shot fine-tuning, our methodology offers a more accessible and efficient solution for issue prioritization in software engineering. Our model predicted issue types in individual projects up to 93.2% in precision, 95% in recall, and 89.3% in F1-score.
翻訳日:2024-01-10 15:25:18 公開日:2024-01-09
# ストックデータの時系列予測における超複雑ニューラルネットワーク

Hypercomplex neural network in time series forecasting of stock data ( http://arxiv.org/abs/2401.04632v1 )

ライセンス: Link先を確認
Rados{\l}aw Kycia, Agnieszka Niemczynowicz(参考訳) 時系列予測のための3種類のアーキテクチャがテストされた。 これらは、4次元代数の畳み込み、LSTM、あるいは高密度超複素層を含む入力層によって異なる。 インプットは4つの関連する株式市場時系列であり、そのうちの1つが予測される。 アーキテクチャのクラスに関連するハイパーパラメータの最適化は、クラス内で最適なニューラルネットワークを比較するために行われた。 その結果、ほとんどの場合、超複素密層を持つアーキテクチャは、トレーニング可能なパラメータがかなり少ない他のアーキテクチャと同様のmae精度を提供することがわかった。 これにより、ハイパーコンプレックスニューラルネットワークを学習し、他のテスト済みアーキテクチャよりも高速にデータを処理することができる。 また、入力時系列の順序が効果的に影響を及ぼす。

The three classes of architectures for time series prediction were tested. They differ by input layers which contain either convolutional, LSTM, or dense hypercomplex layers for 4D algebras. The input was four related Stock Market time series, and the prediction of one of them is expected. The optimization of hyperparameters related to the classes of architectures was performed in order to compare the best neural networks within the class. The results show that in most cases, the architecture with a hypercomplex dense layer provides similar MAE accuracy to other architectures, however, with considerably less trainable parameters. Thanks to it, hypercomplex neural networks can be learned and process data faster than the other tested architectures. Moreover, the order of the input time series has an impact on effectively.
翻訳日:2024-01-10 15:24:56 公開日:2024-01-09
# 水モニタリングのための局所ガウス過程を用いた情報収集のための深層強化マルチエージェント学習フレームワーク

Deep Reinforcement Multi-agent Learning framework for Information Gathering with Local Gaussian Processes for Water Monitoring ( http://arxiv.org/abs/2401.04631v1 )

ライセンス: Link先を確認
Samuel Yanes Luis, Dmitriy Shutin, Juan Marchal G\'omez, Daniel Guti\'errez Reina, Sergio Toral Mar\'in(参考訳) 水資源の保存には、汚染を継続的に監視することが含まれる。 本論文では, 自律型表面車両からなるマルチエージェントシステムを提案し, 水質を効率的に監視する。 艦隊の安全な制御を達成するために、艦隊の方針は、測定値と艦隊状態に基づいて行動できるべきである。 局所ガウス過程と深層強化学習を用いて効果的なモニタリングポリシを共同で取得することが提案されている。 局所ガウス過程は、古典的大域ガウス過程とは異なり、水質情報をより正確に捉える異質な空間相関で正確な情報をモデル化することができる。 情報ゲイン報酬(information gain reward)を用いて、このモデルの平均と分散の観察に基づく決定を基礎とする深層畳み込み政策が提案される。 二重深層q学習アルゴリズムを用いて、エージェントはコンセンサスに基づくヒューリスティックによって、安全な方法で推定誤差を最小化するように訓練される。 シミュレーションの結果,提案モデルの平均絶対誤差は最大24%向上した。 また,1~3エージェントによるトレーニングの結果から,提案手法は水質変数のモニタリングと藻の開花の監視において,平均推定誤差が20%,24%小さくなることが示された。

The conservation of hydrological resources involves continuously monitoring their contamination. A multi-agent system composed of autonomous surface vehicles is proposed in this paper to efficiently monitor the water quality. To achieve a safe control of the fleet, the fleet policy should be able to act based on measurements and to the the fleet state. It is proposed to use Local Gaussian Processes and Deep Reinforcement Learning to jointly obtain effective monitoring policies. Local Gaussian processes, unlike classical global Gaussian processes, can accurately model the information in a dissimilar spatial correlation which captures more accurately the water quality information. A Deep convolutional policy is proposed, that bases the decisions on the observation on the mean and variance of this model, by means of an information gain reward. Using a Double Deep Q-Learning algorithm, agents are trained to minimize the estimation error in a safe manner thanks to a Consensus-based heuristic. Simulation results indicate an improvement of up to 24% in terms of the mean absolute error with the proposed models. Also, training results with 1-3 agents indicate that our proposed approach returns 20% and 24% smaller average estimation errors for, respectively, monitoring water quality variables and monitoring algae blooms, as compared to state-of-the-art approaches
翻訳日:2024-01-10 15:24:43 公開日:2024-01-09
# スパイクニューラルネットワークにおける階層概念のマルチニューロン表現

Multi-Neuron Representations of Hierarchical Concepts in Spiking Neural Networks ( http://arxiv.org/abs/2401.04628v1 )

ライセンス: Link先を確認
Nancy A. Lynch(参考訳) 階層的概念が階層型ニューラルネットワークの3つのタイプでどのように表現できるかを説明する。 目的は、概念に関する部分的な情報が提示された場合と、ネットワーク内のいくつかのニューロンが失敗した場合の認識を支援することである。 私たちの失敗モデルは、初期ランダムな失敗を伴う。 3種類のネットワークは、高い接続性を持つフィードフォワードネットワーク、低い接続性を持つフィードフォワードネットワーク、低い接続性を持つレイヤネットワーク、および層内の前方エッジと「横」エッジである。 フォールトトレランスを達成するために、すべての表現はそれぞれの概念に複数の代表ニューロンを使用する。 これらの3つの設定で認識がどのように機能するかを示し、正しい認識の確率が、代表者数やニューロンの故障確率など、いくつかのパラメータに依存するかを定量化する。 また、これらの表現が3種類のネットワークでどのように学習されるかについても論じる。 フィードフォワードネットワークの場合、学習アルゴリズムは [4] で使われるものに似ているが、横辺を持つネットワークの場合、アルゴリズムは一般にアセンブリ計算 [3, 6, 7] の作業に触発される。

We describe how hierarchical concepts can be represented in three types of layered neural networks. The aim is to support recognition of the concepts when partial information about the concepts is presented, and also when some of the neurons in the network might fail. Our failure model involves initial random failures. The three types of networks are: feed-forward networks with high connectivity, feed-forward networks with low connectivity, and layered networks with low connectivity and with both forward edges and "lateral" edges within layers. In order to achieve fault-tolerance, the representations all use multiple representative neurons for each concept. We show how recognition can work in all three of these settings, and quantify how the probability of correct recognition depends on several parameters, including the number of representatives and the neuron failure probability. We also discuss how these representations might be learned, in all three types of networks. For the feed-forward networks, the learning algorithms are similar to ones used in [4], whereas for networks with lateral edges, the algorithms are generally inspired by work on the assembly calculus [3, 6, 7].
翻訳日:2024-01-10 15:24:24 公開日:2024-01-09
# debugbench: 大きな言語モデルのデバッグ能力を評価する

DebugBench: Evaluating Debugging Capability of Large Language Models ( http://arxiv.org/abs/2401.04621v1 )

ライセンス: Link先を確認
Runchu Tian, Yining Ye, Yujia Qin, Xin Cong, Yankai Lin, Zhiyuan Liu, Maosong Sun(参考訳) 大きな言語モデル(LLM)は、例外的なコーディング能力を示している。 しかし、プログラミング能力のもう1つの重要な要素として、llmsのデバッグ能力は比較的未検討である。 LLMのデバッグ能力のこれまでの評価は、データ漏洩のリスク、データセットのスケール、さまざまなテストバグによって大幅に制限されている。 これらの欠陥を克服するために,4,253インスタンスからなるLLMデバッグベンチマークである‘DebugBench’を導入する。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。 DebugBenchを構築するために、LeetCodeコミュニティからコードスニペットを収集し、GPT-4でバグをソースデータに埋め込み、厳格な品質チェックを保証します。 ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。 1) GPT-4のようなクローズドソースモデルは人間に比べてデバッグ性能が劣るが,Code Llamaのようなオープンソースモデルではパスレートスコアが得られず,(2)デバッグの複雑さはバグカテゴリによって顕著に変動する。 拡張として、LLMデバッグとコード生成を比較し、クローズドソースモデルに対するそれらの相関関係を強く明らかにする。 これらの発見は、デバッグにおけるLLMの開発に役立つだろう。

Large Language Models (LLMs) have demonstrated exceptional coding capability. However, as another critical component of programming proficiency, the debugging capability of LLMs remains relatively unexplored. Previous evaluations of LLMs' debugging ability are significantly limited by the risk of data leakage, the scale of the dataset, and the variety of tested bugs. To overcome these deficiencies, we introduce `DebugBench', an LLM debugging benchmark consisting of 4,253 instances. It covers four major bug categories and 18 minor types in C++, Java, and Python. To construct DebugBench, we collect code snippets from the LeetCode community, implant bugs into source data with GPT-4, and assure rigorous quality checks. We evaluate two commercial and three open-source models in a zero-shot scenario. We find that (1) while closed-source models like GPT-4 exhibit inferior debugging performance compared to humans, open-source models such as Code Llama fail to attain any pass rate scores; (2) the complexity of debugging notably fluctuates depending on the bug category; (3) incorporating runtime feedback has a clear impact on debugging performance which is not always helpful. As an extension, we also compare LLM debugging and code generation, revealing a strong correlation between them for closed-source models. These findings will benefit the development of LLMs in debugging.
翻訳日:2024-01-10 15:24:03 公開日:2024-01-09
# 進化する社会規範におけるエージェントアライメント

Agent Alignment in Evolving Social Norms ( http://arxiv.org/abs/2401.04620v1 )

ライセンス: Link先を確認
Shimin Li, Tianxiang Sun, Xipeng Qiu(参考訳) 大規模言語モデル(LLM)に基づくエージェントは、人間の生産と生活の様々な領域に浸透し、それらを人間の価値と整合させることの重要性を強調している。 AIシステムの現在のアライメントは主に、人間の介入によるLLMの受動的アライメントに焦点を当てている。 しかし, エージェントには環境フィードバックや自己進化といった特性があり, LLMアライメント手法が不十分である。 そこで,我々は,エージェントアライメントを適応テストの生存原理の下で進化と選択のプロセスに変換する進化エージェントという,エージェントの進化とアライメントのための進化フレームワークを提案する。 社会規範が継続的に進化し続ける環境では、現在の社会規範に適合するエージェントは生存と増殖の確率が高くなり、一方で不適切な調整は時間とともに減少する。 社会規範と整合する複数の視点からエージェントを評価する実験の結果、進化エージェントは、一般的なタスクにおいてその熟練性を維持しつつ、進歩的に社会規範と協調する能力を持っていることが示されている。 各種オープン・クローズド・ソース LLM をエージェントの基礎として実施した有効性試験も,本手法の適用性を実証した。

Agents based on Large Language Models (LLMs) are increasingly permeating various domains of human production and life, highlighting the importance of aligning them with human values. The current alignment of AI systems primarily focuses on passively aligning LLMs through human intervention. However, agents possess characteristics like receiving environmental feedback and self-evolution, rendering the LLM alignment methods inadequate. In response, we propose an evolutionary framework for agent evolution and alignment, named EvolutionaryAgent, which transforms agent alignment into a process of evolution and selection under the principle of survival of the fittest. In an environment where social norms continuously evolve, agents better adapted to the current social norms will have a higher probability of survival and proliferation, while those inadequately aligned dwindle over time. Experimental results assessing the agents from multiple perspectives in aligning with social norms demonstrate that EvolutionaryAgent possesses the capability to align progressively better with the evolving social norms while maintaining its proficiency in general tasks. Effectiveness tests conducted on various open and closed-source LLMs as the foundation for agents also prove the applicability of our approach.
翻訳日:2024-01-10 15:23:39 公開日:2024-01-09
# 翻訳コンテンツの言語検出

Language Detection for Transliterated Content ( http://arxiv.org/abs/2401.04619v1 )

ライセンス: Link先を確認
Selva Kumar S, Afifah Khan Mohammed Ajmal Khan, Chirag Manjeshwar, Imadh Ajaz Banday(参考訳) 現代のデジタル時代には、インターネットは例外なく触媒として機能し、特にテキストメッセージで明らかな地理的および言語的障壁を分解する。 この進化は、グローバルなコミュニケーションを促進し、物理的距離を超越し、動的な文化交流を育む。 顕著な傾向は、英語のアルファベットが母国語でメッセージを伝えるのに使われており、ソース言語を正確に検出する上で、言語技術にとってユニークな課題である。 本稿では,言語分類にBERT,翻訳変換にGoogle Translate APIを用い,ヒンディー語とロシア語を英語に翻訳した音声テキストのデータセットを用いてこの問題に対処する。 この研究は、デジタルコミュニケーションの多様な言語的展望における課題をナビゲートし、翻訳されたテキストを識別し変換するための革新的なアプローチの先駆者である。 BERT のような大規模言語モデル LLM の学習における包括的データセットの役割を強調し,翻訳されたテキストから言語を正確に識別し分類する能力を示す。 99%の検証精度で、ロバストなパフォーマンスは信頼性を低下させます。 革新的なアプローチやbertのような最先端技術によって支持される翻訳ダイナミクスの包括的探究は、デジタルコミュニケーションの言語的展望におけるユニークな課題に取り組むための最前線に私たちの研究を置きます。 言語識別と翻訳機能への貢献以外にも、この研究はコンテンツモデレーション、分析、そして意味のある対話に携わるグローバルなコミュニティの育成におけるアプリケーションの可能性を秘めている。

In the contemporary digital era, the Internet functions as an unparalleled catalyst, dismantling geographical and linguistic barriers particularly evident in texting. This evolution facilitates global communication, transcending physical distances and fostering dynamic cultural exchange. A notable trend is the widespread use of transliteration, where the English alphabet is employed to convey messages in native languages, posing a unique challenge for language technology in accurately detecting the source language. This paper addresses this challenge through a dataset of phone text messages in Hindi and Russian transliterated into English utilizing BERT for language classification and Google Translate API for transliteration conversion. The research pioneers innovative approaches to identify and convert transliterated text, navigating challenges in the diverse linguistic landscape of digital communication. Emphasizing the pivotal role of comprehensive datasets for training Large Language Models LLMs like BERT, our model showcases exceptional proficiency in accurately identifying and classifying languages from transliterated text. With a validation accuracy of 99% our models robust performance underscores its reliability. The comprehensive exploration of transliteration dynamics supported by innovative approaches and cutting edge technologies like BERT, positions our research at the forefront of addressing unique challenges in the linguistic landscape of digital communication. Beyond contributing to language identification and transliteration capabilities this work holds promise for applications in content moderation, analytics and fostering a globally connected community engaged in meaningful dialogue.
翻訳日:2024-01-10 15:23:19 公開日:2024-01-09
# リモートセンシング画像のための汎用知識強化事前学習

Generic Knowledge Boosted Pre-training For Remote Sensing Images ( http://arxiv.org/abs/2401.04614v1 )

ライセンス: Link先を確認
Ziyue Huang, Mingming Zhang, Yuan Gong, Qingjie Liu, Yunhong Wang(参考訳) 深層学習モデルは、シーン分類、変化検出、ランドカバーセグメンテーション、その他のリモートセンシング画像理解タスクに不可欠である。 既存のリモートセンシングディープラーニングモデルのバックボーンのほとんどは、imagenet pre-training(imp)から得られた事前学習重みによって初期化される。 しかし、リモートセンシング画像と自然画像(例えば、ImageNet)の間にドメインギャップがあり、IMPの事前学習重量で初期化されるディープラーニングモデルは、リモートセンシング画像理解には不十分である。 リモートセンシングコミュニティにおいて,いくつかの事前学習法が研究されているが,現在のリモートセンシング事前学習法は,リモートセンシング画像のみを用いて,曖昧な一般化の問題に直面している。 本稿では,リモートセンシング前学習フレームワークであるgeneric knowledge boosted remote sensing pre-training (gersp)を提案する。 GeRSPには2つの事前学習ブランチがある: 1) ラベルのないリモートセンシング画像からドメイン関連表現を学習するために、自己教師付き事前学習ブランチが採用されている。 2)ラベル付き自然画像から一般知識学習のための教師付き事前学習ブランチをgerspに統合する。 さらに、GeRSPは教師学生アーキテクチャを用いて2つの事前学習ブランチを組み合わせて、表現を一般知識と特殊知識で同時に学習し、深層学習モデル初期化のための強力な事前学習モデルを生成する。 最後に,対象検出,意味セグメンテーション,シーン分類という3つの下流タスクにおいて,gerspや他のリモートセンシング事前学習手法を評価する。 広範にわたる実験結果から,GeRSPは一貫した方法で頑健な表現を効果的に学習し,リモートセンシングによる下流タスクの性能向上を図っている。

Deep learning models are essential for scene classification, change detection, land cover segmentation, and other remote sensing image understanding tasks. Most backbones of existing remote sensing deep learning models are typically initialized by pre-trained weights obtained from ImageNet pre-training (IMP). However, domain gaps exist between remote sensing images and natural images (e.g., ImageNet), making deep learning models initialized by pre-trained weights of IMP perform poorly for remote sensing image understanding. Although some pre-training methods are studied in the remote sensing community, current remote sensing pre-training methods face the problem of vague generalization by only using remote sensing images. In this paper, we propose a novel remote sensing pre-training framework, Generic Knowledge Boosted Remote Sensing Pre-training (GeRSP), to learn robust representations from remote sensing and natural images for remote sensing understanding tasks. GeRSP contains two pre-training branches: (1) A self-supervised pre-training branch is adopted to learn domain-related representations from unlabeled remote sensing images. (2) A supervised pre-training branch is integrated into GeRSP for general knowledge learning from labeled natural images. Moreover, GeRSP combines two pre-training branches using a teacher-student architecture to simultaneously learn representations with general and special knowledge, which generates a powerful pre-trained model for deep learning model initialization. Finally, we evaluate GeRSP and other remote sensing pre-training methods on three downstream tasks, i.e., object detection, semantic segmentation, and scene classification. The extensive experimental results consistently demonstrate that GeRSP can effectively learn robust representations in a unified manner, improving the performance of remote sensing downstream tasks.
翻訳日:2024-01-10 15:22:53 公開日:2024-01-09
# ニューラルマーク付き時間点過程の分布自由等角関節予測領域

Distribution-Free Conformal Joint Prediction Regions for Neural Marked Temporal Point Processes ( http://arxiv.org/abs/2401.04612v1 )

ライセンス: Link先を確認
Victor Dheur and Tanguy Bosser and Rafael Izbicki and Souhaib Ben Taieb(参考訳) 連続的に不規則な間隔で観測されるラベル付き事象の系列は、様々な分野に分布する。 時間的ポイントプロセス(tpps)は、これらのシーケンスをモデル化するための数学的枠組みを提供し、将来のイベントとその関連ラベルの到着時刻を予測するような推論を可能にする。 しかし、モデル上の不特定性やトレーニングデータの欠如により、これらの確率モデルは真で未知の基盤過程の貧弱な近似を与える可能性があり、それらから抽出された予測領域は、基礎となる不確実性の信頼できない推定値である。 本稿では、共形予測の枠組みを用いて、ニューラルTPPモデルにおける不確実性定量化のための信頼性の高い手法を開発する。 主な目的は、到達時間とマークに対する分布のないジョイント予測領域を生成し、有限サンプルの限界カバレッジを保証することである。 重要な課題は、分布的な仮定なしで、厳密な正の連続応答とカテゴリー応答の両方を扱うことである。 まず,個々の予測領域とイベント到着時刻とマークを組み合わせる,単純かつ過度に保守的なアプローチを検討する。 次に,イベント到着時刻とマークの同時予測密度から導出した2変量最高密度領域に基づくより効果的な手法を提案する。 この2つの変数間の依存関係を利用することで、この手法は2つの不可能な組み合わせを除外し、よりシャープな予測領域を得ると同時に、未指定のカバレッジレベルを達成できる。 また,共形回帰と分類手法を用いて,到着時刻とマークに対する個別不定値予測領域の生成について検討する。 さらに,条件付きカバレッジの強い概念についても検討する。 最後に、シミュレーションと実世界の両方のデータセットに関する広範な実験を通じて、これらの手法の有効性と効率を評価する。

Sequences of labeled events observed at irregular intervals in continuous time are ubiquitous across various fields. Temporal Point Processes (TPPs) provide a mathematical framework for modeling these sequences, enabling inferences such as predicting the arrival time of future events and their associated label, called mark. However, due to model misspecification or lack of training data, these probabilistic models may provide a poor approximation of the true, unknown underlying process, with prediction regions extracted from them being unreliable estimates of the underlying uncertainty. This paper develops more reliable methods for uncertainty quantification in neural TPP models via the framework of conformal prediction. A primary objective is to generate a distribution-free joint prediction region for the arrival time and mark, with a finite-sample marginal coverage guarantee. A key challenge is to handle both a strictly positive, continuous response and a categorical response, without distributional assumptions. We first consider a simple but overly conservative approach that combines individual prediction regions for the event arrival time and mark. Then, we introduce a more effective method based on bivariate highest density regions derived from the joint predictive density of event arrival time and mark. By leveraging the dependencies between these two variables, this method exclude unlikely combinations of the two, resulting in sharper prediction regions while still attaining the pre-specified coverage level. We also explore the generation of individual univariate prediction regions for arrival times and marks through conformal regression and classification techniques. Moreover, we investigate the stronger notion of conditional coverage. Finally, through extensive experimentation on both simulated and real-world datasets, we assess the validity and efficiency of these methods.
翻訳日:2024-01-10 15:22:21 公開日:2024-01-09
# EmoGen: テキスト-画像拡散モデルによる感情画像コンテンツ生成

EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2401.04608v1 )

ライセンス: Link先を確認
Jingyuan Yang, Jiawei Feng, Hui Huang(参考訳) 近年,高画質で視覚的に驚くべき画像を作成できる画像生成タスクが目覚ましい進歩を遂げている。 しかし、既存のテキスト・画像拡散モデルは具体的な概念(犬)を生成するのに熟練しているが、より抽象的な概念(感情)で困難に直面する。 画像の感情を色やスタイルの調整で修正する試みは、画像の内容が固定された感情を効果的に伝達する際の制限に直面している。 本稿では,感情カテゴリを付与する意味的・感情的イメージを生成する新しいタスクである感情的イメージコンテンツ生成(eicg)を紹介する。 具体的には,感情空間を提案し,それと強力なコントラスト言語・画像事前学習(clip)空間を対応づけるマッピングネットワークを構築し,抽象感情の具体的解釈を提供する。 属性損失と感情の信頼感は、生成した画像の意味的多様性と感情の忠実さを保証するためにさらに提案される。 提案手法は,感情の正確性,意味的明快さ,意味的多様性という3つのカスタム指標を導出する,定量的かつ質的手法よりも優れている。 生成に加えて,感情の理解や感情アートデザインのインスピレーションにも役立てることができる。

Recent years have witnessed remarkable progress in image generation task, where users can create visually astonishing images with high-quality. However, existing text-to-image diffusion models are proficient in generating concrete concepts (dogs) but encounter challenges with more abstract ones (emotions). Several efforts have been made to modify image emotions with color and style adjustments, facing limitations in effectively conveying emotions with fixed image contents. In this work, we introduce Emotional Image Content Generation (EICG), a new task to generate semantic-clear and emotion-faithful images given emotion categories. Specifically, we propose an emotion space and construct a mapping network to align it with the powerful Contrastive Language-Image Pre-training (CLIP) space, providing a concrete interpretation of abstract emotions. Attribute loss and emotion confidence are further proposed to ensure the semantic diversity and emotion fidelity of the generated images. Our method outperforms the state-of-the-art text-to-image approaches both quantitatively and qualitatively, where we derive three custom metrics, i.e., emotion accuracy, semantic clarity and semantic diversity. In addition to generation, our method can help emotion understanding and inspire emotional art design.
翻訳日:2024-01-10 15:21:54 公開日:2024-01-09
# ステアリングによる局所量子速度限界の破れ

Breaking local quantum speed limits with steering ( http://arxiv.org/abs/2401.04599v1 )

ライセンス: Link先を確認
Federico Centrone, Manuel Gessner(参考訳) 量子相関が物理的プロセスの局所的な速度限界を破る上で、局所的な測定と、絡み合った状態を共有する2つの当事者間の古典的な通信のみを用いる方法を示す。 エネルギーゆらぎによる量子状態の進化の最小時間を制限する不等式は、遠隔システムの測定結果の条件付けにより、ステアリングの存在下で破ることができる。 この結果は、量子相関が状態と可観測物の動的性質にどのように影響するかを研究するための新しい経路を開く。

We show how quantum correlations allow us to break the local speed limits of physical processes using only local measurements and classical communication between two parties that share an entangled state. Inequalities that bound the minimal time of evolution of a quantum state by energy fluctuations can be violated in the presence of steering by conditioning on the measurement outcomes of a remote system. Our results open up new pathways for studying how quantum correlations influence the dynamical properties of states and observables.
翻訳日:2024-01-10 15:21:31 公開日:2024-01-09
# 一般化確率論における正則多角形理論の最適CHSH値

Optimal CHSH values for regular polygon theories in generalized probabilistic theories ( http://arxiv.org/abs/2401.04596v1 )

ライセンス: Link先を確認
Ryo Takakura(参考訳) 本研究では、一般化確率論(gpts)を考察し、2段階量子系(量子ビット系)の自然な一般化と見なすことができる正則多角形理論と呼ばれる理論のクラスに注目した。 量子論の通常のCHSH設定では、CHSH値は最大絡み合った状態によって最適化されることが知られている。 この研究により、同じ観測が正多角形理論でも得られることが判明する。 この結果は、通常の多角形理論における ``maximal entanglement' の概念に物理的意味を与える。

In this study, we consider generalized probabilistic theories (GPTs) and focus on a class of theories called regular polygon theories, which can be regarded as natural generalizations of a two-level quantum system (a qubit system). In the usual CHSH setting for quantum theory, the CHSH value is known to be optimized by maximally entangled states. This research will reveal that the same observations are obtained also in regular polygon theories. Our result gives a physical meaning to the concept of ``maximal entanglement" in regular polygon theories.
翻訳日:2024-01-10 15:21:22 公開日:2024-01-09
# 大規模言語モデルによる精神保健の相補的評価

An Assessment on Comprehending Mental Health through Large Language Models ( http://arxiv.org/abs/2401.04592v1 )

ライセンス: Link先を確認
Mihael Arcan, Paul-David Niland and Fionn Delahunty(参考訳) メンタルヘルスの課題は、個人やコミュニティにかなりの世界的な負担をもたらす。 最近のデータによると、成人の20%以上が生涯に少なくとも1つの精神疾患に遭遇する可能性がある。 一方、大規模言語モデルの進歩は多様な応用を促進する一方で、メンタルヘルス分野における大規模言語モデルの潜在能力の理解と向上に重大な研究ギャップが持続している。 一方、様々な応用において、人間のメンタルヘルス状態の表現を自然言語で理解するための大きな言語モデルの能力が問題視されている。 本研究では,このギャップに対処するために,大規模言語モデルの初期評価を行う。 これにより,llama-2 と chatgpt の性能を古典的マシンやディープラーニングモデルと比較した。 DAIC-WOZデータセットの結果から、BERTやXLNetのようなトランスフォーマーベースのモデルは、大きな言語モデルよりも優れています。

Mental health challenges pose considerable global burdens on individuals and communities. Recent data indicates that more than 20% of adults may encounter at least one mental disorder in their lifetime. On the one hand, the advancements in large language models have facilitated diverse applications, yet a significant research gap persists in understanding and enhancing the potential of large language models within the domain of mental health. On the other hand, across various applications, an outstanding question involves the capacity of large language models to comprehend expressions of human mental health conditions in natural language. This study presents an initial evaluation of large language models in addressing this gap. Due to this, we compare the performance of Llama-2 and ChatGPT with classical Machine as well as Deep learning models. Our results on the DAIC-WOZ dataset show that transformer-based models, like BERT or XLNet, outperform the large language models.
翻訳日:2024-01-10 15:21:13 公開日:2024-01-09
# wigner-dunkl量子力学における準正則可解ポテンシャル

Quasi-exactly solvable potentials in Wigner-Dunkl quantum mechanics ( http://arxiv.org/abs/2401.04586v1 )

ライセンス: Link先を確認
C. Quesne(参考訳) 直線上のダンクル高調波発振器は、任意の$n\in \N$に対してn+1$の既知固有状態を持つ非調和発振器である準特殊可解発振器に一般化できることが示されている。 また、後者のハミルトニアンが拡張ダンクル微分の観点からより単純な方法で書き換えられることも証明されている。 さらに、平面内のdunkl等方性発振器とdunklクーロンポテンシャルを準実解可能なものに一般化する。 前者の場合、$n+1$既知の固有状態を持つポテンシャルが得られ、後者では、与えられたエネルギーに関連する$n+1$ポテンシャルの集合が導出される。

It is shown that the Dunkl harmonic oscillator on the line can be generalized to a quasi-exactly solvable one, which is an anharmonic oscillator with $n+1$ known eigenstates for any $n\in \N$. It is also proved that the Hamiltonian of the latter can also be rewritten in a simpler way in terms of an extended Dunkl derivative. Furthermore, the Dunkl isotropic oscillator and Dunkl Coulomb potentials in the plane are generalized to quasi-exactly solvable ones. In the former case, potentials with $n+1$ known eigenstates are obtained, whereas, in the latter, sets of $n+1$ potentials associated with a given energy are derived.
翻訳日:2024-01-10 15:20:58 公開日:2024-01-09
# 知識評価のギャップを狭める:多粒度回答を用いたオープンドメイン質問応答

Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers ( http://arxiv.org/abs/2401.04695v1 )

ライセンス: Link先を確認
Gal Yona, Roee Aharoni, Mor Geva(参考訳) 現実的な質問は通常、異なるレベルの粒度で正しく答えられる。 例えば、『1961年8月4日』と『1961年』は、『バラク・オバマはいつ生まれたのか』という問いに対する正しい答えである。 しかし、標準質問応答 (QA) 評価プロトコルは、これを明示的に考慮せず、予測された回答を単一の粒度レベルの回答と比較する。 本稿では,複数の粒度回答に対して,予測された回答を精度と情報性の観点から評価する新しい評価手法であるGRANOLA QAを提案する。 本稿では,既存データセットを多粒度回答で拡張するための簡単な方法論を提案し,EntityQuestionsデータセットの多粒度バージョンであるGRANOLA-EQを作成する。 我々は,GRANOLA-EQ 上でのデコード手法について,応答粒度とモデルの不確実性との整合性を考慮した新しいアルゴリズムである Decoding with Response Aggregation (DRAG) について検討した。 実験の結果, 標準復号化を伴う大規模言語モデルでは, しばしば誤りとなる特定の解を生成する傾向が示された。 対照的に、多粒度回答で評価すると、DRAGは平均で20ポイント近く精度が上昇し、希少物質がさらに増加する。 全体として、標準評価と復号化スキームは、LMにカプセル化された知識を著しく過小評価する可能性がある。

Factual questions typically can be answered correctly at different levels of granularity. For example, both ``August 4, 1961'' and ``1961'' are correct answers to the question ``When was Barack Obama born?''. Standard question answering (QA) evaluation protocols, however, do not explicitly take this into account and compare a predicted answer against answers of a single granularity level. In this work, we propose GRANOLA QA, a novel evaluation setting where a predicted answer is evaluated in terms of accuracy and informativeness against a set of multi-granularity answers. We present a simple methodology for enriching existing datasets with multi-granularity answers, and create GRANOLA-EQ, a multi-granularity version of the EntityQuestions dataset. We evaluate a range of decoding methods on GRANOLA-EQ, including a new algorithm, called Decoding with Response Aggregation (DRAG), that is geared towards aligning the response granularity with the model's uncertainty. Our experiments show that large language models with standard decoding tend to generate specific answers, which are often incorrect. In contrast, when evaluated on multi-granularity answers, DRAG yields a nearly 20 point increase in accuracy on average, which further increases for rare entities. Overall, this reveals that standard evaluation and decoding schemes may significantly underestimate the knowledge encapsulated in LMs.
翻訳日:2024-01-10 15:15:41 公開日:2024-01-09
# AIを用いた世界規模におけるオーキッド集合体の保存状況のマッピング

AI-based Mapping of the Conservation Status of Orchid Assemblages at Global Scale ( http://arxiv.org/abs/2401.04691v1 )

ライセンス: Link先を確認
Joaquim Estopinan, Maximilien Servajean, Pierre Bonnet, Alexis Joly, Fran\c{c}ois Munoz(参考訳) 生物多様性に対する脅威の増大は広く認識されているが、種群が危険にさらされているかどうかを示す正確なグローバルマップは存在しない。 そこで我々は,象徴的ラン科の保存状態を数キロメートルの解像度で評価し,地図化し,複数の尺度で得られた知見について議論する。 そこで,本研究では,14Kラン種100万件の個体群を世界規模および数キロメートルの分解能で予測するために,新しい深部種分布モデルを導入する。 集合体の保存状態の2つの主要な指標を提案する。 (i)絶滅危惧種の割合、及び (ii)群集の中で最も絶滅危惧種の地位 スマトラ島の現在保護されている地域と世界規模におけるこれらの指標の変動を解析した。 オンラインで利用可能なグローバルでインタラクティブな地図は、あらゆる規模で鋭い空間変化を持つランの集合体の保存状態を示す。 最も高い脅威はマダガスカル島と近隣の島々である。 スマトラでは,保護地域と指標との良好な対応がみられたが,現在のIUCN評価と現状予測を補完することで,島内における種の脅威レベルを脅かす結果となった。 深層学習の最近の進歩は、地球規模で種の群集の保存状態の信頼できるマッピングを可能にする。 傘の分類群として、ラン科は世界中の脆弱な生態系を識別し、国際レベルでも地域レベルでも保護行動に優先する基準を提供している。

Although increasing threats on biodiversity are now widely recognised, there are no accurate global maps showing whether and where species assemblages are at risk. We hereby assess and map at kilometre resolution the conservation status of the iconic orchid family, and discuss the insights conveyed at multiple scales. We introduce a new Deep Species Distribution Model trained on 1M occurrences of 14K orchid species to predict their assemblages at global scale and at kilometre resolution. We propose two main indicators of the conservation status of the assemblages: (i) the proportion of threatened species, and (ii) the status of the most threatened species in the assemblage. We show and analyze the variation of these indicators at World scale and in relation to currently protected areas in Sumatra island. Global and interactive maps available online show the indicators of conservation status of orchid assemblages, with sharp spatial variations at all scales. The highest level of threat is found at Madagascar and the neighbouring islands. In Sumatra, we found good correspondence of protected areas with our indicators, but supplementing current IUCN assessments with status predictions results in alarming levels of species threat across the island. Recent advances in deep learning enable reliable mapping of the conservation status of species assemblages on a global scale. As an umbrella taxon, orchid family provides a reference for identifying vulnerable ecosystems worldwide, and prioritising conservation actions both at international and local levels.
翻訳日:2024-01-10 15:15:16 公開日:2024-01-09
# 多層確率ブロックモデルの混合によるマルチビュークラスタリング

Mixture of multilayer stochastic block models for multiview clustering ( http://arxiv.org/abs/2401.04682v1 )

ライセンス: Link先を確認
Kylliann De Santiago, Marie Szafranski, Christophe Ambroise(参考訳) 本研究では,異なる情報源から得られた複数のクラスタリングを集約する手法を提案する。 各分割は観測間の共同メンバー行列によって符号化される。 提案手法では,SBM(Stochastic Block Models)とSBM(Stochastic Block Models)の混合を用いて,類似した情報をコンポーネントにグループ化し,観測結果を異なるクラスタに分割する。 モデルパラメータの同定可能性を確立し,これらのパラメータを推定するために変分ベイズEMアルゴリズムを提案する。 Bayesianフレームワークは最適な数のクラスタとコンポーネントを選択することができる。 提案手法は,大規模複雑ネットワークにおけるコミュニティ検出のための合成データとコンセンサスクラスタリングとテンソルに基づくアルゴリズムを用いて比較した。 最後に、この手法を用いてグローバルな食品取引網を解析し、関心の構造を導いた。

In this work, we propose an original method for aggregating multiple clustering coming from different sources of information. Each partition is encoded by a co-membership matrix between observations. Our approach uses a mixture of multilayer Stochastic Block Models (SBM) to group co-membership matrices with similar information into components and to partition observations into different clusters, taking into account their specificities within the components. The identifiability of the model parameters is established and a variational Bayesian EM algorithm is proposed for the estimation of these parameters. The Bayesian framework allows for selecting an optimal number of clusters and components. The proposed approach is compared using synthetic data with consensus clustering and tensor-based algorithms for community detection in large-scale complex networks. Finally, the method is utilized to analyze global food trading networks, leading to structures of interest.
翻訳日:2024-01-10 15:14:53 公開日:2024-01-09
# CoordGate:畳み込みニューラルネットワークにおける空間変化畳み込みの効率的な計算

CoordGate: Efficiently Computing Spatially-Varying Convolutions in Convolutional Neural Networks ( http://arxiv.org/abs/2401.04680v1 )

ライセンス: Link先を確認
Sunny Howard, Peter Norreys and Andreas D\"opp(参考訳) 光イメージングシステムは、画像に静的だが空間的に変化する畳み込みを適用した点拡散関数(PSF)により、その解像度が本質的に制限される。 この劣化は、畳み込みニューラルネットワーク(CNN)、特にデブロアリング技術によって対処できる。 しかし、現在の解は空間的に変化する畳み込みを効率的に計算する際の一定の限界に直面している。 本稿では,CNNにおける空間変動畳み込みの効率的な計算を可能にするために,乗法ゲートと座標符号化ネットワークを用いた新しい軽量モジュールCoordGateを提案する。 CoordGateは、空間的位置に基づいてフィルタの選択的増幅または減衰を可能にし、実質的に局所的に接続されたニューラルネットワークのように振る舞う。 coordgate 溶液の有効性を u-net の文脈で実証し, 画像デブラリングの課題に適用した。 実験の結果、CoordGateは従来の手法よりも優れており、様々なコンピュータビジョンアプリケーションにおいて、CNNに対してより堅牢で空間的に認識可能なソリューションを提供する。

Optical imaging systems are inherently limited in their resolution due to the point spread function (PSF), which applies a static, yet spatially-varying, convolution to the image. This degradation can be addressed via Convolutional Neural Networks (CNNs), particularly through deblurring techniques. However, current solutions face certain limitations in efficiently computing spatially-varying convolutions. In this paper we propose CoordGate, a novel lightweight module that uses a multiplicative gate and a coordinate encoding network to enable efficient computation of spatially-varying convolutions in CNNs. CoordGate allows for selective amplification or attenuation of filters based on their spatial position, effectively acting like a locally connected neural network. The effectiveness of the CoordGate solution is demonstrated within the context of U-Nets and applied to the challenging problem of image deblurring. The experimental results show that CoordGate outperforms conventional approaches, offering a more robust and spatially aware solution for CNNs in various computer vision applications.
翻訳日:2024-01-10 15:14:36 公開日:2024-01-09
# RoSA:ロバスト適応による高精度パラメータ効率ファインチューニング

RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation ( http://arxiv.org/abs/2401.04679v1 )

ライセンス: Link先を確認
Mahdi Nikdan, Soroush Tabesh, Dan Alistarh(参考訳) 本研究では,大規模言語モデル (LLM) の文脈において,限られた計算・メモリ予算の下で高い精度を達成できるパラメータ効率細調整法について検討する。 本稿では,ロバスト適応 (RoSA) と呼ばれる新しいPEFT手法を提案する。ロバスト適応 (RoSA) はロバストな主成分分析 (PCA) にインスパイアされ,固定された事前学習重みのセットの上に$\textit{low-rank}$と$\textit{highly-sparse}$コンポーネントを共同でトレーニングし,フルファインチューニング (FFT) ソリューションの性能を効率的に近似する。 小学校数学やSQLクエリ生成など,優れたパフォーマンスのために微調整を必要とする一連の課題生成タスクにおいて,RoSAがLoRAと純粋スパース細調整の両方を同じパラメータ予算で上回ることを示す。 我々は、トレーニングアルゴリズム、特にメモリと計算効率のトレーニングを可能にするスパースGPUカーネルを補完するRoSAのシステムサポートを提供する。 私たちのコードはhttps://github.com/IST-DASLab/RoSA}{\texttt{https://github.com/IST-DASLab/RoSAで利用可能になります。

We investigate parameter-efficient fine-tuning (PEFT) methods that can provide good accuracy under limited computational and memory budgets in the context of large language models (LLMs). We present a new PEFT method called Robust Adaptation (RoSA) inspired by robust principal component analysis (PCA) that jointly trains $\textit{low-rank}$ and $\textit{highly-sparse}$ components on top of a set of fixed pretrained weights to efficiently approximate the performance of a full-fine-tuning (FFT) solution. Across a series of challenging generative tasks such as grade-school math and SQL query generation, which require fine-tuning for good performance, we show that RoSA outperforms both LoRA and pure sparse fine-tuning, at the same parameter budget. We provide system support for RoSA to complement the training algorithm, specifically in the form of sparse GPU kernels which enable memory- and computationally-efficient training. Our code will be made available at https://github.com/IST-DASLab/RoSA}{\texttt{https://github.com/IST-DASLab/RoSA
翻訳日:2024-01-10 15:14:09 公開日:2024-01-09
# 仮想コムによる未知の量子プロセスの反転--限定情報チャネルの場合

Reversing Unknown Quantum Processes via Virtual Combs: for Channels with Limited Information ( http://arxiv.org/abs/2401.04672v1 )

ライセンス: Link先を確認
Chengkai Zhu, Yin Mo, Yu-Ao Chen, and Xin Wang(参考訳) 開システムの量子力学の本質的に不可逆性は未知の量子過程の反転に大きな障壁をもたらす。 この課題に対処するために、未知のプロセスを反復的に活用する仮想コムのフレームワークと、そのプロセス逆をシミュレートする古典的な後処理を提案する。 我々の研究は、特定の条件で未知チャネルの正確な逆数を達成するための経路を確立し、量子力学によって課される本質的な制限を基礎とするノーゴー定理を伴う。 特に、n$-slot仮想コームが1つの未知のノイズパラメータを持つ非分極チャネルをn+1$の候補から正確に反転させ、1-slot仮想コームが任意の量子チャネルを正確に反転させることができることを実証する。 さらに、与えられたチャネル集合内の未知のチャネルの近似逆数を探索する。 特定ノイズ領域内の未知の非分極チャネルに対して、仮想コームを介してチャネルを反転させる場合の最悪の場合、$\mathcal{o}(n^{-1})$ の誤りが現れる。 さらに,一定スロットを持つ仮想コムをユニタリ演算の普遍的逆転に適用し,スロット番号とサンプリングオーバーヘッドとのトレードオフを調査できることを示す。

The inherent irreversibility of quantum dynamics for open systems poses a significant barrier to the inversion of unknown quantum processes. To tackle this challenge, we propose the framework of virtual combs that exploit the unknown process iteratively with additional classical post-processing to simulate the process inverse. Our research establishes a path to achieving the exact inverse of unknown channels with certain conditions, accompanied by a no-go theorem that underscores the intrinsic limitations imposed by quantum mechanics on such tasks. Notably, we demonstrate that an $n$-slot virtual comb can exactly reverse a depolarizing channel with one unknown noise parameter out of $n+1$ potential candidates, and a 1-slot virtual comb can exactly reverse an arbitrary pair of quantum channels. We further explore the approximate inverse of an unknown channel within a given channel set. For any unknown depolarizing channels within a specified noise region, we unveil a worst-case error decay of $\mathcal{O}(n^{-1})$ of reversing the channel via virtual combs. Moreover, we show that virtual combs with constant slots can be applied to universally reverse unitary operations and investigate the trade-off between the slot number and the sampling overhead.
翻訳日:2024-01-10 15:13:29 公開日:2024-01-09
# gaussian copulaを用いたトランスファーラーニングに基づく自動チューニング

Transfer-Learning-Based Autotuning Using Gaussian Copula ( http://arxiv.org/abs/2401.04669v1 )

ライセンス: Link先を確認
Thomas Randall (1), Jaehoon Koo (2), Brice Videau (3), Michael Kruse (3), Xingfu Wu (3), Paul Hovland (3), Mary Hall (4), Rong Ge (1), Prasanna Balaprakash (5) ((1) Clemson University, (2) Hanyang University, (3) Argonne National Laboratory, (4) University of Utah, (5) Oak Ridge National Laboratory)(参考訳) 多様な高性能コンピューティング(HPC)システムが構築されているため、アプリケーションがこれまで以上に大きな問題を解決する機会が生まれる。 これらのHPCシステムとアプリケーションチューニングの複雑さが著しく増大していることから、オートチューニングのような経験的パフォーマンスチューニングは近年、有望なアプローチとして現れている。 その効果にもかかわらず、オートチューニングはしばしば計算コストの高いアプローチである。 転送学習(TL)ベースのオートチューニングは、事前チューニングのデータを活用することでこの問題に対処しようとしている。 現在の自動チューニングのためのtlメソッドは、パラメータの設定とパフォーマンスの関係をモデル化するのにかなりの時間を費やしており、これは新しいタスクをチューニングする(すなわち、経験的評価がほとんどない)場合、効果がない。 本稿では,gaussian copula(gc)に基づく最初の生成型tlベースの自動チューニング手法を導入し,検索空間の高パフォーマンス領域を先行データからモデル化し,新しいタスクに対して高パフォーマンスな構成を生成する。 これにより、サンプリングベースのアプローチで、数ショットのパフォーマンスを最大化し、効率的なTLベースの自動チューニングのための数ショット予算の最初の確率的推定を提供する。 いくつかのベンチマークにおいて,我々の生成TL手法と最先端のオートチューニング手法を比較した。 我々はGCが最初の評価で64.37%のピークショット性能を達成可能であることを発見した。 さらに、gcモデルは、最大33.39$\times$ speedupとなるわずかな転送予算を決定でき、以前の技術を使った20.58$\times$ speedupを劇的に改善する。

As diverse high-performance computing (HPC) systems are built, many opportunities arise for applications to solve larger problems than ever before. Given the significantly increased complexity of these HPC systems and application tuning, empirical performance tuning, such as autotuning, has emerged as a promising approach in recent years. Despite its effectiveness, autotuning is often a computationally expensive approach. Transfer learning (TL)-based autotuning seeks to address this issue by leveraging the data from prior tuning. Current TL methods for autotuning spend significant time modeling the relationship between parameter configurations and performance, which is ineffective for few-shot (that is, few empirical evaluations) tuning on new tasks. We introduce the first generative TL-based autotuning approach based on the Gaussian copula (GC) to model the high-performing regions of the search space from prior data and then generate high-performing configurations for new tasks. This allows a sampling-based approach that maximizes few-shot performance and provides the first probabilistic estimation of the few-shot budget for effective TL-based autotuning. We compare our generative TL approach with state-of-the-art autotuning techniques on several benchmarks. We find that the GC is capable of achieving 64.37% of peak few-shot performance in its first evaluation. Furthermore, the GC model can determine a few-shot transfer budget that yields up to 33.39$\times$ speedup, a dramatic improvement over the 20.58$\times$ speedup using prior techniques.
翻訳日:2024-01-10 15:12:34 公開日:2024-01-09
# ASSIRA猫と犬のデータセットを用いた各種事前学習モデルのベンチマーク解析

Benchmark Analysis of Various Pre-trained Deep Learning Models on ASSIRA Cats and Dogs Dataset ( http://arxiv.org/abs/2401.04666v1 )

ライセンス: Link先を確認
Galib Muhammad Shahriar Himel, Md. Masudul Islam(参考訳) ディープラーニングの最も基本的な応用と実装として、画像分類の人気が高まっている。 さまざまなデータセットは、機械学習アルゴリズムと事前訓練されたモデルのベンチマークのための有名なデータサイエンスコミュニティによって提供される。 ASSIRA Cats & Dogsデータセットはその1つであり、全体的な受け入れとベンチマーク標準のためにこの研究で使用されている。 各種オプティマイザと損失関数を用いて,様々な事前学習モデルの比較を行った。 ハイパーパラメータはモデルから最高の結果を得るために変更される。 このアプローチを適用することで、トレーニングモデルに大きな変更を加えることなく、精度が向上しました。 実験には、nvidia geforce gtx 1070搭載のラップトップ、nvidia geforce rtx 3080ti搭載のラップトップ、nvidia geforce rtx 3090搭載のデスクトップの3つの異なるコンピュータアーキテクチャを使用しました。 得られた結果は、このデータセットで行った実験よりも精度の面で優位性を示す。 この実験から、NASNet Largeを用いて99.65%の最高精度が得られる。

As the most basic application and implementation of deep learning, image classification has grown in popularity. Various datasets are provided by renowned data science communities for benchmarking machine learning algorithms and pre-trained models. The ASSIRA Cats & Dogs dataset is one of them and is being used in this research for its overall acceptance and benchmark standards. A comparison of various pre-trained models is demonstrated by using different types of optimizers and loss functions. Hyper-parameters are changed to gain the best result from a model. By applying this approach, we have got higher accuracy without major changes in the training model. To run the experiment, we used three different computer architectures: a laptop equipped with NVIDIA GeForce GTX 1070, a laptop equipped with NVIDIA GeForce RTX 3080Ti, and a desktop equipped with NVIDIA GeForce RTX 3090. The acquired results demonstrate supremacy in terms of accuracy over the previously done experiments on this dataset. From this experiment, the highest accuracy which is 99.65% is gained using the NASNet Large.
翻訳日:2024-01-10 15:11:31 公開日:2024-01-09
# 浮揚光学系からの線形摩擦散逸崩壊模型の実験的境界

Experimental bounds on linear-friction dissipative collapse models from levitated optomechanics ( http://arxiv.org/abs/2401.04665v1 )

ライセンス: Link先を確認
Giovanni Di Bartolomeo and Matteo Carlesso(参考訳) 崩壊モデルは、よく知られた量子測定問題を解決する量子力学の代替となる。 この枠組みでは, 崩壊モデルに散逸を含む新しい手法が提案され, 実験的検証が待たれている。 我々の研究は、リニア摩擦散逸性Di\'osi-Penrose(dDP)モデルと連続自発局在化(dCSL)モデルに関する実験的な境界を確立する。 また, DDP の場合, 10^{-6}$m および 10^{-8}$m より小さい局所化長の値に対して, 10^{-13}$K および $ 6 \times 10^{-12}$K 未満の崩壊温度を除外した。 dcslの場合、パラメータ空間全体が6 \times 10^{-9}$k以下の温度の値として除外される。

Collapse models constitute an alternative to quantum mechanics that solve the well-know quantum measurement problem. In this framework, a novel approach to include dissipation in collapse models has been recently proposed, and awaits experimental validation. Our work establishes experimental bounds on the so-constructed linear-friction dissipative Di\'osi-Penrose (dDP) and Continuous Spontaneous localisation (dCSL) models by exploiting experiments in the field of levitated optomechanics. Our results in the dDP case exclude collapse temperatures below $ 10^{-13}$K and $ 6 \times 10^{-12}$K respectively for values of the localisation length smaller than $10^{-6}$m and $10^{-8}$m. In the dCSL case the entire parameter space is excluded for values of the temperature lower than $6 \times 10^{-9}$K.
翻訳日:2024-01-10 15:11:18 公開日:2024-01-09
# Lightning Attention-2: 大規模言語モデルにおける無制限シーケンス長処理自由ランチ

Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models ( http://arxiv.org/abs/2401.04658v1 )

ライセンス: Link先を確認
Zhen Qin, Weigao Sun, Dong Li, Xuyang Shen, Weixuan Sun, Yiran Zhong(参考訳) リニアアテンションは,従来型のソフトマックスアテンションに代わる有望な代替手段として最近登場した,効率的なアテンション機構である。 線形計算の複雑さでトークンを処理する能力により、理論的には、線形注意は、速度を犠牲にすることなく無制限の長さのシーケンスを処理できる。 しかし、累積和法(cumsum)の問題のため、現在の線形注意アルゴリズムは因果関係においてその理論的利点を示すことができない。 本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attention-2を提案する。 これを実現するために,線形注意計算においてブロック内コンポーネントとブロック間コンポーネントを別々に扱い,タイル化の考え方を利用する。 具体的には,従来のブロック内アテンション計算機構を利用し,ブロック間における線形アテンションカーネルトリックを適用する。 ティリング技術は、gpuハードウェアを最大限活用するために、前方と後方の両方の手順で採用されている。 アルゴリズムをTritonに実装し、IO対応でハードウェアフレンドリーにしています。 異なるモデルサイズとシーケンス長について様々な実験を行った。 Lightning Attention-2は、入力シーケンスの長さに関わらず、一貫したトレーニングと推論速度を保持し、他の注意機構よりもはるかに高速である。 ソースコードはhttps://github.com/opennlplab/lightning-attentionで入手できる。

Linear attention is an efficient attention mechanism that has recently emerged as a promising alternative to conventional softmax attention. With its ability to process tokens in linear computational complexities, linear attention, in theory, can handle sequences of unlimited length without sacrificing speed, i.e., maintaining a constant training speed for various sequence lengths with a fixed memory consumption. However, due to the issue with cumulative summation (cumsum), current linear attention algorithms cannot demonstrate their theoretical advantage in a causal setting. In this paper, we present Lightning Attention-2, the first linear attention implementation that enables linear attention to realize its theoretical computational benefits. To achieve this, we leverage the thought of tiling, separately handling the intra-block and inter-block components in linear attention calculation. Specifically, we utilize the conventional attention computation mechanism for the intra-blocks and apply linear attention kernel tricks for the inter-blocks. A tiling technique is adopted through both forward and backward procedures to take full advantage of the GPU hardware. We implement our algorithm in Triton to make it IO-aware and hardware-friendly. Various experiments are conducted on different model sizes and sequence lengths. Lightning Attention-2 retains consistent training and inference speed regardless of input sequence length and is significantly faster than other attention mechanisms. The source code is available at https://github.com/OpenNLPLab/lightning-attention.
翻訳日:2024-01-10 15:11:01 公開日:2024-01-09
# DepressionEmo:抑うつ感情のマルチラベル分類のための新しいデータセット

DepressionEmo: A novel dataset for multilabel classification of depression emotions ( http://arxiv.org/abs/2401.04655v1 )

ライセンス: Link先を確認
Abu Bakar Siddiqur Rahman, Hoang-Thang Ta, Lotfollah Najjar, Azad Azadmanesh, Ali Saffet G\"on\"ul(参考訳) 感情は人間の社会的相互作用に不可欠であり、多様な反応は様々な状況によって引き起こされる。 特に、ネガティブな感情状態の流行はメンタルヘルスのネガティブな結果と相関しており、その発生と個人への影響を包括的に分析する必要がある。 本稿では,長文Redditユーザ投稿の6037例を用いて,抑うつに関連する8つの感情を検出するために,DepressionEmoという新しいデータセットを提案する。 このデータセットは、事前訓練されたモデルのゼロショット分類による入力に対する多数決によって作成され、アノテータとChatGPTによる品質検証が行われ、アノテータ間のインターレータ信頼性の許容レベルが示された。 DepressionEmoでは,感情の時間的分布と言語学的分析の相関について検討した。 さらに,SVM,XGBoost,Light GBMなどの機械学習手法と,BERT,GAN-BERT,BARTなどのディープラーニング手法の2つのグループに分類される。 事前訓練されたBARTモデルであるbart-base は、解析で評価された他の手法と比較して高いF1-マクロが0.76であることを示す。 すべての感情の中で、最も高いF1-マクロ値は自殺意図によって達成され、テキスト分析によってうつ病の症状を持つ個人の感情を特定するデータセットの特定の価値を示す。 キュレートされたデータセットは、https://github.com/abuBakarSiddiqurRahman/DepressionEmoで公開されている。

Emotions are integral to human social interactions, with diverse responses elicited by various situational contexts. Particularly, the prevalence of negative emotional states has been correlated with negative outcomes for mental health, necessitating a comprehensive analysis of their occurrence and impact on individuals. In this paper, we introduce a novel dataset named DepressionEmo designed to detect 8 emotions associated with depression by 6037 examples of long Reddit user posts. This dataset was created through a majority vote over inputs by zero-shot classifications from pre-trained models and validating the quality by annotators and ChatGPT, exhibiting an acceptable level of interrater reliability between annotators. The correlation between emotions, their distribution over time, and linguistic analysis are conducted on DepressionEmo. Besides, we provide several text classification methods classified into two groups: machine learning methods such as SVM, XGBoost, and Light GBM; and deep learning methods such as BERT, GAN-BERT, and BART. The pretrained BART model, bart-base allows us to obtain the highest F1- Macro of 0.76, showing its outperformance compared to other methods evaluated in our analysis. Across all emotions, the highest F1-Macro value is achieved by suicide intent, indicating a certain value of our dataset in identifying emotions in individuals with depression symptoms through text analysis. The curated dataset is publicly available at: https://github.com/abuBakarSiddiqurRahman/DepressionEmo.
翻訳日:2024-01-10 15:10:37 公開日:2024-01-09
# あらゆるモデルをセグメント化するための学習

Learning to Prompt Segment Anything Models ( http://arxiv.org/abs/2401.04651v1 )

ライセンス: Link先を確認
Jiaxing Huang, Kai Jiang, Jingyi Zhang, Han Qiu, Lewei Lu, Shijian Lu and Eric Xing(参考訳) SEEMやSAMのようなセグメンテーション任意のモデル(SAM)は、何かをセグメンテーションする方法を学ぶ大きな可能性を実証しています。 SAMのコアデザインはPromptable Segmentationで、手作りのプロンプトを入力として取り、期待されるセグメンテーションマスクを返す。 SAMは、空間的プロンプト(例えば点)と意味的プロンプト(例えばテキスト)を含む2つのタイプのプロンプトで動作する。 プロンプトの役割は重要であるが、samsの適切なプロンプトを取得する方法はほとんど未検討である。 本研究では,SAMのアーキテクチャを検証し,SAMの効果的なプロンプトを学習するための2つの課題を特定する。 この目的のために,より優れたSAMのための効果的な意味と空間的プロンプトを学習する空間意味的プロンプト学習(SSPrompt)を提案する。 具体的には、空間的プロンプト学習と意味的プロンプト学習を導入し、空間的プロンプトと意味的プロンプトを直接埋め込み空間上で最適化し、事前訓練されたプロンプトエンコーダで符号化された知識を選択的に活用する。 広範な実験により、sspromptは、複数の広く採用されているデータセットで一貫して優れた画像セグメンテーション性能を達成できることが示されている。

Segment Anything Models (SAMs) like SEEM and SAM have demonstrated great potential in learning to segment anything. The core design of SAMs lies with Promptable Segmentation, which takes a handcrafted prompt as input and returns the expected segmentation mask. SAMs work with two types of prompts including spatial prompts (e.g., points) and semantic prompts (e.g., texts), which work together to prompt SAMs to segment anything on downstream datasets. Despite the important role of prompts, how to acquire suitable prompts for SAMs is largely under-explored. In this work, we examine the architecture of SAMs and identify two challenges for learning effective prompts for SAMs. To this end, we propose spatial-semantic prompt learning (SSPrompt) that learns effective semantic and spatial prompts for better SAMs. Specifically, SSPrompt introduces spatial prompt learning and semantic prompt learning, which optimize spatial prompts and semantic prompts directly over the embedding space and selectively leverage the knowledge encoded in pre-trained prompt encoders. Extensive experiments show that SSPrompt achieves superior image segmentation performance consistently across multiple widely adopted datasets.
翻訳日:2024-01-10 15:10:12 公開日:2024-01-09
# 深部隠れ物理モデルの一般化のための新しい枠組み

A novel framework for generalization of deep hidden physics models ( http://arxiv.org/abs/2401.04648v1 )

ライセンス: Link先を確認
Vijay Kag, Birupaksha Pal(参考訳) システム情報が不明なシステムのモデリングは、さまざまなエンジニアリングや産業アプリケーションで遭遇した問題であり、関連する全ての複雑な物理学を考慮できないか、あるいはより単純なモデルが利用可能なリソースの限界内にあると考えられるためである。 近年のグレーボックスモデリングの進歩は、データと物理を組み合わせることで、この空間に対処している。 しかし、実際のほとんどのアプリケーションでは、システムの入力やパラメータの変更やドメイン構成の変更の度にモデルを再トレーニングすることで、モデルを経済的に不可能にすることができる。 本研究では,システム入力,パラメータ,領域の変化を一般化できる隠れ物理モデルの概念を新たに拡張する。 また,この手法はシステム探索にも有望であり,システム入力,パラメータ,ドメイン構成の変化に対する隠れた物理学の学習を支援する。

Modelling of systems where the full system information is unknown is an oft encountered problem for various engineering and industrial applications, as it's either impossible to consider all the complex physics involved or simpler models are considered to keep within the limits of the available resources. Recent advances in greybox modelling like the deep hidden physics models address this space by combining data and physics. However, for most real-life applications, model generalizability is a key issue, as retraining a model for every small change in system inputs and parameters or modification in domain configuration can render the model economically unviable. In this work we present a novel enhancement to the idea of hidden physics models which can generalize for changes in system inputs, parameters and domains. We also show that this approach holds promise in system discovery as well and helps learn the hidden physics for the changed system inputs, parameters and domain configuration.
翻訳日:2024-01-10 15:09:48 公開日:2024-01-09
# 生成型adversarial networkによる ante-hoc explainsable model の進歩

Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks ( http://arxiv.org/abs/2401.04647v1 )

ライセンス: Link先を確認
Tanmay Garg, Deepika Vemuri, Vineeth N Balasubramanian(参考訳) 本稿では,視覚分類タスクにおけるモデル解釈性と性能を向上させるための新しい概念学習フレームワークを提案する。 本手法では,主分類器ネットワークに教師なし説明生成器を付加し,逆訓練を利用する。 トレーニング中、説明モジュールは分類器の潜在表現から視覚概念を抽出するために最適化され、GANベースのモジュールは概念から生成されたイメージを真のイメージから識別することを目的としている。 この共同トレーニングスキームにより、モデルは内部で学んだ概念を人間の解釈可能な視覚特性と暗黙的に整合させることができる。 包括的実験は、コヒーレントな概念アクティベーションを生み出しながら、我々のアプローチの堅牢性を実証する。 学習した概念を解析し、対象部分と視覚的属性とのセマンティックな一致を示す。 また,攻撃訓練プロトコルの摂動が分類と概念獲得にどのように影響するかについても検討した。 要約すると、この研究は、タスク整合の概念表現によって本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示します。

This paper presents a novel concept learning framework for enhancing model interpretability and performance in visual classification tasks. Our approach appends an unsupervised explanation generator to the primary classifier network and makes use of adversarial training. During training, the explanation module is optimized to extract visual concepts from the classifier's latent representations, while the GAN-based module aims to discriminate images generated from concepts, from true images. This joint training scheme enables the model to implicitly align its internally learned concepts with human-interpretable visual properties. Comprehensive experiments demonstrate the robustness of our approach, while producing coherent concept activations. We analyse the learned concepts, showing their semantic concordance with object parts and visual attributes. We also study how perturbations in the adversarial training protocol impact both classification and concept acquisition. In summary, this work presents a significant step towards building inherently interpretable deep vision models with task-aligned concept representations - a key enabler for developing trustworthy AI for real-world perception tasks.
翻訳日:2024-01-10 15:09:33 公開日:2024-01-09
# 周期駆動系における熱平衡近傍の定常応答

Stalled response near thermal equilibrium in periodically driven systems ( http://arxiv.org/abs/2401.04645v1 )

ライセンス: Link先を確認
Lennart Dabelow and Peter Reimann(参考訳) 系が摂動にどう反応するかという問題は物理学では至るところにある。 大規模システムに対するこの応答の予測は、多くの自由度が関与し線形応答理論が適用できない場合、特に困難になる。 ここで、孤立多体量子系は、平衡から遠く離れたところから始まり、熱化するか、最初から熱平衡に近い状態にあると考える。 本研究は, ゆるやかな強度の時間-周期摂動が, システムが熱的平衡に近づくと, 非摂動系が平衡から遠くなる限り, 駆動は極めて大きな反応を引き起こすが, 駆動効果は熱平衡に近づくと強く抑制されることを示す。 同様に、熱平衡近くで用意されたシステムでは、駆動に対する応答は最初からほとんど目立たない。 数値結果は、定量的に正確な分析記述と単純な定性的議論によって補完される。

The question of how systems respond to perturbations is ubiquitous in physics. Predicting this response for large classes of systems becomes particularly challenging if many degrees of freedom are involved and linear response theory cannot be applied. Here, we consider isolated many-body quantum systems which either start out far from equilibrium and then thermalize, or find themselves near thermal equilibrium from the outset. We show that time-periodic perturbations of moderate strength, in the sense that they do not heat up the system too quickly, give rise to the following phenomenon of stalled response: While the driving usually causes quite considerable reactions as long as the unperturbed system is far from equilibrium, the driving effects are strongly suppressed when the unperturbed system approaches thermal equilibrium. Likewise, for systems prepared near thermal equilibrium, the response to the driving is barely noticeable right from the beginning. Numerical results are complemented by a quantitatively accurate analytical description and by simple qualitative arguments.
翻訳日:2024-01-10 15:09:13 公開日:2024-01-09
# 3次元アバターを用いた手話翻訳のための簡易ベースライン

A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars ( http://arxiv.org/abs/2401.04730v1 )

ライセンス: Link先を確認
Ronglai Zuo, Fangyun Wei, Zenggui Chen, Brian Mak, Jiaolong Yang, Xin Tong(参考訳) 本研究の目的は,音声言語を手話言語に翻訳する機能的システムを開発することである。 spoken2signタスクは、従来の手話と音声言語(sign2spoken)の翻訳と直交し補完する。 Spoken2Sign変換を実現するために,3つのステップからなる単純なベースラインを示す。 1) 既存のSign2Spokenベンチマークを用いたグロスビデオ辞書の作成 2 辞書のサインビデオごとに3次元の符号を推定すること。 3) Text2Gloss トランスレータ, サインコネクタ, レンダリングモジュールで構成される Spoken2Sign モデルを, 得られた Gloss-3D 符号辞書の助けを借りて訓練する。 翻訳結果は、記号アバターを介して表示される。 私たちが知っている限りでは、最初にSpken2Signタスクを3Dサインの出力フォーマットで提示します。 Spoken2Sign翻訳の能力に加えて、我々のアプローチ-3Dキーポイント拡張とマルチビュー理解の2つの副産物がキーポイントベースの手話理解を支援することを示した。 コードとモデルはhttps://github.com/FangyunWei/SLRTで入手できる。

The objective of this paper is to develop a functional system for translating spoken languages into sign languages, referred to as Spoken2Sign translation. The Spoken2Sign task is orthogonal and complementary to traditional sign language to spoken language (Sign2Spoken) translation. To enable Spoken2Sign translation, we present a simple baseline consisting of three steps: 1) creating a gloss-video dictionary using existing Sign2Spoken benchmarks; 2) estimating a 3D sign for each sign video in the dictionary; 3) training a Spoken2Sign model, which is composed of a Text2Gloss translator, a sign connector, and a rendering module, with the aid of the yielded gloss-3D sign dictionary. The translation results are then displayed through a sign avatar. As far as we know, we are the first to present the Spoken2Sign task in an output format of 3D signs. In addition to its capability of Spoken2Sign translation, we also demonstrate that two by-products of our approach-3D keypoint augmentation and multi-view understanding-can assist in keypoint-based sign language understanding. Code and models will be available at https://github.com/FangyunWei/SLRT
翻訳日:2024-01-10 15:01:59 公開日:2024-01-09
# 人間とAIの協調行動における文脈情報の影響について

On the Effect of Contextual Information on Human Delegation Behavior in Human-AI collaboration ( http://arxiv.org/abs/2401.04729v1 )

ライセンス: Link先を確認
Philipp Spitzer and Joshua Holstein and Patrick Hemmer and Michael V\"ossing and Niklas K\"uhl and Dominik Martin and Gerhard Satzger(参考訳) 人工知能(AI)の絶えず増加する能力は、人間とAIのコラボレーションに新たな可能性を開く。 既存の補完機能を活用するための有望なアプローチのひとつは、AIに個々のインスタンスを委譲できるようにすることだ。 しかしながら、人間がインスタンスを委譲できるようにするためには、与えられたタスクのコンテキストにおいて、自分自身とAIの能力の両方を評価する必要がある。 本稿では,aiにインスタンスを委譲するために,人間の意思決定に文脈情報を提供することの効果について検討する。 参加者にコンテキスト情報を提供することで,人間-AIチームのパフォーマンスが大幅に向上することがわかった。 また,参加者が様々な文脈情報を受け取ると,代表行動が大きく変化することを示した。 本研究は,人間の代表団における人間とAIの相互作用の理解を深め,より効果的な協調システムを設計するための実用的な洞察を提供する。

The constantly increasing capabilities of artificial intelligence (AI) open new possibilities for human-AI collaboration. One promising approach to leverage existing complementary capabilities is allowing humans to delegate individual instances to the AI. However, enabling humans to delegate instances effectively requires them to assess both their own and the AI's capabilities in the context of the given task. In this work, we explore the effects of providing contextual information on human decisions to delegate instances to an AI. We find that providing participants with contextual information significantly improves the human-AI team performance. Additionally, we show that the delegation behavior changes significantly when participants receive varying types of contextual information. Overall, this research advances the understanding of human-AI interaction in human delegation and provides actionable insights for designing more effective collaborative systems.
翻訳日:2024-01-10 15:01:42 公開日:2024-01-09
# 単像アバター生成のための3次元整合拡散

Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation ( http://arxiv.org/abs/2401.04728v1 )

ライセンス: Link先を確認
Xiyi Chen, Marko Mihajlovic, Shaofei Wang, Sergey Prokudin, Siyu Tang(参考訳) 最近の生成拡散モデルの進歩により、単一の入力画像やテキストプロンプトから3dアセットを生成することができなくなった。 本研究では,制御可能なフォトリアリスティックな人間のアバターを作成するために,これらのモデルの品質と機能を向上させることを目的とする。 我々は,3次元形態素モデルを最先端の多視点連続拡散手法に統合することで実現した。 本研究では,合成3次元モデルにおける生成パイプラインの正確なコンディショニングが,単一画像からの新規なビュー合成タスクにおけるベースラインモデル性能を向上させることを実証する。 より重要なことに、この統合は、表情と身体のポーズ制御をシームレスで正確に生成プロセスに組み込むのに役立つ。 我々の知識を最大限に活用するために,本提案フレームワークは,未確認対象の単一画像から完全3次元一貫性,アニマタブル,フォトリアリスティックな人間のアバターを作成するための,最初の拡散モデルである。

Recent advances in generative diffusion models have enabled the previously unfeasible capability of generating 3D assets from a single input image or a text prompt. In this work, we aim to enhance the quality and functionality of these models for the task of creating controllable, photorealistic human avatars. We achieve this by integrating a 3D morphable model into the state-of-the-art multiview-consistent diffusion approach. We demonstrate that accurate conditioning of a generative pipeline on the articulated 3D model enhances the baseline model performance on the task of novel view synthesis from a single image. More importantly, this integration facilitates a seamless and accurate incorporation of facial expression and body pose control into the generation process. To the best of our knowledge, our proposed framework is the first diffusion model to enable the creation of fully 3D-consistent, animatable, and photorealistic human avatars from a single image of an unseen subject; extensive quantitative and qualitative evaluations demonstrate the advantages of our approach over existing state-of-the-art avatar creation models on both novel view and novel expression synthesis tasks.
翻訳日:2024-01-10 15:01:30 公開日:2024-01-09
# 大規模における対向訓練の再検討

Revisiting Adversarial Training at Scale ( http://arxiv.org/abs/2401.04727v1 )

ライセンス: Link先を確認
Zeyu Wang, Xianhang Li, Hongru Zhu, Cihang Xie(参考訳) 機械学習コミュニティは、前例のない規模の‘境界モデル’によって、トレーニングパイプラインの大幅な変更を目撃している。 主にResNet-50のような小さなモデルサイズと、CIFAR-10のような小型で低解像度のデータセットを中心にしている。 このトランスフォーメーションギャップを埋めるために,本稿では,大規模に適用する上での潜在的メリットを探求し,敵のトレーニングによる現代的再検討を行う。 さらに,大規模モデルとwebスケールデータによる敵対的トレーニングを,手頃なコンピューティングコストで実現するための,効率的かつ効果的なトレーニング戦略を提案する。 新たに導入されたフレームワークをAdvXLと表現する。 実証的な結果から、AdvXLはAutoAttack on ImageNet-1Kの下で、新しい最先端の堅牢な精度記録を確立している。 例えば、DataComp-1Bデータセットをトレーニングすることで、当社のAdvXLは、バニラViT-gモデルに、それぞれ11.4%、14.2%、12.9%のマージンで、$l_{\infty}$-、$l_{2}$-、$l_{1}$-robustの前のレコードを大幅に上回る権限を与えています。 この成果は、advxlを先駆的なアプローチとして捉え、かなり大きなスケールでロバストな視覚的表現の効率的なトレーニングのための新しい軌道を示した。 私たちのコードはhttps://github.com/UCSC-VLAA/AdvXL.comで利用可能です。

The machine learning community has witnessed a drastic change in the training pipeline, pivoted by those ''foundation models'' with unprecedented scales. However, the field of adversarial training is lagging behind, predominantly centered around small model sizes like ResNet-50, and tiny and low-resolution datasets like CIFAR-10. To bridge this transformation gap, this paper provides a modern re-examination with adversarial training, investigating its potential benefits when applied at scale. Additionally, we introduce an efficient and effective training strategy to enable adversarial training with giant models and web-scale data at an affordable computing cost. We denote this newly introduced framework as AdvXL. Empirical results demonstrate that AdvXL establishes new state-of-the-art robust accuracy records under AutoAttack on ImageNet-1K. For example, by training on DataComp-1B dataset, our AdvXL empowers a vanilla ViT-g model to substantially surpass the previous records of $l_{\infty}$-, $l_{2}$-, and $l_{1}$-robust accuracy by margins of 11.4%, 14.2% and 12.9%, respectively. This achievement posits AdvXL as a pioneering approach, charting a new trajectory for the efficient training of robust visual representations at significantly larger scales. Our code is available at https://github.com/UCSC-VLAA/AdvXL.
翻訳日:2024-01-10 15:01:15 公開日:2024-01-09
# マイクロ波光子のパラメトリックプログラマブル遅延線

A parametrically programmable delay line for microwave photons ( http://arxiv.org/abs/2401.04724v1 )

ライセンス: Link先を確認
Takuma Makihara, Nathan Lee, Yudan Guo, Wenyan Guan, Amir H. Safavi-Naeini(参考訳) 量子情報を格納できる遅延線は、量子リピータやハードウェア効率のよい量子コンピュータの進化に不可欠である。 伝統的に、それらは導波路のような波動伝播をサポートする拡張システムとして物理的に実現されている。 しかし、そのような遅延線は通常、伝播場を限定的に制御する。 本稿では,マイクロ波光子に対するパラメトリック対応遅延線(PADL)を導入し,保存パルスのダイナミクスを高レベルに制御し,パルスを任意に遅延あるいは交換することを可能にする。 共振器のアンサンブルと弱ハイブリダイズされた三振混合超伝導回路素子をパラメトリックに駆動することにより、遅延線路の特性を高速に制御し、内部モードへのアクセスを許可しながら、物理的遅延線路の特性をシミュレートするスペクトル応答を設計できる。 我々は、光子を1つの光子の順にエネルギーで動作させ、どの光子エコーを放射するかを選択すること、パルスを時間に翻訳すること、2つのパルスを交換することを含む一連の実験を通じて、パデルの主な特徴を説明する。 また、パラメトリック相互作用から遅延線に付加されるノイズを測定し、付加されるノイズが1光子よりもはるかに小さいことを確認する。

Delay lines capable of storing quantum information are crucial for advancing quantum repeaters and hardware efficient quantum computers. Traditionally, they are physically realized as extended systems that support wave propagation, such as waveguides. But such delay lines typically provide limited control over the propagating fields. Here, we introduce a parametrically addressed delay line (PADL) for microwave photons that provides a high level of control over the dynamics of stored pulses, enabling us to arbitrarily delay or even swap pulses. By parametrically driving a three-waving mixing superconducting circuit element that is weakly hybridized with an ensemble of resonators, we engineer a spectral response that simulates that of a physical delay line, while providing fast control over the delay line's properties and granting access to its internal modes. We illustrate the main features of the PADL, operating on pulses with energies on the order of a single photon, through a series of experiments, which include choosing which photon echo to emit, translating pulses in time, and swapping two pulses. We also measure the noise added to the delay line from our parametric interactions and find that the added noise is much less than one photon.
翻訳日:2024-01-10 15:00:45 公開日:2024-01-09
# U-Mamba: バイオメディカルイメージセグメンテーションにおける長距離依存の強化

U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation ( http://arxiv.org/abs/2401.04722v1 )

ライセンス: Link先を確認
Jun Ma, Feifei Li, and Bo Wang(参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、バイオメディカルイメージセグメンテーションの最も一般的なアーキテクチャであるが、どちらも固有の局所性や計算複雑性のため、長距離依存を処理する能力に制限がある。 この課題に対処するために,バイオメディカルイメージセグメンテーションのための汎用ネットワークであるU-Mambaを紹介する。 長いシーケンスを扱う能力で知られている新しいディープシーケンスモデルであるState Space Sequence Models (SSM) にインスパイアされた我々は、畳み込み層の局所的特徴抽出能力と長距離依存性をキャプチャするSSMの能力を統合するハイブリッドCNN-SSMブロックを設計する。 さらに、U-Mambaは自己設定メカニズムを楽しみ、手動で介入することなく、さまざまなデータセットに自動的に適応できる。 ctおよびmr画像における3次元腹部臓器分画,内視鏡画像における計器分画,顕微鏡画像における細胞分画の4つの課題について広範な実験を行った。 その結果、u-mambaはすべてのタスクで最先端のcnnベースおよびtransformerベースのセグメンテーションネットワークを上回ることがわかった。 これにより、バイオメディカル画像解析における効率的な長距離依存性モデリングのための新しい道が開かれる。 コード、モデル、データはhttps://wanglab.ai/u-mamba.htmlで公開されている。

Convolutional Neural Networks (CNNs) and Transformers have been the most popular architectures for biomedical image segmentation, but both of them have limited ability to handle long-range dependencies because of inherent locality or computational complexity. To address this challenge, we introduce U-Mamba, a general-purpose network for biomedical image segmentation. Inspired by the State Space Sequence Models (SSMs), a new family of deep sequence models known for their strong capability in handling long sequences, we design a hybrid CNN-SSM block that integrates the local feature extraction power of convolutional layers with the abilities of SSMs for capturing the long-range dependency. Moreover, U-Mamba enjoys a self-configuring mechanism, allowing it to automatically adapt to various datasets without manual intervention. We conduct extensive experiments on four diverse tasks, including the 3D abdominal organ segmentation in CT and MR images, instrument segmentation in endoscopy images, and cell segmentation in microscopy images. The results reveal that U-Mamba outperforms state-of-the-art CNN-based and Transformer-based segmentation networks across all tasks. This opens new avenues for efficient long-range dependency modeling in biomedical image analysis. The code, models, and data are publicly available at https://wanglab.ai/u-mamba.html.
翻訳日:2024-01-10 15:00:24 公開日:2024-01-09
# 基礎モデルの低リソース微調整は病理学の最先端を破る

Low-resource finetuning of foundation models beats state-of-the-art in histopathology ( http://arxiv.org/abs/2401.04720v1 )

ライセンス: Link先を確認
Benedikt Roth, Valentin Koch, Sophia J. Wagner, Julia A. Schnabel, Carsten Marr, Tingying Peng(参考訳) 計算病理学において、スライド画像全体の大規模な処理を行うため、ほとんどのアプローチでは、まず画像を小さなパッチにテッセルし、これらのパッチから特徴を抽出し、最後に特徴ベクトルを弱い教師付き学習で集約する。 このワークフローの性能は抽出された特徴の品質に強く依存する。 近年,コンピュータビジョンにおける基礎モデルによって,教師付き学習や自己教師付き学習による膨大なデータを活用することで,様々なタスクの機能品質や一般化性が向上することが示された。 本研究では,病理組織学データの特徴抽出器として最も人気のある視覚基盤モデルをベンチマークする。 モデルをスライドレベル分類とパッチレベル分類の2つの設定で評価した。 基礎モデルは強力なベースラインであることを示す。 実験により,1つのGPU上の基礎モデルをデータセットに応じてわずか2~3日で微調整することにより,計算病理学の最先端機能抽出器に適合または性能を向上できることを示した。 これらの結果は、リソースが少ない場合でも、特定の下流タスクとデータセットに向けて調整された機能抽出器を微調整できることを示している。 これは、大量のリソースとデータセットを持つ機関だけが特徴抽出器を訓練できる、現在の状態からかなり変化している。 トレーニングや評価に使用されるすべてのコードと、微調整されたモデルを公開する。

To handle the large scale of whole slide images in computational pathology, most approaches first tessellate the images into smaller patches, extract features from these patches, and finally aggregate the feature vectors with weakly-supervised learning. The performance of this workflow strongly depends on the quality of the extracted features. Recently, foundation models in computer vision showed that leveraging huge amounts of data through supervised or self-supervised learning improves feature quality and generalizability for a variety of tasks. In this study, we benchmark the most popular vision foundation models as feature extractors for histopathology data. We evaluate the models in two settings: slide-level classification and patch-level classification. We show that foundation models are a strong baseline. Our experiments demonstrate that by finetuning a foundation model on a single GPU for only two hours or three days depending on the dataset, we can match or outperform state-of-the-art feature extractors for computational pathology. These findings imply that even with little resources one can finetune a feature extractor tailored towards a specific downstream task and dataset. This is a considerable shift from the current state, where only few institutions with large amounts of resources and datasets are able to train a feature extractor. We publish all code used for training and evaluation as well as the finetuned models.
翻訳日:2024-01-10 14:59:58 公開日:2024-01-09
# 音声頭のためのジャンプカット平滑化

Jump Cut Smoothing for Talking Heads ( http://arxiv.org/abs/2401.04718v1 )

ライセンス: Link先を確認
Xiaojuan Wang, Taesung Park, Yang Zhou, Eli Shechtman, Richard Zhang(参考訳) ジャンプカットは、視聴体験が突然、時には望ましくない変化をもたらす。 本稿では,これらのジャンプカットをスムースにするための新しいフレームワークを提案する。 DensePoseキーポイントと顔のランドマークによって駆動される中間レベルの表現と融合することで、ビデオ内の他のソースフレームから被写体の外観を活用する。 動作を達成するために、カット周辺の端フレーム間でキーポイントとランドマークを補間する。 次に、キーポイントとソースフレームから画像翻訳ネットワークを使用してピクセルを合成する。 キーポイントはエラーを含むことができるため、キーポイントごとに複数の選択肢の中から最も適切なソースを選択し選択するクロスモーダル注意スキームを提案する。 この中間表現を利用することで,強力な映像補間ベースラインよりも強い結果が得られる。 提案手法は,音声ヘッドビデオの様々なジャンプカット,例えば,フィラーワードのカット,ポーズ,さらにはランダムカットについて実証する。 実験の結果,ジャンプカット時に頭部が回転する,あるいは大きく動くといった困難な場合であっても,シームレスな遷移が可能であった。

A jump cut offers an abrupt, sometimes unwanted change in the viewing experience. We present a novel framework for smoothing these jump cuts, in the context of talking head videos. We leverage the appearance of the subject from the other source frames in the video, fusing it with a mid-level representation driven by DensePose keypoints and face landmarks. To achieve motion, we interpolate the keypoints and landmarks between the end frames around the cut. We then use an image translation network from the keypoints and source frames, to synthesize pixels. Because keypoints can contain errors, we propose a cross-modal attention scheme to select and pick the most appropriate source amongst multiple options for each key point. By leveraging this mid-level representation, our method can achieve stronger results than a strong video interpolation baseline. We demonstrate our method on various jump cuts in the talking head videos, such as cutting filler words, pauses, and even random cuts. Our experiments show that we can achieve seamless transitions, even in the challenging cases where the talking head rotates or moves drastically in the jump cut.
翻訳日:2024-01-10 14:59:37 公開日:2024-01-09
# 不均一スピンメモリへの最適光子吸収の解析解

Analytical solutions for optimal photon absorption into inhomogeneous spin memories ( http://arxiv.org/abs/2401.04717v1 )

ライセンス: Link先を確認
J\'ozsef Zsolt Bern\'ad, Michael Schilling, Yutian Wen, Matthias M. M\"uller, Tommaso Calarco, Patrice Bertet, Felix Motzoi(参考訳) 単一モード共振器に結合したスピンアンサンブルの量子力学的モデルとして最適光子吸収について検討した。 我々は1光子入力パルスを考慮し、スピンアンサンブルの吸収に最適な形状の単純な1パラメータ形状を得る。 この問題の解はスピンアンサンブルに関する摂動理論を使わずに開発される。 さらに、共振器の周波数と結合率を変調する可能性も生かしている。 最適シナリオをいくつか示し、効率的な量子メモリ設計のためのアプローチの有用性を実証する。 特に,異なるパラメータに対する最適協調性を見いだし,99\%$以上の成功確率を持つ吸収が達成された場合を同定する。

We investigate for optimal photon absorption a quantum electrodynamical model of an inhomogeneously-broadened spin ensemble coupled to a single-mode cavity. We consider a one-photon input pulse and obtain a simple one-parameter form for its optimal shape for absorption in the spin ensemble. Solutions to this problem are developed without using perturbation theory concerning the spin ensemble. Furthermore, we exploit the possibility of modulating the frequency and coupling rate of the resonator. We show some optimal scenarios and demonstrate the usefulness of our approach for the design of efficient quantum memories. In particular, we find the optimal cooperativity for different parameters and identify cases where absorption with a success probability larger than $99\%$ is achieved.
翻訳日:2024-01-10 14:59:20 公開日:2024-01-09
# ファンデーションモデルの低リソースビジョンチャレンジ

Low-Resource Vision Challenges for Foundation Models ( http://arxiv.org/abs/2401.04716v1 )

ライセンス: Link先を確認
Yunhua Zhang, Hazel Doughty, Cees G.M. Snoek(参考訳) 低リソース設定は、多くの言語が大規模な機械学習に十分なデータを持っていない自然言語処理において十分に確立されている。 しかし、低リソース問題はコンピュータビジョンでは未解決である。 本稿では,このギャップに対処し,視覚基盤モデルを用いた低リソース画像タスクの課題を探究する。 そこで,我々はまず,歴史地図,回路図,メカニカル描画を網羅した,真の低リソース画像データのベンチマークを収集する。 これらの低リソース設定はすべて、データの不足、細かな違い、自然画像から専門分野への分散という3つの課題を共有している。 既存の基盤モデルは目覚ましい一般化性を示しているが、低リソースのタスクにうまく移行することはできない。 低リソースビジョンの課題に取り組むために,1つの単純なベースラインを1つ導入する。 具体的には 一 生成モデルによりデータ空間を拡大すること。 二 微粒な差分発見のために、地域を符号化する最適なサブカーネルを採用すること。 三 専門分野について留意すること。 ベンチマークで低リソースの3つのデータソースに関する実験では、私たちの提案はすでに一般的な転送学習やデータ拡張、きめ細かいメソッドよりも優れたベースラインを提供しています。 これは、さらなる調査を保証している基礎モデルの低リソースビジョンの特徴と課題を強調している。 プロジェクトサイト:https://xiaobai1217.github.io/Low-Resource-Vision/。

Low-resource settings are well-established in natural language processing, where many languages lack sufficient data for machine learning at scale. However, low-resource problems are under-explored in computer vision. In this paper, we strive to address this gap and explore the challenges of low-resource image tasks with vision foundation models. Thus, we first collect a benchmark of genuinely low-resource image data, covering historic maps, circuit diagrams, and mechanical drawings. These low-resource settings all share the three challenges of data scarcity, fine-grained differences, and the distribution shift from natural images to the specialized domain of interest. While existing foundation models have shown impressive generalizability, we find they cannot transfer well to our low-resource tasks. To begin to tackle the challenges of low-resource vision, we introduce one simple baseline per challenge. Specifically, we propose to i) enlarge the data space by generative models, ii) adopt the best sub-kernels to encode local regions for fine-grained difference discovery and iii) learn attention for specialized domains. Experiments on the three low-resource data sources in our benchmark demonstrate our proposals already provide a better baseline than common transfer learning, data augmentation, and fine-grained methods. This highlights the unique characteristics and challenges of low-resource vision for foundation models that warrant further investigation. Project website: https://xiaobai1217.github.io/Low-Resource-Vision/.
翻訳日:2024-01-10 14:59:10 公開日:2024-01-09
# 接合を有するグラフェンナノリボンの有効理論

An Effective Theory for Graphene Nanoribbons with Junctions ( http://arxiv.org/abs/2401.04715v1 )

ライセンス: Link先を確認
Johann Ostmeyer, Lado Razmadze, Evan Berkowitz, Thomas Luu, Ulf-G. Mei{\ss}ner(参考訳) グラフェンナノリボンはフォールトトレラント量子エレクトロニクスの有望な候補である。 このシナリオでは、キュービットは異なる幅の2つのアームチェアナノリボンによって形成されるハイブリッドリボンの接合部に生じる局所状態によって実現される。 ハイブリッドナノリボンを記述するための密結合型アンサッツに基づく有効理論を導出し、様々なハイブリッドナノリボンジオメトリにおけるエネルギーギャップと局所化の性質の正確な予測に使用する。 我々は、接合上のよく知られた局所化に加えて、ハイブリッドリボンのセグメントに現れる新しいタイプの「キリマンジャロ」局在化である「フジ」と呼ばれるものを発見した。 幅$N$ および $N+2$ アームチェアナノリボンのハイブリッドにおけるフジ局在は、N\pmod3=1$ の場合に限り対称接合周辺で起こるが、エッジ整列接合は強い局所化を支えない。 この振る舞いは、現在までの局所化の起源と信じられている位相的$Z_2$不変量に依存するだけでは説明できない。

Graphene nanoribbons are a promising candidate for fault-tolerant quantum electronics. In this scenario, qubits are realised by localised states that can emerge on junctions in hybrid ribbons formed by two armchair nanoribbons of different widths. We derive an effective theory based on a tight-binding ansatz for the description of hybrid nanoribbons and use it to make accurate predictions of the energy gap and nature of the localisation in various hybrid nanoribbon geometries. We discover, in addition to the well known localisations on junctions, which we call `Fuji', a new type of `Kilimanjaro' localisation smeared out over a segment of the hybrid ribbon. We show that Fuji localisations in hybrids of width $N$ and $N+2$ armchair nanoribbons occur around symmetric junctions if and only if $N\pmod3=1$, while edge-aligned junctions never support strong localisation. This behaviour cannot be explained relying purely on the topological $Z_2$ invariant, which has been believed the origin of the localisations to date.
翻訳日:2024-01-10 14:58:47 公開日:2024-01-09
# 物理学者の自伝的ノート

Autobiographical Notes of a Physicist ( http://arxiv.org/abs/2401.04711v1 )

ライセンス: Link先を確認
N. David Mermin(参考訳) 物理学における私の人生の側面について説明する:私が出版した名前、偉大な物理学者、量子基礎の作り方、その役割について知っている。 私の形は自伝的だが、私の個人的な経験から、過去60年間に物理学者だったことが分かるかもしれない。 正統派物理学を 考える方法がいくつかある

I describe aspects of my life in physics: the name I publish under, great physicists I have known, how I got into quantum foundations, what role I've played in it. My form is autobiographical, but my personal experience may illustrate what it was like being a physicist over the past 60 years. I offer some offbeat ways of thinking about some orthodox physics.
翻訳日:2024-01-10 14:58:26 公開日:2024-01-09
# ページ時間前におけるブラックホール内部の絡み合い

Entanglement inside a black hole before the Page time ( http://arxiv.org/abs/2401.04706v1 )

ライセンス: Link先を確認
Yuxuan Liu, Shao-Kai Jian, Yi Ling and Zhuo-Yu Xian(参考訳) 二重ホログラフィックモデルとsachdev-ye-kitaevモデル(syk)モデルの両方の枠組みにおいて,熱浴と相互作用するオープンで強結合した系における絡み合いの進化について検討した。 一般に、システム内の絡み合いは、最初は内部の相互作用によって増加するが、最終的には環境に散逸する。 二重ホログラフィック設定では、バルクの終末ブレーンはホログラフィック問題によって熱化された永遠のブラックホールを表わす。 大きなブラックホールの2分割間の反射エントロピーは、ページ時間前のエンタングルメント・ウェッジ断面積の位相遷移によって台地が生じるランププレート・スランプの挙動を示す。 量子力学では、環境と相互作用する永遠のブラックホールに似た、大域的な熱場二重状態のSYK+バス系の二重コピーを考える。 ダブルコピーされたSYKクラスター内のR'enyiの相互情報は、ランププラトー・スロープ安定化挙動を示す。 これら2つのモデルで観測された絡み合い量の動的挙動は、システムの内部相互作用と浴槽との外部相互作用の競合に起因している。 この研究は、ページ時間前にブラックホール内部の絡み合いのダイナミクスを詳細に示したものです。

We investigate the evolution of entanglement within an open, strongly coupled system interacting with a heat bath as its environment, in the frameworks of both the doubly holographic model and the Sachdev-Ye-Kitaev (SYK) model. Generally, the entanglement within the system initially increases as a result of internal interactions; however, it eventually dissipates into the environment. In the doubly holographic setup, we consider an end-of-the-world brane in the bulk to represent an eternal black hole thermalized by holographic matters. The reflected entropy between the bipartition of a large black hole exhibits a ramp-plateau-slump behavior, where the plateau arises due to the phase transition of the entanglement wedge cross-section before the Page time. In quantum mechanics, we consider a double copy of the SYK-plus-bath system in a global thermofield double state, resembling an eternal black hole interacting with an environment. The R\'enyi mutual information within the double-copied SYK clusters exhibits a ramp-plateau-slope-stabilizing behavior. The dynamic behaviors of the entanglement quantities observed in these two models are attributable to the competition between the internal interaction of the system and the external interaction with the baths. Our study provides a fine-grained picture of the dynamics of entanglement inside black holes before their Page time.
翻訳日:2024-01-10 14:58:19 公開日:2024-01-09
# ev-ecosim:電気自動車充電インフラストラクチャの設計と最適化のためのグリッドアウェア共シミュレーションプラットフォーム

EV-EcoSim: A grid-aware co-simulation platform for the design and optimization of electric vehicle charging infrastructure ( http://arxiv.org/abs/2401.04705v1 )

ライセンス: Link先を確認
Emmanuel Balogun, Elizabeth Buechler, Siddharth Bhela, Simona Onori, and Ram Rajagopal(参考訳) 送電システムの電化を実現するためには,グリッドストレージや太陽光発電システム,制御戦略といった技術が電気自動車の大規模展開にどのように役立つかを理解することが重要である。 本研究では,電気自動車の充電,バッテリーシステム,太陽光発電システム,グリッドトランスフォーマ,制御戦略,配電システムを組み合わせた共同シミュレーションプラットフォームであるev-ecosimを提案する。 このpythonベースのプラットフォームは、リアルタイム操作のための後退地平線制御スキームと、問題計画のためのワンショット制御スキームを実行することができる。 電力系統における高速充電の影響を考慮しつつ、電力コスト削減のための電池容量の経済評価に焦点をあてたケーススタディにより、ev-ecosimの有用性を実証する。 集計結果において,電池容量の質的,定量的評価を行った。 集計された結果は、候補バッテリーサイズソリューション間のトレードオフを示し、不確実性下での意思決定に関する包括的な洞察を提供する。 さらに,バッテリコントローラモデルの忠実性がシステムコストに与える影響を実証し,電気自動車の充電サイトを計画する場合,バッテリコントローラの忠実性が決定を完全に変えられることを示す。

To enable the electrification of transportation systems, it is important to understand how technologies such as grid storage, solar photovoltaic systems, and control strategies can aid the deployment of electric vehicle charging at scale. In this work, we present EV-EcoSim, a co-simulation platform that couples electric vehicle charging, battery systems, solar photovoltaic systems, grid transformers, control strategies, and power distribution systems, to perform cost quantification and analyze the impacts of electric vehicle charging on the grid. This python-based platform can run a receding horizon control scheme for real-time operation and a one-shot control scheme for planning problems, with multi-timescale dynamics for different systems to simulate realistic scenarios. We demonstrate the utility of EV-EcoSim through a case study focused on economic evaluation of battery size to reduce electricity costs while considering impacts of fast charging on the power distribution grid. We present qualitative and quantitative evaluations on the battery size in tabulated results. The tabulated results delineate the trade-offs between candidate battery sizing solutions, providing comprehensive insights for decision-making under uncertainty. Additionally, we demonstrate the implications of the battery controller model fidelity on the system costs and show that the fidelity of the battery controller can completely change decisions made when planning an electric vehicle charging site.
翻訳日:2024-01-10 14:57:55 公開日:2024-01-09
# モデル編集は大規模言語モデルの一般的な能力を傷つける

Model Editing Can Hurt General Abilities of Large Language Models ( http://arxiv.org/abs/2401.04700v1 )

ライセンス: Link先を確認
Jia-Chen Gu, Hao-Xiang Xu, Jun-Yu Ma, Pan Lu, Zhen-Hua Ling, Kai-Wei Chang, Nanyun Peng(参考訳) 大規模言語モデル(LLM)の最近の進歩は、パラメータに格納された知識にアクセスするための新しいパラダイムを開放した。 重要な課題の1つは、誤った知識や時代遅れの知識によるLCM出力における幻覚の存在である。 更新情報によるLLMの再学習は資源集約的であるため,モデル編集への関心が高まっている。 しかし、多くのモデル編集手法は様々なシナリオで有効であるが、編集性能における有効性、一般化、局所性といった側面を強調し、LLMの一般的な能力に対する潜在的な副作用を見越す傾向にある。 本稿では,LLMの持続的発展に寄与しないこれらの汎用能力の大幅な劣化に,モデル事実性の改善が伴うのではないか,という懸念を提起する。 システム的には,8つのタスクカテゴリにまたがる2つのLLMに対して,4つの一般的な編集方法を評価することで副作用を分析する。 広範な実証研究により、モデル編集はモデルの事実性を改善するが、一般的な能力を実質的に損なうことになることが明らかとなった。 そこで,本研究では,LLM事前学習時に得られる一般能力の喪失を最小化し,モデル編集時に最終的に保存する研究の取り組みをさらに進める。

Recent advances in large language models (LLMs) have opened up new paradigms for accessing the knowledge stored in their parameters. One critical challenge that has emerged is the presence of hallucinations in LLM outputs due to false or outdated knowledge. Since retraining LLMs with updated information is resource-intensive, there has been a growing interest in model editing. However, many model editing methods, while effective in various scenarios, tend to overemphasize aspects such as efficacy, generalization, and locality in editing performance, often overlooking potential side effects on the general abilities of LLMs. In this paper, we raise concerns that the improvement of model factuality may come at the cost of a significant degradation of these general abilities, which is not conducive to the sustainable development of LLMs. Systematically, we analyze side effects by evaluating four popular editing methods on two LLMs across eight representative task categories. Extensive empirical research reveals that model editing does improve model factuality but at the expense of substantially impairing general abilities. Therefore, we advocate for more research efforts to minimize the loss of general abilities acquired during LLM pre-training and to ultimately preserve them during model editing.
翻訳日:2024-01-10 14:57:27 公開日:2024-01-09
# 大規模言語モデルの知識編集に関する総合的研究

A Comprehensive Study of Knowledge Editing for Large Language Models ( http://arxiv.org/abs/2401.01286v3 )

ライセンス: Link先を確認
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen(参考訳) 大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。 しかしながら、主な制限はトレーニング中の重要な計算要求であり、その広範なパラメータ化が原因である。 この課題は世界のダイナミックな性質によってさらに強化され、古い情報を修正したり、新しい知識を統合するためにllmの頻繁な更新が必要である。 多くのアプリケーションは、欠陥や望ましくない振る舞いに対処するために、訓練後のモデル調整を要求している。 オンザフライモデル修正のための効率的で軽量な手法への関心が高まっている。 この目的のために, 近年, LLM の知識編集技術が盛んになり, 様々な入力の全体的な性能を保ちながら, 特定の領域内での LLM の振る舞いを効率的に修正することを目指している。 本稿ではまず,知識編集の問題を定義し,最先端アプローチの総合的なレビューを行う。 教育・認知研究理論から着想を得て,外部知識への依存,モデルへの知識の融合,内在知識の編集という,知識編集手法を3つのグループに分類する統一分類基準を提案する。 さらに,代表的知識編集手法の包括的評価のために,新しいベンチマークであるnoweditを導入する。 さらに,LLMに含まれる知識構造をより深く理解することのできる,知識位置の詳細な分析を行う。 最後に,知識編集の潜在的な応用について検討し,その広範かつ影響の大きい影響について概説する。

Large Language Models (LLMs) have shown extraordinary capabilities in understanding and generating text that closely mirrors human communication. However, a primary limitation lies in the significant computational demands during training, arising from their extensive parameterization. This challenge is further intensified by the dynamic nature of the world, necessitating frequent updates to LLMs to correct outdated information or integrate new knowledge, thereby ensuring their continued relevance. Note that many applications demand continual model adjustments post-training to address deficiencies or undesirable behaviors. There is an increasing interest in efficient, lightweight methods for on-the-fly model modifications. To this end, recent years have seen a burgeoning in the techniques of knowledge editing for LLMs, which aim to efficiently modify LLMs' behaviors within specific domains while preserving overall performance across various inputs. In this paper, we first define the knowledge editing problem and then provide a comprehensive review of cutting-edge approaches. Drawing inspiration from educational and cognitive research theories, we propose a unified categorization criterion that classifies knowledge editing methods into three groups: resorting to external knowledge, merging knowledge into the model, and editing intrinsic knowledge. Furthermore, we introduce a new benchmark, KnowEdit, for a comprehensive empirical evaluation of representative knowledge editing approaches. Additionally, we provide an in-depth analysis of knowledge location, which can give a deeper understanding of the knowledge structures inherent within LLMs. Finally, we discuss several potential applications of knowledge editing, outlining its broad and impactful implications.
翻訳日:2024-01-10 13:10:50 公開日:2024-01-09
# Adaptive FSS: プロトタイプ拡張による新しいFew-Shotセグメンテーションフレームワーク

Adaptive FSS: A Novel Few-Shot Segmentation Framework via Prototype Enhancement ( http://arxiv.org/abs/2312.15731v4 )

ライセンス: Link先を確認
Jing Wang, Jinagyun Li, Chen Chen, Yisi Zhang, Haoran Shen, Tianxiang Zhang(参考訳) Few-Shot Segmentation (FSS)は、いくつかの注釈付き画像を用いて、新しいクラスセグメンテーションタスクを達成することを目的としている。 メタラーニングに基づく最近のFSS研究は、クエリとサポート機能の間の複雑な相互作用機構の設計に焦点を当てている。 しかし、限られたサンプルから新しいことを素早く学習できる人間とは異なり、既存のアプローチは、新しいタスクに取り組むための固定された特徴マッチングにのみ依存し、適応性に欠ける。 本稿では,既存のFSSモデルを新しいクラスに効率的に適応できるアダプタ機構,すなわちAdaptive FSSに基づく新しいフレームワークを提案する。 具体的には、クラスプロトタイプを導出するためのサポートセットが提供する正確なカテゴリ情報を利用して、多段階表現におけるクラス固有情報を強化するプロトタイプ適応モジュール(pam)を設計する。 さらに,本手法は,エンコーダの層間にPAMを挿入するだけで,異なるバックボーンを持つ多様なFSS手法と互換性がある。 MSANet, HDMNet, FPTrans, DCAMAなどのFSSモデルの性能を効果的に向上し, PASCAL-5$^i$1ショットおよび5ショット設定で72.4\%, 79.1\% mIoU, COCO-20$^i$1ショットおよび5ショット設定で52.7\% mIoU, 60.0\% mIoU) を新たに達成した。 私たちのコードはhttps://github.com/jingw193/AdaptiveFSSで利用可能です。

The Few-Shot Segmentation (FSS) aims to accomplish the novel class segmentation task with a few annotated images. Current FSS research based on meta-learning focus on designing a complex interaction mechanism between the query and support feature. However, unlike humans who can rapidly learn new things from limited samples, the existing approach relies solely on fixed feature matching to tackle new tasks, lacking adaptability. In this paper, we propose a novel framework based on the adapter mechanism, namely Adaptive FSS, which can efficiently adapt the existing FSS model to the novel classes. In detail, we design the Prototype Adaptive Module (PAM), which utilizes accurate category information provided by the support set to derive class prototypes, enhancing class-specific information in the multi-stage representation. In addition, our approach is compatible with diverse FSS methods with different backbones by simply inserting PAM between the layers of the encoder. Experiments demonstrate that our method effectively improves the performance of the FSS models (e.g., MSANet, HDMNet, FPTrans, and DCAMA) and achieve new state-of-the-art (SOTA) results (i.e., 72.4\% and 79.1\% mIoU on PASCAL-5$^i$ 1-shot and 5-shot settings, 52.7\% and 60.0\% mIoU on COCO-20$^i$ 1-shot and 5-shot settings). Our code can be available at https://github.com/jingw193/AdaptiveFSS.
翻訳日:2024-01-10 13:10:24 公開日:2024-01-09
# 関係概念分析の段階的機能再構築

Stepwise functional refoundation of relational concept analysis ( http://arxiv.org/abs/2310.06441v3 )

ライセンス: Link先を確認
J\'er\^ome Euzenat (MOEX )(参考訳) relational concept analysis(rca)は、複数の関連するコンテキストを同時に扱う形式的概念分析の拡張である。 データから記述論理理論を学習するために設計され、様々なアプリケーションで使用される。 RCAに関する厄介な観察は、データに円形の依存関係がある場合、他の解は許容できると考えられるが、単一の概念格子の族を返すことである。 運用上の方法で提供されるRCAのセマンティクスは、この問題に光を当てていない。 本報告では、これらの許容可能な解を、初期文脈によって決定される空間に属する概念格子の族として定義し、新しい属性をスケールできない(飽和)ことと、家族の概念のみを参照する(自己支持)。 我々は、十分に整形された解の空間と、その空間上の2つの関数を定義することにより、RCAプロセス上の関数的ビューを採用する。 許容できる解は両方の函数の共通固定点であることを示す。 これは、コンテキスト空間と格子空間で定義された1つのコンテキストのみを考えるRCAの最小バージョンから始めることで、段階的に達成される。 これらの空間はその後、文脈-格子対の1つの空間に結合され、RCAによって操作される対象を表す文脈-格子対のインデックス付き族の空間にさらに拡張される。 我々はRCAが許容できる解の集合の最小要素を返すことを示す。 さらに、最大の要素を生成する操作を二重に構築することも可能である。 許容される解の集合は、これら2つの元の間の間隔の完全な部分集合である。 その構造と定義された函数がどのようにそれを詳細に研究するか。

Relational concept analysis (RCA) is an extension of formal concept analysis allowing to deal with several related contexts simultaneously. It has been designed for learning description logic theories from data and used within various applications. A puzzling observation about RCA is that it returns a single family of concept lattices although, when the data feature circular dependencies, other solutions may be considered acceptable. The semantics of RCA, provided in an operational way, does not shed light on this issue. In this report, we define these acceptable solutions as those families of concept lattices which belong to the space determined by the initial contexts (well-formed), cannot scale new attributes (saturated), and refer only to concepts of the family (self-supported). We adopt a functional view on the RCA process by defining the space of well-formed solutions and two functions on that space: one expansive and the other contractive. We show that the acceptable solutions are the common fixed points of both functions. This is achieved step-by-step by starting from a minimal version of RCA that considers only one single context defined on a space of contexts and a space of lattices. These spaces are then joined into a single space of context-lattice pairs, which is further extended to a space of indexed families of context-lattice pairs representing the objects manippulated by RCA. We show that RCA returns the least element of the set of acceptable solutions. In addition, it is possible to build dually an operation that generates its greatest element. The set of acceptable solutions is a complete sublattice of the interval between these two elements. Its structure and how the defined functions traverse it are studied in detail.
翻訳日:2024-01-10 13:09:49 公開日:2024-01-09
# 時間グラフ学習におけるプライマー

A Primer on Temporal Graph Learning ( http://arxiv.org/abs/2401.03988v2 )

ライセンス: Link先を確認
Aniq Ur Rahman, Justin P. Coon(参考訳) 本論文は, テンポラルグラフ学習(TGL)をコンセプトファーストアプローチで読者に親しみやすくすることを目的とする。 我々は,TGLフレームワークの動作を理解する上で不可欠な重要な概念を体系的に提示してきた。 質的説明に加えて,適用可能な数学的定式化を取り入れ,文章の明快さを高めた。 tglは時間的および空間的学習を伴うため、再帰的および畳み込み型ニューラルネットワークからトランスフォーマおよびグラフニューラルネットワークまで、関連する学習アーキテクチャを導入する。 また、TGLの解釈可能な学習ソリューションに刺激を与える古典的時系列予測手法についても論じる。

This document aims to familiarize readers with temporal graph learning (TGL) through a concept-first approach. We have systematically presented vital concepts essential for understanding the workings of a TGL framework. In addition to qualitative explanations, we have incorporated mathematical formulations where applicable, enhancing the clarity of the text. Since TGL involves temporal and spatial learning, we introduce relevant learning architectures ranging from recurrent and convolutional neural networks to transformers and graph neural networks. We also discuss classical time series forecasting methods to inspire interpretable learning solutions for TGL.
翻訳日:2024-01-10 13:03:11 公開日:2024-01-09
# FlightLLM:FPGA上の完全なマッピングフローを持つ効率的な大言語モデル推論

FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGAs ( http://arxiv.org/abs/2401.03868v2 )

ライセンス: Link先を確認
Shulin Zeng, Jun Liu, Guohao Dai, Xinhao Yang, Tianyu Fu, Hongyi Wang, Wenheng Ma, Hanbo Sun, Shiyao Li, Zixiao Huang, Yadong Dai, Jintao Li, Zehao Wang, Ruoyu Zhang, Kairui Wen, Xuefei Ning, Yu Wang(参考訳) Transformer-based Large Language Models (LLMs) は様々な領域に多大な影響を与えた。 しかし、llmsの効率は、重い計算とメモリオーバーヘッドの両方に苦しむ。 スパーシフィケーションや量子化のような圧縮技術は、LLMの計算/メモリオーバーヘッドとハードウェア容量のギャップを軽減するために一般的に用いられる。 しかし、計算効率の低さ、未使用のメモリ帯域幅、大規模なコンパイルオーバーヘッドといった未解決の課題のために、既存のGPUとトランスフォーマーベースのアクセラレータは、圧縮LDMを効率的に処理することはできない。 本稿では,FPGA上での完全なマッピングフローによる効率的なLLM推論を実現するFlightLLMを提案する。 FlightLLMでは、FPGA固有のリソース(DSP48や異種メモリ階層など)を利用することで、LCMの計算とメモリオーバーヘッドを解決できる革新的なソリューションを強調している。 本研究では,計算効率のよい分散パターンをサポートする構成可能なスパースDSPチェーンを提案する。 第2に、混合精度のサポートによりメモリ帯域幅を増大させる常時オンチップデコード方式を提案する。 最後に,FlightLLMを実世界のLLMで利用できるようにするため,コンパイルオーバーヘッドを低減するために,長さ適応型コンパイル法を提案する。 Xilinx Alveo U280 FPGAに実装されたFlightLLMは6.0$\times$高エネルギー効率と1.8$\times$高コストのGPU(例えばNVIDIA V100S)に対して、vLLMとSmoothQuantをバッチサイズで使用した現代のLLM(例えばLLaMA2-7B)に対するコスト効率を実現している。 FlightLLMは最新のVersal VHK158 FPGAを使用して1.2$\times$高スループットでNVIDIA A100 GPUを上回る。

Transformer-based Large Language Models (LLMs) have made a significant impact on various domains. However, LLMs' efficiency suffers from both heavy computation and memory overheads. Compression techniques like sparsification and quantization are commonly used to mitigate the gap between LLM's computation/memory overheads and hardware capacity. However, existing GPU and transformer-based accelerators cannot efficiently process compressed LLMs, due to the following unresolved challenges: low computational efficiency, underutilized memory bandwidth, and large compilation overheads. This paper proposes FlightLLM, enabling efficient LLMs inference with a complete mapping flow on FPGAs. In FlightLLM, we highlight an innovative solution that the computation and memory overhead of LLMs can be solved by utilizing FPGA-specific resources (e.g., DSP48 and heterogeneous memory hierarchy). We propose a configurable sparse DSP chain to support different sparsity patterns with high computation efficiency. Second, we propose an always-on-chip decode scheme to boost memory bandwidth with mixed-precision support. Finally, to make FlightLLM available for real-world LLMs, we propose a length adaptive compilation method to reduce the compilation overhead. Implemented on the Xilinx Alveo U280 FPGA, FlightLLM achieves 6.0$\times$ higher energy efficiency and 1.8$\times$ better cost efficiency against commercial GPUs (e.g., NVIDIA V100S) on modern LLMs (e.g., LLaMA2-7B) using vLLM and SmoothQuant under the batch size of one. FlightLLM beats NVIDIA A100 GPU with 1.2$\times$ higher throughput using the latest Versal VHK158 FPGA.
翻訳日:2024-01-10 13:03:03 公開日:2024-01-09
# widthformer:効率的なトランスフォーマティブベースのbevビュー変換に向けて

WidthFormer: Toward Efficient Transformer-based BEV View Transformation ( http://arxiv.org/abs/2401.03836v2 )

ライセンス: Link先を確認
Chenhongyi Yang, Tianwei Lin, Lichao Huang and Elliot J. Crowley(参考訳) 本稿では,リアルタイム自動運転アプリケーション用に調整された,新しいトランスフォーマティブベースバードズアイビュー(bev)3次元検出手法であるwidthformerを提案する。 WidthFormerは計算効率が高く、堅牢で、デプロイに特別なエンジニアリング作業を必要としない。 本研究では,3次元幾何情報を高精度にカプセル化できる新しい3次元位置符号化機構を提案する。 この機構は既存のスパース3Dオブジェクト検出器にも有用である。 最近提案した作業にインスパイアされ,注目キーや値として機能する際の画像特徴を垂直に圧縮することで,モデルの有効性をさらに向上する。 特徴圧縮による潜在的な情報損失を補償する2つのモジュールも導入する。 広範に使用されている3dオブジェクト検出ベンチマークの実験的評価では,従来の3d検出アーキテクチャよりも優れていた。 さらに重要なことは、私たちのモデルは極めて効率的です。 例えば、256\times 704$の入力イメージを使用すると、NVIDIA 3090 GPUとHorizon Journey-5エッジコンピューティングチップでそれぞれ1.5msと2.8msのレイテンシを達成する。 さらに、widthformerは、異なるカメラの摂動に対して強いロバスト性を示す。 我々の研究は、現実の複雑な道路環境におけるBEV変換手法の展開に関する貴重な洞察を提供する。 コードはhttps://github.com/ChenhongyiYang/WidthFormerで入手できる。

In this work, we present WidthFormer, a novel transformer-based Bird's-Eye-View (BEV) 3D detection method tailored for real-time autonomous-driving applications. WidthFormer is computationally efficient, robust and does not require any special engineering effort to deploy. In this work, we propose a novel 3D positional encoding mechanism capable of accurately encapsulating 3D geometric information, which enables our model to generate high-quality BEV representations with only a single transformer decoder layer. This mechanism is also beneficial for existing sparse 3D object detectors. Inspired by the recently-proposed works, we further improve our model's efficiency by vertically compressing the image features when serving as attention keys and values. We also introduce two modules to compensate for potential information loss due to feature compression. Experimental evaluation on the widely-used nuScenes 3D object detection benchmark demonstrates that our method outperforms previous approaches across different 3D detection architectures. More importantly, our model is highly efficient. For example, when using $256\times 704$ input images, it achieves 1.5 ms and 2.8 ms latency on NVIDIA 3090 GPU and Horizon Journey-5 edge computing chips, respectively. Furthermore, WidthFormer also exhibits strong robustness to different degrees of camera perturbations. Our study offers valuable insights into the deployment of BEV transformation methods in real-world, complex road environments. Code is available at https://github.com/ChenhongyiYang/WidthFormer .
翻訳日:2024-01-10 13:02:28 公開日:2024-01-09
# MvKSR:多視点の知識誘導型シーンリカバリ

MvKSR: Multi-view Knowledge-guided Scene Recovery for Hazy and Rainy Degradation ( http://arxiv.org/abs/2401.03800v2 )

ライセンス: Link先を確認
Dong Yang, Wenyu Xu, Yuan Gao, Yuxu Lu, Jingming Zhang, and Yu Guo(参考訳) 交通や産業などの分野における安全管理とインテリジェントな展開の確保には、高品質なイメージングが不可欠である。 操作の正確かつ詳細な監視を可能にし、潜在的な危険性のタイムリーな検出と効率的な管理を容易にする。 しかし、大気のハジネスや降水などの悪天候条件は、画質に大きな影響を与える可能性がある。 大気中に高密度の迷路や水滴が含まれていると、入射光が散乱し、捕獲された画像が劣化する。 この劣化は画像のぼやけやコントラストの減少という形で明らかであり、インテリジェントイメージングシステム(IIS)による誤った評価や解釈の可能性を高めている。 そこで本研究では,多視点の知識誘導型シーンリカバリネットワーク(MvKSR)を提案する。 具体的には、劣化画像上で誘導フィルタリングを行い、高/低周波成分を分離する。 その後、エンデコーダベースのマルチビュー特徴粗抽出モジュール(MCE)を用いて、劣化画像の異なるビューから特徴を粗く抽出する。 マルチビュー機能ファインフュージョンモジュール(MFF)は、異なる視点下での混合監視により劣化した画像の復元を学習し、推測する。 さらに,hazy/rainy/mixedシーンにおいて,グローバル修復と局所修復を処理できる高機能な残余ブロックを提案する。 大規模な実験結果から,MvKSRはIISの劣化シナリオの回復における効率と安定性の観点から,他の最先端手法よりも優れていることが示された。

High-quality imaging is crucial for ensuring safety supervision and intelligent deployment in fields like transportation and industry. It enables precise and detailed monitoring of operations, facilitating timely detection of potential hazards and efficient management. However, adverse weather conditions, such as atmospheric haziness and precipitation, can have a significant impact on image quality. When the atmosphere contains dense haze or water droplets, the incident light scatters, leading to degraded captured images. This degradation is evident in the form of image blur and reduced contrast, increasing the likelihood of incorrect assessments and interpretations by intelligent imaging systems (IIS). To address the challenge of restoring degraded images in hazy and rainy conditions, this paper proposes a novel multi-view knowledge-guided scene recovery network (termed MvKSR). Specifically, guided filtering is performed on the degraded image to separate high/low-frequency components. Subsequently, an en-decoder-based multi-view feature coarse extraction module (MCE) is used to coarsely extract features from different views of the degraded image. The multi-view feature fine fusion module (MFF) will learn and infer the restoration of degraded images through mixed supervision under different views. Additionally, we suggest an atrous residual block to handle global restoration and local repair in hazy/rainy/mixed scenes. Extensive experimental results demonstrate that MvKSR outperforms other state-of-the-art methods in terms of efficiency and stability for restoring degraded scenarios in IIS.
翻訳日:2024-01-10 13:02:05 公開日:2024-01-09
# 学んだ教訓:再現性、再現性、いつ止めるか

Lessons Learned: Reproducibility, Replicability, and When to Stop ( http://arxiv.org/abs/2401.03736v2 )

ライセンス: Link先を確認
Milton S. Gomez, Tom Beucler(参考訳) 自身の研究の再現性を確保するための広範なガイダンスが存在するが、自身の研究における外部研究の再生と複製に関する議論はほとんどない。 この議論を開始するため,熱帯サイクロジェネレーション予測のための運用製品を再現した経験から,再現と複製に関するガイダンスを提供するための2次元フレームワークを提案する。 当社のフレームワークは、ある軸に適合するモデルとその推論における使用を表現し、データセット、メトリクス、モデル自体という3つの重要な側面の上に構築しています。 この2次元平面の研究の軌跡を評価することで、我々の研究で得られた主張をよりよく知ることができる。 さらに、このフレームワークを使用して、大気科学におけるベンチマークデータセットの有用性をコンテキスト化する。 我々の2次元のフレームワークは、研究者、特に初期の研究者が、自身の研究に先行研究を取り入れ、この文脈でできる主張を伝えるためのツールを提供する。

While extensive guidance exists for ensuring the reproducibility of one's own study, there is little discussion regarding the reproduction and replication of external studies within one's own research. To initiate this discussion, drawing lessons from our experience reproducing an operational product for predicting tropical cyclogenesis, we present a two-dimensional framework to offer guidance on reproduction and replication. Our framework, representing model fitting on one axis and its use in inference on the other, builds upon three key aspects: the dataset, the metrics, and the model itself. By assessing the trajectories of our studies on this 2D plane, we can better inform the claims made using our research. Additionally, we use this framework to contextualize the utility of benchmark datasets in the atmospheric sciences. Our two-dimensional framework provides a tool for researchers, especially early career researchers, to incorporate prior work in their own research and to inform the claims they can make in this context.
翻訳日:2024-01-10 13:01:38 公開日:2024-01-09
# バターフライのプロンプト効果:小変化と脱獄が大規模言語モデルの性能に与える影響

The Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Model Performance ( http://arxiv.org/abs/2401.03729v2 )

ライセンス: Link先を確認
Abel Salinas and Fred Morstatter(参考訳) 大規模言語モデル(LLM)は、多くのドメインにわたるデータや無数のタスクに定期的に使われています。 単に LLM に答えを求めるだけで、'prompting'' の実践者は LLM を使って任意のタスクに対する応答を素早く得ることができる。 このプロンプトは、プロンプトの単純なワード化から特定のデータ形式の出力要求、よりセンシティブなトピックに対処するプロンプトの場合のジェイルブレイクに至るまで、実践者による一連の決定を通じて行われる。 プロンプトの構築方法のバリエーションは、llmの最終的な決定を変えるのでしょうか? 我々は、様々なテキスト分類タスクにまたがる一連のプロンプトなバリエーションを用いて、これに応える。 我々は、プロンプトの最後に空間を追加するなど、最小の摂動であっても、llmがその答えを変える可能性があることを発見した。 さらに,XML や一般的なjailbreak の要求応答が LLM でラベル付けされたデータにカタクリスティックな影響があることが判明した。

Large Language Models (LLMs) are regularly being used to label data across many domains and for myriad tasks. By simply asking the LLM for an answer, or ``prompting,'' practitioners are able to use LLMs to quickly get a response for an arbitrary task. This prompting is done through a series of decisions by the practitioner, from simple wording of the prompt, to requesting the output in a certain data format, to jailbreaking in the case of prompts that address more sensitive topics. In this work, we ask: do variations in the way a prompt is constructed change the ultimate decision of the LLM? We answer this using a series of prompt variations across a variety of text classification tasks. We find that even the smallest of perturbations, such as adding a space at the end of a prompt, can cause the LLM to change its answer. Further, we find that requesting responses in XML and commonly used jailbreaks can have cataclysmic effects on the data labeled by LLMs.
翻訳日:2024-01-10 13:01:20 公開日:2024-01-09
# 一般化ラグランジアンニューラルネットワーク

Generalized Lagrangian Neural Networks ( http://arxiv.org/abs/2401.03728v2 )

ライセンス: Link先を確認
Shanshan Xiao, Jiawei Zhang, Yifa Tang(参考訳) 正規微分方程式(ODE)の解に対するニューラルネットワークの導入は、計算数学における重要な研究方向である。 ニューラルネットワークアーキテクチャでは、odesの内部構造の統合は、予測能力の向上やデータ利用の削減といったアドバンテージを提供する。 これらの構造ODE形式の中で、ラグランジアン表現はその重要な物理的基盤のために際立っている。 このフレームワークに基づいて、Bhattoo氏はLagrangian Neural Networks(LNN)の概念を導入した。 そこで本論文では,ラグランジアンニューラルネットワーク(LNN)に対して,非保守系に最適化した基盤破壊拡張(Genralized Lagrangian Neural Networks)を導入する。 ラグランジュ方程式の基本的な重要性を活用することで、一般化されたラグランジュ方程式に基づいてモデルを定式化する。 この修正は予測精度を高めるだけでなく、非保守系におけるラグランジアン表現も保証する。 さらに,1次元および2次元の例を含む様々な実験を行い,一般化ラグランジアンニューラルネットワーク(glnn)の優位性を証明したネットワークパラメータの影響について検討した。

Incorporating neural networks for the solution of Ordinary Differential Equations (ODEs) represents a pivotal research direction within computational mathematics. Within neural network architectures, the integration of the intrinsic structure of ODEs offers advantages such as enhanced predictive capabilities and reduced data utilization. Among these structural ODE forms, the Lagrangian representation stands out due to its significant physical underpinnings. Building upon this framework, Bhattoo introduced the concept of Lagrangian Neural Networks (LNNs). Then in this article, we introduce a groundbreaking extension (Genralized Lagrangian Neural Networks) to Lagrangian Neural Networks (LNNs), innovatively tailoring them for non-conservative systems. By leveraging the foundational importance of the Lagrangian within Lagrange's equations, we formulate the model based on the generalized Lagrange's equation. This modification not only enhances prediction accuracy but also guarantees Lagrangian representation in non-conservative systems. Furthermore, we perform various experiments, encompassing 1-dimensional and 2-dimensional examples, along with an examination of the impact of network parameters, which proved the superiority of Generalized Lagrangian Neural Networks(GLNNs).
翻訳日:2024-01-10 13:01:00 公開日:2024-01-09
# ROIC-DM:拡散モデルによるロバストテキスト推論と分類

ROIC-DM: Robust Text Inference and Classification via Diffusion Model ( http://arxiv.org/abs/2401.03514v2 )

ライセンス: Link先を確認
Shilong Yuan, Wei Yuan, Hongzhi Yin, Tieke He(参考訳) 言語モデルはテキスト推論や分類タスクで多くのマイルストーンを達成しているが、予期せぬ結果につながる敵の攻撃を受けやすい。 既存の作業は、言語モデルに防御パッチを装備することでこの問題を軽減する。 しかし、これらの防衛戦略は、しばしば非現実的な仮定に依存するか、モデル性能の実質的な犠牲を伴う。 したがって、そのような防御機構を用いて目標モデルのレジリエンスを高めることは、非常に難しい課題である。 本稿では,拡散モデル(ROIC-DM)に基づく,堅牢なテキスト推論と分類のための革新的なモデルを提案する。 ROIC-DMは、発達段階を含む訓練に特化しており、従来の言語モデルよりも頑健である。 さらに、ROIC-DMは、効果的にアドバイザリコンポーネントとして組み込むことで、言語モデルよりも優れたパフォーマンスを実現することができる。 その結果,(1) ROIC-DMは, 従来の言語モデルに対して, 高度な防御機構で強化された場合でも, 従来の言語モデルよりも優れた性能を発揮すること, (2) ROIC-DMは, 従来の言語モデルと同等かつ優れた性能を, アドバイザとして利用することで達成できることが示唆された。

While language models have made many milestones in text inference and classification tasks, they remain susceptible to adversarial attacks that can lead to unforeseen outcomes. Existing works alleviate this problem by equipping language models with defense patches. However, these defense strategies often rely on impractical assumptions or entail substantial sacrifices in model performance. Consequently, enhancing the resilience of the target model using such defense mechanisms is a formidable challenge. This paper introduces an innovative model for robust text inference and classification, built upon diffusion models (ROIC-DM). Benefiting from its training involving denoising stages, ROIC-DM inherently exhibits greater robustness compared to conventional language models. Moreover, ROIC-DM can attain comparable, and in some cases, superior performance to language models, by effectively incorporating them as advisory components. Extensive experiments conducted with several strong textual adversarial attacks on three datasets demonstrate that (1) ROIC-DM outperforms traditional language models in robustness, even when the latter are fortified with advanced defense mechanisms; (2) ROIC-DM can achieve comparable and even better performance than traditional language models by using them as advisors.
翻訳日:2024-01-10 13:00:25 公開日:2024-01-09
# トケンフリーのLLMは、より正確なフォーマットで中国古典詩を生成できる

Token-free LLMs Can Generate Chinese Classical Poetry with More Accurate Format ( http://arxiv.org/abs/2401.03512v2 )

ライセンス: Link先を確認
Chengyue Yu, Lei Zang, Jiaotuan Wang, Chenyi Zhuang, Jinjie Gu(参考訳) 微調整された大きな言語モデル(chatgptやqwen-chatなど)は、人間の指示に従って中国の古典詩を生成することができる。 LLMは内容的には良好に機能するが、通常フォーマットに欠けており、各行の文字数が時折過剰または不足している。 多くのSOTA LLMはトークンベースであるため、フォーマットの不正確さは「トークン計画」タスクの難しさによるものと仮定する。 本稿では,既存のトークンベース大規模言語モデルにおいて,トークン-文字関係に関する知識が限られていることを示す。 我々はスペルミツバチ探索法を用いて,Qwen-chatが約15%の中国語スペルテストで失敗したことを発見した。 次に、トークンベースのモデルを(中国語で)トークンフリーモデルに容易に調整できることを示し、フォーマット精度の問題を大幅に解決できる。 我々の調整手順は語彙と言語モデルヘッドから長いトークンを取り除き、文字レベルまたはバイトレベルのトークンのみを保持する。 コントリビューションの一環として,LLMのような複雑な命令(ストーリーパラフレージングなど)に従って中国語の古典詩を生成でき,形式的にも良好に機能する,微調整のトークンフリーモデル(Qwen-chat-7Bをベースとする)をリリースする。 テストセットでは,トークンフリーモデルでは0.96,トークンベースでは0.84,GPT-4では0.38であった。

Finetuned large language models (such as ChatGPT and Qwen-chat) can generate Chinese classical poetry following human's instructions. LLMs perform well in content, but are usually lacking in format, with occasionally excess or insufficient number of characters in each line. Since most SOTA LLMs are token-based, we assume that the format inaccuracy is due to the difficulty of the "token planning" task, which means that the LLM need to know exactly how much characters are contained in each token and do length-control planning based on that knowledge. In this paper, we first confirm our assumption by showing that existing token-based large language models has limited knowledge on token-character relationship. We use a spelling bee probing procedure, and find that Qwen-chat failed in nearly 15% Chinese spelling test. We then show that a token-based model can be easily tailored into a token-free model (in terms of Chinese), which can largely solve the format accuracy problem. Our tailoring procedure removes long-tokens from the vocabulary and the language model head, and keeps only character-level or byte-level tokens. As part of our contribution, we release the finetuned token-free model (which is based on Qwen-chat-7B), which can generate chinese classical poetry following complex instructions like LLMs (such as story paraphrasing), and also perform well in format. On the test set, our token-free model achives an format accuracy of 0.96, compared to 0.84 for token-based equivalents and 0.38 for GPT-4.
翻訳日:2024-01-10 13:00:00 公開日:2024-01-09
# 人間のタッチによるロボット能力の増幅:没入型低遅延パノラマ遠隔システム

Amplifying robotics capacities with a human touch: An immersive low-latency panoramic remote system ( http://arxiv.org/abs/2401.03398v2 )

ライセンス: Link先を確認
Junjie Li, Kang Li, Dewei Han, Jian Xu and Zhaoyuan Ma(参考訳) aiとロボティクスのテクノロジーはこの10年で著しく進歩し、様々な分野の作業パターンや機会に革命をもたらした。 これらの技術の応用は社会を人間と機械の共生の時代へと駆り立ててきた。 本研究では,人間と知的ロボットの効率的なコミュニケーションを容易にするために,没入型低遅延パノラマロボットインタラクションプラットフォーム「アバター」を提案する。 我々はエッジコンピューティングユニット、パノラマビデオキャプチャ装置、バッテリー、ロボットアーム、ネットワーク通信機器と統合された頑丈なモバイルプラットフォームのプロトタイプを設計、テストした。 良好なネットワーク条件下では357msの遅延で低遅延高精細パノラマ視体験を達成できた。 オペレーターは、ロボットやデバイスのリアルタイム没入制御にvrヘッドセットとコントローラーを利用することができる。 このシステムは、キャンパス、州、国、さらには大陸(ニューヨークから深セン)にまたがる広大な物理的な距離を遠隔操作できる。 さらにこのシステムは、地図と軌道記録のための視覚的SLAM技術を導入し、自律的なナビゲーション機能を提供する。 この直感的なシステムプラットフォームは、人間とロボットのコラボレーションにおける効率性と状況経験を高め、関連する技術のさらなる進歩により、AIと人間との効率的で共生的な協力のための汎用的なツールになるだろうと考えています。

AI and robotics technologies have witnessed remarkable advancements in the past decade, revolutionizing work patterns and opportunities in various domains. The application of these technologies has propelled society towards an era of symbiosis between humans and machines. To facilitate efficient communication between humans and intelligent robots, we propose the "Avatar" system, an immersive low-latency panoramic human-robot interaction platform. We have designed and tested a prototype of a rugged mobile platform integrated with edge computing units, panoramic video capture devices, power batteries, robot arms, and network communication equipment. Under favorable network conditions, we achieved a low-latency high-definition panoramic visual experience with a delay of 357ms. Operators can utilize VR headsets and controllers for real-time immersive control of robots and devices. The system enables remote control over vast physical distances, spanning campuses, provinces, countries, and even continents (New York to Shenzhen). Additionally, the system incorporates visual SLAM technology for map and trajectory recording, providing autonomous navigation capabilities. We believe that this intuitive system platform can enhance efficiency and situational experience in human-robot collaboration, and with further advancements in related technologies, it will become a versatile tool for efficient and symbiotic cooperation between AI and humans.
翻訳日:2024-01-10 12:59:30 公開日:2024-01-09
# 分子特性予測のためのマルチモーダル表現学習:シーケンス,グラフ,幾何学

Multi-Modal Representation Learning for Molecular Property Prediction: Sequence, Graph, Geometry ( http://arxiv.org/abs/2401.03369v2 )

ライセンス: Link先を確認
Zeyu Wang, Tianyi Jiang, Jinhuan Wang, Qi Xuan(参考訳) 分子特性予測は、いくつかの生化学的性質を持つ分子をラベル付けし、薬物の発見と設計プロセスにおいて重要な役割を担っている。 近年,機械学習の進歩に伴い,従来の手法の資源集約性に対する解法として深層学習に基づく分子特性予測が登場し,大きな注目を集めている。 その中でも分子表現学習が分子特性予測性能の重要な要素である。 また、シーケンスベース、グラフベース、幾何ベースの手法が数多く提案されている。 しかし、既存の研究の大部分は分子表現を学ぶための一つのモダリティのみに焦点を当てており、分子の特徴と情報を包括的に捉えられなかった。 本稿では, sggrlと呼ばれる分子特性予測のために, シーケンス, グラフ, 幾何特性を統合するマルチモーダル表現学習モデルを提案する。 具体的には、異なるモダリティの表現を融合するために融合層を設計する。 さらに、モダリティ間の整合性を確保するため、SGGRLは異なる分子の類似性を最小化しながら同じ分子の表現の類似性を最大化するように訓練される。 SGGRLの有効性を検証するために、7つの分子データセットといくつかのベースラインを用いて評価と比較を行う。 実験の結果,SGGRLはほとんどの場合,基線より一貫して優れていた。 これにより、SGGRLは分子情報を包括的に捉えることができる。 提案したSGGRLモデルでは,多モード表現学習を利用して分子特性予測に革命をもたらす可能性を示す。 私たちのコードはhttps://github.com/vencent-won/sggrlでリリースしています。

Molecular property prediction refers to the task of labeling molecules with some biochemical properties, playing a pivotal role in the drug discovery and design process. Recently, with the advancement of machine learning, deep learning-based molecular property prediction has emerged as a solution to the resource-intensive nature of traditional methods, garnering significant attention. Among them, molecular representation learning is the key factor for molecular property prediction performance. And there are lots of sequence-based, graph-based, and geometry-based methods that have been proposed. However, the majority of existing studies focus solely on one modality for learning molecular representations, failing to comprehensively capture molecular characteristics and information. In this paper, a novel multi-modal representation learning model, which integrates the sequence, graph, and geometry characteristics, is proposed for molecular property prediction, called SGGRL. Specifically, we design a fusion layer to fusion the representation of different modalities. Furthermore, to ensure consistency across modalities, SGGRL is trained to maximize the similarity of representations for the same molecule while minimizing similarity for different molecules. To verify the effectiveness of SGGRL, seven molecular datasets, and several baselines are used for evaluation and comparison. The experimental results demonstrate that SGGRL consistently outperforms the baselines in most cases. This further underscores the capability of SGGRL to comprehensively capture molecular information. Overall, the proposed SGGRL model showcases its potential to revolutionize molecular property prediction by leveraging multi-modal representation learning to extract diverse and comprehensive molecular insights. Our code is released at https://github.com/Vencent-Won/SGGRL.
翻訳日:2024-01-10 12:59:09 公開日:2024-01-09
# スイッチング機構による拡散モデルの公正サンプリング

Fair Sampling in Diffusion Models through Switching Mechanism ( http://arxiv.org/abs/2401.03140v2 )

ライセンス: Link先を確認
Yujin Choi, Jinseong Park, Hoki Kim, Jaewook Lee, Saeroom Park(参考訳) 拡散モデルは、基礎となる確率分布をよく近似することにより、生成タスクにおいてその効果を示す。 しかしながら、拡散モデルでは、公平性の観点からトレーニングデータから固有のバイアスが増幅されることが知られている。 拡散モデルのサンプリング過程は条件付きガイダンスで制御できるが、従来の研究は定量的公正性を達成するための経験的ガイダンスを見つけようと試みてきた。 この制限に対処するために,拡散モデルのためのfairness-aware sampling methodである \textit{attribute switching} 機構を提案する。 追加のトレーニングなしでは、提案したサンプリングは、分類器に頼ることなく、生成されたデータ中のセンシティブな属性を難読化することができる。 提案手法の有効性を数学的に証明し,実験的に実証する。 (i)公平なデータの生成及び (ii) 生成されたデータの有効性を保存すること。

Diffusion models have shown their effectiveness in generation tasks by well-approximating the underlying probability distribution. However, diffusion models are known to suffer from an amplified inherent bias from the training data in terms of fairness. While the sampling process of diffusion models can be controlled by conditional guidance, previous works have attempted to find empirical guidance to achieve quantitative fairness. To address this limitation, we propose a fairness-aware sampling method called \textit{attribute switching} mechanism for diffusion models. Without additional training, the proposed sampling can obfuscate sensitive attributes in generated data without relying on classifiers. We mathematically prove and experimentally demonstrate the effectiveness of the proposed method on two key aspects: (i) the generation of fair data and (ii) the preservation of the utility of the generated data.
翻訳日:2024-01-10 12:58:41 公開日:2024-01-09
# 戦術家による大規模形式知識のWeb

The Tactician's Web of Large-Scale Formal Knowledge ( http://arxiv.org/abs/2401.02950v2 )

ライセンス: Link先を確認
Lasse Blaauwbroek(参考訳) Tactician's Webは、強力な相互接続、マシンチェック、フォーマルな数学的知識を備えた大規模なWebを提供するプラットフォームで、機械学習、分析、証明エンジニアリングに便利にパッケージされている。 coq proof assistant上に構築されたこのプラットフォームは、定義、定理、証明項、戦術、証明状態のwebとして提示される、さまざまな形式理論を含むデータセットをエクスポートする。 理論は、意味グラフ(下記参照)と人間の読みやすいテキストの両方で符号化され、それぞれに独自の利点と欠点がある。 証明エージェントは同じリッチデータ表現を通じてCoqと相互作用し、定理のセットで自動的にベンチマークすることができる。 Coqとの密接な統合は、実証エンジニアを実用的なツールとして利用できるようにするユニークな可能性を提供する。

The Tactician's Web is a platform offering a large web of strongly interconnected, machine-checked, formal mathematical knowledge conveniently packaged for machine learning, analytics, and proof engineering. Built on top of the Coq proof assistant, the platform exports a dataset containing a wide variety of formal theories, presented as a web of definitions, theorems, proof terms, tactics, and proof states. Theories are encoded both as a semantic graph (rendered below) and as human-readable text, each with a unique set of advantages and disadvantages. Proving agents may interact with Coq through the same rich data representation and can be automatically benchmarked on a set of theorems. Tight integration with Coq provides the unique possibility to make agents available to proof engineers as practical tools.
翻訳日:2024-01-10 12:58:28 公開日:2024-01-09
# Graph2Tac: 定理証明における数学概念の階層的表現学習

Graph2Tac: Learning Hierarchical Representations of Math Concepts in Theorem proving ( http://arxiv.org/abs/2401.02949v2 )

ライセンス: Link先を確認
Jason Rute, Miroslav Ol\v{s}\'ak, Lasse Blaauwbroek, Fidel Ivan Schaposnik Massolo, Jelle Piepenbrock, Vasily Pestun(参考訳) 数学における概念とその応用。 対象分野によって大きく異なり、各数学論文や応用に新しいものが導入される。 形式理論は、互いに参照する定義、定理、証明の階層を構築する。 AIエージェントが新しい定理を証明しているとき、その定理に関連する数学的概念や補題のほとんどは、トレーニング中に見たことがないかもしれない。 これは、Coqプロジェクトの多種多様なライブラリを持ち、それぞれ独自の定義、補題、さらにはそれらの補題を証明するために使用されるカスタム戦術の手順を持つCoq証明アシスタントに特に当てはまる。 エージェントは、そのような新しい情報をオンザフライで知識ベースに組み込むことが不可欠である。 私たちは、coqの機械学習のために、新しい大規模グラフベースのデータセットを利用することで、この目標に向かって取り組んでいる。 我々は、定義間の依存関係の有向グラフを誘導するCoq用語の忠実なグラフ表現を活用して、現在の目標だけでなく、現在の目標に繋がった定義の階層全体も考慮に入れた、新しいグラフニューラルネットワークGraph2Tac(G2T)を作成します。 G2Tは、ユーザのワークフローに深く統合され、新しいCoqプロジェクトとその定義にリアルタイムで適応できるオンラインモデルである。 新しい証明スクリプトからリアルタイムで学習する他のオンラインモデルとも相性がいい。 我々の新しい定義埋め込みタスクは、トレーニング中に見えない数学的概念の表現を計算するために訓練され、ニューラルネットワークの性能を、最先端のkアレスト近傍予測器に向上させる。

Concepts abound in mathematics and its applications. They vary greatly between subject areas, and new ones are introduced in each mathematical paper or application. A formal theory builds a hierarchy of definitions, theorems and proofs that reference each other. When an AI agent is proving a new theorem, most of the mathematical concepts and lemmas relevant to that theorem may have never been seen during training. This is especially true in the Coq proof assistant, which has a diverse library of Coq projects, each with its own definitions, lemmas, and even custom tactic procedures used to prove those lemmas. It is essential for agents to incorporate such new information into their knowledge base on the fly. We work towards this goal by utilizing a new, large-scale, graph-based dataset for machine learning in Coq. We leverage a faithful graph-representation of Coq terms that induces a directed graph of dependencies between definitions to create a novel graph neural network, Graph2Tac (G2T), that takes into account not only the current goal, but also the entire hierarchy of definitions that led to the current goal. G2T is an online model that is deeply integrated into the users' workflow and can adapt in real time to new Coq projects and their definitions. It complements well with other online models that learn in real time from new proof scripts. Our novel definition embedding task, which is trained to compute representations of mathematical concepts not seen during training, boosts the performance of the neural network to rival state-of-the-art k-nearest neighbor predictors.
翻訳日:2024-01-10 12:58:14 公開日:2024-01-09