このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231202となっている論文です。

PDF登録状況(公開日: 20231202)

TitleAuthorsAbstract論文公表日・翻訳日
# ドメインシフトに対する物体検出器のロバスト性向上に向けて

Toward Improving Robustness of Object Detectors Against Domain Shift ( http://arxiv.org/abs/2403.12049v1 )

ライセンス: Link先を確認
Le-Anh Tran, Chung Nguyen Tran, Dong-Chul Park, Jordi Carrabina, David Castells-Rufas, (参考訳) 本稿では,駆動対象検出器のドメインシフトに対するロバスト性を向上させるためのデータ拡張手法を提案する。 ドメインシフト問題は、トレーニングフェーズで使用されるソースデータドメインの分布とデプロイメントフェーズでターゲットデータドメインの分布に重大な変化がある場合に発生する。 ドメインシフトは、ディープニューラルネットワークモデルの性能が大幅に低下する最も一般的な理由の1つとして知られている。 この問題に対処するためには、トレーニングデータの多様性を高めるための効果的なアプローチがある。 そこで本研究では,より堅牢で効果的な物体検出装置の訓練に利用できるデータ合成モジュールを提案する。 YOLOv4をベースオブジェクト検出器として採用することにより、ソースデータとターゲットドメインデータの両方のパフォーマンスが大幅に向上するのを目撃した。 この研究のコードはhttps://github.com/tranleanh/haze- synthesisで公開されている。

This paper proposes a data augmentation method for improving the robustness of driving object detectors against domain shift. Domain shift problem arises when there is a significant change between the distribution of the source data domain used in the training phase and that of the target data domain in the deployment phase. Domain shift is known as one of the most popular reasons resulting in the considerable drop in the performance of deep neural network models. In order to address this problem, one effective approach is to increase the diversity of training data. To this end, we propose a data synthesis module that can be utilized to train more robust and effective object detectors. By adopting YOLOv4 as a base object detector, we have witnessed a remarkable improvement in performance on both the source and target domain data. The code of this work is publicly available at https://github.com/tranleanh/haze-synthesis.
翻訳日:2024-03-25 07:46:43 公開日:2023-12-02
# Scrappy: Privacyを使ったSeCure Rate Assuring Protocol

Scrappy: SeCure Rate Assuring Protocol with PrivacY ( http://arxiv.org/abs/2312.00989v1 )

ライセンス: Link先を確認
Kosei Akama, Yoshimichi Nakatsuka, Masaaki Sato, Keisuke Uehara, (参考訳) オンラインサービスに敵対者がアクセスすることによる虐待行為の防止が、ウェブサイトの予想を上回るペースで進んでいる。 CAPTCHAとSMS認証は、レート制限を実装することでソリューションを提供するために広く利用されているが、効果が低くなってきており、プライバシー侵害と見なされているものもある。 これを踏まえて、多くの研究は、悪意のあるアクターをブロックしながら、正当なユーザのプライバシーを保護する、より優れたレート制限システムを提案してきた。 しかし、(1)基盤となるハードウェアへの信頼を前提とし、(2)サイドチャネル攻撃に対して脆弱である、という1つ以上の欠点に悩まされている。 本稿では,上記の課題に触発されたScrapy: SeCure Rate Assuring Protocol with Privacyを提案する。 Scrappyを使用することで、クライアントは偽造できないがリンク不能なレート保証証明を生成できる。 DAAとハードウェアセキュリティデバイスを組み合わせてScrapppyを設計する。 Scrappyは3種類のデバイスで実装されている。 ベースライン評価の結果,Scrappyの終端レイテンシは最小限で0.32秒で,必要なデータ転送には679バイトの帯域しか使用できないことがわかった。 また,ハードウェアセキュリティ装置が侵害された場合でも,スクラッピーのレート制限能力は影響を受けないことを示す,広範なセキュリティ評価を行う。

Preventing abusive activities caused by adversaries accessing online services at a rate exceeding that expected by websites has become an ever-increasing problem. CAPTCHAs and SMS authentication are widely used to provide a solution by implementing rate limiting, although they are becoming less effective, and some are considered privacy-invasive. In light of this, many studies have proposed better rate-limiting systems that protect the privacy of legitimate users while blocking malicious actors. However, they suffer from one or more shortcomings: (1) assume trust in the underlying hardware and (2) are vulnerable to side-channel attacks. Motivated by the aforementioned issues, this paper proposes Scrappy: SeCure Rate Assuring Protocol with PrivacY. Scrappy allows clients to generate unforgeable yet unlinkable rate-assuring proofs, which provides the server with cryptographic guarantees that the client is not misbehaving. We design Scrappy using a combination of DAA and hardware security devices. Scrappy is implemented over three types of devices, including one that can immediately be deployed in the real world. Our baseline evaluation shows that the end-to-end latency of Scrappy is minimal, taking only 0.32 seconds, and uses only 679 bytes of bandwidth when transferring necessary data. We also conduct an extensive security evaluation, showing that the rate-limiting capability of Scrappy is unaffected even if the hardware security device is compromised.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-02
# 画像ステレオグラフィのための残差誘導学習法

A Novel Residual-guided Learning Method for Image Steganography ( http://arxiv.org/abs/2312.01080v1 )

ライセンス: Link先を確認
Miaoxin Ye, Dongxia Huang, Kangkang Wei, Weiqi Luo, (参考訳) 伝統的な造形技術は、しばしば画像の残像に関連する手作業による属性に依存してきた。 これらの手法は、様々な画像残像の特徴を統合する上で、かなりのレベルの専門知識を必要とし、課題に直面している。 本稿では,画像残差,残差,画像局所差をシームレスに統合し,埋め込み確率を自律的に学習する,革新的な深層学習手法を提案する。 我々のフレームワークは、埋め込み確率生成器と3つの重要なガイドコンポーネントを含む: 複雑なテクスチャ領域への埋め込みを容易にするための残留ガイダンス。 残留距離誘導は、カバーとステゴ画像の残差を最小化することを目的としている。 局所分散誘導は、複雑でない、あるいは均一なテクスチャを特徴とする領域の修正に対して効果的に保護する。 3つのコンポーネントは総合的に学習プロセスをガイドし、セキュリティ性能を高めます。 従来のステガノグラフィー法と空間領域におけるランダム初期化ReLOADとの比較から,我々のアプローチの優位性を示す総合的な実験結果が得られた。

Traditional steganographic techniques have often relied on manually crafted attributes related to image residuals. These methods demand a significant level of expertise and face challenges in integrating diverse image residual characteristics. In this paper, we introduce an innovative deep learning-based methodology that seamlessly integrates image residuals, residual distances, and image local variance to autonomously learn embedding probabilities. Our framework includes an embedding probability generator and three pivotal guiding components: Residual guidance strives to facilitate embedding in complex-textured areas. Residual distance guidance aims to minimize the residual differences between cover and stego images. Local variance guidance effectively safeguards against modifications in regions characterized by uncomplicated or uniform textures. The three components collectively guide the learning process, enhancing the security performance. Comprehensive experimental findings underscore the superiority of our approach when compared to traditional steganographic methods and randomly initialized ReLOAD in the spatial domain.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-02
# Flashbots BundleにおけるDeFi MEV活性の最小化

Demystifying DeFi MEV Activities in Flashbots Bundle ( http://arxiv.org/abs/2312.01091v1 )

ライセンス: Link先を確認
Zihao Li, Jianfeng Li, Zheyuan He, Xiapu Luo, Ting Wang, Xiaoze Ni, Wenwu Yang, Xi Chen, Ting Chen, (参考訳) 分散型ファイナンス(無許可ブロックチェーン)は、最近人気が高まっている。 無許可のブロックチェーンの透明性のため、オポチュニストトレーダーは、ブロックチェーンシステムのコンセンサスセキュリティと効率の両方を損なうMiner Extractable Value(MEV)を抽出することで、収益を得るために競争することができる。 Flashbotsのバンドル機構は、より洗練されたMEV抽出を設計する能力を持つオポチュニストトレーダーに権限を与えるため、MEVコンペティションをさらに強化する。 本稿では、各バンドルのトランザクションにおけるDeFiアクションを正確に識別する新しい自動化ツールであるActLifterと、繰り返しクラスタリングを活用する新しいアプローチであるActClusterの開発により、FlashbotsバンドルにおけるDeFi MEVアクティビティに関する最初の体系的研究を行い、既知の/知られていないDeFi MEVアクティビティの発見を容易にする。 ActLifterは、DeFiアクション識別において100%近い精度とリコールを達成でき、最先端技術よりも優れていた。 さらに、ActClusterの助けを借りて、17種類の新しいDeFi MEV活動を発見し、53.12%のバンドルで発生するが、既存の研究では報告されていない。

Decentralized Finance, mushrooming in permissionless blockchains, has attracted a recent surge in popularity. Due to the transparency of permissionless blockchains, opportunistic traders can compete to earn revenue by extracting Miner Extractable Value (MEV), which undermines both the consensus security and efficiency of blockchain systems. The Flashbots bundle mechanism further aggravates the MEV competition because it empowers opportunistic traders with the capability of designing more sophisticated MEV extraction. In this paper, we conduct the first systematic study on DeFi MEV activities in Flashbots bundle by developing ActLifter, a novel automated tool for accurately identifying DeFi actions in transactions of each bundle, and ActCluster, a new approach that leverages iterative clustering to facilitate us to discover known/unknown DeFi MEV activities. Extensive experimental results show that ActLifter can achieve nearly 100% precision and recall in DeFi action identification, significantly outperforming state-of-the-art techniques. Moreover, with the help of ActCluster, we obtain many new observations and discover 17 new kinds of DeFi MEV activities, which occur in 53.12% of bundles but have not been reported in existing studies
翻訳日:2024-03-18 13:15:35 公開日:2023-12-02
# アンドロイドの悪性コード検出 : 配列特性と分解法の役割

Malicious code detection in android: the role of sequence characteristics and disassembling methods ( http://arxiv.org/abs/2312.01113v1 )

ライセンス: Link先を確認
Pinar G. Balikcioglu, Melih Sirlanci, Ozge A. Kucuk, Bulut Ulukapi, Ramazan K. Turkmen, Cengiz Acarturk, (参考訳) Androidオペレーティングシステムの受容と普及は、正当な開発者とマルウェアの作者の両方の注目を集め、様々なオンラインマーケットでかなりの数の良質で悪意のあるアプリケーションが利用可能になった。 このシグネチャベースの手法は、大量のアプリケーションを考慮すると、悪意のあるソフトウェアを効果的に検出できないため、この分野の機械学習技術も広く普及している。 この文脈では、マルウェア検出研究において、一致表に取得した精度値を記述することが一般的で効率的な方法となり、研究者は比較的その方法論を評価することができるようになった。 本研究では,研究者が管理するモデルの精度に影響を及ぼす要因,特に分解方法と入力データ特性について検討し,考察した。 まず,Long Short-Term Memory (LSTM) を用いた自然言語処理(NLP)の観点から,マルウェア検出問題に取り組むモデルを開発した。 そこで, 一般的な3つの分解ツール (JEB, IDA, Apktool) から得られたソースコードの異なるベースユニット (インストラクション, 基本ブロック, メソッド, クラス) を実験し, 結果を検討した。 その結果, 分解法と異なる入力表現がモデル結果に影響を及ぼすことが明らかとなった。 より具体的には、Apktoolが収集したデータセットは、他の2つの分解器よりも優れた結果を得た。

The acceptance and widespread use of the Android operating system drew the attention of both legitimate developers and malware authors, which resulted in a significant number of benign and malicious applications available on various online markets. Since the signature-based methods fall short for detecting malicious software effectively considering the vast number of applications, machine learning techniques in this field have also become widespread. In this context, stating the acquired accuracy values in the contingency tables in malware detection studies has become a popular and efficient method and enabled researchers to evaluate their methodologies comparatively. In this study, we wanted to investigate and emphasize the factors that may affect the accuracy values of the models managed by researchers, particularly the disassembly method and the input data characteristics. Firstly, we developed a model that tackles the malware detection problem from a Natural Language Processing (NLP) perspective using Long Short-Term Memory (LSTM). Then, we experimented with different base units (instruction, basic block, method, and class) and representations of source code obtained from three commonly used disassembling tools (JEB, IDA, and Apktool) and examined the results. Our findings exhibit that the disassembly method and different input representations affect the model results. More specifically, the datasets collected by the Apktool achieved better results compared to the other two disassemblers.
翻訳日:2024-03-18 13:15:35 公開日:2023-12-02
# サイドチャネル攻撃に対するパワーバランス・メムリシティブ暗号の実装

Power-balanced Memristive Cryptographic Implementation Against Side Channel Attacks ( http://arxiv.org/abs/2312.01170v1 )

ライセンス: Link先を確認
Ziang Chen, Li-Wei Chen, Xianyue Zhao, Kefeng Li, Heidemarie Schmidt, Ilia Polian, Nan Du, (参考訳) メムリスタは、新しいナノデバイスとして、有望な性能を提供し、豊富な電気力学的挙動を示す。 ニューロモルフィックやインメモリコンピューティングなどのアプリケーションですでに成功している研究者は、暗号実装の可能性を探っている。 本研究では,暗号回路の電力消費を隠蔽するために,memristorグループを利用した新しいパワーバランス型隠れ方策を提案する。 提案手法は,論理入力変数(LIV)の値によらず,書込み・読み出しサイクルにおいて,補完型論理ゲートであるCRS-R(Complementary-Resistive-Switching-with-Reading)論理ファミリ内の16個の論理ゲートに対して一貫した電力コストを保証する。 隠れグループを構築することにより、各ゲート隠蔽グループにおいて効果的なパワーバランスを実現する。 さらに、NORゲートを用いた暗号構成 xor4SBox の実装を含む、我々の戦略を実験的に検証する。 隠れ方略と隠蔽方略を含まない回路構成はT-test解析を行い,本手法による大幅な改善を確認した。 本研究は、論理回路のセキュリティと効率を向上し、電力バランスの取れた隠れ手法の大幅な進歩を示す。

Memristors, as emerging nano-devices, offer promising performance and exhibit rich electrical dynamic behavior. Having already found success in applications such as neuromorphic and in-memory computing, researchers are now exploring their potential for cryptographic implementations. In this study, we present a novel power-balanced hiding strategy utilizing memristor groups to conceal power consumption in cryptographic logic circuits. Our approach ensures consistent power costs of all 16 logic gates in Complementary-Resistive-Switching-with-Reading (CRS-R) logic family during writing and reading cycles regardless of Logic Input Variable (LIV) values. By constructing hiding groups, we enable an effective power balance in each gate hiding group. Furthermore, experimental validation of our strategy includes the implementation of a cryptographic construction, xor4SBox, using NOR gates. The circuit construction without the hiding strategy and with the hiding strategy undergo T-test analysis, confirming the significant improvement achieved with our approach. Our work presents a substantial advancement in power-balanced hiding methods, offering enhanced security and efficiency in logic circuits.
翻訳日:2024-03-18 13:15:35 公開日:2023-12-02
# FRAUDability: 敵対的機械学習を用いたファイナンシャル・フレーダに対するユーザの感受性の推定

FRAUDability: Estimating Users' Susceptibility to Financial Fraud Using Adversarial Machine Learning ( http://arxiv.org/abs/2312.01200v1 )

ライセンス: Link先を確認
Chen Doytshman, Satoru Momiyama, Inderjeet Singh, Yuval Elovici, Asaf Shabtai, (参考訳) 近年,金融詐欺検出システムは,電子商取引プラットフォームが直面する大きな脅威である不正検出において,極めて効率的になっている。 このようなシステムには、不正行為を検出し報告することを目的とした機械学習ベースのアルゴリズムが含まれることが多い。 本稿では, 不正検出領域における逆学習に基づくランキング手法の適用について検討し, 不正検出システムの性能評価手法であるFRAUDabilityを提案する。 私たちは、“すべてのユーザが平等に作られているわけではない”という前提で動機付けられています -- 不正検出アルゴリズムによって十分に保護されているユーザもいれば、そのようなシステムに挑戦するユーザもいます。 提案手法は,金融システムにおける彼のユニークな活動から,不正検出システムの特定のユーザに対する金銭的不正を検知する能力の数値的な推定値である「フルートビリティスコア」を生成する。 当社の不正性スコアは、金融プラットフォームのユーザーを守るために、高い不正性スコアを持つユーザーに注意とリソースを集中させることで、ユーザーをよりよく保護することができる。 実際のEコマースプラットフォームのデータセットを用いて本手法を検証し,攻撃者の視点,プラットフォーム,より具体的には,eコマース企業が使用する不正検出システムに不正性スコアを適用した。 また,攻撃者の金銭的利益を54%向上させるためには,高い不正性スコアを持つユーザのみに対処し,より正確な不正検出を可能にするユーザを避けることが必要である。

In recent years, financial fraud detection systems have become very efficient at detecting fraud, which is a major threat faced by e-commerce platforms. Such systems often include machine learning-based algorithms aimed at detecting and reporting fraudulent activity. In this paper, we examine the application of adversarial learning based ranking techniques in the fraud detection domain and propose FRAUDability, a method for the estimation of a financial fraud detection system's performance for every user. We are motivated by the assumption that "not all users are created equal" -- while some users are well protected by fraud detection algorithms, others tend to pose a challenge to such systems. The proposed method produces scores, namely "fraudability scores," which are numerical estimations of a fraud detection system's ability to detect financial fraud for a specific user, given his/her unique activity in the financial system. Our fraudability scores enable those tasked with defending users in a financial platform to focus their attention and resources on users with high fraudability scores to better protect them. We validate our method using a real e-commerce platform's dataset and demonstrate the application of fraudability scores from the attacker's perspective, on the platform, and more specifically, on the fraud detection systems used by the e-commerce enterprise. We show that the scores can also help attackers increase their financial profit by 54%, by engaging solely with users with high fraudability scores, avoiding those users whose spending habits enable more accurate fraud detection.
翻訳日:2024-03-18 13:15:35 公開日:2023-12-02
# AAMDM:加速自己回帰運動拡散モデル

AAMDM: Accelerated Auto-regressive Motion Diffusion Model ( http://arxiv.org/abs/2401.06146v1 )

ライセンス: Link先を確認
Tianyu Li, Calvin Qiao, Guanqiao Ren, KangKang Yin, Sehoon Ha(参考訳) インタラクティブなモーション合成は、ビデオゲームや仮想現実のようなエンターテイメントアプリケーションにおける没入型体験を作成するのに不可欠である。 しかし、高品質でコンテクストに反応するアニメーションの生成は依然として課題である。 ゲーム業界の伝統的なテクニックは、高忠実度アニメーションを生成できるが、高い計算コストとスケーラビリティの低下に苦しむ。 トレーニングされたニューラルネットワークモデルは、メモリとスピードの問題を軽減するが、多様な動きを生成するには不足する。 拡散モデルは、メモリ使用量の少ない多様な動き合成を提供するが、高価な逆拡散プロセスを必要とする。 本稿では, 品質, 多様性, 効率の両立を目的とした新しい運動合成フレームワークであるaccelerated auto-regressive motion diffusion model (aamdm)を提案する。 aamdmは拡散ガンを高速生成モジュールとして、自己回帰拡散モデルを研磨モジュールとして統合する。 さらに、AAMDMは、フル次元のポーズ空間ではなく、低次元の埋め込み空間で動作し、トレーニングの複雑さを低減し、パフォーマンスをさらに向上する。 aamdmは, 総合的な定量的解析と視覚的比較により, 動作品質, 多様性, ランタイム効率において既存の手法よりも優れていることを示す。 また、アブレーション研究を通じて各アルゴリズム成分の有効性を示す。

Interactive motion synthesis is essential in creating immersive experiences in entertainment applications, such as video games and virtual reality. However, generating animations that are both high-quality and contextually responsive remains a challenge. Traditional techniques in the game industry can produce high-fidelity animations but suffer from high computational costs and poor scalability. Trained neural network models alleviate the memory and speed issues, yet fall short on generating diverse motions. Diffusion models offer diverse motion synthesis with low memory usage, but require expensive reverse diffusion processes. This paper introduces the Accelerated Auto-regressive Motion Diffusion Model (AAMDM), a novel motion synthesis framework designed to achieve quality, diversity, and efficiency all together. AAMDM integrates Denoising Diffusion GANs as a fast Generation Module, and an Auto-regressive Diffusion Model as a Polishing Module. Furthermore, AAMDM operates in a lower-dimensional embedded space rather than the full-dimensional pose space, which reduces the training complexity as well as further improves the performance. We show that AAMDM outperforms existing methods in motion quality, diversity, and runtime efficiency, through comprehensive quantitative analyses and visual comparisons. We also demonstrate the effectiveness of each algorithmic component through ablation studies.
翻訳日:2024-01-22 13:05:41 公開日:2023-12-02
# 知識グラフと繰り返し注意ネットワークに基づくアスペクトレベル感覚分析

Aspect-Level Sentiment Analysis Based on Knowledge Graph and Recurrent Attention Network ( http://arxiv.org/abs/2312.10048v1 )

ライセンス: Link先を確認
Kavita Sharma, Ritu Patel, Sunita Iyer(参考訳) 本稿では,文脈固有の単語意味の課題に対処し,感情分析を強化する新しい手法を提案する。 これは双方向の長期短期記憶ネットワーク(bi-lstm)の利点と知識グラフの同義語データを組み合わせたものである。 このシナジーは動的注意機構を利用して知識駆動状態ベクトルを開発する。 特定の側面に関連する感情を分類するために、この手法は位置データを統合するメモリバンクを構築する。 このデータを多層ゲートリカレントユニット(GRU)を用いて解析し、特定のアスペクト項に関する感情特性をピンポイントする。 3つの広く利用可能なデータセットに対するテストは、感情分類におけるこの手法の優れた性能を示す。

In this paper, we propose a novel method to enhance sentiment analysis by addressing the challenge of context-specific word meanings. It combines the advantages of a bidirectional long short-term memory network (Bi-LSTM) with a knowledge graph's synonym data. This synergy leverages a dynamic attention mechanism to develop a knowledge-driven state vector. For classifying sentiments linked to specific aspects, the approach constructs a memory bank integrating positional data. This data is then analyzed using a multi-layer gated recurrent unit (GRU) to pinpoint sentiment characteristics related to specific aspect terms. Tests on three widely available datasets demonstrate this method's superior performance in sentiment classification.
翻訳日:2024-01-15 14:00:18 公開日:2023-12-02
# マウス誘発嗅覚ナビゲーションの探索・探索モデル

Exploration-Exploitation Model of Moth-Inspired Olfactory Navigation ( http://arxiv.org/abs/2312.11492v1 )

ライセンス: Link先を確認
Teddy Lazebnik, Yiftach Golov, Roi Gurka, Ally Harari, Alex Liberzon(参考訳) 交尾探索中のオスのメスへの移動は、意思決定における探索-探索(EE)モデルに特有の視点を与える。 本研究は, オスのフェロモン駆動飛行経路を説明するためにeeモデルを用いる。 風洞計測と赤外線カメラを用いた3次元追跡を利用して,雄の口臭の挙動を把握した。 風洞実験では,風の流れに乱れを加味し,提案するeeモデルの文脈におけるモス飛行に対する変動の増加の影響を解析した。 遺伝的アルゴリズムを3dトラジェクタのデータセットに適用することにより,探索と搾取フェーズを分離する。 まず,eer(exploring-to-exploitation rate)が女性フェロモン源からの距離とともに増加することを示し,eeモデルの文脈で説明できる。 さらに, フェロモン源近傍におけるEERと流量変動の増大との関係が示唆された。 オープンソースのフェロモンプルームシミュレーションとモリスにインスパイアされたナビゲーションモデルを用いて,乱気流レベルが上昇するにつれて雄の雄がエナラシを発現する理由を説明し,動的に変化する環境へのエージェントの適応を強調する。 本研究は,一般生物 ee モデルに基づく最適航法戦略の理解を深め,高度で理論的に支援された生物誘導航法アルゴリズムの開発を支援する。 複雑な意思決定の課題に対処するために,バイオインスパイアされたナビゲーションモデルの可能性に関する重要な知見を提供する。

Navigation of male moths toward females during the mating search offers a unique perspective on the exploration-exploitation (EE) model in decision-making. This study uses the EE model to explain male moth pheromone-driven flight paths. We leverage wind tunnel measurements and 3D tracking using infrared cameras to gain insights into male moth behavior. During the experiments in the wind tunnel, we add disturbance to the airflow and analyze the effect of increased fluctuations on moth flights in the context of the proposed EE model. We separate the exploration and exploitation phases by applying a genetic algorithm to the dataset of moth 3D trajectories. First, we demonstrate that the exploration-to-exploitation rate (EER) increases with distance from the source of the female pheromone, which can be explained in the context of the EE model. Furthermore, our findings reveal a compelling relationship between EER and increased flow fluctuations near the pheromone source. Using the open-source pheromone plume simulation and our moth-inspired navigation model, we explain why male moths exhibit an enhanced EER as turbulence levels increase, emphasizing the agent's adaptation to dynamically changing environments. This research extends our understanding of optimal navigation strategies based on general biological EE models and supports the development of advanced, theoretically supported bio-inspired navigation algorithms. We provide important insights into the potential of bio-inspired navigation models for addressing complex decision-making challenges.
翻訳日:2024-01-15 13:38:55 公開日:2023-12-02
# AS-XAI:CNNのための自己教師型自動意味解釈

AS-XAI: Self-supervised Automatic Semantic Interpretation for CNN ( http://arxiv.org/abs/2312.14935v1 )

ライセンス: Link先を確認
Changqi Sun, Hao Xu, Yuntian Chen, Dongxiao Zhang(参考訳) explainsable artificial intelligence (xai)は、"ブラックボックス"ディープラーニングモデルの透過的説明的アプローチを開発することを目的としている。 しかし、既存の方法が解釈可能性の3つの重要な基準、すなわち信頼性、因果性、ユーザビリティのトレードオフを達成することは困難であり、それが実用的応用を妨げる。 本稿では,透過的な直交埋め込み意味抽出空間と行中心主成分分析(PCA)を利用して,人間の干渉のないモデル決定のグローバルな意味解釈を行う,自動意味解釈可能な説明可能な人工知能(AS-XAI)フレームワークを提案する。 さらに,フィルタ特徴量の高階分解の不変性を用いて,異なる意味概念に対するモデルの感度を評価する。 大規模な実験では、AS-XAIによって頑健で直交的な意味空間が自動的に抽出され、畳み込みニューラルネットワーク(CNN)のより効果的なグローバル解釈可能性を提供し、人間の理解可能な説明を生成することが示されている。 提案手法は,外分布(ood)カテゴリーにおける共有意味解釈,識別が困難な種の補助的説明,様々な観点からの分類説明など,幅広い細部にわたる拡張可能な実用的応用を提供する。

Explainable artificial intelligence (XAI) aims to develop transparent explanatory approaches for "black-box" deep learning models. However,it remains difficult for existing methods to achieve the trade-off of the three key criteria in interpretability, namely, reliability, causality, and usability, which hinder their practical applications. In this paper, we propose a self-supervised automatic semantic interpretable explainable artificial intelligence (AS-XAI) framework, which utilizes transparent orthogonal embedding semantic extraction spaces and row-centered principal component analysis (PCA) for global semantic interpretation of model decisions in the absence of human interference, without additional computational costs. In addition, the invariance of filter feature high-rank decomposition is used to evaluate model sensitivity to different semantic concepts. Extensive experiments demonstrate that robust and orthogonal semantic spaces can be automatically extracted by AS-XAI, providing more effective global interpretability for convolutional neural networks (CNNs) and generating human-comprehensible explanations. The proposed approach offers broad fine-grained extensible practical applications, including shared semantic interpretation under out-of-distribution (OOD) categories, auxiliary explanations for species that are challenging to distinguish, and classification explanations from various perspectives.
翻訳日:2024-01-15 13:16:30 公開日:2023-12-02
# 非断熱的核力学に対する時間依存振動電子結合クラスター(VECC)理論

Time dependent Vibrational Electronic Coupled Cluster (VECC) theory for non-adiabatic nuclear dynamics ( http://arxiv.org/abs/2312.14164v1 )

ライセンス: Link先を確認
Songhao Bao, Neil Raymond, Marcel Nooijen(参考訳) 光電子/uv-vis吸収スペクトルをシミュレートするvecc(time-dependent vibrational electronic coupled-cluster)アプローチと、ボルン-オッペンハイマー近似を超越した非断熱型ビブロンモデルの時間依存性特性を提案する。 運動方程式の詳細な導出とアンザッツの動機について述べる。 VECC法は、時間依存波動関数のコンパクト表現を形成するために、第二量子ボソニック構造演算子と混合線形および指数アンサッツを用いる。 重要なことに、この手法は基本セットを必要とせず、ユーザ定義の入力がほとんどなく、(ビブロニックモデルの)自由度に関して古典的な(ポリノミカルな)スケーリングを持ち、計算コストが好まれる。 小さなモデルや分子に対するベンチマークでは、VECC法は、非断熱ビブロニックモデルに対する短時間の動的特性(フォトエレクトロン/UV-VIS吸収スペクトル)を予測する際のマルチ構成時依存ハートリー(MCTDH)計算と比較して正確な結果を提供する。 VECC法は14の電子状態と63の正規モードを持つヘキサヘリシンの大型ビブロニックモデルにも有効に適用された。

A time-dependent vibrational electronic coupled-cluster (VECC) approach is proposed to simulate photoelectron/ UV-VIS absorption spectra, as well as time-dependent properties for non-adiabatic vibronic models, going beyond the Born-Oppenheimer approximation. A detailed derivation of the equations of motion and a motivation of the ansatz are presented. The VECC method employs second-quantized bosonic construction operators and a mixed linear and exponential ansatz to form a compact representation of the time-dependent wave-function. Importantly, the method does not require a basis set, has only few user-defined inputs, and has a classical (polynomial) scaling with respect to the number of degrees of freedom (of the vibronic model), resulting in a favourable computational cost. In benchmark applications to small models and molecules the VECC method provides accurate results, compared to Multi-Configurational Time-dependent Hartree (MCTDH) calculations when predicting short-time dynamical properties (i.e. photo-elecron / UV-VIS absorption spectra) for non-adiabatic vibronic models. To illustrate the capabilities the VECC method is also applied successfully to a large vibronic model for hexahelicene with 14 electronic states and 63 normal modes, developed in the group by Santoro.
翻訳日:2024-01-15 13:13:47 公開日:2023-12-02
# スマートマニュファクチャリングに力を与える産業用モノのインターネット:文献レビュー

Industrial Internet of Things Intelligence Empowering Smart Manufacturing: A Literature Review ( http://arxiv.org/abs/2312.16174v1 )

ライセンス: Link先を確認
Yujiao Hu, Qingmin Jia, Yuao Yao, Yong Lee, Mengjie Lee, Chenyi Wang, Xiaomao Zhou, Renchao Xie, F. Richard Yu(参考訳) 競争の激しいビジネス環境と、ますますパーソナライズされたカスタマイズのニーズが、デジタルトランスフォーメーションと製造業のアップグレードを推進している。 IIoTインテリジェンスは、製造バリューチェーンのさまざまな面で革新的で効率的なソリューションを提供することができ、製造業の変革の道筋を照らす。 IIoTインテリジェンスの体系的なビジョンを提供する時が来た。 しかし、既存の調査はしばしばiiotインテリジェンスの特定の領域に焦点を当てており、研究者や読者は、ある方向の研究がiiotインテリジェンスの開発にとって最も重要なものであると信じながら、他の方向からの貢献を無視している。 そこで本稿では,IIoTインテリジェンスの概要を概観する。 まず、製造転換の不可避性を詳細に分析し、中国の企業の実践から成功した経験について研究する。 次に、IIoTインテリジェンスの定義を示し、ファクテンション、オペレーション、デプロイメント、アプリケーションといった業界におけるIIoTインテリジェンスの価値を示します。 その後,5層からなるIIoTインテリジェンスのための階層型開発アーキテクチャを提案する。 各層における技術的アップグレードの実践的価値は、灯台工場をよく見てみるとわかる。 その後、製造の転換を加速する7種類の技術を特定し、その貢献を明らかにする。 最後に,オープンな課題と開発動向を4つの側面から探り,今後の研究を刺激する。

The fiercely competitive business environment and increasingly personalized customization needs are driving the digital transformation and upgrading of the manufacturing industry. IIoT intelligence, which can provide innovative and efficient solutions for various aspects of the manufacturing value chain, illuminates the path of transformation for the manufacturing industry. It is time to provide a systematic vision of IIoT intelligence. However, existing surveys often focus on specific areas of IIoT intelligence, leading researchers and readers to have biases in their understanding of IIoT intelligence, that is, believing that research in one direction is the most important for the development of IIoT intelligence, while ignoring contributions from other directions. Therefore, this paper provides a comprehensive overview of IIoT intelligence. We first conduct an in-depth analysis of the inevitability of manufacturing transformation and study the successful experiences from the practices of Chinese enterprises. Then we give our definition of IIoT intelligence and demonstrate the value of IIoT intelligence for industries in fucntions, operations, deployments, and application. Afterwards, we propose a hierarchical development architecture for IIoT intelligence, which consists of five layers. The practical values of technical upgrades at each layer are illustrated by a close look on lighthouse factories. Following that, we identify seven kinds of technologies that accelerate the transformation of manufacturing, and clarify their contributions. Finally, we explore the open challenges and development trends from four aspects to inspire future researches.
翻訳日:2024-01-15 13:05:04 公開日:2023-12-02
# 低ベイナイトおよび温間マルテンサイト鋼のSEM画像のセマンティックセグメンテーション

Semantic segmentation of SEM images of lower bainitic and tempered martensitic steels ( http://arxiv.org/abs/2312.17251v1 )

ライセンス: Link先を確認
Xiaohan Bie, Manoj Arthanari, Evelin Barbosa de Melo, Juancheng Li, Stephen Yue, Salim Brahimi, Jun Song(参考訳) 本研究は,走査型電子顕微鏡像を分割する深層学習技術を用いて,低ベイナイトおよび焼戻しマルテンサイト鋼の炭化物析出物の定量分析を行う。 セグメンテーション後、炭化物を調査し、その体積率、サイズ分布、配向を画像データセット内で調査する。 以上の結果より,低ベイナイトおよび温帯マルテンサイトは,温帯マルテンサイト中の炭化物分布がより均一であるにもかかわらず,同程度の体積比を示すことが明らかとなった。 下部ベイナイトの炭化物は、他の研究者の観察と一致して、温帯マルテンサイトよりも配位が良い傾向を示す。 しかし、両方のミクロ構造は、識別可能なパターンを欠いた炭化物配向を示す。 下部ベイナイトおよび焼成マルテンサイトにおける炭化物のアスペクト比とサイズの比較分析は類似性を示す。 深層学習モデルは、個々の画素レベルで炭化物/鉄マトリックスを分類する際に、98.0%の印象的な画素精度を達成する。 深層学習から派生したセグメンテーションは、様々な材料における二次フェーズの分析に適用性を高め、定量的ミクロ構造解析のための時間効率で汎用的なAIワークフローを提供する。

This study employs deep learning techniques to segment scanning electron microscope images, enabling a quantitative analysis of carbide precipitates in lower bainite and tempered martensite steels with comparable strength. Following segmentation, carbides are investigated, and their volume percentage, size distribution, and orientations are probed within the image dataset. Our findings reveal that lower bainite and tempered martensite exhibit comparable volume percentages of carbides, albeit with a more uniform distribution of carbides in tempered martensite. Carbides in lower bainite demonstrate a tendency for better alignment than those in tempered martensite, aligning with the observations of other researchers. However, both microstructures display a scattered carbide orientation, devoid of any discernible pattern. Comparative analysis of aspect ratios and sizes of carbides in lower bainite and tempered martensite unveils striking similarities. The deep learning model achieves an impressive pixelwise accuracy of 98.0% in classifying carbide/iron matrix at the individual pixel level. The semantic segmentation derived from deep learning extends its applicability to the analysis of secondary phases in various materials, offering a time-efficient, versatile AI-powered workflow for quantitative microstructure analysis.
翻訳日:2024-01-15 12:47:57 公開日:2023-12-02
# 局所社会的オピニオンモデルにおける北エフスピンの間接的効果とトーリックコードアニーオン励起へのアプローチ

Approach to Toric Code Anyon Excitation, Indirect Effects of Kitaev Spin in Local Social Opinion Models ( http://arxiv.org/abs/2401.05348v1 )

ライセンス: Link先を確認
Yasuko Kawahata(参考訳) 個人の意見や信念がどのように進化し、社会的コンセンサスを形成するかを研究するオピニオンダイナミクスの研究は、社会科学、物理学、数学で研究されている。 歴史的にイジングモデルのような統計物理学モデルに基づく最近の研究は、グラフ状態、安定化状態、トーリック符号といった量子情報理論の概念を統合している。 これらの量子的アプローチは、局所的相互作用のモデリング、位相的特徴を用いた耐エラー性、量子力学の適用など、意見の分極と絡み合いに関する深い洞察のための複雑な関係と相互作用を分析する新しい視点を提供する。 しかし、これらのアプリケーションは複雑さ、解釈、実証的検証の困難に直面している。 量子の概念は抽象的で、社会科学の文脈に簡単には翻訳されず、社会的意見プロセスの直接観察は量子実験と大きく異なり、理論モデルと現実の応用性の間にギャップが生じる。 その可能性にもかかわらず、オピニオン・ダイナミクスにおけるトーリック・コード・ハミルトンの実践的な使用にはさらなる探索と研究が必要である。

The study of Opinion Dynamics, which explores how individual opinions and beliefs evolve and how societal consensus is formed, has been examined across social science, physics, and mathematics. Historically based on statistical physics models like the Ising model, recent research integrates quantum information theory concepts, such as Graph States, Stabilizer States, and Toric Codes. These quantum approaches offer fresh perspectives for analyzing complex relationships and interactions in opinion formation, such as modeling local interactions, using topological features for error resistance, and applying quantum mechanics for deeper insights into opinion polarization and entanglement. However, these applications face challenges in complexity, interpretation, and empirical validation. Quantum concepts are abstract and not easily translated into social science contexts, and direct observation of social opinion processes differs significantly from quantum experiments, leading to a gap between theoretical models and real-world applicability. Despite its potential, the practical use of the Toric Code Hamiltonian in Opinion Dynamics requires further exploration and research.
翻訳日:2024-01-15 09:11:00 公開日:2023-12-02
# 探索アルゴリズムを用いたFOONからのタスクツリー検索

Task tree retrieval from FOON using search algorithms ( http://arxiv.org/abs/2401.05346v1 )

ライセンス: Link先を確認
Amitha Attapu(参考訳) ロボットはタスクの自動化や人的労力の削減に非常に有用である。 しかし、ロボットがタスクの実行方法を知るためには、それに従うための明確なステップセットを与える必要があります。 あらゆるタスクの指示をロボットに提供することはほぼ不可能である。 そこで我々は,既存のレシピ情報 [1] を多数備えた,Universal Functional Object-oriented Network (FOON) を構築して拡張した。 しかし、ロボットが実行するタスクは複雑であり、同様に、人間が実行するタスクも複雑である。 したがって、ロボットが動きを成功させる可能性を表すために、機能ユニットに重みが加えられた [2]。 キッチンアイテムとゴールノードのセットが与えられた場合、ユニバーサルフォオンを使用して、ロボットは、必要なアイテムがキッチンに存在しているかどうかを判断できなければならず、もしそうなら、必要なキッチンアイテムをゴールノードに変換するステップを取得する必要がある。 本稿では,2つのアルゴリズム(idsとgbfs)を用いて,目標ノードのタスクツリー(可能であれば)とキッチンアイテムのセットを取得する。 第2節 フォオンの作成、そこではフォオンに関連する用語とフォオンの可視化について論じる。 第III節では、IDSとGBFSの探索アルゴリズムと、GBFSで実装され使用されている2つの異なるヒューリスティックについて論じる。 第4節では,異なるアルゴリズムの性能を比較した。 最終節 V では、引用された論文の参照を指定する。

Robots can be very useful to automate tasks and reduce the human effort required. But for the robot to know, how to perform tasks, we need to give it a clear set of steps to follow. It is nearly impossible to provide a robot with instructions for every possible task. Therefore we have a Universal Functional object-oriented network (FOON) which was created and expanded and has a lot of existing recipe information [1]. But certain tasks are complicated for robots to perform and similarly, some tasks are complicated for humans to perform. Therefore weights have been added to functional units to represent the chance of successful execution of the motion by the robot [2]. Given a set of kitchen items and a goal node, using Universal FOON, a robot must be able to determine if the required items are present in the kitchen, and if yes, get the steps to convert the required kitchen items to the goal node. Now through this paper, we use two algorithms (IDS and GBFS) to retrieve a task tree (if possible) for a goal node and a given set of kitchen items. The following would be the different parts of the paper: Section II FOON creation, where we will discuss the different terminologies related to FOON and visualization of FOON. In Section III Methodology we discuss the IDS and GBFS search algorithms and the two different heuristics implemented and used in GBFS. In Section IV Experiment/Discussion, we compare the performance of different algorithms. In the final section V, we specify the references of the papers that have been cited.
翻訳日:2024-01-15 09:10:41 公開日:2023-12-02
# 数学文書の英語からアラビア語への機械翻訳

English to Arabic machine translation of mathematical documents ( http://arxiv.org/abs/2312.03753v1 )

ライセンス: Link先を確認
Mustapha Eddahibi and Mohammed Mensouri(参考訳) 本稿では,LATEXの数学的文書に特化された機械翻訳システムの開発について述べる。 このシステムは、英語のLATEX数学的文書をアラビア語のLATEXに翻訳することに焦点を当てており、科学と数学の文学における多言語アクセシビリティの需要が高まっている。 LATEXの数学的文書の急増に伴い、効率的かつ正確な翻訳システムの必要性が高まっている。 本稿では,言語障壁を越えた複雑な数学的内容のシームレスなコミュニケーションと理解を可能にする,堅牢な翻訳ツールの必要性に対処する。 提案システムはトランスフォーマーモデルを翻訳システムのコアとして活用し,アラビア語のLATEX文書の精度と流布度を向上させる。 さらに、アラビア語の数学的tex拡張であるrydarabと、アラビア語の数学的表現の規則に基づくトランスレータの統合は、翻訳出力における複雑な数学的記号と方程式の正確なレンダリングに寄与する。 本論文は, 開発システムのアーキテクチャ, 方法論について論じ, 数学的文書の領域における言語ギャップを埋めることの有効性を強調した。

This paper is about the development of a machine translation system tailored specifically for LATEX mathematical documents. The system focuses on translating English LATEX mathematical documents into Arabic LATEX, catering to the growing demand for multilingual accessibility in scientific and mathematical literature. With the vast proliferation of LATEX mathematical documents the need for an efficient and accurate translation system has become increasingly essential. This paper addresses the necessity for a robust translation tool that enables seamless communication and comprehension of complex mathematical content across language barriers. The proposed system leverages a Transformer model as the core of the translation system, ensuring enhanced accuracy and fluency in the translated Arabic LATEX documents. Furthermore, the integration of RyDArab, an Arabic mathematical TEX extension, along with a rule-based translator for Arabic mathematical expressions, contributes to the precise rendering of complex mathematical symbols and equations in the translated output. The paper discusses the architecture, methodology, of the developed system, highlighting its efficacy in bridging the language gap in the domain of mathematical documentation
翻訳日:2023-12-11 02:58:39 公開日:2023-12-02
# ハイブリッドニューラルネットワークを用いた学生理科文章の自動スコアリング

Automatic Scoring of Students' Science Writing Using Hybrid Neural Network ( http://arxiv.org/abs/2312.03752v1 )

ライセンス: Link先を確認
Ehsan Latif and Xiaoming Zhai(参考訳) 本研究では,マルチパースペクティブハイブリッドニューラルネットワーク(hnn)を用いて,理科教育における学生の反応を解析的に評価する。 HNNモデルの精度を4つのMLアプローチ(BERT, AACR, Naive Bayes, Logistic Regression)と比較した。 その結果,HHNは5つのスコア(p<0.001)において,Naive Bayes,Logistic Regression,AACR,BERTよりも8%,3%,1%,0.12%高い精度を示した。 HNNの全体的な精度(M = 96.23%、SD = 1.45%)は、高価なBERTモデルの精度(M = 96.12%、SD = 1.52%)に匹敵する。 また、HNNはBERTよりも訓練や推論の効率が良く、軽量だが精度の低いNaive Bayesモデルに匹敵する効率であることも見てきた。 本研究は,HNNを用いて学生の理科文章を自動評価することの正確さと効率性を確認した。

This study explores the efficacy of a multi-perspective hybrid neural network (HNN) for scoring student responses in science education with an analytic rubric. We compared the accuracy of the HNN model with four ML approaches (BERT, AACR, Naive Bayes, and Logistic Regression). The results have shown that HHN achieved 8%, 3%, 1%, and 0.12% higher accuracy than Naive Bayes, Logistic Regression, AACR, and BERT, respectively, for five scoring aspects (p<0.001). The overall HNN's perceived accuracy (M = 96.23%, SD = 1.45%) is comparable to the (training and inference) expensive BERT model's accuracy (M = 96.12%, SD = 1.52%). We also have observed that HNN is x2 more efficient in training and inferencing than BERT and has comparable efficiency to the lightweight but less accurate Naive Bayes model. Our study confirmed the accuracy and efficiency of using HNN to score students' science writing automatically.
翻訳日:2023-12-11 02:58:20 公開日:2023-12-02
# 偽ニュースに落ちてしまう言語的手がかりは? 認知的・情緒的処理の比較

Which linguistic cues make people fall for fake news? A comparison of cognitive and affective processing ( http://arxiv.org/abs/2312.03751v1 )

ライセンス: Link先を確認
Bernhard Lutz, Marc Adam, Stefan Feuerriegel, Nicolas Pr\"ollochs, Dirk Neumann(参考訳) ソーシャルメディア上の偽ニュースは、社会に大きなネガティブな意味を持つ。 しかし、どんな言語的手がかりが偽ニュースに陥れるのか、それゆえソーシャルメディアの効果的な対策をどのように設計するかは、ほとんど知られていない。 本研究では,人々が偽ニュースに陥る言語的手がかりを理解することを目的とする。 言語的手がかり(例えば、副詞、個人代名詞、肯定的な感情語、否定的な感情語)は、あらゆるテキストの重要な特徴であり、実際のニュースと偽ニュースの処理方法にも影響を及ぼす。 具体的には,認知的処理(注意的思考)と情緒的処理(無意識的自動評価)における言語的手がかりの役割を比較した。 そこで本研究では,42名の被験者の神経生理学的測定を収集し,実際のニュース記事と偽ニュース記事のサンプルを読み取る実験を行った。 実験中,眼球固定による認知的処理と心拍変動による情動的処理を計測した。 利用者はより長いフェイクニュース記事の認知処理に取り組んでおり、感情処理は分析語で書かれたフェイクニュースに対してより顕著である。 私たちの知る限りでは、これは偽ニュース処理における言語的手がかりの役割を研究する最初の仕事です。 いずれにせよ、われわれの発見は、ユーザーが慎重に考えることを奨励し、フェイクニュースを流すのを防ぐオンラインプラットフォームをデザインする上で重要な意味を持っている。

Fake news on social media has large, negative implications for society. However, little is known about what linguistic cues make people fall for fake news and, hence, how to design effective countermeasures for social media. In this study, we seek to understand which linguistic cues make people fall for fake news. Linguistic cues (e.g., adverbs, personal pronouns, positive emotion words, negative emotion words) are important characteristics of any text and also affect how people process real vs. fake news. Specifically, we compare the role of linguistic cues across both cognitive processing (related to careful thinking) and affective processing (related to unconscious automatic evaluations). To this end, we performed a within-subject experiment where we collected neurophysiological measurements of 42 subjects while these read a sample of 40 real and fake news articles. During our experiment, we measured cognitive processing through eye fixations, and affective processing in situ through heart rate variability. We find that users engage more in cognitive processing for longer fake news articles, while affective processing is more pronounced for fake news written in analytic words. To the best of our knowledge, this is the first work studying the role of linguistic cues in fake news processing. Altogether, our findings have important implications for designing online platforms that encourage users to engage in careful thinking and thus prevent them from falling for fake news.
翻訳日:2023-12-11 02:57:58 公開日:2023-12-02
# アテンションリフォーカスによる接地テキスト・画像合成

Grounded Text-to-Image Synthesis with Attention Refocusing ( http://arxiv.org/abs/2306.05427v2 )

ライセンス: Link先を確認
Quynh Phung, Songwei Ge, Jia-Bin Huang(参考訳) 大規模データセットでトレーニングされたスケーラブルな拡散モデルによって、テキストから画像への合成手法が説得力のある結果を示している。 しかし、これらのモデルは、複数のオブジェクト、属性、空間構成を含むテキストプロンプトを正確に従わない。 本稿では拡散モデルのクロスアテンション層と自己アテンション層の潜在的な原因を明らかにする。 サンプリング中の空間配置に応じて注意度マップを再フォーカスする2つの新しい損失を提案する。 レイアウトを手動で作成するには追加の労力が必要です。 そこで我々は,大規模言語モデル (LLM) を用いてこれらのレイアウトを生成する。 提案手法を評価するため,DrawBench,HRS,TIFAベンチマークについて広範な実験を行った。 提案手法は,既存のアプローチの制御性が効果的に向上することを示す。

Driven by the scalable diffusion models trained on large-scale datasets, text-to-image synthesis methods have shown compelling results. However, these models still fail to precisely follow the text prompt involving multiple objects, attributes, or spatial compositions. In this paper, we reveal the potential causes in the diffusion model's cross-attention and self-attention layers. We propose two novel losses to refocus attention maps according to a given spatial layout during sampling. Creating the layouts manually requires additional effort and can be tedious. Therefore, we explore using large language models (LLM) to produce these layouts for our method. We conduct extensive experiments on the DrawBench, HRS, and TIFA benchmarks to evaluate our proposed method. We show that our proposed attention refocusing effectively improves the controllability of existing approaches.
翻訳日:2023-12-06 19:53:34 公開日:2023-12-02
# rmt: 注意ネットワークが視覚トランスフォーマーに対応

RMT: Retentive Networks Meet Vision Transformers ( http://arxiv.org/abs/2309.11523v5 )

ライセンス: Link先を確認
Qihang Fan, Huaibo Huang, Mingrui Chen, Hongmin Liu and Ran He(参考訳) 近年,ビジョントランスフォーマー (ViT) がコンピュータビジョンコミュニティで注目を集めている。 しかし、ViTのコアコンポーネントであるSelf-Attentionは、空間的先行性に欠け、二次計算の複雑さを伴い、ViTの適用性を制限している。 これらの問題を緩和するため、最近のNLP分野におけるRetentive Network(RetNet)からインスピレーションを得て、一般的な目的に先立って空間を明示した強力な視覚バックボーンであるRTTを提案する。 具体的には、RetNetの時間的減衰機構を空間領域に拡張し、マンハッタン距離に基づく空間的減衰行列を提案し、自己注意の前に明示的な空間を導入する。 また,空間崩壊行列を乱すことなく,大域的な情報モデリングの計算負担を軽減することを目的とした,空間先行に順応的に適応する注意分解形式を提案する。 空間減衰行列とアテンション分解形式に基づいて,視覚バックボーンに有意な空間事前を線形複雑度で柔軟に統合することができる。 広汎な実験により、RTTは様々な視覚課題において例外的な性能を示した。 具体的には、追加のトレーニングデータなしでは、**84.8%***86.1%*****27M/4.5GFLOPs**および**96M/18.2GFLOPs**のImageNet-1k上で***86.1%**を達成できる。 下流タスクでは、COCO検出タスクでは**54.5*ボックスAPと**47.2*マスクAP、ADE20Kセマンティックセグメンテーションタスクでは**52.8*mIoUを達成する。 コードはhttps://github.com/qhfan/RMTで入手できる。

Vision Transformer (ViT) has gained increasing attention in the computer vision community in recent years. However, the core component of ViT, Self-Attention, lacks explicit spatial priors and bears a quadratic computational complexity, thereby constraining the applicability of ViT. To alleviate these issues, we draw inspiration from the recent Retentive Network (RetNet) in the field of NLP, and propose RMT, a strong vision backbone with explicit spatial prior for general purposes. Specifically, we extend the RetNet's temporal decay mechanism to the spatial domain, and propose a spatial decay matrix based on the Manhattan distance to introduce the explicit spatial prior to Self-Attention. Additionally, an attention decomposition form that adeptly adapts to explicit spatial prior is proposed, aiming to reduce the computational burden of modeling global information without disrupting the spatial decay matrix. Based on the spatial decay matrix and the attention decomposition form, we can flexibly integrate explicit spatial prior into the vision backbone with linear complexity. Extensive experiments demonstrate that RMT exhibits exceptional performance across various vision tasks. Specifically, without extra training data, RMT achieves **84.8%** and **86.1%** top-1 acc on ImageNet-1k with **27M/4.5GFLOPs** and **96M/18.2GFLOPs**. For downstream tasks, RMT achieves **54.5** box AP and **47.2** mask AP on the COCO detection task, and **52.8** mIoU on the ADE20K semantic segmentation task. Code is available at https://github.com/qhfan/RMT
翻訳日:2023-12-06 19:33:04 公開日:2023-12-02
# AutoDIR: 遅延拡散によるオールインワン画像の自動復元

AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion ( http://arxiv.org/abs/2310.10123v4 )

ライセンス: Link先を確認
Yitong Jiang, Zhaoyang Zhang, Tianfan Xue and Jinwei Gu(参考訳) 本稿では,ある画像が未知の劣化を生じさせる複雑な実世界の画像復元状況を解決することを目的とする。 そこで本研究では,複数の未知の劣化を自動的に検出し対処できる,潜在拡散(autodir)を備えたオールインワン画像復元フレームワークを提案する。 まず,ブラインド画像品質評価モジュール(biqa)を用いて,画像の未知の支配的画像劣化型の自動検出と同定を行う。 次に、オールインワンイメージリファインメント(AIR)モジュールは、BIQAのガイダンスにより、複数の種類の劣化画像復元を処理する。 最後に,AIRで歪んだ画像の復元のために,SCM(Structure Correction Module)を提案する。 総合的な評価から,autodirはより広い範囲のタスクをサポートしながら,優れた修復結果を達成し,最先端のアプローチに勝ることが示された。 特にAutoDIRは、複数の未知の劣化を伴う実シナリオイメージを自動的に処理する最初の方法でもある。

In this paper, we aim to solve complex real-world image restoration situations, in which, one image may have a variety of unknown degradations. To this end, we propose an all-in-one image restoration framework with latent diffusion (AutoDIR), which can automatically detect and address multiple unknown degradations. Our framework first utilizes a Blind Image Quality Assessment Module (BIQA) to automatically detect and identify the unknown dominant image degradation type of the image. Then, an All-in-One Image Refinement (AIR) Module handles multiple kinds of degradation image restoration with the guidance of BIQA. Finally, a Structure Correction Module (SCM) is proposed to recover the image details distorted by AIR. Our comprehensive evaluation demonstrates that AutoDIR outperforms state-of-the-art approaches by achieving superior restoration results while supporting a wider range of tasks. Notably, AutoDIR is also the first method to automatically handle real-scenario images with multiple unknown degradations.
翻訳日:2023-12-06 19:21:43 公開日:2023-12-02
# CoSeR:認知的超解法のための画像と言語

CoSeR: Bridging Image and Language for Cognitive Super-Resolution ( http://arxiv.org/abs/2311.16512v3 )

ライセンス: Link先を確認
Haoze Sun, Wenbo Li, Jianzhuang Liu, Haoyu Chen, Renjing Pei, Xueyi Zou, Youliang Yan, Yujiu Yang(参考訳) 既存の超解像モデル(SR)は主に局所的なテクスチャの詳細の復元に焦点を当てており、しばしばシーン内のグローバルな意味情報を無視する。 この見落としは、重要な意味的詳細の欠落や、回復プロセス中に不正確なテクスチャの導入につながる可能性がある。 本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。 我々は、画像の外観と言語理解を結合して認知埋め込みを生成することで、大きなテキスト・画像拡散モデルから事前情報を活性化するだけでなく、高品質な参照画像を生成することでSRプロセスの最適化を実現する。 画像の忠実度をより高めるために,全ての条件情報を単一のモジュールに統合する"All-in-Attention"と呼ばれる新しい条件注入方式を提案する。 その結果,本手法は意味論的・フォトリアリスティックな詳細を復元し,複数のベンチマークで最先端の性能を実証することに成功した。 コード:https://github.com/VINHYU/CoSeR

Existing super-resolution (SR) models primarily focus on restoring local texture details, often neglecting the global semantic information within the scene. This oversight can lead to the omission of crucial semantic details or the introduction of inaccurate textures during the recovery process. In our work, we introduce the Cognitive Super-Resolution (CoSeR) framework, empowering SR models with the capacity to comprehend low-resolution images. We achieve this by marrying image appearance and language understanding to generate a cognitive embedding, which not only activates prior information from large text-to-image diffusion models but also facilitates the generation of high-quality reference images to optimize the SR process. To further improve image fidelity, we propose a novel condition injection scheme called "All-in-Attention", consolidating all conditional information into a single module. Consequently, our method successfully restores semantically correct and photorealistic details, demonstrating state-of-the-art performance across multiple benchmarks. Code: https://github.com/VINHYU/CoSeR
翻訳日:2023-12-06 18:47:46 公開日:2023-12-02
# fisheyevit と diffusion-based motionfine を用いたエゴセントリック全身運動キャプチャ

Egocentric Whole-Body Motion Capture with FisheyeViT and Diffusion-Based Motion Refinement ( http://arxiv.org/abs/2311.16495v2 )

ライセンス: Link先を確認
Jian Wang, Zhe Cao, Diogo Luvizon, Lingjie Liu, Kripasindhu Sarkar, Danhang Tang, Thabo Beeler, Christian Theobalt(参考訳) 本研究では,人体と手の動きを同時に推定する単一魚眼カメラを用いて,自我中心型全体モーションキャプチャーを探索する。 このタスクは、高品質なデータセットの欠如、魚眼カメラの歪み、人体の自己隔離という3つの要因によって重大な課題を提起する。 これらの課題に対処するために,fisheyevitを用いて魚眼画像の特徴を抽出し,その特徴を3次元人体ポーズ予測のための3次元ヒートマップ表現に変換する新しい手法を提案する。 ハンドトラッキングには, 3次元ハンドポーズの回帰のためのハンド検出とハンドポーズ推定ネットワークが組み込まれている。 最後に, 拡散に基づく全身運動先行モデルを開発し, 共同不確かさを考慮しつつ, 推定全身運動を洗練する。 これらのネットワークをトレーニングするために、我々は、さまざまな全身動作シーケンスでキャプチャされた84万の高品質なエゴセントリック画像からなる、egowholebodyという大規模な合成データセットを収集した。 定量的,定性的な評価は,単焦点カメラを用いた高品質な全身運動推定法の有効性を示す。

In this work, we explore egocentric whole-body motion capture using a single fisheye camera, which simultaneously estimates human body and hand motion. This task presents significant challenges due to three factors: the lack of high-quality datasets, fisheye camera distortion, and human body self-occlusion. To address these challenges, we propose a novel approach that leverages FisheyeViT to extract fisheye image features, which are subsequently converted into pixel-aligned 3D heatmap representations for 3D human body pose prediction. For hand tracking, we incorporate dedicated hand detection and hand pose estimation networks for regressing 3D hand poses. Finally, we develop a diffusion-based whole-body motion prior model to refine the estimated whole-body motion while accounting for joint uncertainties. To train these networks, we collect a large synthetic dataset, EgoWholeBody, comprising 840,000 high-quality egocentric images captured across a diverse range of whole-body motion sequences. Quantitative and qualitative evaluations demonstrate the effectiveness of our method in producing high-quality whole-body motion estimates from a single egocentric camera.
翻訳日:2023-12-06 18:47:26 公開日:2023-12-02
# Baked Quadrature Fields を用いたボリュームレンダリング

Volumetric Rendering with Baked Quadrature Fields ( http://arxiv.org/abs/2312.02202v1 )

ライセンス: Link先を確認
Gopal Sharma, Daniel Rebain, Kwang Moo Yi, Andrea Tagliasacchi(参考訳) テクスチャ化された多角形を利用して高速な推論が可能な非透明シーンのための新しいニューラルラジアンス場(NeRF)表現を提案する。 NeRFが提供する高品質な新しいビューレンダリングにもかかわらず、重要な制限は、計算コストが高く、最新のグラフィックスハードウェアの進歩を利用できないボリュームレンダリングに依存することである。 この問題に対する既存の手法は、純粋に表面レンダリングに依存するボリューム効果のモデル化に関しては不足している。 そこで我々は,このシーンをポリゴンでモデル化し,体積効果のモデル化に必要な二次点と,その不透明度と色をテクスチャから得ることを提案する。 このような多角メッシュを得るために、ボリュームレンダリング時にゼロクロスが二次点に対応する特殊フィールドを訓練し、このフィールド上でマーチングキューブを実行する。 そして、ポリゴンをラスタ化し、フラグメントシェーダを用いて最終的なカラー画像を得る。 ボリュームレンダリングの利点を生かしながら、様々なデバイスでのレンダリングと既存のグラフィックスフレームワークとの統合を容易に行うことができる。

We propose a novel Neural Radiance Field (NeRF) representation for non-opaque scenes that allows fast inference by utilizing textured polygons. Despite the high-quality novel view rendering that NeRF provides, a critical limitation is that it relies on volume rendering that can be computationally expensive and does not utilize the advancements in modern graphics hardware. Existing methods for this problem fall short when it comes to modelling volumetric effects as they rely purely on surface rendering. We thus propose to model the scene with polygons, which can then be used to obtain the quadrature points required to model volumetric effects, and also their opacity and colour from the texture. To obtain such polygonal mesh, we train a specialized field whose zero-crossings would correspond to the quadrature points when volume rendering, and perform marching cubes on this field. We then rasterize the polygons and utilize the fragment shaders to obtain the final colour image. Our method allows rendering on various devices and easy integration with existing graphics frameworks while keeping the benefits of volume rendering alive.
翻訳日:2023-12-06 18:37:05 公開日:2023-12-02
# ImageDream:3D生成のための画像プロンプト多視点拡散

ImageDream: Image-Prompt Multi-view Diffusion for 3D Generation ( http://arxiv.org/abs/2312.02201v1 )

ライセンス: Link先を確認
Peng Wang and Yichun Shi(参考訳) 3dオブジェクト生成のための革新的な画像プロンプトマルチビュー拡散モデル「imagedream」を提案する。 imagedreamは、既存の最先端のイメージコンディション方式と比較して、高品質の3dモデルを作る能力で際立っている。 提案手法では,画像中の物体に対する標準カメラ調整を利用して,視覚的幾何学的精度を向上する。 このモデルは、入力画像に基づいて拡散モデル内の各ブロックにおける様々なレベルの制御で設計されており、グローバル制御は全体のオブジェクトレイアウトを形作り、局所制御は画像の詳細を微調整する。 ImageDreamの有効性は、標準プロンプトリストを用いて広範囲な評価によって実証される。 詳細については、https://Image-Dream.github.io.comのプロジェクトページを参照してほしい。

We introduce "ImageDream," an innovative image-prompt, multi-view diffusion model for 3D object generation. ImageDream stands out for its ability to produce 3D models of higher quality compared to existing state-of-the-art, image-conditioned methods. Our approach utilizes a canonical camera coordination for the objects in images, improving visual geometry accuracy. The model is designed with various levels of control at each block inside the diffusion model based on the input image, where global control shapes the overall object layout and local control fine-tunes the image details. The effectiveness of ImageDream is demonstrated through extensive evaluations using a standard prompt list. For more information, visit our project page at https://Image-Dream.github.io.
翻訳日:2023-12-06 18:36:47 公開日:2023-12-02
# 実世界ビジョンデータセットにおけるミスラベルの自動検出に関する実証的研究

An Empirical Study of Automated Mislabel Detection in Real World Vision Datasets ( http://arxiv.org/abs/2312.02200v1 )

ライセンス: Link先を確認
Maya Srikanth, Jeremy Irvin, Brian Wesley Hill, Felipe Godoy, Ishan Sabane, Andrew Y. Ng(参考訳) コンピュータビジョンの大きな進歩は主にラベル付きデータセットの使用によるものである。 しかし、データセットのラベルを取得すると、しばしばモデルのパフォーマンスを損なうようなエラーが発生する。 近年, 誤ラベル画像を自動的に識別する手法が提案されているが, 実世界のデータセットに効果的に実装する手法の開発は少ない。 実世界の視覚データセットのクリーニングのためのデータセントリックな方法の改善に向けて,我々はまず200以上の実験を注意深く実施し,ノイズレベルが異なる様々な合成音と実音環境下で,最近開発された複数のデータセットにおけるミスラベルの自動検出手法を注意深くベンチマークした。 これらの手法を,我々が開発する簡易かつ効率的なミスラベル検出器 (semd) と比較し,semdが先行するミスラベル検出手法に類似し,より優れることを示す。 次に、SEMDを複数の実世界のコンピュータビジョンデータセットに適用し、データセットのサイズ、ラベルの削除戦略、ラベルの削除量が、クリーンデータの再トレーニング後のモデルパフォーマンスにどのように影響するかをテストする。 提案手法の注意深い設計により,より小規模なデータ構造において,クラス毎のパフォーマンスが最大8%向上することがわかった。

Major advancements in computer vision can primarily be attributed to the use of labeled datasets. However, acquiring labels for datasets often results in errors which can harm model performance. Recent works have proposed methods to automatically identify mislabeled images, but developing strategies to effectively implement them in real world datasets has been sparsely explored. Towards improved data-centric methods for cleaning real world vision datasets, we first conduct more than 200 experiments carefully benchmarking recently developed automated mislabel detection methods on multiple datasets under a variety of synthetic and real noise settings with varying noise levels. We compare these methods to a Simple and Efficient Mislabel Detector (SEMD) that we craft, and find that SEMD performs similarly to or outperforms prior mislabel detection approaches. We then apply SEMD to multiple real world computer vision datasets and test how dataset size, mislabel removal strategy, and mislabel removal amount further affect model performance after retraining on the cleaned data. With careful design of the approach, we find that mislabel removal leads per-class performance improvements of up to 8% of a retrained classifier in smaller data regimes.
翻訳日:2023-12-06 18:36:34 公開日:2023-12-02
# USat: マルチセンサー衛星画像のための統合されたセルフスーパービジョンエンコーダ

USat: A Unified Self-Supervised Encoder for Multi-Sensor Satellite Imagery ( http://arxiv.org/abs/2312.02199v1 )

ライセンス: Link先を確認
Jeremy Irvin, Lucas Tao, Joanne Zhou, Yuntao Ma, Langston Nashold, Benjamin Liu, Andrew Y. Ng(参考訳) 大きな自己教師付きビジョンモデルによって、自然画像の自動解釈が大幅に進歩した。 近年,マルチセンサ,マルチスペクトル,時間情報を備えた遠隔センシングデータに対して,自己教師付き事前学習に使用できる大量の自己ラベルデータを提供する手法が整備されている。 本研究では,複数のセンサからマルチスペクトルデータを入力し,自己教師付き事前学習を行う,usatと呼ばれる新しいエンコーダアーキテクチャを開発した。 USatは、複数のセンサーから様々な空間スケールのスペクトルバンドをモデル化するためのパッチプロジェクション層と位置符号化を改良したビジョントランスフォーマーである。 われわれは、USatをMasked Autoencoder(MAE)の自己教師付き事前トレーニング手順に統合し、複数のリモートセンシングベンチマークデータセット(最大8%)でリモートセンシングデータに基づいてトレーニングされた最先端の自己教師型MAEモデルよりも優れており、低データ構造の改善(最大7%)につながることを発見した。 コードとトレーニング済みのウェイトは、https://github.com/stanfordmlgroup/usat.comから利用できる。

Large, self-supervised vision models have led to substantial advancements for automatically interpreting natural images. Recent works have begun tailoring these methods to remote sensing data which has rich structure with multi-sensor, multi-spectral, and temporal information providing massive amounts of self-labeled data that can be used for self-supervised pre-training. In this work, we develop a new encoder architecture called USat that can input multi-spectral data from multiple sensors for self-supervised pre-training. USat is a vision transformer with modified patch projection layers and positional encodings to model spectral bands with varying spatial scales from multiple sensors. We integrate USat into a Masked Autoencoder (MAE) self-supervised pre-training procedure and find that a pre-trained USat outperforms state-of-the-art self-supervised MAE models trained on remote sensing data on multiple remote sensing benchmark datasets (up to 8%) and leads to improvements in low data regimes (up to 7%). Code and pre-trained weights are available at https://github.com/stanfordmlgroup/USat .
翻訳日:2023-12-06 18:36:14 公開日:2023-12-02
# オールインワン画像復元のための拡散前処理

Exploiting Diffusion Priors for All-in-One Image Restoration ( http://arxiv.org/abs/2312.02197v1 )

ライセンス: Link先を確認
Yuanbiao Gou and Haiyu Zhao and Boyun Li and Xinyan Xiao and Xi Peng(参考訳) All-in-oneは、画像復元の様々な課題を単一のモデルで解決することを目的としている。 そこで本研究では,事前訓練した拡散モデルにより得られた画像の先行画像を利用して,劣化モデリングと拡散誘導という2つの課題に対処する方法を提案する。 前者は劣化によって生じるクリーン画像の過程をシミュレートすることを目的としており、後者は拡散モデルを導いて対応するクリーン画像を生成することを目的としている。 そこで本研究では,ゼロエアと呼ばれるオールインワン画像復元のためのゼロショットフレームワークを提案し,逆サンプリングの各時間ステップでテスト時間分解モデル (tdm) と3段階拡散誘導 (tdg) を交互に実行する。 具体的には、TDMは拡散先行を利用して所定の劣化画像から劣化モデルを学び、TDGは時間ステップを3段階に分けて、様々な拡散先行をフルに活用する。 劣化に依存しない性質のおかげで、オールインワンの画像復元はゼロショットで達成できる。 広範な実験を通して、ZeroAIRはタスク固有のメソッドよりもパフォーマンスが優れていることを示す。 コードはgithubで入手できる。

All-in-one aims to solve various tasks of image restoration in a single model. To this end, we present a feasible way of exploiting the image priors captured by the pretrained diffusion model, through addressing the two challenges, i.e., degradation modeling and diffusion guidance. The former aims to simulate the process of the clean image degenerated by certain degradations, and the latter aims at guiding the diffusion model to generate the corresponding clean image. With the motivations, we propose a zero-shot framework for all-in-one image restoration, termed ZeroAIR, which alternatively performs the test-time degradation modeling (TDM) and the three-stage diffusion guidance (TDG) at each timestep of the reverse sampling. To be specific, TDM exploits the diffusion priors to learn a degradation model from a given degraded image, and TDG divides the timesteps into three stages for taking full advantage of the varying diffusion priors. Thanks to their degradation-agnostic property, the all-in-one image restoration could be achieved in a zero-shot way by ZeroAIR. Through extensive experiments, we show that our ZeroAIR achieves comparable even better performance than those task-specific methods. The code will be available on Github.
翻訳日:2023-12-06 18:35:52 公開日:2023-12-02
# Dynamic Inertial Poser (DynaIP): スパース慣性センサを用いた人物姿勢推定のためのパートベースモーションダイナミクス学習

Dynamic Inertial Poser (DynaIP): Part-Based Motion Dynamics Learning for Enhanced Human Pose Estimation with Sparse Inertial Sensors ( http://arxiv.org/abs/2312.02196v1 )

ライセンス: Link先を確認
Yu Zhang, Songpengcheng Xia, Lei Chu, Jiarui Yang, Qi Wu, Ling Pei(参考訳) 本稿では,従来の合成データに依存する手法の欠点に対処するため,スパース慣性センサを用いた新しいポーズ推定手法を提案する。 様々なスケルトンフォーマットの実際の慣性モーションキャプチャデータを活用して、動きの多様性とモデルの一般化を改善している。 この方法は、慣性センサを用いた動的モーションキャプチャのための擬似速度回帰モデルと、身体とセンサデータを3つの領域に分割する部分ベースモデルという2つの革新的なコンポーネントを特徴としている。 このアプローチは、5つの公開データセットにわたる最先端モデルよりも優れたパフォーマンスを示し、特にDIP-IMUデータセットにおけるポーズエラーを19倍削減し、慣性センサーに基づく人間のポーズ推定を大幅に改善したことを示す。 当社のモデルの実装を一般向けに公開します。

This paper introduces a novel human pose estimation approach using sparse inertial sensors, addressing the shortcomings of previous methods reliant on synthetic data. It leverages a diverse array of real inertial motion capture data from different skeleton formats to improve motion diversity and model generalization. This method features two innovative components: a pseudo-velocity regression model for dynamic motion capture with inertial sensors, and a part-based model dividing the body and sensor data into three regions, each focusing on their unique characteristics. The approach demonstrates superior performance over state-of-the-art models across five public datasets, notably reducing pose error by 19\% on the DIP-IMU dataset, thus representing a significant improvement in inertial sensor-based human pose estimation. We will make the implementation of our model available for public use.
翻訳日:2023-12-06 18:35:33 公開日:2023-12-02
# マルチオミクスデータの相互・内部関係の統合による癌サブタイプ同定

Cancer Subtype Identification through Integrating Inter and Intra Dataset Relationships in Multi-Omics Data ( http://arxiv.org/abs/2312.02195v1 )

ライセンス: Link先を確認
Mark Peelen, Leila Bagheriye, and Johan Kwisthout(参考訳) マルチオミクスデータの統合は、がんなどの複雑な疾患に対する総合的な洞察を得るための有望なアプローチとして現れてきた。 本稿では,クラスタリングのためのマルチオミクスデータの統合による癌サブタイプ同定手法を提案する。 提案手法は,異なるオミクスデータセット(Linear InterとIntra Dataset Affinity Fusion (LIDAF))間の線形関係に基づいてアフィニティ行列を利用する。 標準相関解析は、標準変数間のユークリッド距離に基づく距離行列を作成するために用いられる。 距離行列は親和性行列に変換され、3段階のプロセスで融合される。 提案したLIDAFは,適応ランダム指数と正規化相互情報スコアによって測定されたクラスタリング性能の向上をもたらす既存手法の限界に対処する。 さらに, lidaf法では, cox生存率分析から得られたlog10ランクp値の50%が, 優れた評価手法の性能を上回り, 特異な癌サブタイプを同定する可能性を強調した。

The integration of multi-omics data has emerged as a promising approach for gaining comprehensive insights into complex diseases such as cancer. This paper proposes a novel approach to identify cancer subtypes through the integration of multi-omics data for clustering. The proposed method, named LIDAF utilises affinity matrices based on linear relationships between and within different omics datasets (Linear Inter and Intra Dataset Affinity Fusion (LIDAF)). Canonical Correlation Analysis is in this paper employed to create distance matrices based on Euclidean distances between canonical variates. The distance matrices are converted to affinity matrices and those are fused in a three-step process. The proposed LIDAF addresses the limitations of the existing method resulting in improvement of clustering performance as measured by the Adjusted Rand Index and the Normalized Mutual Information score. Moreover, our proposed LIDAF approach demonstrates a notable enhancement in 50% of the log10 rank p-values obtained from Cox survival analysis, surpassing the performance of the best reported method, highlighting its potential of identifying distinct cancer subtypes.
翻訳日:2023-12-06 18:35:16 公開日:2023-12-02
# プログレッシブ凍結 - 自己監督型学習のための効率的な視覚変換器の開発

Local Masking Meets Progressive Freezing: Crafting Efficient Vision Transformers for Self-Supervised Learning ( http://arxiv.org/abs/2312.02194v1 )

ライセンス: Link先を確認
Utku Mert Topcuoglu, Erdem Akag\"und\"uz(参考訳) 本稿では,視覚変換器(ViT)の自己教師型学習に革新的なアプローチを提案し,局所マスク画像モデリングとプログレッシブ層凍結を統合した。 本手法はvitsにおける初期層トレーニングの効率と高速化に重点を置いている。 訓練中に特定の層を戦略的に凍結することにより、学習能力を維持したり改善したりしながら、計算要求を減らすことができる。 提案手法では,初期層における学習の効率化と,規模を越えた意味理解の向上を図った。 その結果、トレーニング時間(~12.5\%)が大幅に減少し、モデルの精度が最小限に抑えられた(トップ1の精度は0.6\%)。 本手法は, 計算資源と時間に重要なシナリオにおいて, それぞれ82.6\%, 96.2\%のTop-1およびTop-5の精度を実現する。 この研究は、コンピュータビジョンのための自己教師型学習の分野における進歩を示す。 このアプローチの実装は、プロジェクトのGitHubリポジトリ、github.com/utkutpcgl/ViTFreezeで利用可能です。

In this paper, we present an innovative approach to self-supervised learning for Vision Transformers (ViTs), integrating local masked image modeling with progressive layer freezing. This method focuses on enhancing the efficiency and speed of initial layer training in ViTs. By systematically freezing specific layers at strategic points during training, we reduce computational demands while maintaining or improving learning capabilities. Our approach employs a novel multi-scale reconstruction process that fosters efficient learning in initial layers and enhances semantic comprehension across scales. The results demonstrate a substantial reduction in training time (~12.5\%) with a minimal impact on model accuracy (decrease in top-1 accuracy by 0.6\%). Our method achieves top-1 and top-5 accuracies of 82.6\% and 96.2\%, respectively, underscoring its potential in scenarios where computational resources and time are critical. This work marks an advancement in the field of self-supervised learning for computer vision. The implementation of our approach is available at our project's GitHub repository: github.com/utkutpcgl/ViTFreeze.
翻訳日:2023-12-06 18:34:52 公開日:2023-12-02
# DiverseDream: Augmented Text Embedding を用いたDiverse Text-to-3D 合成

DiverseDream: Diverse Text-to-3D Synthesis with Augmented Text Embedding ( http://arxiv.org/abs/2312.02192v1 )

ライセンス: Link先を確認
Uy Dieu Tran, Minh Luu, Phong Nguyen, Janne Heikkila, Khoi Nguyen, Binh-Son Hua(参考訳) テキストから3d合成は、3dモデルをサンプリングするための新しいアプローチとして最近登場した。 既存のテキスト・ツー・3D法では、サンプリング・バイ・最適化法から得られた3Dモデルはモード崩壊する傾向にあり、その結果は多様性が低い。 本稿では,このような限定された多様性の潜在的原因の分析と同定を行い,同一テキストプロンプトから異なる3dモデルの共同生成を検討する新しい手法を考案し,参照画像のテキスト反転による拡張テキストプロンプトを用いて,共同生成を多様化させる手法を提案する。 本手法はテキストから3D合成における多様性を質的,定量的に向上させることを示す。

Text-to-3D synthesis has recently emerged as a new approach to sampling 3D models by adopting pretrained text-to-image models as guiding visual priors. An intriguing but underexplored problem with existing text-to-3D methods is that 3D models obtained from the sampling-by-optimization procedure tend to have mode collapses, and hence poor diversity in their results. In this paper, we provide an analysis and identify potential causes of such a limited diversity, and then devise a new method that considers the joint generation of different 3D models from the same text prompt, where we propose to use augmented text prompts via textual inversion of reference images to diversify the joint generation. We show that our method leads to improved diversity in text-to-3D synthesis qualitatively and quantitatively.
翻訳日:2023-12-06 18:34:33 公開日:2023-12-02
# ゼロショット合成学習のためのプロンプトチューニング

Prompt Tuning for Zero-shot Compositional Learning ( http://arxiv.org/abs/2312.02191v1 )

ライセンス: Link先を確認
Lingyu Zhang, Ting Hua, Yilin Shen, Hongxia Jin(参考訳) open world compositional zero-shot learning (ow-czsl) は極めて困難なタスクとして知られており、出力空間の事前の仮定なしに、見た属性やオブジェクトから形成される見えない合成を認識することを目的としている。 この目標を達成するには、モデルは"スマート"で"知識"でなければなりません。 賢くするために、モデルは、見た構成から属性とオブジェクト間の相互作用を推論するのが得意であるべきです。 理解可能」とは、モデルがオープンワールドに「常識」を持ち、目に見えない構成のいくつかの特徴を「予見」できることを意味する。 以前の仕事のほとんどは"スマート"な部分に焦点を当てていたが、"知識可能な"目標を達成するための効果的なソリューションを提供するものはほとんどなかった。 本稿では,マルチモーダル・プロンプト・チューニング(mmpt)というフレームワークを提案し,事前学習された視覚言語モデルから"知識可能な"特性を継承する。 今回提案したMMPTはOW-CZSLタスクにおいて,新たな最先端結果が得られることを示す。 UT-Zapposデータセットでは、MMPTはAUCのスコアを29.8ドルまで押し上げ、前のベストスコアは26.5ドルとした。 より困難なMIT-Statesデータセットでは、AUCのMMPTスコアが現在の最先端の1.5倍向上している。

Open World Compositional Zero-Shot Learning (OW-CZSL) is known to be an extremely challenging task, which aims to recognize unseen compositions formed from seen attributes and objects without any prior assumption of the output space. In order to achieve this goal, a model has to be "smart" and "knowledgeable". To be smart, a model should be good at reasoning the interactions between attributes and objects from the seen compositions. While "knowledgeable" means the model owns "common sense" to the open world that can "foresee" some features of the unseen compositions. Most previous work focuses on the "smart" part, while few of them provided an effective solution to achieve the "knowledgeable" goal. In this paper, we proposed a framework named Multi-Modal Prompt Tuning (MMPT) to inherit the "knowledgeable" property from the large pre-trained vision-language model. Extensive experiments show that our proposed MMPT obtains new state-of-the-art results in OW-CZSL task. On the UT-Zappos dataset, MMPT pushes the AUC score to $29.8$, while the previous best score is $26.5$. On the more challenging MIT-States dataset, the AUC score of MMPT is 1.5 times better than the current state-of-the-art.
翻訳日:2023-12-06 18:34:17 公開日:2023-12-02
# 拡散ハンドレス:3Dへの活性化による拡散モデルのための3D編集法

Diffusion Handles: Enabling 3D Edits for Diffusion Models by Lifting Activations to 3D ( http://arxiv.org/abs/2312.02190v1 )

ライセンス: Link先を確認
Karran Pandey, Paul Guerrero, Matheus Gadelha, Yannick Hold-Geoffroy, Karan Singh and Niloy Mitra(参考訳) Diffusion Handlesは拡散画像の3Dオブジェクト編集を可能にする新しいアプローチである。 既存のトレーニング済み拡散モデルと2次元画像深度推定を用いて、微調整や3次元オブジェクトの検索を行わずにこれらの編集を行う。 編集された結果は、信頼性があり、フォトリアルであり、オブジェクトのアイデンティティを保持します。 拡散処理は、生成画像に基づく創造的デザインの致命的な欠如に対処し、生成画像編集の最先端を著しく前進させる。 我々の重要な洞察は、オブジェクトの拡散活性化をプロキシの深さを使って3Dに上げ、深度と関連するアクティベーションを3D変換し、それらをイメージ空間に投影することである。 操作されたアクティベーションにID制御で適用された拡散プロセスは、複雑な3D閉塞と照明効果を示す可視画像を生成する。 我々はDiffusion Handlesを定量的に、大規模な合成データベンチマークで評価し、ユーザスタディにより質的に評価し、我々の出力が3D編集とアイデンティティ制御の両方において、先行技術よりも高い妥当性を示す。

Diffusion Handles is a novel approach to enabling 3D object edits on diffusion images. We accomplish these edits using existing pre-trained diffusion models, and 2D image depth estimation, without any fine-tuning or 3D object retrieval. The edited results remain plausible, photo-real, and preserve object identity. Diffusion Handles address a critically missing facet of generative image based creative design, and significantly advance the state-of-the-art in generative image editing. Our key insight is to lift diffusion activations for an object to 3D using a proxy depth, 3D-transform the depth and associated activations, and project them back to image space. The diffusion process applied to the manipulated activations with identity control, produces plausible edited images showing complex 3D occlusion and lighting effects. We evaluate Diffusion Handles: quantitatively, on a large synthetic data benchmark; and qualitatively by a user study, showing our output to be more plausible, and better than prior art at both, 3D editing and identity control.
翻訳日:2023-12-06 18:33:54 公開日:2023-12-02
# StableDreamer: テキストから3Dへのノイズスコア蒸留サンプリング

StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D ( http://arxiv.org/abs/2312.02189v1 )

ライセンス: Link先を確認
Pengsheng Guo, Hans Hao, Adam Caccavale, Zhongzheng Ren, Edward Zhang, Qi Shan, Aditya Sankar, Alexander G. Schwing, Alex Colburn, Fangchang Ma(参考訳) テキストから3D生成の領域において、スコア蒸留サンプリング(SDS)による2次元拡散モデルの利用は、主にSDS損失の本質的なノイズの性質のために、ぼやけた外観や多面形状などの問題を引き起こすことが多い。 本研究では,これらの課題の中核を,2次元拡散過程における雑音レベルの相互作用,拡散ネットワークのアーキテクチャ,および3次元モデル表現として捉えた。 これらの制限を克服するために,3つの進歩を取り入れたStableDreamerを提案する。 まず、InstructNeRF2NeRFにインスパイアされ、SDS生成前の等価性と簡単な教師付きL2再構成損失を定式化する。 この発見は、sdsをデバッグするための新しいツールを提供し、マルチフェイスジオメトリの削減に対する時間的アネアリングノイズレベルの影響を示すために使用します。 第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。 この観察に基づいて、StableDreamerは2段階のトレーニング戦略を導入し、これらの側面を効果的に組み合わせ、高忠実度3Dモデルを実現する。 第三に、異方性3Dガウス表現を採用し、Neural Radiance Fields(NeRF)を置き換え、全体的な品質を高め、トレーニング中のメモリ使用量を削減し、レンダリング速度を高速化し、半透明オブジェクトのキャプチャーを改善する。 stabledreamerはマルチフェイスのジオメトリを削減し、詳細を生成し、安定して収束する。

In the realm of text-to-3D generation, utilizing 2D diffusion models through score distillation sampling (SDS) frequently leads to issues such as blurred appearances and multi-faced geometry, primarily due to the intrinsically noisy nature of the SDS loss. Our analysis identifies the core of these challenges as the interaction among noise levels in the 2D diffusion process, the architecture of the diffusion network, and the 3D model representation. To overcome these limitations, we present StableDreamer, a methodology incorporating three advances. First, inspired by InstructNeRF2NeRF, we formalize the equivalence of the SDS generative prior and a simple supervised L2 reconstruction loss. This finding provides a novel tool to debug SDS, which we use to show the impact of time-annealing noise levels on reducing multi-faced geometries. Second, our analysis shows that while image-space diffusion contributes to geometric precision, latent-space diffusion is crucial for vivid color rendition. Based on this observation, StableDreamer introduces a two-stage training strategy that effectively combines these aspects, resulting in high-fidelity 3D models. Third, we adopt an anisotropic 3D Gaussians representation, replacing Neural Radiance Fields (NeRFs), to enhance the overall quality, reduce memory usage during training, and accelerate rendering speeds, and better capture semi-transparent objects. StableDreamer reduces multi-face geometries, generates fine details, and converges stably.
翻訳日:2023-12-06 18:33:34 公開日:2023-12-02
# 長文質問応答に対する公理的選好モデル

Axiomatic Preference Modeling for Longform Question Answering ( http://arxiv.org/abs/2312.02206v1 )

ライセンス: Link先を確認
Corby Rosset, Guoqing Zheng, Victor Dibia, Ahmed Awadallah, Paul Bennett(参考訳) GPT-4のような大きな言語モデル(LLM)の顕著な能力は、報酬モデルに符号化された人間の嗜好を含む強化学習(RLHF)のようなポストトレーニングプロセスに由来する。 しかし、これらの報酬モデル(rms)は、しばしば、なぜ、どんな原則の下で、優先アノテーションが作られたのか、直接の知識を欠いている。 本研究では,人間の嗜好に合致するようにrmsを指導する原則を特定し,それを維持するために多様な選好信号を生成するための公理的枠組みを開発する。 我々はこれらの公理信号を用いて、長大な質問に対する回答を評価するためのモデルを訓練する。 提案手法は,gpt-4よりもゴールド・ヒューマン・アノテート・プレファレンスラベルに合致するパラメータが約220mの選好モデルを生成する。 この研究の貢献は、人間とLLMが生成する回答を同じスケールで評価できるスタンドアロンの選好モデルをトレーニングすること、特定の原則に合わせたトレーニングデータペアを生成するための公理的フレームワークを開発すること、少数の公理的信号が小さなモデルにおいて、選好スコアにおいてGPT-4より優れていることを示すことである。 huggingfaceのモデルは、https://huggingface.co/corbyrosset/axiomatic_preference_modelです。

The remarkable abilities of large language models (LLMs) like GPT-4 partially stem from post-training processes like Reinforcement Learning from Human Feedback (RLHF) involving human preferences encoded in a reward model. However, these reward models (RMs) often lack direct knowledge of why, or under what principles, the preferences annotations were made. In this study, we identify principles that guide RMs to better align with human preferences, and then develop an axiomatic framework to generate a rich variety of preference signals to uphold them. We use these axiomatic signals to train a model for scoring answers to longform questions. Our approach yields a Preference Model with only about 220M parameters that agrees with gold human-annotated preference labels more often than GPT-4. The contributions of this work include: training a standalone preference model that can score human- and LLM-generated answers on the same scale; developing an axiomatic framework for generating training data pairs tailored to certain principles; and showing that a small amount of axiomatic signals can help small models outperform GPT-4 in preference scoring. We release our model on huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model
翻訳日:2023-12-06 18:22:22 公開日:2023-12-02
# 画像表現の自己教師あり学習におけるデータ拡張と形式変換の効果の解消

Disentangling the Effects of Data Augmentation and Format Transform in Self-Supervised Learning of Image Representations ( http://arxiv.org/abs/2312.02205v1 )

ライセンス: Link先を確認
Neha Kalibhat, Warren Morningstar, Alex Bijamov, Luyang Liu, Karan Singhal, Philip Mansfield(参考訳) SSL(Self-Supervised Learning)は、ラベル付きデータによるパフォーマンスモデルのトレーニングを可能にする。 ビジョンSSLの根底にある柱の1つは、その意味的内容が著しく変化しない入力のデータ拡張/摂動の利用である。 音声やその他の時間信号に対して、拡張はフーリエ変換やウェーブレット変換などのフォーマット変換と共に一般的に用いられる。 拡張とは異なり、フォーマット変換はデータに含まれる情報を変更するのではなく、異なる座標で同じ情報を表現します。 本稿では,フォーマット変換と拡張が別々に,同時にvision sslに与える影響について検討する。 フーリエ領域拡張 (fda) と呼ばれる周波数空間における拡張を定義し、これらと画像拡張の組み合わせによるsslモデルのトレーニングにより、imagenet-1kの下流分類精度が最大1.3%向上することを示した。 また、FDAを用いた数ショットおよび転送学習のセットアップにおいて、SSLベースラインに対する改善を示す。 驚いたことに、形式変換は拡張なしでも学習表現の品質を向上させることができるが、この2つの技法の組み合わせはより良い品質をもたらす。

Self-Supervised Learning (SSL) enables training performant models using limited labeled data. One of the pillars underlying vision SSL is the use of data augmentations/perturbations of the input which do not significantly alter its semantic content. For audio and other temporal signals, augmentations are commonly used alongside format transforms such as Fourier transforms or wavelet transforms. Unlike augmentations, format transforms do not change the information contained in the data; rather, they express the same information in different coordinates. In this paper, we study the effects of format transforms and augmentations both separately and together on vision SSL. We define augmentations in frequency space called Fourier Domain Augmentations (FDA) and show that training SSL models on a combination of these and image augmentations can improve the downstream classification accuracy by up to 1.3% on ImageNet-1K. We also show improvements against SSL baselines in few-shot and transfer learning setups using FDA. Surprisingly, we also observe that format transforms can improve the quality of learned representations even without augmentations; however, the combination of the two techniques yields better quality.
翻訳日:2023-12-06 18:21:57 公開日:2023-12-02
# コミュニケーション効率の良い最適化を学べるか?

Can We Learn Communication-Efficient Optimizers? ( http://arxiv.org/abs/2312.02204v1 )

ライセンス: Link先を確認
Charles-\'Etienne Joseph and Benjamin Th\'erien and Abhinav Moudgil and Boris Knyazev and Eugene Belilovsky(参考訳) 通信効率のよいSGD、特にローカルなSGDは近年大きな関心を集めている。 これらのアプローチは、モデルパラメータを平均化する前に、各ワーカ上の複数の勾配ステップをローカルに計算することで、分散ディープラーニングトレーニングにおける重要な通信ボトルネックを緩和する。 これらのアプローチの多くの変種が提案されているが、ディープラーニングのための最先端の適応最適化器に遅れることがある。 本研究では,近年の学習最適化の進歩が,コミュニケーション効率を保ちながら,このギャップを埋めることができるかどうかを検討する。 具体的には、ローカルなSGDイテレーションからの更新によって、グローバルアップデートの実行方法をメタ学習する。 その結果,学習した最適化器は通信効率を保ちながら,局所的なSGDとその洗練された変種を著しく上回り得ることを示した。 学習されたオプティマイザは、ImageNetやViTsなど、目に見えない、はるかに大きなデータセットやアーキテクチャ、言語モデリングのようなモダリティまで一般化することができる。 そこで我々は,コミュニケーション効率のよい分散学習における学習最適化の可能性を示した。

Communication-efficient variants of SGD, specifically local SGD, have received a great deal of interest in recent years. These approaches compute multiple gradient steps locally, that is on each worker, before averaging model parameters, helping relieve the critical communication bottleneck in distributed deep learning training. Although many variants of these approaches have been proposed, they can sometimes lag behind state-of-the-art adaptive optimizers for deep learning. In this work, we investigate if the recent progress in the emerging area of learned optimizers can potentially close this gap while remaining communication-efficient. Specifically, we meta-learn how to perform global updates given an update from local SGD iterations. Our results demonstrate that learned optimizers can substantially outperform local SGD and its sophisticated variants while maintaining their communication efficiency. Learned optimizers can even generalize to unseen and much larger datasets and architectures, including ImageNet and ViTs, and to unseen modalities such as language modeling. We therefore demonstrate the potential of learned optimizers for improving communication-efficient distributed learning.
翻訳日:2023-12-06 18:21:40 公開日:2023-12-02
# 脳領域の高次関係の学習

Learning High-Order Relationships of Brain Regions ( http://arxiv.org/abs/2312.02203v1 )

ライセンス: Link先を確認
Weikang Qiu, Huangrui Chu, Selena Wang, Haolan Zuo, Xiaoxiao Li, Yize Zhao, Rex Ying(参考訳) 機能的磁気共鳴画像(fmri)信号から脳領域間の信頼できる情報的相互作用の発見は、認知の神経科学的予測に不可欠である。 現在の手法のほとんどは、ペア接続のみに焦点を当て、脳領域の高次関係を見落としているため、これらの相互作用を正確に特徴づけることができない。 この問題を掘り下げ、これらの高次関係は最大情報的かつ最小冗長(MIMR)であるべきだと論じる。 しかし、このような高次関係の特定は困難であり、非常に過小評価されている。 私たちのコンテキストに合わせて調整できるメソッドも存在しません。 このギャップに対応するために,fMRIデータからMIMR高次関係を抽出することを目的としたHyBRiDという新しい手法を提案する。 hybridはハイパーエッジ構造を識別するためにコンストラクタを使用し、各ハイパーエッジの重量を計算するための重み付けを行う。 HyBRiDは、理論的保証のあるマルチヘッドドロップブートネックという革新的な情報ボトルネックフレームワークを通じて、MIMRの目標を達成する。 我々のモデルの有効性を総合的な実験で実証した。 我々のモデルは、脳の接続を研究するための標準プロトコルであるCPMによって測定されるハイパーエッジの品質に関して、平均12.1%の最先端予測モデルよりも優れています。

Discovering reliable and informative interactions among brain regions from functional magnetic resonance imaging (fMRI) signals is essential in neuroscientific predictions of cognition. Most of the current methods fail to accurately characterize those interactions because they only focus on pairwise connections and overlook the high-order relationships of brain regions. We delve into this problem and argue that these high-order relationships should be maximally informative and minimally redundant (MIMR). However, identifying such high-order relationships is challenging and highly under-explored. Methods that can be tailored to our context are also non-existent. In response to this gap, we propose a novel method named HyBRiD that aims to extract MIMR high-order relationships from fMRI data. HyBRiD employs a Constructor to identify hyperedge structures, and a Weighter to compute a weight for each hyperedge. HyBRiD achieves the MIMR objective through an innovative information bottleneck framework named multi-head drop-bottleneck with theoretical guarantees. Our comprehensive experiments demonstrate the effectiveness of our model. Our model outperforms the state-of-the-art predictive model by an average of 12.1%, regarding the quality of hyperedges measured by CPM, a standard protocol for studying brain connections.
翻訳日:2023-12-06 18:21:22 公開日:2023-12-02
# 非線形結合制約をもつ非平滑非凸最適化のためのマルチブロックADMM

Multiblock ADMM for nonsmooth nonconvex optimization with nonlinear coupling constraints ( http://arxiv.org/abs/2201.07657v3 )

ライセンス: Link先を確認
Le Thi Khanh Hien, Dimitri Papadimitriou(参考訳) 本稿では,非線形結合制約を持つマルチブロック非滑らか非凸最適化問題の解法として,乗算器のマルチブロック交互方向法を提案する。 我々は、主変数の各ブロックの更新において、メジャー化最小化手順を用いる。 拡張ラグランジアンの臨界点への生成列の逐次収束と大域収束が証明される。 また, 反復複雑性を確立し, 提案アルゴリズムの予備的な数値計算結果を提供する。

This paper proposes a multiblock alternating direction method of multipliers for solving a class of multiblock nonsmooth nonconvex optimization problem with nonlinear coupling constraints. We employ a majorization minimization procedure in the update of each block of the primal variables. Subsequential and global convergence of the generated sequence to a critical point of the augmented Lagrangian are proved. We also establish iteration complexity and provide preliminary numerical results for the proposed algorithm.
翻訳日:2023-12-06 02:25:47 公開日:2023-12-02
# 測定による量子時計

Quantum clocks driven by measurement ( http://arxiv.org/abs/2109.05390v3 )

ライセンス: Link先を確認
A. A. Gangat and G. J. Milburn(参考訳) 古典物理学では、時計は熱平衡から駆動される開放散逸系であり、必然的に熱雑音を受ける。 エントロピー低減により駆動される量子クロックを計測により記述する。 この機構は、開放型共平面共振器に結合した超伝導トランスモン量子ビットからなる。 キャビティとキュービットはコヒーレントフィールドによって駆動され、キャビティ出力はホモダイン検出によって監視される。 測定自体が条件モーメントの変動周期とともにコヒーレント振動を誘導することを示す。 観測された測定電流からクロック信号を抽出し、分析してノイズ性能を決定する。 このモデルはゼロ温度での時計の基本原理を示しており、良い時計は高いエネルギー散逸率とエントロピー生成を必要とする。

In classical physics, clocks are open dissipative systems driven from thermal equilibrium and necessarily subject to thermal noise. We describe a quantum clock driven by entropy reduction through measurement. The mechanism consists of a superconducting transmon qubit coupled to an open co-planar resonator. The cavity and qubit are driven by coherent fields and the cavity output is monitored with homodyne detection. We show that the measurement itself induces coherent oscillations, with fluctuating period, in the conditional moments. The clock signal can be extracted from the observed measurement currents and analysed to determine the noise performance. The model demonstrates a fundamental principle of clocks at zero temperature: good clocks require high rates of energy dissipation and consequently entropy generation.
翻訳日:2023-12-06 02:24:51 公開日:2023-12-02
# 複合材料におけるX線トモグラフィ画像の自動分割のためのモジュラU-Net

A modular U-Net for automated segmentation of X-ray tomography images in composite materials ( http://arxiv.org/abs/2107.07468v2 )

ライセンス: Link先を確認
Jo\~ao P C Bertoldo, Etienne Decenci\`ere, David Ryckelynck, Henry Proudhon(参考訳) x線ct(x-ray ct)技術は,高分解能データを高速に取得できるため,従来のセグメンテーション手法が煩雑で,非自明な3d画像に対応可能な自動データパイプラインが求められている点まで進化している。 ディープラーニングは、マテリアルサイエンスアプリケーションを含む多くの画像処理タスクで成功をおさめ、ヒューマンフリーセグメンテーションパイプラインの有望な代替品を示している。 本稿では,3相ガラス繊維強化ポリアミド66の3次元トモグラフィ像を分割し,unet (modular u-net) のモジュラー解釈を行った。 モデルの2Dバージョンと3Dバージョンを比較し、前者の方が後者より若干優れていることを発見した。 注釈付き層は10層に過ぎず, 浅いU-Netを使用すれば, より深い層よりも優れた結果が得られることが観察された。 結果として、ニューラルネットワーク(NN)は、人間やアドホックな介入を必要としないXCTデータ処理パイプラインを自動化する、本当に有望な場所であることを示している。

X-ray Computed Tomography (XCT) techniques have evolved to a point that high-resolution data can be acquired so fast that classic segmentation methods are prohibitively cumbersome, demanding automated data pipelines capable of dealing with non-trivial 3D images. Deep learning has demonstrated success in many image processing tasks, including material science applications, showing a promising alternative for a humanfree segmentation pipeline. In this paper a modular interpretation of UNet (Modular U-Net) is proposed and trained to segment 3D tomography images of a three-phased glass fiber-reinforced Polyamide 66. We compare 2D and 3D versions of our model, finding that the former is slightly better than the latter. We observe that human-comparable results can be achievied even with only 10 annotated layers and using a shallow U-Net yields better results than a deeper one. As a consequence, Neural Network (NN) show indeed a promising venue to automate XCT data processing pipelines needing no human, adhoc intervention.
翻訳日:2023-12-06 02:24:39 公開日:2023-12-02
# オンラインラプラス近似を用いたベイズ連合学習フレームワーク

A Bayesian Federated Learning Framework with Online Laplace Approximation ( http://arxiv.org/abs/2102.01936v3 )

ライセンス: Link先を確認
Liangxi Liu, Xi Jiang, Feng Zheng, Hong Chen, Guo-Jun Qi, Heng Huang and Ling Shao(参考訳) フェデレーション学習(fl)は、複数のクライアントが、データを共有する必要なしに、モデル集約とローカルモデルトレーニングのサイクルを通じて、グローバルな共有モデルを共同学習することを可能にする。 既存のflメソッドの多くは、異なるクライアントで個別にローカルモデルをトレーニングし、そのパラメータを平均してサーバ側で集中型モデルを取得する。 しかし、これらのアプローチは一般的に大規模な集約エラーと、特に異種データ設定では悪い局所的忘れ込みに悩まされる。 本稿では,これらの問題に対処するため,クライアント側とサーバ側の両方で,オンラインラプラス近似を用いた新しいFLフレームワークを提案する。 サーバ側では,多変量ガウス積機構を用いて大域的後部を構築・最大化し,局所モデル間の大きな相違による凝集誤差を大幅に低減する。 クライアント側では、サーバから配信されるグローバル後方確率パラメータを用いた事前損失が、ローカルトレーニングのガイドとして設計されている。 このような学習制約を他のクライアントにバインドすることで、ローカルな忘れることを軽減できる。 最後に,提案手法の利点を実証し,いくつかのベンチマークで最先端の結果を得た。

Federated learning (FL) allows multiple clients to collaboratively learn a globally shared model through cycles of model aggregation and local model training, without the need to share data. Most existing FL methods train local models separately on different clients, and then simply average their parameters to obtain a centralized model on the server side. However, these approaches generally suffer from large aggregation errors and severe local forgetting, which are particularly bad in heterogeneous data settings. To tackle these issues, in this paper, we propose a novel FL framework that uses online Laplace approximation to approximate posteriors on both the client and server side. On the server side, a multivariate Gaussian product mechanism is employed to construct and maximize a global posterior, largely reducing the aggregation errors induced by large discrepancies between local models. On the client side, a prior loss that uses the global posterior probabilistic parameters delivered from the server is designed to guide the local training. Binding such learning constraints from other clients enables our method to mitigate local forgetting. Finally, we achieve state-of-the-art results on several benchmarks, clearly demonstrating the advantages of the proposed method.
翻訳日:2023-12-06 02:22:36 公開日:2023-12-02
# 敵に近づこう: 教師と教師の模倣による攻撃を学ぶ

Look Closer to Your Enemy: Learning to Attack via Teacher-Student Mimicking ( http://arxiv.org/abs/2207.13381v4 )

ライセンス: Link先を確認
Mingjie Wang, Jianxiong Guo, Sirui Li, Dingwen Xiao, Zhiqing Tang(参考訳) ディープニューラルネットワークは、産業用インターネットの領域において、極めて高度な人物再識別(ReID)アプリケーションを持っているが、脆弱なままである。 したがって,ReIDシステムの堅牢性については,これらの脆弱性を産業監視システムに悪影響を及ぼすリスクがあるため,研究が不可欠である。 現在の敵対的手法は、被害者モデル(VM)からの誤分類フィードバックを使用して攻撃サンプルを生成することに焦点を当てており、VMの認知プロセスを無視している。 vm cognition decryptionを通じて、本物のreid攻撃インスタンスを生成することで、この問題に対処しようとしています。 このアプローチには、オープンセットのReIDテストへの転送性の向上、VMのミスダイレクトの容易化、現実的で検出不能なアタックイメージの生成の強化など、メリットがある。 しかし、VMにおける認知メカニズムを解読する作業は、非常に難しい課題であると考えられている。 本稿では,LCYE(Look Closer to Your Enemy)という,不明瞭で制御可能なReID攻撃ベースラインを提案する。 具体的には、LCYEはまずVMの知識を、プロキシタスクを模倣した教師のメモリ経由で蒸留する。 この知識は前もって不明瞭な暗号化トークンとして機能し、vmが必須かつ可能性の高い要素をカプセル化し、正確な敵の誤った指示を容易にする意図がある。 さらに、LCYEの複数対向タスク・フレームワークの利点を生かし、クロスドメイン適応、クロスモデルコンセンサス、オンライン学習プロセスを含む敵対的攻撃の観点から、ReIDモデルの解釈可能性と一般化について検討する。 4つのreidベンチマークに関する広範囲な実験により、この手法はホワイトボックス、ブラックボックス、ターゲット攻撃において、最先端の攻撃者よりも優れていることが示された。 ソースコードはhttps://github.com/MingjieWang0606/LCYE- attack_reidにある。

Deep neural networks have significantly advanced person re-identification (ReID) applications in the realm of the industrial internet, yet they remain vulnerable. Thus, it is crucial to study the robustness of ReID systems, as there are risks of adversaries using these vulnerabilities to compromise industrial surveillance systems. Current adversarial methods focus on generating attack samples using misclassification feedback from victim models (VMs), neglecting VM's cognitive processes. We seek to address this by producing authentic ReID attack instances through VM cognition decryption. This approach boasts advantages like better transferability to open-set ReID tests, easier VM misdirection, and enhanced creation of realistic and undetectable assault images. However, the task of deciphering the cognitive mechanism in VM is widely considered to be a formidable challenge. In this paper, we propose a novel inconspicuous and controllable ReID attack baseline, LCYE (Look Closer to Your Enemy), to generate adversarial query images. Specifically, LCYE first distills VM's knowledge via teacher-student memory mimicking the proxy task. This knowledge prior serves as an unambiguous cryptographic token, encapsulating elements deemed indispensable and plausible by the VM, with the intent of facilitating precise adversarial misdirection. Further, benefiting from the multiple opposing task framework of LCYE, we investigate the interpretability and generalization of ReID models from the view of the adversarial attack, including cross-domain adaption, cross-model consensus, and online learning process. Extensive experiments on four ReID benchmarks show that our method outperforms other state-of-the-art attackers with a large margin in white-box, black-box, and target attacks. The source code can be found at https://github.com/MingjieWang0606/LCYE-attack_reid.
翻訳日:2023-12-06 02:14:01 公開日:2023-12-02
# バイナリニューラルネットを用いた低リソースデバイス用蒸留非合成音声埋め込み

Distilled Non-Semantic Speech Embeddings with Binary Neural Networks for Low-Resource Devices ( http://arxiv.org/abs/2207.05784v4 )

ライセンス: Link先を確認
Harlin Lee and Aaqib Saeed(参考訳) BRILLssonは、幅広い非意味的音声タスクのための、新しいバイナリニューラルネットワークベースの表現学習モデルである。 我々は,TRILLssonの訓練に使用するデータセットのごく一部を用いて,大規模かつ実数値のTRILLssonモデルから知識蒸留を用いてモデルを訓練する。 その結果生まれたBRILLssonモデルは、レイテンシが8ms未満の2MBしかなく、ウェアラブルなどの低リソースデバイスへのデプロイに適している。 BRILLssonを8つのベンチマークタスク(音声言語識別、感情認識、健康状態診断、キーワードスポッティングなど)で評価し、提案したウルトラライトおよび低レイテンシモデルが大規模モデルと同様に動作することを示す。

This work introduces BRILLsson, a novel binary neural network-based representation learning model for a broad range of non-semantic speech tasks. We train the model with knowledge distillation from a large and real-valued TRILLsson model with only a fraction of the dataset used to train TRILLsson. The resulting BRILLsson models are only 2MB in size with a latency less than 8ms, making them suitable for deployment in low-resource devices such as wearables. We evaluate BRILLsson on eight benchmark tasks (including but not limited to spoken language identification, emotion recognition, health condition diagnosis, and keyword spotting), and demonstrate that our proposed ultra-light and low-latency models perform as well as large-scale models.
翻訳日:2023-12-06 02:13:05 公開日:2023-12-02
# 【再現性報告】深部1級分類

[Reproducibility Report] Explainable Deep One-Class Classification ( http://arxiv.org/abs/2206.02598v2 )

ライセンス: Link先を確認
Joao P. C. Bertoldo and Etienne Decenci\`ere(参考訳) HSC(Hypersphere Classifier)の説明可能なバージョンであるFCDD(Fully Convolutional Data Description)は、画像異常検出(AD)とピクセル単位ADに直接対処する。 著者らはFCDDがFashion-MNIST と CIFAR-10 のサンプル値 AD の最先端値に匹敵する結果を達成し、MVTec-AD の画素値タスクの最先端値を超えていると主張している。 我々は著者のコードを使って論文の主な結果を小さな変更で再現し、CPUメモリ、GPUメモリ、トレーニング時間)を達成するためのランタイム要件を提供した。 臨界差図を用いた別の解析手法を提案し、トレーニングフェーズにおけるモデルの試験性能について検討する。

Fully Convolutional Data Description (FCDD), an explainable version of the Hypersphere Classifier (HSC), directly addresses image anomaly detection (AD) and pixel-wise AD without any post-hoc explainer methods. The authors claim that FCDD achieves results comparable with the state-of-the-art in sample-wise AD on Fashion-MNIST and CIFAR-10 and exceeds the state-of-the-art on the pixel-wise task on MVTec-AD. We reproduced the main results of the paper using the author's code with minor changes and provide runtime requirements to achieve if (CPU memory, GPU memory, and training time). We propose another analysis methodology using a critical difference diagram, and further investigate the test performance of the model during the training phase.
翻訳日:2023-12-06 02:12:21 公開日:2023-12-02
# ENS-t-SNE:隣人にT-SNEを同時に埋め込む

ENS-t-SNE: Embedding Neighborhoods Simultaneously t-SNE ( http://arxiv.org/abs/2205.11720v2 )

ライセンス: Link先を確認
Jacob Miller, Vahan Huroyan, Raymundo Navarrete, Md Iqbal Hossain, Stephen Kobourov(参考訳) 高次元データセットを視覚化する場合、データの1つの2次元ビューを提供する次元縮小技術が一般的に用いられる。 本稿では ENS-t-SNE: t-Stochastic Neighborhood Embeddingアプローチを一般化した近傍埋め込みアルゴリズムについて述べる。 ENS-t-SNEの3D埋め込みにおける異なる視点を使用することで、同じ高次元データセット内の異なるタイプのクラスタを視覚化することができる。 これにより、ビューアは異なるタイプのクラスタを見て追跡することができるが、複数の2d埋め込みを提供することは困難であり、対応するポイントを容易に特定できない。 本稿では,現実世界の応用におけるENS-t-SNEの有用性を概説し,異なるタイプやサイズのデータセットを用いた定量的評価を行う。

When visualizing a high-dimensional dataset, dimension reduction techniques are commonly employed which provide a single 2 dimensional view of the data. We describe ENS-t-SNE: an algorithm for Embedding Neighborhoods Simultaneously that generalizes the t-Stochastic Neighborhood Embedding approach. By using different viewpoints in ENS-t-SNE's 3D embedding, one can visualize different types of clusters within the same high-dimensional dataset. This enables the viewer to see and keep track of the different types of clusters, which is harder to do when providing multiple 2D embeddings, where corresponding points cannot be easily identified. We illustrate the utility of ENS-t-SNE with real-world applications and provide an extensive quantitative evaluation with datasets of different types and sizes.
翻訳日:2023-12-06 02:12:00 公開日:2023-12-02
# 有利蒸留技術を用いた双フィールド量子鍵分布の性能向上

Improving the performance of twin-field quantum key distribution with advantage distillation technology ( http://arxiv.org/abs/2202.10059v5 )

ライセンス: Link先を確認
Hong-Wei Li, Rui-Qiang Wang, Chun-Mei Zhang and Qing-Yu Cai(参考訳) 本研究では,集合攻撃下での実用的双フィールド量子鍵分散システムの性能向上に有利な蒸留法を適用した。 前田・佐々木・小橋(Nature Communication 10, 3140 (2019))による以前の分析結果と比較すると, 解析法により得られた最大伝送距離は420kmから470kmに増加する。 損失非依存的不整合誤差を12%に増やすことで、従来の解析手法では速度-距離境界を克服できない。 しかし,本解析法では,誤差が16%の場合,速度距離境界を克服できる。 さらに,不整合誤差が50%に近い場合でも,ツインフィールド量子鍵分布が正のセキュア鍵を生成することを証明し,実用的なツインフィールド量子鍵分布システムの性能を著しく向上させることができる。

In this work, we apply the advantage distillation method to improve the performance of a practical twin-field quantum key distribution system under collective attack. Compared with the previous analysis result given by Maeda, Sasaki and Koashi [Nature Communication 10, 3140 (2019)], the maximal transmission distance obtained by our analysis method will be increased from 420 km to 470 km. By increasing the loss-independent misalignment error to 12%, the previous analysis method can not overcome the rate-distance bound. However, our analysis method can still overcome the rate-distance bound when the misalignment error is 16%. More surprisingly, we prove that twin-field quantum key distribution can generate positive secure key even if the misalignment error is close to 50%, thus our analysis method can significantly improve the performance of a practical twin-field quantum key distribution system.
翻訳日:2023-12-06 02:10:45 公開日:2023-12-02
# 低資源シナリオにおける情報抽出:調査と展望

Information Extraction in Low-Resource Scenarios: Survey and Perspective ( http://arxiv.org/abs/2202.08063v5 )

ライセンス: Link先を確認
Shumin Deng, Yubo Ma, Ningyu Zhang, Yixin Cao, Bryan Hooi(参考訳) 情報抽出(IE)は構造化されていないテキストから構造化された情報を導き出そうとする。 本稿では,低リソースIEに対するニューラルアプローチを, \emph{ traditional} と \emph{LLM-based} の観点から概説し,それらを微粒な分類に体系的に分類する。 次に, 従来の技術モデルと比較して, LLMに基づく手法に関する実証的研究を行い, 1) 十分に調整されたLMが依然として支配的であり, (2) GPTファミリによるオープンソースLLMとICLのチューニングが一般的に期待されていること,(3) 低リソースIEのための最適なLCMベースの技術ソリューションがタスク依存であることを示す。 さらに,低リソースIEをLLMで論じ,将来性のあるアプリケーションを強調し,研究の方向性を概説する。 この調査は、この分野の理解を深め、新しいアイデアを刺激し、アカデミックと産業の両方で幅広い応用を促進することを目的としている。

Information Extraction (IE) seeks to derive structured information from unstructured texts, often facing challenges in low-resource scenarios due to data scarcity and unseen classes. This paper presents a review of neural approaches to low-resource IE from \emph{traditional} and \emph{LLM-based} perspectives, systematically categorizing them into a fine-grained taxonomy. Then we conduct empirical study on LLM-based methods compared with previous state-of-the-art models, and discover that (1) well-tuned LMs are still predominant; (2) tuning open-resource LLMs and ICL with GPT family is promising in general; (3) the optimal LLM-based technical solution for low-resource IE can be task-dependent. In addition, we discuss low-resource IE with LLMs, highlight promising applications, and outline potential research directions. This survey aims to foster understanding of this field, inspire new ideas, and encourage widespread applications in both academia and industry.
翻訳日:2023-12-06 02:10:30 公開日:2023-12-02
# 異常検出のための学習画像表現:創薬における組織学的変化の発見への応用

Learning image representations for anomaly detection: application to discovery of histological alterations in drug development ( http://arxiv.org/abs/2210.07675v6 )

ライセンス: Link先を確認
Igor Zingman, Birgit Stierstorfer, Charlotte Lempp, Fabian Heinemann(参考訳) 病理組織像における異常検出システムを提案する。 組織学では、正常なサンプルは通常豊富であるが、異常な(病理学的)症例は少ないか、使用できない。 このような設定下では、健全なデータで訓練された1つのクラス分類器は、分布異常なサンプルを検出することができる。 このようなアプローチと、事前訓練された画像の畳み込みニューラルネットワーク(CNN)表現が組み合わさって、以前は異常検出(AD)に用いられていた。 しかし、事前訓練された市販のcnn表現は、組織の異常な状況に敏感ではなく、健康な組織の自然な変化は遠方からの表現をもたらす可能性がある。 健康組織における関連詳細への表現を適応させるために, 異なる種, 臓器, 染色試薬の健康組織を識別する補助課題に対して, cnnを訓練することを提案する。 健全なサンプルには上記のラベルが付属するため、追加のラベル付け作業は必要ない。 トレーニング中、我々はセンターロス項でコンパクトな画像表現を強制し、ADの表現をさらに改善する。 提案するシステムは,肝臓異常の公開データセット上で確立したad法を上回っている。 さらに,肝異常の定量化に特化する従来の方法と同等の結果を得た。 本手法は, 早期開発段階における候補薬の毒性評価に有用であり, 費用のかかる後期薬乱用を低減できることを示す。

We present a system for anomaly detection in histopathological images. In histology, normal samples are usually abundant, whereas anomalous (pathological) cases are scarce or not available. Under such settings, one-class classifiers trained on healthy data can detect out-of-distribution anomalous samples. Such approaches combined with pre-trained Convolutional Neural Network (CNN) representations of images were previously employed for anomaly detection (AD). However, pre-trained off-the-shelf CNN representations may not be sensitive to abnormal conditions in tissues, while natural variations of healthy tissue may result in distant representations. To adapt representations to relevant details in healthy tissue we propose training a CNN on an auxiliary task that discriminates healthy tissue of different species, organs, and staining reagents. Almost no additional labeling workload is required, since healthy samples come automatically with aforementioned labels. During training we enforce compact image representations with a center-loss term, which further improves representations for AD. The proposed system outperforms established AD methods on a published dataset of liver anomalies. Moreover, it provided comparable results to conventional methods specifically tailored for quantification of liver anomalies. We show that our approach can be used for toxicity assessment of candidate drugs at early development stages and thereby may reduce expensive late-stage drug attrition.
翻訳日:2023-12-06 02:04:04 公開日:2023-12-02
# 適応重み減少によるロバスト性の改善

Improving Robustness with Adaptive Weight Decay ( http://arxiv.org/abs/2210.00094v2 )

ライセンス: Link先を確認
Amin Ghiasi, Ali Shafahi, Reza Ardekani(参考訳) 本稿では,各トレーニングイテレーション中の重み減衰を自動的に調整する適応的重み減衰法を提案する。 分類問題については,分類損失(クロスエントロピーの勾配)と正規化損失(重量の$\ell_2$-norm)からの更新の強さに基づいて,フライ上の重み崩壊ハイパーパラメータの値を変更することを提案する。 この単純な修正によって、さまざまなデータセットやアーキテクチャの選択に余分なデータを必要とすることなく、敵の堅牢性 -- 堅牢なオーバーフィッティングに苦しむ領域 -- が大幅に改善されることが示されています。 例えば,CIFAR-100の相対ロバスト性改善は20 %,CIFAR-10の相対ロバスト性改善は10 %であった。 また, 学習速度に対する感度の低下, 重量ノルムの低下など, ラベルノイズへの過度な適応, プルーニングなど, その他の望ましい特性も備えている。

We propose adaptive weight decay, which automatically tunes the hyper-parameter for weight decay during each training iteration. For classification problems, we propose changing the value of the weight decay hyper-parameter on the fly based on the strength of updates from the classification loss (i.e., gradient of cross-entropy), and the regularization loss (i.e., $\ell_2$-norm of the weights). We show that this simple modification can result in large improvements in adversarial robustness -- an area which suffers from robust overfitting -- without requiring extra data across various datasets and architecture choices. For example, our reformulation results in $20\%$ relative robustness improvement for CIFAR-100, and $10\%$ relative robustness improvement on CIFAR-10 comparing to the best tuned hyper-parameters of traditional weight decay resulting in models that have comparable performance to SOTA robustness methods. In addition, this method has other desirable properties, such as less sensitivity to learning rate, and smaller weight norms, which the latter contributes to robustness to overfitting to label noise, and pruning.
翻訳日:2023-12-06 02:02:46 公開日:2023-12-02
# 高画質擬似ラベルを用いた心臓磁気共鳴画像分割のための半監督領域一般化

Semi-Supervised Domain Generalization for Cardiac Magnetic Resonance Image Segmentation with High Quality Pseudo Labels ( http://arxiv.org/abs/2209.15451v3 )

ライセンス: Link先を確認
Wanqin Ma, Huifeng Yao, Yiqun Lin, Jiarong Guo, and Xiaomeng Li(参考訳) 医療セグメンテーションタスクのための深層学習手法の開発は、大量のラベル付きデータに大きく依存している。 しかし、アノテーションには専門知識が必要であり、数に制限がある。 近年,半教師付き学習は医学的セグメンテーションタスクにおいて大きな可能性を秘めている。 心臓磁気共鳴画像に関する既存の方法のほとんどは、類似領域と高画質の正規画像にのみ焦点を合わせている。 種々のデータセット上で擬似ラベルの品質を高める半教師付き領域一般化法が [2] で開発された。 本稿では, [2]の戦略に従い, 半教師付き医学セグメント化のためのドメイン一般化法を提案する。 本研究の主な目的は,各種領域を用いた極端なMRI解析による擬似ラベルの品質向上である。 入力画像上でフーリエ変換を行い、低レベル統計とクロスドメイン情報を学ぶ。 次に、擬似ラベル間のばらつきを計算するために、二重交差疑似監視ネットワークに入力として拡張画像をフィードする。 CMRxMotion データセット [1] で本手法の評価を行った。 部分的ラベル付きデータとドメインラベルなしデータのみを用いて,呼吸運動の異なる心臓磁気共鳴画像の精度の高いセグメンテーション結果を生成する。 コードは、https://github.com/MAWanqin2002/STACOM2022Maで入手できる。

Developing a deep learning method for medical segmentation tasks heavily relies on a large amount of labeled data. However, the annotations require professional knowledge and are limited in number. Recently, semi-supervised learning has demonstrated great potential in medical segmentation tasks. Most existing methods related to cardiac magnetic resonance images only focus on regular images with similar domains and high image quality. A semi-supervised domain generalization method was developed in [2], which enhances the quality of pseudo labels on varied datasets. In this paper, we follow the strategy in [2] and present a domain generalization method for semi-supervised medical segmentation. Our main goal is to improve the quality of pseudo labels under extreme MRI Analysis with various domains. We perform Fourier transformation on input images to learn low-level statistics and cross-domain information. Then we feed the augmented images as input to the double cross pseudo supervision networks to calculate the variance among pseudo labels. We evaluate our method on the CMRxMotion dataset [1]. With only partially labeled data and without domain labels, our approach consistently generates accurate segmentation results of cardiac magnetic resonance images with different respiratory motions. Code is available at: https://github.com/MAWanqin2002/STACOM2022Ma
翻訳日:2023-12-06 02:02:22 公開日:2023-12-02
# 室温における可変フォノン駆動マグノンエンタングルメント

Tunable phonon-driven magnon-magnon entanglement at room temperature ( http://arxiv.org/abs/2209.01032v2 )

ライセンス: Link先を確認
Yuefei Liu, Andrey Bagrov, Anders Bergman, Anna Delin, Olle Eriksson, Manuel Pereiro, Simon Streib, Danny Thonig, Erik Sj\"oqvist, and Vahid Azimi-Mousolou(参考訳) 高温における2成分量子マグノニック系における絡み合った定常状態の存在を報告する。 フォノンモードと外部回転磁場との相互作用を考慮した二部磁性反強磁性体における2つのマグノンモードの散逸ダイナミクスを考察する。 両部マグノン-マグノンの絡み合いを定量化するために, 絡み合いの負性を利用して温度および磁場依存性を計算する。 我々は,マグノンモードとフォノンモードのカップリングが絡み合いに必要であることを示すとともに,任意のフォノン周波数とマグノン-フォノンカップリング速度に対して,常にマグノン-フォノンの絡み合いが室温で持続する磁場振幅と周波数の範囲が存在することを示す。

We report the existence of entangled steady-states in bipartite quantum magnonic systems at elevated temperatures. We consider dissipative dynamics of two magnon modes in a bipartite antiferromagnet, subjected to interaction with a phonon mode and an external rotating magnetic field. To quantify the bipartite magnon-magnon entanglement, we use entanglement negativity and compute its dependence on temperature and magnetic field. We provide evidence that the coupling between magnon and phonon modes is necessary for the entanglement, and that, for any given phonon frequency and magnon-phonon coupling rate, there are always ranges of the magnetic field amplitudes and frequencies for which magnon-magnon entanglement persists at room temperature.
翻訳日:2023-12-06 02:00:41 公開日:2023-12-02
# システムモデリングとシミュレーションにおける複雑なSTEM問題の解決のためのCDIO-CT協調戦略--数学的振り子周期の解決の図示

CDIO-CT collaborative strategy for solving complex STEM problems in system modeling and simulation: an illustration of solving the period of mathematical pendulum ( http://arxiv.org/abs/2212.09209v2 )

ライセンス: Link先を確認
Hong-Yan Zhang, Yu Zhou, Yu-Tao Li, Fu-Yun Li and Yong-Hui Jiang(参考訳) 課題プロジェクト指向のSTEM教育は、学生のイノベーション能力の育成に重要な役割を果たしている。 近年,CDIO(Conceive-Design-implement-operate)アプローチとCT(Computer Thinking)アプローチがホットトピックとなっているが,CDIOアプローチとCTは別々に議論され,システムモデリングやシミュレーションにおける複雑なSTEM問題に対処する一般的な枠組みが欠落している。 本稿では,システムモデリングとシミュレーションにおける複雑なSTEM問題を解決するためのCDIOとCTに基づく協調戦略を提案する。 例として、数学振り子(MP)の周期を解くことの問題点を詳述する。 この問題に関わる最も難しいタスクは、第一種(CEI-1)の完全な楕円積分を計算することである。 STEM教育の哲学では、全ての問題には複数の解決策がある。 cei-1の計算には、無限級数法、算術-幾何平均法(agm)法、ガウス-チェビシェフ法、ガウス-レゲンドル法を含む4つの手法をトップダウン戦略で議論する。 関連するアルゴリズムはR&Dプロジェクトで利用することができ、遭遇した要求に応じて再利用することができる。 システムモデリングとシミュレーションにおける複雑なSTEM問題を解決するための一般的な枠組みは、大学生やインストラクターに推奨に値する。

The problem-project-oriented STEM education plays a significant role in training students' ability of innovation. Although the conceive-design-implement-operate (CDIO) approach and the computational thinking (CT) are hot topics in recent decade, there are still two deficiencies: the CDIO approach and CT are discussed separately and a general framework of coping with complex STEM problems in system modeling and simulation is missing. In this paper, a collaborative strategy based on the CDIO and CT is proposed for solving complex STEM problems in system modeling and simulation with a general framework, in which the CDIO is about ``how to do", CT is about ``how to think", and the project means ``what to do". As an illustration, the problem of solving the period of mathematical pendulum (MP) is discussed in detail. The most challenging task involved in the problem is to compute the complete elliptic integral of the first kind (CEI-1). In the philosophy of STEM education, all problems have more than one solutions. For computing the CEI-1, four methods are discussed with a top-down strategy, which includes the infinite series method, arithmetic-geometric mean (AGM) method, Gauss-Chebyshev method and Gauss-Legendre method. The algorithms involved can be utilized for R & D projects of interest and be reused according to the requirements encountered. The general framework for solving complex STEM problem in system modeling and simulation is worth recommending to the college students and instructors.
翻訳日:2023-12-06 01:53:10 公開日:2023-12-02
# ニュース要約による大規模言語モデルの事実整合性の評価

Evaluating the Factual Consistency of Large Language Models Through News Summarization ( http://arxiv.org/abs/2211.08412v2 )

ライセンス: Link先を確認
Derek Tam, Anisha Mascarenhas, Shiyue Zhang, Sarah Kwan, Mohit Bansal, Colin Raffel(参考訳) 大規模言語モデル (LLM) は様々なタスクに有効であることが証明されているが、情報の幻覚としても知られている。 LLMが実際に一貫した入力継続を好むかどうかを測定するために,要約の課題に焦点を当てたFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。 具体的には、LLMが割り当てるスコアを事実整合性に比較し、入力ニュース記事の事実整合性に欠ける要約と比較する。 現実的に一貫した要約では、手動で事実的に一貫した検証を行う人間による参照要約を用いる。 現実的に矛盾しない要約を生成するために,手動で注釈付けした一連の要約モデルから要約を生成する。 モデルの事実整合性は、その正確さ、すなわち、事実に一貫性のある要約により高いスコアを割り当てる文書の割合に応じて測定される。 FIBの有用性を検証するため,BLOOM や OPT を含む6種類のモデルファミリから 1B から 176B までの大言語モデルを評価した。 既存のLCMは、現実的に一貫性のない要約よりも、現実的に一貫性のない要約に高いスコアを割り当てている。 しかし、事実的に一貫性のない要約が文書の中で冗長な場合、LCMは事実的に一貫性のない要約よりも高いスコアをこれらの事実的に一貫性のない要約に割り当てる。 我々は,スコアリング方法と邪魔者サマリーのソースを含むベンチマークで設計選択を検証する。 コードとベンチマークデータはhttps://github.com/r-three/fib.com/で確認できます。

While large language models (LLMs) have proven to be effective on a large variety of tasks, they are also known to hallucinate information. To measure whether an LLM prefers factually consistent continuations of its input, we propose a new benchmark called FIB(Factual Inconsistency Benchmark) that focuses on the task of summarization. Specifically, our benchmark involves comparing the scores an LLM assigns to a factually consistent versus a factually inconsistent summary for an input news article. For factually consistent summaries, we use human-written reference summaries that we manually verify as factually consistent. To generate summaries that are factually inconsistent, we generate summaries from a suite of summarization models that we have manually annotated as factually inconsistent. A model's factual consistency is then measured according to its accuracy, i.e.\ the proportion of documents where it assigns a higher score to the factually consistent summary. To validate the usefulness of FIB, we evaluate 23 large language models ranging from 1B to 176B parameters from six different model families including BLOOM and OPT. We find that existing LLMs generally assign a higher score to factually consistent summaries than to factually inconsistent summaries. However, if the factually inconsistent summaries occur verbatim in the document, then LLMs assign a higher score to these factually inconsistent summaries than factually consistent summaries. We validate design choices in our benchmark including the scoring method and source of distractor summaries. Our code and benchmark data can be found at https://github.com/r-three/fib.
翻訳日:2023-12-06 01:51:47 公開日:2023-12-02
# ビジョンのためのMetaFormerベースライン

MetaFormer Baselines for Vision ( http://arxiv.org/abs/2210.13452v3 )

ライセンス: Link先を確認
Weihao Yu, Chenyang Si, Pan Zhou, Mi Luo, Yichen Zhou, Jiashi Feng, Shuicheng Yan, Xinchao Wang(参考訳) トランスフォーマーの抽象化されたアーキテクチャであるmetaformerは、競争的パフォーマンスを達成する上で重要な役割を担っている。 本稿では,MetaFormerのトークンミキサー設計に焦点をあてることなく,MetaFormerのキャパシティをさらに検討する: 最も基本的なあるいは一般的なミキサーを用いて,MetaFormerの下でいくつかのベースラインモデルを導入し,その観測結果を次のように要約する。 トークンミキサーとしてIDマッピングを採用するだけで、MetaFormerモデルはIdentityFormerと呼ばれ、ImageNet-1K上で80%の精度を達成する。 2) MetaFormerは任意のトークンミキサーとうまく機能します。 トークンミキサーをランダムなマトリックスとして指定してトークンを混ぜる場合、結果のモデルであるRandFormerは81%の精度でIdentityFormerを上回ります。 新しいトークンミキサーを採用すると、MetaFormerの結果が保証される。 3) metaformerは最先端の成果を無償で提供する。 従来のトークンミキサーは5年前のもので、metaformerからインスタンス化されたモデルは、すでにstate of the artを上回っている。 (a)ConvFormerはConvNeXtより優れている。 トークンミキサーとして共通的に分離可能な畳み込みを取り入れたこのモデルは、純粋なCNNと見なすことができるConvFormerと呼ばれ、強力なCNNモデルであるConvNeXtよりも優れている。 (b)CAFormerはImageNet-1Kに新しいレコードを設定する。 下段のトークンミキサーや上段のバニラセルフアテンションとして奥行き分離可能な畳み込みを単純に適用することにより、得られたモデルカフォーマはimagenet-1kに新しい記録を設定し、外部データや蒸留なしで85.5%の精度を224x224解像度で達成する。 MetaFormer の探索では,新たな活性化である StarReLU が GELU と比較して 71% FLOP の活性化を減少させるが,性能は向上する。 StarReLUは他のニューラルネットワークと共にMetaFormerのようなモデルに大きな可能性を見出すだろう。

MetaFormer, the abstracted architecture of Transformer, has been found to play a significant role in achieving competitive performance. In this paper, we further explore the capacity of MetaFormer, again, without focusing on token mixer design: we introduce several baseline models under MetaFormer using the most basic or common mixers, and summarize our observations as follows: (1) MetaFormer ensures solid lower bound of performance. By merely adopting identity mapping as the token mixer, the MetaFormer model, termed IdentityFormer, achieves >80% accuracy on ImageNet-1K. (2) MetaFormer works well with arbitrary token mixers. When specifying the token mixer as even a random matrix to mix tokens, the resulting model RandFormer yields an accuracy of >81%, outperforming IdentityFormer. Rest assured of MetaFormer's results when new token mixers are adopted. (3) MetaFormer effortlessly offers state-of-the-art results. With just conventional token mixers dated back five years ago, the models instantiated from MetaFormer already beat state of the art. (a) ConvFormer outperforms ConvNeXt. Taking the common depthwise separable convolutions as the token mixer, the model termed ConvFormer, which can be regarded as pure CNNs, outperforms the strong CNN model ConvNeXt. (b) CAFormer sets new record on ImageNet-1K. By simply applying depthwise separable convolutions as token mixer in the bottom stages and vanilla self-attention in the top stages, the resulting model CAFormer sets a new record on ImageNet-1K: it achieves an accuracy of 85.5% at 224x224 resolution, under normal supervised training without external data or distillation. In our expedition to probe MetaFormer, we also find that a new activation, StarReLU, reduces 71% FLOPs of activation compared with GELU yet achieves better performance. We expect StarReLU to find great potential in MetaFormer-like models alongside other neural networks.
翻訳日:2023-12-06 01:49:17 公開日:2023-12-02
# DIFUSCO: 組合せ最適化のためのグラフベースの拡散解法

DIFUSCO: Graph-based Diffusion Solvers for Combinatorial Optimization ( http://arxiv.org/abs/2302.08224v2 )

ライセンス: Link先を確認
Zhiqing Sun, Yiming Yang(参考訳) ニューラルネットワークに基づく組合せ最適化(CO)手法は、手作りのドメイン知識に頼ることなく、様々なNP完全(NPC)問題を解くという有望な結果を示している。 本稿では,新しいグラフベース拡散フレームワークdifuscoを導入することで,npc問題に対するニューラルソルバの現在の適用範囲を広げる。 本フレームワークは,NPC問題を離散ベクトル最適化問題とみなし,グラフに基づく分極拡散モデルを用いて高品質な解を生成する。 ガウスノイズとベルヌーイノイズの2種類の拡散モデルについて検討し,解の質を高めるための効果的な推論スケジュールを考案した。 本研究では,2つのNPC組合せ最適化問題であるトラベリングセールスマン問題(TSP)と最大独立セット(MIS)について検討した。 実験の結果,DIFUSCOは従来の最先端のニューラルソルバよりも優れ,TSP-500では1.76%から0.46%,TSP-1000では2.46%から1.17%,TSP10000では3.19%から2.58%に向上した。 MIS問題に対して、DIFUSCOは、挑戦的なSATLIBベンチマークにおいて、以前の最先端のニューラルソルバよりも優れている。

Neural network-based Combinatorial Optimization (CO) methods have shown promising results in solving various NP-complete (NPC) problems without relying on hand-crafted domain knowledge. This paper broadens the current scope of neural solvers for NPC problems by introducing a new graph-based diffusion framework, namely DIFUSCO. Our framework casts NPC problems as discrete {0, 1}-vector optimization problems and leverages graph-based denoising diffusion models to generate high-quality solutions. We investigate two types of diffusion models with Gaussian and Bernoulli noise, respectively, and devise an effective inference schedule to enhance the solution quality. We evaluate our methods on two well-studied NPC combinatorial optimization problems: Traveling Salesman Problem (TSP) and Maximal Independent Set (MIS). Experimental results show that DIFUSCO strongly outperforms the previous state-of-the-art neural solvers, improving the performance gap between ground-truth and neural solvers from 1.76% to 0.46% on TSP-500, from 2.46% to 1.17% on TSP-1000, and from 3.19% to 2.58% on TSP10000. For the MIS problem, DIFUSCO outperforms the previous state-of-the-art neural solver on the challenging SATLIB benchmark.
翻訳日:2023-12-06 01:41:42 公開日:2023-12-02
# オフライン強化学習のための保守的状態値推定

Conservative State Value Estimation for Offline Reinforcement Learning ( http://arxiv.org/abs/2302.06884v2 )

ライセンス: Link先を確認
Liting Chen, Jie Yan, Zhengdao Shao, Lu Wang, Qingwei Lin, Saravan Rajmohan, Thomas Moscibroda and Dongmei Zhang(参考訳) オフライン強化学習は、データセットと現在の学習方針の分散的なドリフトによって、価値の過大評価という大きな課題に直面している。 一般的なアプローチは、報酬または価値推定にペナルティ項をベルマン反復に組み込むことである。 一方、out-of-distribution(ood)状態とアクションの補間を避けるために、既存の手法では保守的なq関数推定に焦点を当てている。 本稿では,OOD状態に直接ペナルティを課すことによって,保守的V関数を学習する新しいアプローチである保存的状態値推定(CSVE)を提案する。 従来の作業と比較すると、CSVEは保守的な保証を伴うより効果的な状態値推定と、より優れたポリシー最適化を可能にしている。 さらに, csveを応用し, 批判者がデータ集合 \emph{around} の状態のサンプリングとペナルティを付加することにより, 保守的価値推定を行う実用的なアクタ-批判的アルゴリズムを開発し, 状態探索によって拡張された重み付き更新を活用し, ポリシーを改善する。 我々はD4RLの古典的連続制御タスクにおいて,本手法が保守的なQ関数学習法よりも優れており,最近のSOTA法と強く競合していることを示す。

Offline reinforcement learning faces a significant challenge of value over-estimation due to the distributional drift between the dataset and the current learned policy, leading to learning failure in practice. The common approach is to incorporate a penalty term to reward or value estimation in the Bellman iterations. Meanwhile, to avoid extrapolation on out-of-distribution (OOD) states and actions, existing methods focus on conservative Q-function estimation. In this paper, we propose Conservative State Value Estimation (CSVE), a new approach that learns conservative V-function via directly imposing penalty on OOD states. Compared to prior work, CSVE allows more effective state value estimation with conservative guarantees and further better policy optimization. Further, we apply CSVE and develop a practical actor-critic algorithm in which the critic does the conservative value estimation by additionally sampling and penalizing the states \emph{around} the dataset, and the actor applies advantage weighted updates extended with state exploration to improve the policy. We evaluate in classic continual control tasks of D4RL, showing that our method performs better than the conservative Q-function learning methods and is strongly competitive among recent SOTA methods.
翻訳日:2023-12-06 01:41:16 公開日:2023-12-02
# 異常検出から異常セグメンテーションへの超球ロス関数の適応

Adapting the Hypersphere Loss Function from Anomaly Detection to Anomaly Segmentation ( http://arxiv.org/abs/2301.09602v2 )

ライセンス: Link先を確認
Joao P. C. Bertoldo, Santiago Velasco-Forero, Jesus Angulo, Etienne Decenci\`ere(参考訳) 本稿では,異常検出から画像異常セグメンテーション(異常局所化)への一クラス分類アプローチの適応として,FCDD(Fully Convolutional Data Description)の漸進的な改善を提案する。 元の損失関数を解析し,前任のハイパースフィア分類器(HSC)によく似た代替関数を提案する。 どちらもMVTec Anomaly Detection Dataset (MVTec-AD)で比較されている -- トレーニングイメージは欠陥のないオブジェクト/コンテキストであり、未確認の欠陥をセグメントすることを目的としている。

We propose an incremental improvement to Fully Convolutional Data Description (FCDD), an adaptation of the one-class classification approach from anomaly detection to image anomaly segmentation (a.k.a. anomaly localization). We analyze its original loss function and propose a substitute that better resembles its predecessor, the Hypersphere Classifier (HSC). Both are compared on the MVTec Anomaly Detection Dataset (MVTec-AD) -- training images are flawless objects/textures and the goal is to segment unseen defects -- showing that consistent improvement is achieved by better designing the pixel-wise supervision.
翻訳日:2023-12-06 01:39:06 公開日:2023-12-02
# データソースの最適正規化

Optimal Regularization for a Data Source ( http://arxiv.org/abs/2212.13597v2 )

ライセンス: Link先を確認
Oscar Leong, Eliza O'Reilly, Yong Sheng Soh and Venkat Chandrasekaran(参考訳) 逆問題や統計的推定に対する最適化に基づくアプローチでは、解の所望の構造特性を促進する正則化子でデータ忠実性を強制する基準を補強することが一般的である。 適切な正規化器の選択は、通常、事前のドメイン情報と計算上の考慮の組み合わせによって行われる。 凸正則化器は計算的に魅力的であるが、促進できる構造の種類には制限がある。 一方、非凸正則化器は、推進できる構造の形態においてより柔軟であり、いくつかのアプリケーションで強い経験的性能を示すが、関連する最適化問題を解決するという計算上の課題が伴う。 本稿では, 分散が与えられた場合, 分散から引き出されたデータに対して, 最適な正規化器は何か, という質問をすることで, 凸正則化のパワーと限界を体系的に理解することを模索する。 データソースのどの特性が最適正則化器が凸であるかを制御しているのか? 我々は、連続かつ正に同質であり、原点から離れる正の関数によって特定される正規化子のクラスについて、これらの問題に対処する。 正則化器は、正則化器が与えるエネルギーのギブス密度が、正則化器が誘導するすべてのギブス密度の人口密度(または同値なエントロピー損失を最小化する)を最大化するならば、データ分布に最適であると言う。 私たちが考えるレギュラライザーは、恒星体と1対1の対応にあるため、データ分布から得られる放射関数は、最適なレギュラライザーを識別し、データソースが凸正規化を観測できる可算性を評価するための重要な量である「計算量十分統計」に類似していることを示すために、双対ブルン・ミンコフスキー理論を利用する。

In optimization-based approaches to inverse problems and to statistical estimation, it is common to augment criteria that enforce data fidelity with a regularizer that promotes desired structural properties in the solution. The choice of a suitable regularizer is typically driven by a combination of prior domain information and computational considerations. Convex regularizers are attractive computationally but they are limited in the types of structure they can promote. On the other hand, nonconvex regularizers are more flexible in the forms of structure they can promote and they have showcased strong empirical performance in some applications, but they come with the computational challenge of solving the associated optimization problems. In this paper, we seek a systematic understanding of the power and the limitations of convex regularization by investigating the following questions: Given a distribution, what is the optimal regularizer for data drawn from the distribution? What properties of a data source govern whether the optimal regularizer is convex? We address these questions for the class of regularizers specified by functionals that are continuous, positively homogeneous, and positive away from the origin. We say that a regularizer is optimal for a data distribution if the Gibbs density with energy given by the regularizer maximizes the population likelihood (or equivalently, minimizes cross-entropy loss) over all regularizer-induced Gibbs densities. As the regularizers we consider are in one-to-one correspondence with star bodies, we leverage dual Brunn-Minkowski theory to show that a radial function derived from a data distribution is akin to a ``computational sufficient statistic'' as it is the key quantity for identifying optimal regularizers and for assessing the amenability of a data source to convex regularization.
翻訳日:2023-12-06 01:37:36 公開日:2023-12-02
# 物理インフォームドガウス過程回帰は線形PDE解を一般化する

Physics-Informed Gaussian Process Regression Generalizes Linear PDE Solvers ( http://arxiv.org/abs/2212.12474v5 )

ライセンス: Link先を確認
Marvin Pf\"ortner and Ingo Steinwart and Philipp Hennig and Jonathan Wenger(参考訳) 線形偏微分方程式(英: Linear partial differential equation, PDEs)は、熱伝達、電磁気、波動伝播などの物理過程を記述する重要な力学モデルのクラスである。 実際には、離散化に基づく特殊数値法を用いてPDEを解く。 一般に、未知のモデルパラメータの見積もりと、可能であれば初期化の物理的測定を用いる。 このような解法はしばしば下流の応用でより大きな科学的モデルに埋め込まれ、エラー定量化が重要な役割を果たす。 しかし、パラメータや測定の不確かさを無視することで、古典的なPDEソルバはその固有近似誤差の一貫した推定を導出できない可能性がある。 本研究では、線形PDEを物理インフォームドガウス過程(GP)回帰として解釈することで、この問題を原理的にアプローチする。 我々のフレームワークは、任意の有界線型作用素による観測に対するガウス過程推論定理の鍵となる一般化に基づいている。 この確率論的視点は、(1)固有の離散化誤差の定量化、(2)モデルパラメータの不確かさを解に伝播させ、(3)ノイズ測定の条件を与える。 この定式化の強さを実証し、重み付け残差法、コロケーション、有限体積、擬スペクトル、および有限要素法やスペクトル法のような(一般化)ガレルキン法を含むPDEソルバの中心クラスを厳密に一般化することを証明する。 したがって、このクラスは構造化誤差推定を直接装備することができる。 要約すると, 数値解析とベイズ推定の境界を曖昧にすることで, モジュラービルディングブロックとしての機械モデルと確率モデルとのシームレスな統合が可能となる。

Linear partial differential equations (PDEs) are an important, widely applied class of mechanistic models, describing physical processes such as heat transfer, electromagnetism, and wave propagation. In practice, specialized numerical methods based on discretization are used to solve PDEs. They generally use an estimate of the unknown model parameters and, if available, physical measurements for initialization. Such solvers are often embedded into larger scientific models with a downstream application and thus error quantification plays a key role. However, by ignoring parameter and measurement uncertainty, classical PDE solvers may fail to produce consistent estimates of their inherent approximation error. In this work, we approach this problem in a principled fashion by interpreting solving linear PDEs as physics-informed Gaussian process (GP) regression. Our framework is based on a key generalization of the Gaussian process inference theorem to observations made via an arbitrary bounded linear operator. Crucially, this probabilistic viewpoint allows to (1) quantify the inherent discretization error; (2) propagate uncertainty about the model parameters to the solution; and (3) condition on noisy measurements. Demonstrating the strength of this formulation, we prove that it strictly generalizes methods of weighted residuals, a central class of PDE solvers including collocation, finite volume, pseudospectral, and (generalized) Galerkin methods such as finite element and spectral methods. This class can thus be directly equipped with a structured error estimate. In summary, our results enable the seamless integration of mechanistic models as modular building blocks into probabilistic models by blurring the boundaries between numerical analysis and Bayesian inference.
翻訳日:2023-12-06 01:37:03 公開日:2023-12-02
# CompoNeRF:編集可能な3Dシーンレイアウトによるテキスト誘導多目的合成型NeRF

CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D Scene Layout ( http://arxiv.org/abs/2303.13843v3 )

ライセンス: Link先を確認
Haotian Bai, Yuanhuiyi Lyu, Lutao Jiang, Sijia Li, Haonan Lu, Xiaodong Lin, Lin Wang(参考訳) 最近の進歩は、テキストから3Dオブジェクト生成のための事前訓練された拡散モデルとニューラルラジアンス場(NeRF)を融合させる可能性を示している。 しかし、永続的な課題のひとつは、一貫性のあるマルチオブジェクト環境を正確に解析し再生する能力が不十分であることだ。 特に、これらのモデルは、多目的テキストによって引き起こされる量とスタイルを正確に表現することが困難であり、しばしば、意味的な複雑さにマッチしないレンダリング忠実性が崩壊する。 さらに、これらの要素をコヒーレントな3dシーンに融合することは大きな課題であり、拡散モデルに固有の一般的な分布に由来する。 誘導崩壊問題に対処し、一貫性を高めるために、編集可能な3Dシーンレイアウトとオブジェクト固有およびシーンワイドガイダンス機構を統合することで、CompoNeRFと呼ばれる新しいフレームワークを提案する。 複雑なテキストを複数のNeRFで集約された編集可能な3Dレイアウトに解釈し、対応するサブテキストプロンプトと組み合わせて、正確なオブジェクトの描写を行う。 次に、調整された合成モジュールがこれらのNeRFをシームレスにブレンドし、一貫性を促進し、二重レベルテキストガイダンスは曖昧さを低減し、精度を高める。 特に、CompoNeRFのユニークなモジュラリティは、NeRF分解を可能にする。 これにより、編集されたレイアウトやテキストプロンプトに基づいてフレキシブルなシーン編集と新しいシーンへの再構成が可能になる。 オープンソースの安定拡散モデルを利用することで、CompoNeRFは高い忠実度を持つシーンを生成するだけでなく、編集可能な3Dレイアウトを用いた革新的なマルチオブジェクト合成の道を開く。 注目すべきは,マルチビューCLIPスコアの計測値から,最大54倍の性能向上を実現している点である。 コードはhttps://github.com/hbai98/componerfで入手できる。

Recent advances have shown promise in merging neural radiance fields (NeRFs) with pre-trained diffusion models for text-to-3D object generation. However, one enduring challenge is their inadequate capability to accurately parse and regenerate consistent multi-object environments. Specifically, these models encounter difficulties in accurately representing quantity and style prompted by multi-object texts, often resulting in a collapse of the rendering fidelity that fails to match the semantic intricacies. Moreover, amalgamating these elements into a coherent 3D scene is a substantial challenge, stemming from generic distribution inherent in diffusion models. To tackle the issue of 'guidance collapse' and enhance consistency, we propose a novel framework, dubbed CompoNeRF, by integrating an editable 3D scene layout with object specific and scene-wide guidance mechanisms. It initiates by interpreting a complex text into an editable 3D layout populated with multiple NeRFs, each paired with a corresponding subtext prompt for precise object depiction. Next, a tailored composition module seamlessly blends these NeRFs, promoting consistency, while the dual-level text guidance reduces ambiguity and boosts accuracy. Noticeably, the unique modularity of CompoNeRF permits NeRF decomposition. This enables flexible scene editing and recomposition into new scenes based on the edited layout or text prompts. Utilizing the open source Stable Diffusion model, CompoNeRF not only generates scenes with high fidelity but also paves the way for innovative multi-object composition using editable 3D layouts. Remarkably, our framework achieves up to a 54\% improvement in performance, as measured by the multi-view CLIP score metric. Code is available at https://github.com/hbai98/Componerf.
翻訳日:2023-12-06 01:29:43 公開日:2023-12-02
# ロボットマニピュレーションタスクのためのマルチカメラビューからシングルカメラビュー知識蒸留への視覚ポリティクス学習

Visual-Policy Learning through Multi-Camera View to Single-Camera View Knowledge Distillation for Robot Manipulation Tasks ( http://arxiv.org/abs/2303.07026v2 )

ライセンス: Link先を確認
Cihan Acar, Kuluhan Binici, Alp Tekirda\u{g} and Yan Wu(参考訳) マルチカメラビューを同時に使用することで、視覚ポリシーの一般化能力と性能が向上することが示されている。 しかし、現実のシナリオにおけるハードウェアコストと設計上の制約は、複数のカメラの使用を難しくする可能性がある。 本研究では,ロボット操作タスクのための視覚に基づく強化学習(RL)アルゴリズムの一般化性能を高める新しい手法を提案する。 提案手法は,複数のカメラ視点で訓練された「教師」政策が,単一カメラ視点から学習する「学生」政策を導く「知識蒸留」と呼ばれる手法を利用する。 カメラ位置摂動に対する学生政策の堅牢性を高めるため、データ拡張と極端な視点変化を用いて訓練を行う。 その結果、学生ポリシーは、カメラの視点に関係なく、興味のある対象を正確にかつ一貫して見つけることができる堅牢な視覚特徴を学習する。 提案手法の有効性と効率をシミュレーションと実環境の両方で評価した。 その結果、単一視点の視覚的学生政策は、単一視点の政策だけでは不可能な課題を把握し、持ち上げることをうまく学べることを示した。 さらに、学生の方針はゼロショット転送能力を示し、見えない視覚構成のための現実シナリオにおけるオブジェクトの把握と持ち上げを成功させる。

The use of multi-camera views simultaneously has been shown to improve the generalization capabilities and performance of visual policies. However, the hardware cost and design constraints in real-world scenarios can potentially make it challenging to use multiple cameras. In this study, we present a novel approach to enhance the generalization performance of vision-based Reinforcement Learning (RL) algorithms for robotic manipulation tasks. Our proposed method involves utilizing a technique known as knowledge distillation, in which a pre-trained ``teacher'' policy trained with multiple camera viewpoints guides a ``student'' policy in learning from a single camera viewpoint. To enhance the student policy's robustness against camera location perturbations, it is trained using data augmentation and extreme viewpoint changes. As a result, the student policy learns robust visual features that allow it to locate the object of interest accurately and consistently, regardless of the camera viewpoint. The efficacy and efficiency of the proposed method were evaluated both in simulation and real-world environments. The results demonstrate that the single-view visual student policy can successfully learn to grasp and lift a challenging object, which was not possible with a single-view policy alone. Furthermore, the student policy demonstrates zero-shot transfer capability, where it can successfully grasp and lift objects in real-world scenarios for unseen visual configurations.
翻訳日:2023-12-06 01:27:49 公開日:2023-12-02
# マルチモード Gottesman-Kitaev-Preskill 符号の最も近い格子点復号法

Closest lattice point decoding for multimode Gottesman-Kitaev-Preskill codes ( http://arxiv.org/abs/2303.04702v2 )

ライセンス: Link先を確認
Mao Lin, Christopher Chamberland, Kyungjoo Noh(参考訳) 量子誤り訂正(QEC)は、フォールトトレラントな量子アルゴリズムの実現において重要な役割を果たす。 QECに対する様々なアプローチの中で、調和振動子モードで論理量子情報を符号化することは有望でハードウェア効率が良いことが示されている。 本研究では,多モードの Gottesman-Kitaev-Preskill (GKP) 符号について検討し,多くの振動子に量子ビットを符号化する。 特に,ランダムガウスシフト誤差を補正するための最接近点復号法を実装した。 一般的な多モードGKP符号の復号には、まず対応する格子を識別し、次にシンプレクティック双対格子の最も近い格子点と、エラーシンドロームと互換性のある候補シフト誤差を見出す。 本手法は,複数の既知の多モードGKP符号の符号距離や忠実度を含む誤り訂正能力を特徴付ける。 また、最大10モードまでのマルチモードGKP符号の数値最適化を行い、同じモード数のGKP符号と比較して符号距離と忠実度が良い3つのインスタンス(3、7、9モード)を探索する。 一般の非構造化GKP符号のモード数において、正確に最も近い点復号法は指数時間コストを発生させるが、最も近い点復号法は線形時間で正確に実行できるような構造化GKP符号の例をいくつか挙げる。 表面GKP符号に対しては,最小長マッチングアルゴリズム(MWPM)の助けを借りて,多項式時間で最も近い点復号を行うことができることを示す。 このMWPM最寄りのポイントデコーダは、従来研究されてきたMWPMデコーダと比較して、表面GKP符号の忠実度とノイズ閾値の両方を0.602に改善し、ノイズ閾値が0.599となるログ状アナログ情報によって支援されている。

Quantum error correction (QEC) plays an essential role in fault-tolerantly realizing quantum algorithms of practical interest. Among different approaches to QEC, encoding logical quantum information in harmonic oscillator modes has been shown to be promising and hardware efficient. In this work, we study multimode Gottesman-Kitaev-Preskill (GKP) codes, encoding a qubit in many oscillators, through a lattice perspective. In particular, we implement a closest point decoding strategy for correcting random Gaussian shift errors. For decoding a generic multimode GKP code, we first identify its corresponding lattice followed by finding the closest lattice point in its symplectic dual lattice to a candidate shift error compatible with the error syndrome. We use this method to characterize the error correction capabilities of several known multimode GKP codes, including their code distances and fidelities. We also perform numerical optimization of multimode GKP codes up to ten modes and find three instances (with three, seven and nine modes) with better code distances and fidelities compared to the known GKP codes with the same number of modes. While exact closest point decoding incurs exponential time cost in the number of modes for general unstructured GKP codes, we give several examples of structured GKP codes (i.e., of the repetition-rectangular GKP code types) where the closest point decoding can be performed exactly in linear time. For the surface-GKP code, we show that the closest point decoding can be performed exactly in polynomial time with the help of a minimum-weight-perfect-matching algorithm (MWPM). We show that this MWPM closest point decoder improves both the fidelity and the noise threshold of the surface-GKP code to 0.602 compared to the previously studied MWPM decoder assisted by log-likelihood analog information which yields a noise threshold of 0.599.
翻訳日:2023-12-06 01:25:55 公開日:2023-12-02
# パラメトリック駆動カプラを用いた形状単一マイクロ波光子の決定論的生成

Deterministic generation of shaped single microwave photons using a parametrically driven coupler ( http://arxiv.org/abs/2303.02899v2 )

ライセンス: Link先を確認
Jiaying Yang, Axel Eriksson, Mohammed Ali Aamir, Ingrid Strandberg, Claudia Castillo Moreno, Daniel Perez Lozano, Per Persson, and Simone Gasparinetti(参考訳) 分散量子コンピューティングシステムは、空間的に分離された処理ユニット間の量子通信チャネルを必要とする。 超伝導回路では、伝播マイクロ波光子を用いてエミッタと受信ノード間の量子情報を符号化し転送することで、そのようなチャネルを実現することができる。 本稿では,データキュービットの状態が伝播するマイクロ波モードに決定論的に伝達される超伝導回路を94.5%の精度で実証する。 我々は、時間変化パラメトリックドライブを用いて、伝搬モードの時間プロファイルを時間対称かつ一定位相で形成することにより、受信プロセッサによる再吸収を時間反転バージョンのエミッションとして実装することができる。 パラメトリックドライブの変調による出力周波数の時間依存性シフトを補正するための自己校正ルーチンを実証する。 本研究は,分散量子コンピューティングネットワークにおける高忠実性量子状態転送と遠隔絡み込み操作を実現するための信頼性の高い手法を提供する。

A distributed quantum computing system requires a quantum communication channel between spatially separated processing units. In superconducting circuits, such a channel can be realized by using propagating microwave photons to encode and transfer quantum information between an emitter and a receiver node. Here we experimentally demonstrate a superconducting circuit that deterministically transfers the state of a data qubit into a propagating microwave mode, with a process fidelity of 94.5%. We use a time-varying parametric drive to shape the temporal profile of the propagating mode to be time-symmetric and with constant phase, so that reabsorption by the receiving processor can be implemented as a time-reversed version of the emission. We demonstrate a self-calibrating routine to correct for time-dependent shifts of the emitted frequencies due to the modulation of the parametric drive. Our work provides a reliable method to implement high-fidelity quantum state transfer and remote entanglement operations in a distributed quantum computing network.
翻訳日:2023-12-06 01:24:52 公開日:2023-12-02
# ハイブリッド量子ニューラルネットワークによる迷路問題の解法に関する深部Q学習

Deep-Q Learning with Hybrid Quantum Neural Network on Solving Maze Problems ( http://arxiv.org/abs/2304.10159v3 )

ライセンス: Link先を確認
Hao-Yuan Chen, Yen-Jui Chang, Shih-Wei Liao, Ching-Ray Chang(参考訳) 量子コンピューティングは、より高次元のデータを扱う機械学習アルゴリズムの限界を前進させ、ディープラーニング(dl)モデルの全体的なトレーニングパラメータを減らす大きな可能性を秘めている。 本研究は,ゲートベース量子コンピューティングモデル上でのトレーニング可能な変分量子回路(VQC)を用いて,モデルフリー強化学習問題における量子利得の可能性について検討する。 量子コンピュータの現在のモデルと能力の包括的調査と評価を通じて、我々は最新のQiskitとPyTorchフレームワークに基づく新しいハイブリッド量子ニューラルネットワークを設計し、訓練した。 我々は,その性能を,VQCを組み込んだ完全古典的CNNと比較した。 私たちの研究は、迷路問題を解決するための深層量子学習の可能性と、他の強化学習問題に対する洞察を提供します。 強化学習問題は合理的な学習期間とともに実践可能であると結論づける。 さらに,これら2つのアプローチの性能,アドバンテージ,デメリット,深層q学習問題,特に4x4より大きい大規模迷路問題に対するデメリットを理解するために,完全古典型とハイブリッド型量子ニューラルネットワークの比較研究を行った。

Quantum computing holds great potential for advancing the limitations of machine learning algorithms to handle higher dimensions of data and reduce overall training parameters in deep learning (DL) models. This study uses a trainable variational quantum circuit (VQC) on a gate-based quantum computing model to investigate the potential for quantum benefit in a model-free reinforcement learning problem. Through a comprehensive investigation and evaluation of the current model and capabilities of quantum computers, we designed and trained a novel hybrid quantum neural network based on the latest Qiskit and PyTorch framework. We compared its performance with a full-classical CNN with and without an incorporated VQC. Our research provides insights into the potential of deep quantum learning to solve a maze problem and, potentially, other reinforcement learning problems. We conclude that reinforcement learning problems can be practical with reasonable training epochs. Moreover, a comparative study of full-classical and hybrid quantum neural networks is discussed to understand these two approaches' performance, advantages, and disadvantages to deep-Q learning problems, especially on larger-scale maze problems larger than 4x4.
翻訳日:2023-12-06 01:17:03 公開日:2023-12-02
# 3レベル系の逐次励起による光子数ベースで符号化された多部絡み合い

Multipartite entanglement encoded in the photon-number basis by sequential excitation of a three-level system ( http://arxiv.org/abs/2304.08896v2 )

ライセンス: Link先を確認
Alan C. Santos, Christian Schneider, Romain Bachelard, Ana Predojevi\'c, Carlos Ant\'on-Solanas(参考訳) 3レベル系の逐次共振2光子励起により、光子数ベースで符号化されたエンタングルメントを生成するための一般的なスキームを提案する。 本稿では,光子対をバイエキシトン・エキシトンカスケードで生成できる量子ドット3レベル系の特定の場合に適用する。 提案方式で生成した状態は,生成状態に存在する多部相関が完全GHZ状態に対する秘密通信の増大率をもたらす可能性があるため,セキュア通信のためのツールを構成する。

We propose a general scheme to generate entanglement encoded in the photon-number basis, via a sequential resonant two-photon excitation of a three-level system. We apply it to the specific case of a quantum dot three-level system, which can emit a photon pair through a biexciton-exciton cascade. The state generated in our scheme constitutes a tool for secure communication, as the multipartite correlations present in the produced state may provide an enhanced rate of secret communication with respect to a perfect GHZ state.
翻訳日:2023-12-06 01:16:44 公開日:2023-12-02
# TiDEによる長期予測:時系列Dense Encoder

Long-term Forecasting with TiDE: Time-series Dense Encoder ( http://arxiv.org/abs/2304.08424v4 )

ライセンス: Link先を確認
Abhimanyu Das, Weihao Kong, Andrew Leach, Shaan Mathur, Rajat Sen and Rose Yu(参考訳) 最近の研究で、単純な線形モデルは、長期の時系列予測においてトランスフォーマーベースのアプローチより優れていることが示されている。 そこで我々は,線形モデルの単純さと高速さを享受しつつ,共変量や非線形依存性を扱える時系列予測のためのマルチレイヤパーセプトロン(MLP)ベースのエンコーダ・デコーダモデルであるTiDEを提案する。 理論的には、このモデルの最も単純な線形類似物は、いくつかの仮定の下で線形力学系(lds)の最適誤差率に近いことを証明できる。 実験により,提案手法は,最も優れたTransformerベースモデルよりも5~10倍高速でありながら,一般的な時系列予測ベンチマークにおいて,先行手法に適合あるいは優れることを示す。

Recent work has shown that simple linear models can outperform several Transformer based approaches in long term time-series forecasting. Motivated by this, we propose a Multi-layer Perceptron (MLP) based encoder-decoder model, Time-series Dense Encoder (TiDE), for long-term time-series forecasting that enjoys the simplicity and speed of linear models while also being able to handle covariates and non-linear dependencies. Theoretically, we prove that the simplest linear analogue of our model can achieve near optimal error rate for linear dynamical systems (LDS) under some assumptions. Empirically, we show that our method can match or outperform prior approaches on popular long-term time-series forecasting benchmarks while being 5-10x faster than the best Transformer based model.
翻訳日:2023-12-06 01:16:34 公開日:2023-12-02
# Baize: セルフチャットデータに基づくパラメータ効率チューニングを備えたオープンソースのチャットモデル

Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data ( http://arxiv.org/abs/2304.01196v4 )

ライセンス: Link先を確認
Canwen Xu and Daya Guo and Nan Duan and Julian McAuley(参考訳) ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。 しかし、これらのモデルは制限付きAPIを通じてのみアクセス可能であり、この分野における新たな研究と進歩の障壁となる。 そこで本研究では,chatgptを利用して対話を行うことで,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。 その後,オープンソースの大規模言語モデルであるLLaMAを強化するためにパラメータ効率のチューニングを用いる。 得られたモデルBaizeは、潜在的なリスクを最小限に抑えるガードレールとのマルチターン対話において、優れたパフォーマンスを示す。 さらに,chatgptからのフィードバックによりベイズモデルの性能をさらに向上させるため,自己蒸留型フィードバック技術を提案する。 baizeのモデルとデータは研究目的でhttps://github.com/project-baize/baize-chatbotでのみリリースされる。 オンラインデモもhttps://huggingface.co/spaces/project-baize/chat-with-baizeで公開されている。

Chat models, such as ChatGPT, have shown impressive capabilities and have been rapidly adopted across numerous domains. However, these models are only accessible through a restricted API, creating barriers for new research and progress in the field. We propose a pipeline that can automatically generate a high-quality multi-turn chat corpus by leveraging ChatGPT to engage in a conversation with itself. Subsequently, we employ parameter-efficient tuning to enhance LLaMA, an open-source large language model. The resulting model, named Baize, demonstrates good performance in multi-turn dialogues with guardrails that minimize potential risks. Furthermore, we propose a new technique called Self-Distill with Feedback, to further improve the performance of the Baize models with feedback from ChatGPT. The Baize models and data are released for research purposes only at https://github.com/project-baize/baize-chatbot. An online demo is also available at https://huggingface.co/spaces/project-baize/chat-with-baize.
翻訳日:2023-12-06 01:14:51 公開日:2023-12-02
# CapsFlow: カプセルネットワークによる光フロー推定

CapsFlow: Optical Flow Estimation with Capsule Networks ( http://arxiv.org/abs/2304.00306v2 )

ライセンス: Link先を確認
Rahul Chand, Rajat Arora, K Ram Prabhakar, R Venkatesh Babu(参考訳) 本稿では,コンピュータビジョンの基本的なタスクである光フローの問題を解決するために,最近導入されたCapsule Networksを使用するフレームワークを提案する。 最先端アーキテクチャの既存の状態のほとんどは、それらの特徴にマッチする相関オープレーションを使用する。 相関層はハイパーパラメータの選択に敏感であり、対象の基盤構造に先行しないが、時空間的特徴はネットワークの受容野によって制限される。 また、人間は動く物体全体を見るので、相関関係や時間的特徴ではエンコードできない。 一方、カプセルは分離実体をモデル化し、そのポーズを連続行列としてモデル化する。 そこで本研究では, カプセルによって検出された物体のポーズを, より単純な線形操作でモデル化できることを示す。 本研究では,FlowNetC と PWC-Net モデルより優れる小さな玩具データセット上で再試行を行う。

We present a framework to use recently introduced Capsule Networks for solving the problem of Optical Flow, one of the fundamental computer vision tasks. Most of the existing state of the art deep architectures either uses a correlation oepration to match features from them. While correlation layer is sensitive to the choice of hyperparameters and does not put a prior on the underlying structure of the object, spatio temporal features will be limited by the network's receptive field. Also, we as humans look at moving objects as whole, something which cannot be encoded by correlation or spatio temporal features. Capsules, on the other hand, are specialized to model seperate entities and their pose as a continuous matrix. Thus, we show that a simpler linear operation over poses of the objects detected by the capsules in enough to model flow. We show reslts on a small toy dataset where we outperform FlowNetC and PWC-Net models.
翻訳日:2023-12-06 01:14:37 公開日:2023-12-02
# Wavelet Augmentation Transformer を用いた不確実性フリー適応画像超解像

Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer ( http://arxiv.org/abs/2303.17783v4 )

ライセンス: Link先を確認
Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Lei Zhang, Ran He(参考訳) Unsupervised Domain Adaptation (UDA)は、ソースデータとターゲットデータの両方にアクセスすることで、実世界の画像スーパーリゾリューション(SR)におけるドメインギャップ問題に効果的に対処することができる。 実際のシナリオにおいて、プライバシポリシやソースデータの送信制限を考慮して、この問題を解決するために、画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。 SODA-SRはソース学習モデルを利用して教師学習のための洗練された擬似ラベルを生成する。 疑似ラベルをよりよく活用するために、既存のネットワークに柔軟に組み込むことができるウェーブレット拡張変換器(WAT)という、新しいウェーブレットベースの拡張手法を提案する。 WATは、変形可能な注意によって効率的に集約される様々なサンプルの様々なレベルの低周波情報を学習する。 さらに,疑似ラベルの精度を向上させるために,不確実性を考慮した自己学習機構を提案する。 より優れたSR結果を取得し、擬似ラベルの過適合を避けるため、周波数領域におけるターゲットLRとSR画像の制約にいくつかの正規化損失が提案される。 実験によると、ソースデータにアクセスせずに、SODA-SRは合成$\rightarrow$realとreal$\rightarrow$realの両方で最先端のUDAメソッドより優れており、特定のネットワークアーキテクチャでは制約されない。

Unsupervised Domain Adaptation (UDA) can effectively address domain gap issues in real-world image Super-Resolution (SR) by accessing both the source and target data. Considering privacy policies or transmission restrictions of source data in practical scenarios, we propose a SOurce-free Domain Adaptation framework for image SR (SODA-SR) to address this issue, i.e., adapt a source-trained model to a target domain with only unlabeled target data. SODA-SR leverages the source-trained model to generate refined pseudo-labels for teacher-student learning. To better utilize pseudo-labels, we propose a novel wavelet-based augmentation method, named Wavelet Augmentation Transformer (WAT), which can be flexibly incorporated with existing networks, to implicitly produce useful augmented data. WAT learns low-frequency information of varying levels across diverse samples, which is aggregated efficiently via deformable attention. Furthermore, an uncertainty-aware self-training mechanism is proposed to improve the accuracy of pseudo-labels, with inaccurate predictions being rectified by uncertainty estimation. To acquire better SR results and avoid overfitting pseudo-labels, several regularization losses are proposed to constrain target LR and SR images in the frequency domain. Experiments show that without accessing source data, SODA-SR outperforms state-of-the-art UDA methods in both synthetic$\rightarrow$real and real$\rightarrow$real adaptation settings, and is not constrained by specific network architectures.
翻訳日:2023-12-06 01:14:23 公開日:2023-12-02
# 最小限の人間の監督によるスクラッチからの言語モデルの原則駆動型自己調整

Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision ( http://arxiv.org/abs/2305.03047v2 )

ライセンス: Link先を確認
Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan(参考訳) ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションによる教師付き微調整(SFT)と人間のフィードバックからの強化学習(RLHF)を主に頼りにしており、大きな言語モデル(LLM)の出力と人間の意図を一致させ、それらが有益で倫理的で信頼性の高いものであることを保証している。 しかし、この依存は、人間の監督を得るための高いコストと、品質、信頼性、多様性、自己矛盾、望ましくないバイアスに関する関連する問題のために、aiアシスタントエージェントの真のポテンシャルを著しく制限することができる。 これらの課題に対処するため,本研究では,AIエージェントの自己調整のための原則駆動推論とLLMの生成能力を組み合わせた,SELF-ALIGNという新しいアプローチを提案する。 Our approach encompasses four stages: first, we use an LLM to generate synthetic prompts, and a topic-guided method to augment the prompt diversity; second, we use a small set of human-written principles for AI models to follow, and guide the LLM through in-context learning from demonstrations (of principles application) to produce helpful, ethical, and reliable responses to user's queries; third, we fine-tune the original LLM with the high-quality self-aligned responses so that the resulting model can generate desirable responses for each query directly without the principle set and the demonstrations anymore; and finally, we offer a refinement step to address the issues of overly-brief or indirect responses. また,SELF-ALIGNをLLaMA-65bベース言語モデルに適用し,DromedaryというAIアシスタントを開発した。 300行未満の人間のアノテーション(200行以上のシードプロンプト、16のジェネリック原則、インコンテキスト学習のための5つの例を含む)を持つ。 Dromedaryは、さまざまな設定のベンチマークデータセット上で、Text-Davinci-003やAlpacaなど、最先端のAIシステムのパフォーマンスを大幅に上回る。

Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised fine-tuning (SFT) with human annotations and reinforcement learning from human feedback (RLHF) to align the output of large language models (LLMs) with human intentions, ensuring they are helpful, ethical, and reliable. However, this dependence can significantly constrain the true potential of AI-assistant agents due to the high cost of obtaining human supervision and the related issues on quality, reliability, diversity, self-consistency, and undesirable biases. To address these challenges, we propose a novel approach called SELF-ALIGN, which combines principle-driven reasoning and the generative power of LLMs for the self-alignment of AI agents with minimal human supervision. Our approach encompasses four stages: first, we use an LLM to generate synthetic prompts, and a topic-guided method to augment the prompt diversity; second, we use a small set of human-written principles for AI models to follow, and guide the LLM through in-context learning from demonstrations (of principles application) to produce helpful, ethical, and reliable responses to user's queries; third, we fine-tune the original LLM with the high-quality self-aligned responses so that the resulting model can generate desirable responses for each query directly without the principle set and the demonstrations anymore; and finally, we offer a refinement step to address the issues of overly-brief or indirect responses. Applying SELF-ALIGN to the LLaMA-65b base language model, we develop an AI assistant named Dromedary. With fewer than 300 lines of human annotations (including < 200 seed prompts, 16 generic principles, and 5 exemplars for in-context learning). Dromedary significantly surpasses the performance of several state-of-the-art AI systems, including Text-Davinci-003 and Alpaca, on benchmark datasets with various settings.
翻訳日:2023-12-05 23:28:59 公開日:2023-12-02
# ニューラルネットワークを用いた例外点のキャラクタリゼーション

Characterizing Exceptional Points Using Neural Networks ( http://arxiv.org/abs/2305.00776v3 )

ライセンス: Link先を確認
Md. Afsar Reja, Awadhesh Narayan(参考訳) 非エルミート系の重要な特徴の1つは例外点(EP)、固有値と固有ベクトルが融合するスペクトル退化である。 本研究では,新しい特徴である要約位相剛性(SPR)を導入して,EPを特徴付けるニューラルネットワークを提案する。 我々は,このアプローチを説明するために,複雑性の異なる異なるモデルを検討し,epsの予測方法を示す。 さらに,多様なサイトに対するパラダイム的Hatano-Nelsonモデルにおいて,正確なEP予測を示す。 注目すべきは、SPRがトレーニングデータから完全に見当たらない注文のEPを予測できることである。 本手法は,機械学習手法を用いてEPを自動で特徴付けるのに有用である。

One of the key features of non-Hermitian systems is the occurrence of exceptional points (EPs), spectral degeneracies where the eigenvalues and eigenvectors merge. In this work, we propose applying neural networks to characterize EPs by introducing a new feature -- summed phase rigidity (SPR). We consider different models with varying degrees of complexity to illustrate our approach, and show how to predict EPs for two-site and four-site gain and loss models. Further, we demonstrate an accurate EP prediction in the paradigmatic Hatano-Nelson model for a variable number of sites. Remarkably, we show how SPR enables a prediction of EPs of orders completely unseen by the training data. Our method can be useful to characterize EPs in an automated manner using machine learning approaches.
翻訳日:2023-12-05 23:28:05 公開日:2023-12-02
# ゼロショットrlの一般化を探求する

Explore to Generalize in Zero-Shot RL ( http://arxiv.org/abs/2306.03072v2 )

ライセンス: Link先を確認
Ev Zisselman, Itai Lavie, Daniel Soudry, Aviv Tamar(参考訳) 強化学習におけるゼロショット一般化について検討し、類似するが目立たないテストタスクでうまく機能するように訓練タスクの集合のポリシーを最適化する。 オーバーフィッティングを軽減するために、以前の研究はタスクへの不変性の異なる概念を探求した。 しかし、progen mazeのような問題では、タスクの可視化に不変な適切な解は存在しないため、不変性に基づくアプローチは失敗する。 私たちの見識では、ドメインを効果的に$\textit{explores}$というポリシーを学ぶことは、特定のタスクに対する報酬を最大化するポリシーよりも記憶が難しいので、そのような学習された振る舞いがうまく一般化することを期待しています。 私たちの$\textit{Explore to Generalize}$ algorithm (ExpGen)は、この洞察に基づいています。 テスト時に、アンサンブルはアクションについて合意し、私たちはうまく一般化するか、または探索的なアクションをとる。 当社のアプローチは、これまで効果的な一般化を導いてきたprocgenチャレンジのタスクの最先端技術であり、mazeタスクで$83\%、トレーニングレベルが$200のheistで$74\%の成功率を示しています。 ExpGenは、両方の世界の長所を得るために、不変ベースのアプローチと組み合わせて、ProcGenに新しい最先端の結果を設定することもできる。

We study zero-shot generalization in reinforcement learning-optimizing a policy on a set of training tasks to perform well on a similar but unseen test task. To mitigate overfitting, previous work explored different notions of invariance to the task. However, on problems such as the ProcGen Maze, an adequate solution that is invariant to the task visualization does not exist, and therefore invariance-based approaches fail. Our insight is that learning a policy that effectively $\textit{explores}$ the domain is harder to memorize than a policy that maximizes reward for a specific task, and therefore we expect such learned behavior to generalize well; we indeed demonstrate this empirically on several domains that are difficult for invariance-based approaches. Our $\textit{Explore to Generalize}$ algorithm (ExpGen) builds on this insight: we train an additional ensemble of agents that optimize reward. At test time, either the ensemble agrees on an action, and we generalize well, or we take exploratory actions, which generalize well and drive us to a novel part of the state space, where the ensemble may potentially agree again. We show that our approach is the state-of-the-art on tasks of the ProcGen challenge that have thus far eluded effective generalization, yielding a success rate of $83\%$ on the Maze task and $74\%$ on Heist with $200$ training levels. ExpGen can also be combined with an invariance based approach to gain the best of both worlds, setting new state-of-the-art results on ProcGen.
翻訳日:2023-12-05 23:21:19 公開日:2023-12-02
# 雑音ラベルからの学習のためのラベルリトライバル提示拡散モデル

Label-Retrieval-Augmented Diffusion Models for Learning from Noisy Labels ( http://arxiv.org/abs/2305.19518v2 )

ライセンス: Link先を確認
Jian Chen, Ruiyi Zhang, Tong Yu, Rohan Sharma, Zhiqiang Xu, Tong Sun, Changyou Chen(参考訳) ノイズの多いラベルから学ぶことは、実際のアプリケーションのための機械学習において重要かつ長期にわたる問題である。 主な研究ラインの1つは、潜在的なノイズのあるラベルを浄化するラベル修正器の学習に焦点を当てている。 しかし、これらの手法は通常厳密な仮定に依存し、特定の種類のラベルノイズに制限される。 本稿では、生成モデルの観点からラベルノイズ問題を再構成する。$\textit{i.e.}$,ラベルは、初期ランダムな推測を徐々に修正することによって生成される。 この新しい視点は、既存の強力な拡散モデルが確率的生成過程をシームレスに学習することを可能にする。 生成の不確実性をモデル化すれば,ラベルの最大推定値を用いて分類推定を行うことができる。 雑音ラベルの影響を軽減するため, 拡散訓練に擬似クリーンラベルを効果的に構築するために, 近傍の整合性を利用する, $\textbf{L}$abel-$\textbf{R}$etrieval-$\textbf{A}$ugmented (LRA)拡散モデルを提案する。 私たちのモデルは柔軟で汎用的で、様々な条件付き情報($\textit{e}$)を簡単に組み込むことができ、モデルのパフォーマンスをさらに向上します。 評価のために大規模な実験が行われる。 我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。 注目すべきは、強力なCLIPモデルからの条件情報を組み込むことで、多くの場合、現在のSOTA精度を10~20の絶対点に向上させることができることである。

Learning from noisy labels is an important and long-standing problem in machine learning for real applications. One of the main research lines focuses on learning a label corrector to purify potential noisy labels. However, these methods typically rely on strict assumptions and are limited to certain types of label noise. In this paper, we reformulate the label-noise problem from a generative-model perspective, $\textit{i.e.}$, labels are generated by gradually refining an initial random guess. This new perspective immediately enables existing powerful diffusion models to seamlessly learn the stochastic generative process. Once the generative uncertainty is modeled, we can perform classification inference using maximum likelihood estimation of labels. To mitigate the impact of noisy labels, we propose the $\textbf{L}$abel-$\textbf{R}$etrieval-$\textbf{A}$ugmented (LRA) diffusion model, which leverages neighbor consistency to effectively construct pseudo-clean labels for diffusion training. Our model is flexible and general, allowing easy incorporation of different types of conditional information, $\textit{e.g.}$, use of pre-trained models, to further boost model performance. Extensive experiments are conducted for evaluation. Our model achieves new state-of-the-art (SOTA) results on all the standard real-world benchmark datasets. Remarkably, by incorporating conditional information from the powerful CLIP model, our method can boost the current SOTA accuracy by 10-20 absolute points in many cases.
翻訳日:2023-12-05 23:19:23 公開日:2023-12-02
# ヌル状態を持つ無調和発振器の解法:ハミルトンブートストラップとダイソン・シュウィンガー方程式

Solving anharmonic oscillator with null states: Hamiltonian bootstrap and Dyson-Schwinger equations ( http://arxiv.org/abs/2305.15992v3 )

ライセンス: Link先を確認
Yongwei Guo, Wenliang Li(参考訳) 基本的な量子力学モデルとして、アンハーモニック発振器はブートストラップ法によって最近再訪されている。 効果的なアプローチは、エルミート理論における正則性制約を利用することである。 エルミート理論と非エルミート理論の両方に適用できる、ヌル状態条件に基づく別の道が存在する。 本研究では,小結合展開に基づくクォート発振器の解析ブートストラップ実験を行う。 ハミルトニアン形式論では、ディラックのラダー作用素のアンハーモニック一般化を得る。 さらに、シュロディンガー方程式は、非調和なラグ作用素によって生成されるヌル状態条件と解釈できる。 これは、ダイナミックスがnullnessの原則に組み込まれる明示的な例である。 ラグランジュ形式論において、ヌル状態の存在はダイソン・シュウィンガー方程式の不確定性を効果的に排除し、n$-point green 関数を体系的に決定できることを示した。

As basic quantum mechanical models, anharmonic oscillators are recently revisited by bootstrap methods. An effective approach is to make use of the positivity constraints in Hermitian theories. There exists an alternative avenue based on the null state condition, which applies to both Hermitian and non-Hermitian theories. In this work, we carry out an analytic bootstrap study of the quartic oscillator based on the small coupling expansion. In the Hamiltonian formalism, we obtain the anharmonic generalization of Dirac's ladder operators. Furthermore, the Schrodinger equation can be interpreted as a null state condition generated by an anharmonic ladder operator. This provides an explicit example in which dynamics is incorporated into the principle of nullness. In the Lagrangian formalism, we show that the existence of null states can effectively eliminate the indeterminacy of the Dyson-Schwinger equations and systematically determine $n$-point Green's functions.
翻訳日:2023-12-05 23:17:10 公開日:2023-12-02
# EquiformerV2:高階表現へのスケーリングのための改良された同変変換器

EquiformerV2: Improved Equivariant Transformer for Scaling to Higher-Degree Representations ( http://arxiv.org/abs/2306.12059v2 )

ライセンス: Link先を確認
Yi-Lun Liao, Brandon Wood, Abhishek Das, Tess Smidt(参考訳) Equiformerのような同変変換器は、3次元原子論系の領域に変換器を適用する効果を実証している。 しかし、それらは計算複雑性のため、小さな等変表現に限られる。 本稿では,これらのアーキテクチャが高次にスケールできるかどうかを考察する。 Equiformerから始めて、まず$SO(3)$畳み込みをeSCN畳み込みに置き換え、高次テンソルを効率的に組み込む。 次に,より高次なパワーをうまく活用するために,注意再正規化,分離可能な$s^2$アクティベーション,分離可能なレイヤ正規化という3つのアーキテクチャ上の改善を提案する。 これらをまとめると、EquiformerV2は、大規模OC20データセットの従来の最先端手法を最大9.5%の力で上回り、エネルギーは4.5%のエネルギーで、より高速なトレードオフを提供し、吸着エネルギーの計算に要するDFT計算を2.99ドル削減する。 さらに、OC22データセットのみをトレーニングしたEquiformerV2は、OC20データセットとOC22データセットの両方でトレーニングされたGemNet-OCを上回っ、データ効率が大幅に向上した。 最後に、EquiformerV2とQM9上のEquiformerとOC20 S2EF-2Mデータセットを比較し、より高い学位によるパフォーマンス向上をよりよく理解する。

Equivariant Transformers such as Equiformer have demonstrated the efficacy of applying Transformers to the domain of 3D atomistic systems. However, they are limited to small degrees of equivariant representations due to their computational complexity. In this paper, we investigate whether these architectures can scale well to higher degrees. Starting from Equiformer, we first replace $SO(3)$ convolutions with eSCN convolutions to efficiently incorporate higher-degree tensors. Then, to better leverage the power of higher degrees, we propose three architectural improvements -- attention re-normalization, separable $S^2$ activation and separable layer normalization. Putting this all together, we propose EquiformerV2, which outperforms previous state-of-the-art methods on large-scale OC20 dataset by up to $9\%$ on forces, $4\%$ on energies, offers better speed-accuracy trade-offs, and $2\times$ reduction in DFT calculations needed for computing adsorption energies. Additionally, EquiformerV2 trained on only OC22 dataset outperforms GemNet-OC trained on both OC20 and OC22 datasets, achieving much better data efficiency. Finally, we compare EquiformerV2 with Equiformer on QM9 and OC20 S2EF-2M datasets to better understand the performance gain brought by higher degrees.
翻訳日:2023-12-05 23:09:55 公開日:2023-12-02
# プライベートフェデレーション周波数推定:インスタンスの硬さに適応する

Private Federated Frequency Estimation: Adapting to the Hardness of the Instance ( http://arxiv.org/abs/2306.09396v2 )

ライセンス: Link先を確認
Jingfeng Wu, Wennan Zhu, Peter Kairouz, Vladimir Braverman(参考訳) フェデレート周波数推定(FFE)では、複数のクライアントが協調して、Secure Summation(SecSum)のプライバシー制約を尊重するサーバと通信することで、クライアントが保持するベクトルの和にしかアクセスできないことを保証している。 単一ラウンドFFEの場合、カウントスケッチは基本的な精度通信トレードオフ(Chen et al., 2022)を達成するのにほぼ情報理論的に最適であることが知られている。 しかし,より実用的なマルチラウンド料金設定の下では,カウントスケッチの単純な適応が厳密に最適であることを示すとともに,より精度の高いハイブリッドスケッチ手法を提案する。 私たちはまた、以下の基本的な問題にも対処します: 基礎となる問題の難しさに適応する方法で、どのようにスケッチサイズを設定するべきか? より単純な問題(例えば、近距離分布や光尾分布)に対して、より小さなスケッチサイズを使用できる2相アプローチを提案する。 我々は,我々のアルゴリズムに差分プライバシを追加する方法を示し,大規模データセット上で行った広範囲な実験により,その優れた性能を検証した。

In federated frequency estimation (FFE), multiple clients work together to estimate the frequencies of their collective data by communicating with a server that respects the privacy constraints of Secure Summation (SecSum), a cryptographic multi-party computation protocol that ensures that the server can only access the sum of client-held vectors. For single-round FFE, it is known that count sketching is nearly information-theoretically optimal for achieving the fundamental accuracy-communication trade-offs [Chen et al., 2022]. However, we show that under the more practical multi-round FEE setting, simple adaptations of count sketching are strictly sub-optimal, and we propose a novel hybrid sketching algorithm that is provably more accurate. We also address the following fundamental question: how should a practitioner set the sketch size in a way that adapts to the hardness of the underlying problem? We propose a two-phase approach that allows for the use of a smaller sketch size for simpler problems (e.g., near-sparse or light-tailed distributions). We conclude our work by showing how differential privacy can be added to our algorithm and verifying its superior performance through extensive experiments conducted on large-scale datasets.
翻訳日:2023-12-05 23:08:44 公開日:2023-12-02
# UAV距離推定におけるステレオ三角測量の再検討

Revisiting Stereo Triangulation in UAV Distance Estimation ( http://arxiv.org/abs/2306.08939v2 )

ライセンス: Link先を確認
Jiafan Zhuang, Duan Yuan, Rihong Yan, Weixin Huang, Wenji Li, Zhun Fan(参考訳) 距離推定は群UAVの経路計画と衝突回避に重要な役割を果たす。 しかし、注釈付きデータの欠如は、関連する研究を著しく妨げている。 本研究では,UAV距離推定のためのUAVDEデータセットを構築し,UWBセンサによりUAV間の距離を求める。 実験中、ステレオ三角測量はUAVシーンには耐えられないことが驚くほど観察された。 主な理由は、UAVシーンでよく見られる長射程距離とカメラの振動による位置ずれの問題である。 そこで本研究では,観測位置と実際の位置とのオフセットを直接予測し,ステレオ三角測量計算において補償を行う新しい位置補正モジュールを提案する。 また,ハードサンプルの性能をさらに高めるために,複数のpcmを積み重ねた動的反復補正機構と,データサンプルの難易度に応じてさらなる補正が必要かどうかを適応的に判断するゲーティング機構を提案する。 我々はUAVDEに関する広範囲な実験を行い、その性能と優位性を示す強力なベースライン(相対的な差を49.4%から9.8%に減らして)に対して大幅な性能向上を実現する。 コードとデータセットはhttps://github.com/duanyuan13/pcmで入手できる。

Distance estimation plays an important role for path planning and collision avoidance of swarm UAVs. However, the lack of annotated data seriously hinders the related studies. In this work, we build and present a UAVDE dataset for UAV distance estimation, in which distance between two UAVs is obtained by UWB sensors. During experiments, we surprisingly observe that the stereo triangulation cannot stand for UAV scenes. The core reason is the position deviation issue due to long shooting distance and camera vibration, which is common in UAV scenes. To tackle this issue, we propose a novel position correction module, which can directly predict the offset between the observed positions and the actual ones and then perform compensation in stereo triangulation calculation. Besides, to further boost performance on hard samples, we propose a dynamic iterative correction mechanism, which is composed of multiple stacked PCMs and a gating mechanism to adaptively determine whether further correction is required according to the difficulty of data samples. We conduct extensive experiments on UAVDE, and our method can achieve a significant performance improvement over a strong baseline (by reducing the relative difference from 49.4% to 9.8%), which demonstrates its effectiveness and superiority. The code and dataset are available at https://github.com/duanyuan13/PCM.
翻訳日:2023-12-05 23:08:01 公開日:2023-12-02
# 条件付きプロジェクタを用いた自己教師付き学習

Augmentation-aware Self-supervised Learning with Conditioned Projector ( http://arxiv.org/abs/2306.06082v2 )

ライセンス: Link先を確認
Marcin Przewi\k{e}\'zlikowski, Mateusz Pyla, Bartosz Zieli\'nski, Bart{\l}omiej Twardowski, Jacek Tabor, Marek \'Smieja(参考訳) 自己教師付き学習(SSL)は、ラベルのないデータから堅牢な表現を学ぶための強力な技術である。 適用データ拡張に不変であることを学ぶことで、SimCLRやMoCoのようなメソッドは、教師付きアプローチと同等の品質に達することができる。 しかしながら、この不変性は、色などの事前トレーニング中に使用される拡張によって影響を受ける特性に依存する下流タスクの解決に有害である可能性がある。 本稿では,自己教師付きアーキテクチャの共通コンポーネントであるプロジェクタネットワークを変更することにより,表現空間におけるその特性に対する感度を高めることを提案する。 具体的には、プロジェクタに画像に適用される拡張に関する情報を補足する。 SSLタスクの解決時に、プロジェクタがこの補助条件を活用できるように、特徴抽出器は、その表現中の拡張情報を保存することを学習する。 提案手法は, 目標関数によらず, 通常の共同埋め込み型SSL手法に直接適用可能な条件拡張型自己教師学習(CASSLE)である。 さらに、ネットワークアーキテクチャやダウンストリームタスクの事前知識に大きな変更は必要ありません。 異なるデータ拡張に対する感度の解析に加えて,CASSLEはさまざまなSSLメソッドよりも改善され,複数のダウンストリームタスクで最先端のパフォーマンスに達することを示す一連の実験を行っている。

Self-supervised learning (SSL) is a powerful technique for learning robust representations from unlabeled data. By learning to remain invariant to applied data augmentations, methods such as SimCLR and MoCo are able to reach quality on par with supervised approaches. However, this invariance may be harmful to solving some downstream tasks which depend on traits affected by augmentations used during pretraining, such as color. In this paper, we propose to foster sensitivity to such characteristics in the representation space by modifying the projector network, a common component of self-supervised architectures. Specifically, we supplement the projector with information about augmentations applied to images. In order for the projector to take advantage of this auxiliary conditioning when solving the SSL task, the feature extractor learns to preserve the augmentation information in its representations. Our approach, coined Conditional Augmentation-aware Self-supervised Learning (CASSLE), is directly applicable to typical joint-embedding SSL methods regardless of their objective functions. Moreover, it does not require major changes in the network architecture or prior knowledge of downstream tasks. In addition to an analysis of sensitivity towards different data augmentations, we conduct a series of experiments, which show that CASSLE improves over various SSL methods, reaching state-of-the-art performance in multiple downstream tasks.
翻訳日:2023-12-05 23:06:55 公開日:2023-12-02
# 量子ビット遷移による捕捉イオンのマイクロモーション補償と直流電圧の直接走査

Micromotion compensation of trapped ions by qubit transition and direct scanning of dc voltages ( http://arxiv.org/abs/2306.05837v2 )

ライセンス: Link先を確認
Woojun Lee, Daun Chung, Jiyong Kang, Honggi Jeon, Changhyun Jung, Dong-Il "Dan" Cho, Taehyun Kim(参考訳) マイクロモーションは捕捉されたイオンの正確な量子ビット制御に有害であるため、測定と最小化が重要である。 本稿では,既存のレーザ駆動量子ビット遷移スキームと直流電圧の直接走査を組み合わせることで,捕捉イオンの過大なマイクロモーションを簡易に測定・抑制する手法を提案する。 走査された量子ビット遷移率のベッセル膨張を分析して補償電圧を推定する。 この手法は、トラップ条件の最小偏差を要求しながら、実用的な量子コンピューティングアプリケーションに対して十分な感度を提供する。 クビット運動量励起方向における過大なマイクロモーションの補償を達成することで、既存の補償スキームを補完する過剰なマイクロモーション補償のための追加の道を提供する。

Excess micromotion is detrimental to accurate qubit control of trapped ions, thus measuring and minimizing it is crucial. In this paper, we present a simple approach for measuring and suppressing excess micromotion of trapped ions by leveraging the existing laser-driven qubit transition scheme combined with direct scanning of dc voltages. The compensation voltage is deduced by analyzing the Bessel expansion of a scanned qubit transition rate. The method provides a fair level of sensitivity for practical quantum computing applications, while demanding minimal deviation of trap condition. By accomplishing compensation of excess micromotion in the qubit momentum-excitation direction, the scheme offers an additional avenue for excess micromotion compensation, complementing existing compensation schemes.
翻訳日:2023-12-05 23:06:34 公開日:2023-12-02
# 金融における感情分析:トランスフォーマーから説明可能なレキシコン(xlex)へ

Sentiment Analysis in Finance: From Transformers Back to eXplainable Lexicons (XLex) ( http://arxiv.org/abs/2306.03997v2 )

ライセンス: Link先を確認
Maryan Rizinski, Hristijan Peshov, Kostadin Mishev, Milos Jovanovik, Dimitar Trajanov(参考訳) 金融におけるレキシコンに基づく感情分析(sa)は、金融テキストから感情を抽出するために、人間の専門家によって作成された専門的で手作業によるレキシコンを活用する。 辞書ベースのメソッドは簡単に実装でき、テキストデータで操作できるが、辞書の作成、保守、更新にはかなりの手作業による注記が必要である。 これらの手法は、様々なNLPタスクにおいて顕著な性能のために支配的になったトランスフォーマーモデルなど、深層学習に基づくアプローチよりも劣っていると考えられている。 しかし、トランスフォーマーはトレーニングとテストの両方に広範なデータと計算資源を必要とする。 さらに、予測時間が大きくなり、リアルタイム生産環境や限られた処理能力を持つシステムには適さない。 本稿では,レキシコン法とトランスフォーマーモデルの双方の利点を組み合わせた説明可能なレキシコン (xlex) という新しい手法を提案する。 本稿では、トランスとSHAP(SHapley Additive ExPlanations)を用いて、金融レキシコンの学習方法を説明する手法を提案する。 本研究の主な貢献は4つある。 まず, トランスフォーマタによる説明可能なレキシコンは, ベンチマークloughran-mcdonald (lm)レキシコンの語彙範囲を増大させ, 注釈, 維持, 更新における人間の関与を低減できることを実証する。 次に、結果のレキシコンが、金融データセットのsaの標準lmレキシコンを上回っていることを示す。 第3に、レキシコンに基づくアプローチは、トランスに比べてモデル速度とサイズにおいてはるかに効率的であることを示す。 最後に、xlexアプローチは本質的にトランスフォーマーモデルよりも解釈可能である。レキシコンモデルが事前定義されたルールに依存しているため、saの結果に対するより良い洞察と、xlexアプローチを財務意思決定に有効なツールにすることができるようになる。

Lexicon-based sentiment analysis (SA) in finance leverages specialized, manually annotated lexicons created by human experts to extract sentiment from financial texts. Although lexicon-based methods are simple to implement and fast to operate on textual data, they require considerable manual annotation efforts to create, maintain, and update the lexicons. These methods are also considered inferior to the deep learning-based approaches, such as transformer models, which have become dominant in various NLP tasks due to their remarkable performance. However, transformers require extensive data and computational resources for both training and testing. Additionally, they involve significant prediction times, making them unsuitable for real-time production environments or systems with limited processing capabilities. In this paper, we introduce a novel methodology named eXplainable Lexicons (XLex) that combines the advantages of both lexicon-based methods and transformer models. We propose an approach that utilizes transformers and SHapley Additive exPlanations (SHAP) for explainability to learn financial lexicons. Our study presents four main contributions. Firstly, we demonstrate that transformer-aided explainable lexicons can enhance the vocabulary coverage of the benchmark Loughran-McDonald (LM) lexicon, reducing the human involvement in annotating, maintaining, and updating the lexicons. Secondly, we show that the resulting lexicon outperforms the standard LM lexicon in SA of financial datasets. Thirdly, we illustrate that the lexicon-based approach is significantly more efficient in terms of model speed and size compared to transformers. Lastly, the XLex approach is inherently more interpretable than transformer models as lexicon models rely on predefined rules, allowing for better insights into the results of SA and making the XLex approach a viable tool for financial decision-making.
翻訳日:2023-12-05 23:05:19 公開日:2023-12-02
# 長期記憶ネットワークを用いた左右足部3軸心エコー図の再構成

Reconstruction of 3-Axis Seismocardiogram from Right-to-left and Head-to-foot Components Using A Long Short-Term Memory Network ( http://arxiv.org/abs/2307.07566v2 )

ライセンス: Link先を確認
Mohammad Muntasir Rahman and Amirtah\`a Taebi(参考訳) 本研究の目的は,左右方向および左右方向のscg信号(\textrm{scg}_x$および$\textrm{scg}_y$)から背側方向のseismocardiogram(scg)信号を予測するディープラーニングモデルの開発である。 モデルのトレーニングと検証に使用されたデータセットは,健常成人15名から得られた。 SCG信号は各被験者の胸部に置かれた3軸加速度計を用いて記録した。 その後、信号は心電図R波を用いてセグメント化され、そのセグメントはダウンサンプリングされ、正規化され、0を中心に配置された。 結果として得られたデータセットは、2層とドロップアウト層を備えた長期短期メモリ(LSTM)ネットワークのトレーニングと検証に使用された。 このネットワークは、1つの心周期を表す$\textrm{scg}_x$と$\textrm{scg}_y$の100回のステップを入力として、予測される対象変数にマッピングされたベクトルを出力する。 その結果, lstmモデルの平均二乗誤差は, ドーソヴェンタル方向のscgセグメントと実際のscgセグメントの間で0.09であった。 本研究では,2軸加速度計のデータを用いて3軸SCG信号を再構成する深層学習モデルの可能性を示す。

This pilot study aims to develop a deep learning model for predicting seismocardiogram (SCG) signals in the dorsoventral direction from the SCG signals in the right-to-left and head-to-foot directions ($\textrm{SCG}_x$ and $\textrm{SCG}_y$). The dataset used for the training and validation of the model was obtained from 15 healthy adult subjects. The SCG signals were recorded using tri-axial accelerometers placed on the chest of each subject. The signals were then segmented using electrocardiogram R waves, and the segments were downsampled, normalized, and centered around zero. The resulting dataset was used to train and validate a long short-term memory (LSTM) network with two layers and a dropout layer to prevent overfitting. The network took as input 100-time steps of $\textrm{SCG}_x$ and $\textrm{SCG}_y$, representing one cardiac cycle, and outputted a vector that mapped to the target variable being predicted. The results showed that the LSTM model had a mean square error of 0.09 between the predicted and actual SCG segments in the dorsoventral direction. The study demonstrates the potential of deep learning models for reconstructing 3-axis SCG signals using the data obtained from dual-axis accelerometers.
翻訳日:2023-12-05 22:57:52 公開日:2023-12-02
# 非エルミート双曲性物質における例外輪郭の発見

Uncovering Exceptional Contours in non-Hermitian Hyperbolic Matter ( http://arxiv.org/abs/2307.04745v2 )

ライセンス: Link先を確認
Nisarg Chadha, Awadhesh Narayan(参考訳) 双曲格子は、物質の新しい段階を探索するために研究され始めている。 同時に、非エルミート物理学は、フォトニック、光学、フォノニック、凝縮体系において最前線にある。 本研究では,非エルミート双曲体を導入し,その特異な性質を深く解明する。 双曲ブロッホ理論を用いて、非エルミートオンサイトゲインと損失と非相反ホッピングの存在下で双曲格子のバンド構造を調べる。 様々な解析的および数値的アプローチを用いて、位相剛性、エネルギースケーリング、渦性を用いて特徴づける10,5}テッセレーションにおいて、広くアクセス可能で可変可能な例外点と輪郭を示す。 さらに,ニュートン多角形を用いた<8,4}テセルレーションにおける高次例外点と輪郭の発生を,渦性および位相剛性計算によって実証した。 最後に,開放境界スペクトルと状態密度を調べ,バンド理論の結果と比較し,境界局所化の実証を行った。 以上の結果から,双曲型非エルミート物質の異常な不均一性がみられた。

Hyperbolic lattices are starting to be explored in search of novel phases of matter. At the same time, non-Hermitian physics has come to the forefront in photonic, optical, phononic, and condensed matter systems. In this work, we introduce non-Hermitian hyperbolic matter and elucidate its exceptional properties in depth. We use hyperbolic Bloch theory to investigate band structures of hyperbolic lattices in the presence of non-Hermitian on-site gain and loss as well as non-reciprocal hopping. Using various analytical and numerical approaches we demonstrate widely accessible and tunable exceptional points and contours in {10,5} tessellations, which we characterize using phase rigidity, energy scaling, and vorticity. We further demonstrate the occurrence of higher-order exceptional points and contours in the {8,4} tessellations using the method of Newton polygons, supported by vorticity and phase rigidity computations. Finally, we investigate the open boundary spectra and densities of states to compare with results from band theory, along with a demonstration of boundary localisation. Our results unveil an abundance of exceptional degeneracies in hyperbolic non-Hermitian matter.
翻訳日:2023-12-05 22:56:55 公開日:2023-12-02
# グラフニューラルネットワークのadversarial training:落とし穴、解決策、新しい方向

Adversarial Training for Graph Neural Networks: Pitfalls, Solutions, and New Directions ( http://arxiv.org/abs/2306.15427v2 )

ライセンス: Link先を確認
Lukas Gosch and Simon Geisler and Daniel Sturm and Bertrand Charpentier and Daniel Z\"ugner and Stephan G\"unnemann(参考訳) 画像領域での成功にもかかわらず、敵対的トレーニングはグラフ構造摂動に対するグラフニューラルネットワーク(GNN)の効果的な防御として際立たなかった。 In the pursuit of fixing adversarial training (1) we show and overcome fundamental theoretical as well as practical limitations of the adopted graph learning setting in prior work; (2) we reveal that more flexible GNNs based on learnable graph diffusion are able to adjust to adversarial perturbations, while the learned message passing scheme is naturally interpretable; (3) we introduce the first attack for structure perturbations that, while targeting multiple nodes at once, is capable of handling global (graph-level) as well as local (node-level) constraints. これらの貢献を含め、敵の訓練が対人構造摂動に対する最先端の防御であることを示す。

Despite its success in the image domain, adversarial training did not (yet) stand out as an effective defense for Graph Neural Networks (GNNs) against graph structure perturbations. In the pursuit of fixing adversarial training (1) we show and overcome fundamental theoretical as well as practical limitations of the adopted graph learning setting in prior work; (2) we reveal that more flexible GNNs based on learnable graph diffusion are able to adjust to adversarial perturbations, while the learned message passing scheme is naturally interpretable; (3) we introduce the first attack for structure perturbations that, while targeting multiple nodes at once, is capable of handling global (graph-level) as well as local (node-level) constraints. Including these contributions, we demonstrate that adversarial training is a state-of-the-art defense against adversarial structure perturbations.
翻訳日:2023-12-05 22:53:16 公開日:2023-12-02
# WeaverBird: 大規模言語モデル,知識ベース,検索エンジンによる財務意思決定の強化

WeaverBird: Empowering Financial Decision-Making with Large Language Model, Knowledge Base, and Search Engine ( http://arxiv.org/abs/2308.05361v3 )

ライセンス: Link先を確認
Siqiao Xue, Fan Zhou, Yi Xu, Ming Jin, Qingsong Wen, Hongyan Hao, Qingyang Dai, Caigao Jiang, Hongyu Zhao, Shuo Xie, Jianshan He, James Zhang, Hongyuan Mei(参考訳) 本稿では,金融分野に特化したインテリジェント対話システムweaverbirdを提案する。 本システムでは,金融関連テキストを多用したgptアーキテクチャの大規模言語モデルを採用している。 その結果,我々のシステムは,「インフレーション時に投資をどのように管理すべきか」といった複雑な金融クエリを理解し,インフォームド・レスポンスを提供する能力を持っている。 さらに,本システムは,地域知識ベースと検索エンジンを組み込んで関連情報を検索する。 最終応答は検索結果に条件付けされ、ソースへの適切な引用が含まれ、信頼性が向上する。 金融関連の様々な質問を通じて,我々は他のモデルと比較して,システムの優れた性能を実証した。 私たちのシステムを実際に体験するために、ユーザはhttps://weaverbird.ttic.eduで私たちのライブデモと対話できる。 v=fyV2qQkX6Tc。

We present WeaverBird, an intelligent dialogue system designed specifically for the finance domain. Our system harnesses a large language model of GPT architecture that has been tuned using extensive corpora of finance-related text. As a result, our system possesses the capability to understand complex financial queries, such as "How should I manage my investments during inflation?", and provide informed responses. Furthermore, our system incorporates a local knowledge base and a search engine to retrieve relevant information. The final responses are conditioned on the search results and include proper citations to the sources, thus enjoying an enhanced credibility. Through a range of finance-related questions, we have demonstrated the superior performance of our system compared to other models. To experience our system firsthand, users can interact with our live demo at https://weaverbird.ttic.edu, as well as watch our 2-min video illustration at https://www.youtube.com/watch?v=fyV2qQkX6Tc.
翻訳日:2023-12-05 22:46:21 公開日:2023-12-02
# e$^3$-uav : 無人航空機用エッジ型エネルギー効率の高い物体検出システム

E$^3$-UAV: An Edge-based Energy-Efficient Object Detection System for Unmanned Aerial Vehicles ( http://arxiv.org/abs/2308.04774v2 )

ライセンス: Link先を確認
Jiashun Suo, Xingzhou Zhang, Weisong Shi, Wei Zhou(参考訳) 深層学習技術の進歩により、無人航空機(UAV)による物体検出の応用は、車両の計数、火災検知、都市監視など、様々な分野に広がった。 既存の研究の多くは、UAVによる物体検出に固有の課題のサブセットに過ぎないが、エネルギー消費削減のための実用的なシステムを設計するための様々な側面のバランスをとる研究はほとんどない。 そこで我々は,UAVのためのエッジベースエネルギー効率の高い物体検出システムであるE$^3$-UAVを提案する。 このシステムは、様々なUAVデバイス、エッジデバイス、および検出アルゴリズムを動的にサポートし、タスクの検出要求を満たすために必要な最もエネルギー効率の高い飛行パラメータ(飛行高度、飛行速度、検出アルゴリズム、サンプリングレートを含む)を決定することにより、エネルギー消費を最小限にすることを目的としている。 まず,実作業に対する効果的な評価指標を示し,数百の実飛行データに基づく透過的エネルギー消費モデルを構築し,エネルギー消費と飛行パラメータの関係を定式化する。 次に,多量の実飛行データに基づく軽量なエネルギー効率優先決定アルゴリズムを提案し,飛行パラメータの決定を支援する。 最後に,本システムの性能評価を行い,実世界のシナリオにおけるエネルギー消費を大幅に削減できることを示した。 さらに、UAVに基づく物体検出をさらに研究するために、研究者や技術者を支援する4つの洞察を提供する。

Motivated by the advances in deep learning techniques, the application of Unmanned Aerial Vehicle (UAV)-based object detection has proliferated across a range of fields, including vehicle counting, fire detection, and city monitoring. While most existing research studies only a subset of the challenges inherent to UAV-based object detection, there are few studies that balance various aspects to design a practical system for energy consumption reduction. In response, we present the E$^3$-UAV, an edge-based energy-efficient object detection system for UAVs. The system is designed to dynamically support various UAV devices, edge devices, and detection algorithms, with the aim of minimizing energy consumption by deciding the most energy-efficient flight parameters (including flight altitude, flight speed, detection algorithm, and sampling rate) required to fulfill the detection requirements of the task. We first present an effective evaluation metric for actual tasks and construct a transparent energy consumption model based on hundreds of actual flight data to formalize the relationship between energy consumption and flight parameters. Then we present a lightweight energy-efficient priority decision algorithm based on a large quantity of actual flight data to assist the system in deciding flight parameters. Finally, we evaluate the performance of the system, and our experimental results demonstrate that it can significantly decrease energy consumption in real-world scenarios. Additionally, we provide four insights that can assist researchers and engineers in their efforts to study UAV-based object detection further.
翻訳日:2023-12-05 22:46:04 公開日:2023-12-02
# 大規模言語モデルを用いた累積推論

Cumulative Reasoning with Large Language Models ( http://arxiv.org/abs/2308.04371v5 )

ライセンス: Link先を確認
Yifan Zhang, Jingqin Yang, Yang Yuan, Andrew Chi-Chih Yao(参考訳) 言語モデルは強力で多用途であるが、しばしば非常に複雑な問題に対処できない。 これは、複雑な問題を解決するには意図的な思考が必要であり、トレーニングの間は最小限の指導しか行われていないからである。 本稿では,言語モデルを累積的かつ反復的に活用し,人間の思考過程をエミュレートするCumulative Reasoning(CR)という新しい手法を提案する。 タスクを小さなコンポーネントに分解することで、CRは問題解決プロセスを合理化し、より管理しやすく、効果的にする。 論理推論タスクでは、CRは既存のメソッドを9.3%向上させ、キュレートされたFOLIO wikiデータセットで98.04%の精度を達成する。 24のゲームでは、CRは98%の精度を達成し、従来の最先端手法よりも24%の大幅な向上を示している。 最後に,計算データセット上では,従来のベストアプローチを4.2%上回って58.0%の精度で新たな最先端結果を確立し,最も難しいレベル5問題(22.4%から32.1%)に対して43%の相対的改善を達成している。 さらに,累積推論の概念を拡張して,Pythonコード環境を組み込むとともに,検索やWebブラウジングなどの外部支援を意図的に省略し,Pythonコード環境内のLLM固有の推論機能にのみ焦点をあてる。 この環境での実験では、MATHデータセットの全体的な精度は72.2%で、PAL法よりも38.8%向上した。 コードはhttps://github.com/iiis-ai/cumulative-reasoningで入手できる。

While language models are powerful and versatile, they often fail to address highly complex problems. This is because solving complex problems requires deliberate thinking, which has been only minimally guided during training. In this paper, we propose a new method called Cumulative Reasoning (CR), which employs language models in a cumulative and iterative manner to emulate human thought processes. By decomposing tasks into smaller components, CR streamlines the problem-solving process, rendering it both more manageable and effective. For logical inference tasks, CR consistently outperforms existing methods with an improvement up to 9.3%, and achieves an accuracy of 98.04% on the curated FOLIO wiki dataset. In the context of the Game of 24, CR achieves an accuracy of 98%, which signifies a substantial enhancement of 24% over the previous state-of-the-art method. Finally, on the MATH dataset, we establish new state-of-the-art results with 58.0% overall accuracy, surpassing the previous best approach by a margin of 4.2%, and achieving 43% relative improvement on the hardest level 5 problems (22.4% to 32.1%). Additionally, we expand the concept of Cumulative Reasoning to incorporate a Python code environment, deliberately omitting external aids such as retrieval and web browsing and focusing solely on the LLM's intrinsic reasoning capabilities within a Python code environment. Our experiments in this setting yielded impressive results, with an overall accuracy of 72.2% on the MATH dataset, significantly outperforming the PAL method with 38.8% relative improvement. Code is available at https://github.com/iiis-ai/cumulative-reasoning.
翻訳日:2023-12-05 22:45:39 公開日:2023-12-02
# PartNER: LiDAR 3Dオブジェクト検出のための極性表現のレベルアップ

PARTNER: Level up the Polar Representation for LiDAR 3D Object Detection ( http://arxiv.org/abs/2308.03982v2 )

ライセンス: Link先を確認
Ming Nie, Yujing Xue, Chunwei Wang, Chaoqiang Ye, Hang Xu, Xinge Zhu, Qingqiu Huang, Michael Bi Mi, Xinchao Wang, Li Zhang(参考訳) 近年、極性に基づく表現は知覚タスクにおいて有望な性質を示している。 点雲を均等に分離するデカルト的アプローチに加えて,(1)異なる解像度下でのロバスト性能の優位性と(2)ストリーミングベースのアプローチの優位性から,点雲を極性グリッドとして表現する手法が選択肢として認識されている。 しかし、極性表現の不均一な分割のため、最先端の極性検出法は必然的に特徴歪み問題に悩まされ、カルテシアン法と比較して非無視的な性能差が生じる。 この問題に対処するため,極座標における新しい3次元物体検出器Partnerを提案する。 PartNERは、グローバル表現再構成による特徴歪みのジレンマを緩和し、検出ヘッドにインスタンスレベルの幾何情報を導入することで回帰を容易にする。 大規模な実験は、ストリーミングベースの検出と異なる解像度において圧倒的な優位性を示している。 さらに,本手法は,Waymo と ONCE の検証セットにおいて,3.68% と 9.15% の顕著なマージンを持つ従来の極性理論よりも優れており,最先端の手法よりも競争力のある結果が得られる。

Recently, polar-based representation has shown promising properties in perceptual tasks. In addition to Cartesian-based approaches, which separate point clouds unevenly, representing point clouds as polar grids has been recognized as an alternative due to (1) its advantage in robust performance under different resolutions and (2) its superiority in streaming-based approaches. However, state-of-the-art polar-based detection methods inevitably suffer from the feature distortion problem because of the non-uniform division of polar representation, resulting in a non-negligible performance gap compared to Cartesian-based approaches. To tackle this issue, we present PARTNER, a novel 3D object detector in the polar coordinate. PARTNER alleviates the dilemma of feature distortion with global representation re-alignment and facilitates the regression by introducing instance-level geometric information into the detection head. Extensive experiments show overwhelming advantages in streaming-based detection and different resolutions. Furthermore, our method outperforms the previous polar-based works with remarkable margins of 3.68% and 9.15% on Waymo and ONCE validation set, thus achieving competitive results over the state-of-the-art methods.
翻訳日:2023-12-05 22:45:11 公開日:2023-12-02
# quantum tapsilou - ギリシャの伝統的なコイン投げゲームtapsilouにインスパイアされた量子ゲーム

Quantum Tapsilou -- a quantum game inspired from the traditional Greek coin tossing game tapsilou ( http://arxiv.org/abs/2309.01217v2 )

ライセンス: Link先を確認
Kalliopi Kastampolidou and Theodore Andronikos(参考訳) 本稿では,古典ギリシアのコイン投げゲームタプシルーに触発された量子ゲームQuantum Tapsilouを紹介する。 新しい量子ゲームは、複雑さとスコープの増大にもかかわらず、伝統的なゲームの最も重要な特性を維持している。 古典ゲームでは、どちらのプレイヤーも$\frac { 1 } { 4 }$の確率で勝利する。 量子バージョンはこの特徴を保ち、双方のプレイヤーが同じ確率で勝利するが、この確率は今やかなり変化し、以前の動きや選択に依存する。 量子タップシロウの2つの最も重要な新奇性は、不等な確率振幅を持つベル状状態を生成するアダマールゲートの代わりに回転ゲートを用いることによる絡み合いの実装と、グループの積分的利用に起因している。 量子タプシルー (Quantum Tapsilou) では、どちらのプレイヤーも位数$n$の特定の巡回回転群について合意する。 ゲームは選択されたグループに基づいており、両方のプレイヤーがその要素から自分の動きを引き出すという意味である。 より具体的には、どちらのプレイヤーも対応する$R_{ y }$回転ゲートを使って、このグループから回転を選択できる。 量子タップシロウゲームでは、両方のプレイヤーが勝つ可能性も同様に高い。 この事実は、両方のプレイヤーが同じグループから自分のアクションを選択する量子ゲームが、各プレイヤーに相手のアクションに反作用する動きを選択する可能性を与えることで完全な対称性を示すという以前の結果に従っている。

This paper introduces a new quantum game called Quantum Tapsilou that is inspired by the classical traditional Greek coin tossing game tapsilou. The new quantum game, despite its increased complexity and scope, retains the most important characteristic of the traditional game. In the classical game, both players have $\frac { 1 } { 4 }$ probability to win. The quantum version retains this characteristic feature, that is both players have the same probability to win, only now this probability varies considerably and depends on previous moves and choices. The two most important novelties of Quantum Tapsilou can be attributed to its implementation of entanglement via the use of rotation gates instead of Hadamard gates, which generates Bell-like states with unequal probability amplitudes, and the integral use of groups. In Quantum Tapsilou both players agree on a specific cyclic rotation group of order $n$, for some sufficiently large $n$. The game is based on the chosen group, in the sense that both players will draw their moves from its elements. More specifically, both players will pick rotations from this group to realize their actions using the corresponding $R_{ y }$ rotation gates. In the Quantum Tapsilou game, it is equally probable for both players to win. This fact is in accordance with a previous result in the literature showing that quantum games where both players choose their actions from the same group, exhibit perfect symmetry by providing each player with the possibility to pick the move that counteracts the other player's action.
翻訳日:2023-12-05 22:35:29 公開日:2023-12-02
# MSD_AUDIO.ZIPのバイアスド・ジャーニー

The Biased Journey of MSD_AUDIO.ZIP ( http://arxiv.org/abs/2308.16389v3 )

ライセンス: Link先を確認
Haven Kim, Keunwoo Choi, Mateusz Modrzejewski, Cynthia C. S. Liem(参考訳) 学術データの公平な分配は、研究機会の均等化、そして究極的にはさらなる進歩に不可欠である。 しかし、Million Song Datasetに対応するオーディオデータにAPIを使用することの複雑さ(2016年以前)と、このAPIの廃止(2016年以降)により、このデータへのアクセスはピアツーピアに接続された特定のアフィリエイト内のものに限定されている。 そこで本稿では,データにアクセスしようとしたか,あるいはその作成に役割を果たした22人の個人の経験から,この問題を考察する。 これにより、MIRコミュニティにおけるアクセス権限に関して、より批判的な対話とより思慮深い考察を開始したいと思っています。

The equitable distribution of academic data is crucial for ensuring equal research opportunities, and ultimately further progress. Yet, due to the complexity of using the API for audio data that corresponds to the Million Song Dataset along with its misreporting (before 2016) and the discontinuation of this API (after 2016), access to this data has become restricted to those within certain affiliations that are connected peer-to-peer. In this paper, we delve into this issue, drawing insights from the experiences of 22 individuals who either attempted to access the data or played a role in its creation. With this, we hope to initiate more critical dialogue and more thoughtful consideration with regard to access privilege in the MIR community.
翻訳日:2023-12-05 22:33:45 公開日:2023-12-02
# 位置:フロー誘導グラフカットと自己学習による自己教師付きオブジェクト発見

LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and Bootstrapped Self-training ( http://arxiv.org/abs/2308.11239v3 )

ライセンス: Link先を確認
Silky Singh and Shripad Deshmukh and Mausoom Sarkar and Balaji Krishnamurthy(参考訳) 人間の監督なしに画像とビデオのデータセットでオブジェクトセグメンテーションを学ぶことは難しい問題である。 人間は、共通の運命のゲシュタルト原理を用いて、動画中の動くサルエント物体を容易に識別し、一緒に動くものが一緒に存在することを示唆する。 このアイデアに基づいて、動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師対象発見手法を提案する。 具体的には、画像上の従来のグラフカットを再設計し、動き情報と外観情報とを線形に組み合わせてエッジウェイトを生成する。 驚くべきことに、このステップは複数のベンチマークで現在の最先端に匹敵するオブジェクトセグメンテーションマスクを生成する。 さらに,これらの予備マスク上で訓練されたセグメンテーションネットワークを擬似地下真理としてブートストラップし,自己学習を通じて自身の出力から学習する。 我々は,複数の標準映像オブジェクトのセグメンテーション,イメージ・サリエンシ検出,オブジェクトのセグメンテーション・ベンチマークにおいて,LOCATEと呼ばれるアプローチの有効性を実証する。 In-the-wild画像の質的研究を通じて,新しい領域へのアプローチの伝達可能性を示す。 さらに,設計選択を支援するために広範囲なアブレーション分析を行い,提案手法の各コンポーネントの貢献を強調した。

Learning object segmentation in image and video datasets without human supervision is a challenging problem. Humans easily identify moving salient objects in videos using the gestalt principle of common fate, which suggests that what moves together belongs together. Building upon this idea, we propose a self-supervised object discovery approach that leverages motion and appearance information to produce high-quality object segmentation masks. Specifically, we redesign the traditional graph cut on images to include motion information in a linear combination with appearance information to produce edge weights. Remarkably, this step produces object segmentation masks comparable to the current state-of-the-art on multiple benchmarks. To further improve performance, we bootstrap a segmentation network trained on these preliminary masks as pseudo-ground truths to learn from its own outputs via self-training. We demonstrate the effectiveness of our approach, named LOCATE, on multiple standard video object segmentation, image saliency detection, and object segmentation benchmarks, achieving results on par with and, in many cases surpassing state-of-the-art methods. We also demonstrate the transferability of our approach to novel domains through a qualitative study on in-the-wild images. Additionally, we present extensive ablation analysis to support our design choices and highlight the contribution of each component of our proposed method.
翻訳日:2023-12-05 22:32:03 公開日:2023-12-02
# 消費者苦情の物語におけるNLPによる系統的異常の検出

NLP-based detection of systematic anomalies among the narratives of consumer complaints ( http://arxiv.org/abs/2308.11138v2 )

ライセンス: Link先を確認
Peiheng Gao, Ning Sun, Xuefeng Wang, Chen Yang, Ri\v{c}ardas Zitikis(参考訳) 本研究では,NLPをベースとしたシステム的非商業的消費者苦情の検出手法を開発した。 分類アルゴリズムは発音異常を検出するのに使用されるが、より小さく頻繁な体系的異常の場合、そのアルゴリズムは、技術的理由や人間のアナリストの自然な制限など、様々な理由により、混乱する可能性がある。 そこで,分類後の次のステップとして,苦情を定量的なデータに変換し,系統的異常を検出するアルゴリズムを用いて分析する。 本稿では,消費者金融保護局の消費者苦情データベースから得られた苦情のナラティブを用いて,手続き全体を説明する。

We develop an NLP-based procedure for detecting systematic nonmeritorious consumer complaints, simply called systematic anomalies, among complaint narratives. While classification algorithms are used to detect pronounced anomalies, in the case of smaller and frequent systematic anomalies, the algorithms may falter due to a variety of reasons, including technical ones as well as natural limitations of human analysts. Therefore, as the next step after classification, we convert the complaint narratives into quantitative data, which are then analyzed using an algorithm for detecting systematic anomalies. We illustrate the entire procedure using complaint narratives from the Consumer Complaint Database of the Consumer Financial Protection Bureau.
翻訳日:2023-12-05 22:31:37 公開日:2023-12-02
# feddcsr: disentangled representation learningによるフェデレーションクロスドメインシーケンシャルレコメンデーション

FedDCSR: Federated Cross-domain Sequential Recommendation via Disentangled Representation Learning ( http://arxiv.org/abs/2309.08420v4 )

ライセンス: Link先を確認
Hongyu Zhang, Dongyi Zheng, Xu Yang, Jiyuan Feng, Qing Liao(参考訳) 近年,複数のドメインからのユーザシーケンスデータを活用するクロスドメインシーケンスレコメンデーション(CSR)が注目されている。 しかし、既存のCSRメソッドは、GDPR(General Data Protection Regulation)に違反しているドメイン間で元のユーザデータを共有する必要がある。 したがって、データプライバシを保ちながら、異なるドメインからの知識を完全に活用するために、連邦学習(FL)とCSRを組み合わせる必要がある。 それでも、異なる領域間での配列の不均一性はFLの全体的な性能に大きな影響を及ぼす。 本稿では,連接表現学習による新しいフェデレーションクロスドメイン逐次推奨フレームワークfederated cross-domainについて述べる。 具体的には、ドメイン間のシーケンス特徴の不均一性に対処するために、ユーザシーケンス機能をドメイン共有機能とドメイン専用機能に分解するinter-intra domain sequence representation disentanglement(srd)というアプローチを導入する。 さらに、ユーザシーケンス上でデータ拡張を行うことで、よりリッチなドメイン排他的特徴を学習するためのドメイン内コントラッシブインフォマックス(CIM)戦略を設計する。 3つの実世界のシナリオに関する大規模な実験は、FedDCSRが既存のベースラインよりも大幅に改善されていることを示している。

Cross-domain Sequential Recommendation (CSR) which leverages user sequence data from multiple domains has received extensive attention in recent years. However, the existing CSR methods require sharing origin user data across domains, which violates the General Data Protection Regulation (GDPR). Thus, it is necessary to combine federated learning (FL) and CSR to fully utilize knowledge from different domains while preserving data privacy. Nonetheless, the sequence feature heterogeneity across different domains significantly impacts the overall performance of FL. In this paper, we propose FedDCSR, a novel federated cross-domain sequential recommendation framework via disentangled representation learning. Specifically, to address the sequence feature heterogeneity across domains, we introduce an approach called inter-intra domain sequence representation disentanglement (SRD) to disentangle the user sequence features into domain-shared and domain-exclusive features. In addition, we design an intra domain contrastive infomax (CIM) strategy to learn richer domain-exclusive features of users by performing data augmentation on user sequences. Extensive experiments on three real-world scenarios demonstrate that FedDCSR achieves significant improvements over existing baselines.
翻訳日:2023-12-05 22:22:00 公開日:2023-12-02
# ハイパーグラフ表現を用いた合成テキスト生成

Synthetic Text Generation using Hypergraph Representations ( http://arxiv.org/abs/2309.06550v2 )

ライセンス: Link先を確認
Natraj Raman and Sameena Shah(参考訳) 文書の合成変種を生成することは、しばしばテキストからテキストへの変換として表される。 本稿では,まず文書をセマンティックフレームに分解し,この中間スパース形式を用いてテキストを生成するLCMベースの代替手法を提案する。 フレームはハイパーグラフを用いてモデル化され、フレーム内容を原則的に摂動することができる。 具体的には、新しいハイパーエッジをトポロジカル解析により掘り出し、階層構造や時間的ダイナミクスを含む複雑なポリエイド関係を許容する。 我々のソリューションは、多様で一貫性があり、スタイル、感情、形式、構成、事実が異なる文書を生成する。

Generating synthetic variants of a document is often posed as text-to-text transformation. We propose an alternate LLM based method that first decomposes a document into semantic frames and then generates text using this interim sparse format. The frames are modeled using a hypergraph, which allows perturbing the frame contents in a principled manner. Specifically, new hyperedges are mined through topological analysis and complex polyadic relationships including hierarchy and temporal dynamics are accommodated. We show that our solution generates documents that are diverse, coherent and vary in style, sentiment, format, composition and facts.
翻訳日:2023-12-05 22:20:35 公開日:2023-12-02
# 圧縮下のメトリック学習における内在次元の影響

The Effect of Intrinsic Dimension on Metric Learning under Compression ( http://arxiv.org/abs/2309.05751v2 )

ライセンス: Link先を確認
Efstratios Palias, Ata Kab\'an(参考訳) 距離学習は,距離に基づく学習アルゴリズムの性能向上を目的として,入力空間上の適切な距離測定値を求める。 高次元環境では、学習したメトリックに低ランクの制限を課すことにより、メートル法学習は次元の縮小の役割も果たすことができる。 本稿では,高次元データ上で低ランクメトリックをトレーニングする代わりに,ランダムに圧縮されたデータのバージョンを考え,フルランクメトリックをトレーニングする。 本研究では, 環境次元に依存しないランダム圧縮に関して, 距離に基づく計量学習の誤差を理論的に保証する。 私たちの境界は、有界なサポートからのデータ以外は明示的な仮定を一切行わず、良性幾何学的構造が存在するときに自動的に締め付ける。 合成データと実データの両方の実験結果は、高次元設定における理論的な発見を支持する。

Metric learning aims at finding a suitable distance metric over the input space, to improve the performance of distance-based learning algorithms. In high-dimensional settings, metric learning can also play the role of dimensionality reduction, by imposing a low-rank restriction to the learnt metric. In this paper, instead of training a low-rank metric on high-dimensional data, we consider a randomly compressed version of the data, and train a full-rank metric there. We give theoretical guarantees on the error of distance-based metric learning, with respect to the random compression, which do not depend on the ambient dimension. Our bounds do not make any explicit assumptions, aside from i.i.d. data from a bounded support, and automatically tighten when benign geometrical structures are present. Experimental results on both synthetic and real data sets support our theoretical findings in high-dimensional settings.
翻訳日:2023-12-05 22:20:00 公開日:2023-12-02
# FreeMan: 実世界の条件下での3次元人文推定のベンチマークに向けて

FreeMan: Towards Benchmarking 3D Human Pose Estimation under Real-World Conditions ( http://arxiv.org/abs/2309.05073v3 )

ライセンス: Link先を確認
Jiong Wang, Fengyu Yang, Wenbo Gou, Bingliang Li, Danqi Yan, Ailing Zeng, Yijun Gao, Junle Wang, Yanqing Jing, Ruimao Zhang(参考訳) 自然界から人体の3次元構造を推定することは視覚知覚の基本的な側面である。 3d人間のポーズ推定は、aigcや人間とロボットのインタラクションといった分野における重要なステップであり、現実の環境で人間の行動を理解し、対話するための重要な技術である。 しかし、複雑なモーションキャプチャー装置と未知の背景を用いて単一の実験条件下で収集される現在のデータセットは不十分である。 可変条件でのデータセットの欠如は、この重要なタスクの進捗を停滞させている。 3次元ポーズ推定の開発を容易にするために,実世界環境下で収集された最初の大規模マルチビューデータセットであるfreemanを提案する。 freemanはさまざまなシナリオで8台のスマートフォンを同期させた。 8000のシーケンスから1100万フレームで構成され、異なる視点から見ることができます。 これらのシーケンスは、それぞれ異なる照明条件を持つ10のシナリオにわたる40の被験者をカバーする。 また,手動チェックの作業負荷を削減し,正確なアノテーションを保証するために,エラー検出を含む半自動パイプラインを構築した。 さまざまなタスクに対する総合的な評価基準を提供し,freemanが抱える重要な課題を概説する。 標準的な屋内/屋外の人間のセンシングデータセットのさらなる評価は、FreeManが実シーンと複雑なシーンで堅牢な表現転送性を提供することを示している。 コードとデータはhttps://wangjiongw.github.io/freeman.comから入手できる。

Estimating the 3D structure of the human body from natural scenes is a fundamental aspect of visual perception. 3D human pose estimation is a vital step in advancing fields like AIGC and human-robot interaction, serving as a crucial technique for understanding and interacting with human actions in real-world settings. However, the current datasets, often collected under single laboratory conditions using complex motion capture equipment and unvarying backgrounds, are insufficient. The absence of datasets on variable conditions is stalling the progress of this crucial task. To facilitate the development of 3D pose estimation, we present FreeMan, the first large-scale, multi-view dataset collected under the real-world conditions. FreeMan was captured by synchronizing 8 smartphones across diverse scenarios. It comprises 11M frames from 8000 sequences, viewed from different perspectives. These sequences cover 40 subjects across 10 different scenarios, each with varying lighting conditions. We have also established an semi-automated pipeline containing error detection to reduce the workload of manual check and ensure precise annotation. We provide comprehensive evaluation baselines for a range of tasks, underlining the significant challenges posed by FreeMan. Further evaluations of standard indoor/outdoor human sensing datasets reveal that FreeMan offers robust representation transferability in real and complex scenes. Code and data will be available at https://wangjiongw.github.io/freeman.
翻訳日:2023-12-05 22:19:33 公開日:2023-12-02
# SEED: 大規模言語モデルによるドメイン特化データキュレーション

SEED: Domain-Specific Data Curation With Large Language Models ( http://arxiv.org/abs/2310.00749v2 )

ライセンス: Link先を確認
Zui Chen, Lei Cao, Sam Madden, Tim Kraska, Zeyuan Shang, Ju Fan, Nan Tang, Zihui Gu, Chunwei Liu, Michael Cafarella(参考訳) 分析のためにデータを準備するデータキュレーションタスクは、データを実行可能な洞察に変換するために重要です。 しかし、異なるドメインにおけるアプリケーションの多様な要求のため、一般的なオフザシェルフツールは一般的に不十分である。 その結果、データサイエンティストは、例えば、ドメイン固有のコードを書いたり、十分な数の注釈付き例で機械学習モデルをトレーニングしたりするなど、データセットとタスクの両方に合わせたドメイン固有のソリューションを開発する必要がある。 このプロセスは困難で時間がかかります。 本稿では,Large Language Models (LLMs) を通じて,ドメイン固有のデータキュレーションソリューションを自動生成する LLM-as-compiler アプローチのSEEDを提案する。 ユーザがタスク、入力データ、期待される出力を記述すると、SEEDコンパイラはLLM生成コード、小さなモデル、データアクセスモジュールで構成される実行可能なパイプラインを生成する。 SEEDはこれらの生成されたモジュールを使用してデータレコードのほとんどを処理し、LLMが個々のレコードを直接処理するタイミングを動的に決定する。 この新しい革命的アプローチを検証するために,5つのデータキュレーションタスクにまたがる9つのデータセットの実験を行った。 その結果、SEEDは一般的なソリューションよりもはるかに優れたドメイン固有のソリューションを生成し、数千のラベル付きトレーニング例を使用する手作業によるソリューションのパフォーマンスに近づいていることがわかった。 さらに、すべてのデータレコードでLLMを使用するソリューションと比較して、SEEDは最先端または同等な数ショットのパフォーマンスを実現し、LLM呼び出しの数を著しく削減する。

Data curation tasks that prepare data for analytics are critical for turning data into actionable insights. However, due to the diverse requirements of applications in different domains, generic off-the-shelf tools are typically insufficient. As a result, data scientists often have to develop domain-specific solutions tailored to both the dataset and the task, e.g. writing domain-specific code or training machine learning models on a sufficient number of annotated examples. This process is notoriously difficult and time-consuming. We present SEED, an LLM-as-compiler approach that automatically generates domain-specific data curation solutions via Large Language Models (LLMs). Once the user describes a task, input data, and expected output, the SEED compiler produces an executable pipeline composed of LLM-generated code, small model, and data access modules. SEED uses these generated modules to process most of the data records and dynamically decides when the LLM should step in to directly process some individual records, possibly using the data-access modules to retrieve relevant information from the data sources to assist the LLM in solving the task. To validate this new, revolutionary approach, we conducted experiments on 9 datasets spanning over 5 data curation tasks. The results show that SEED generates domain-specific solutions that significantly outperform their generic counterparts, often approaching the performance of the manually curated solutions that use thousands of labeled training examples. Moreover, in comparison to solutions that use the LLM on every data record, SEED achieves state-of-the-art or comparable few-shot performance, while significantly reducing the number of LLM calls.
翻訳日:2023-12-05 22:13:00 公開日:2023-12-02
# GPT-Fathom: GPT-4以降への進化経路を理解するための大規模言語モデルのベンチマーク

GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond ( http://arxiv.org/abs/2309.16583v4 )

ライセンス: Link先を確認
Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang(参考訳) 大規模言語モデル(LLM)の急速な進歩により、その能力と限界を評価するための総合的な評価スイートの必要性が高まっている。 既存のLCMのリーダーボードは、一貫性のある設定やプロンプトのない他の論文で報告されたスコアを参照することが多い。 本稿では, OpenAI Evals 上に構築されたオープンソースかつ再現可能な LLM 評価スイートである GPT-Fathom を紹介する。 我々は,7つの機能カテゴリにまたがる20以上のベンチマークにおいて,10以上のLLMとOpenAIのレガシモデルを整列した設定で,体系的に評価した。 OpenAIの初期のモデルに関する我々の振り返り研究は、GPT-3からGPT-4への進化経路に関する貴重な洞察を提供する。 コードデータを追加することでLCMの推論能力が改善されるかどうか、SFTとRLHFによってLCMの能力のどの面が改善されるのか、アライメント税はいくらになるのか、といった技術的な詳細を含む。 我々の分析は、先進LLMの透明性向上を目的として、これらの疑問の多くに光を当てている。

With the rapid advancement of large language models (LLMs), there is a pressing need for a comprehensive evaluation suite to assess their capabilities and limitations. Existing LLM leaderboards often reference scores reported in other papers without consistent settings and prompts, which may inadvertently encourage cherry-picking favored settings and prompts for better results. In this work, we introduce GPT-Fathom, an open-source and reproducible LLM evaluation suite built on top of OpenAI Evals. We systematically evaluate 10+ leading LLMs as well as OpenAI's legacy models on 20+ curated benchmarks across 7 capability categories, all under aligned settings. Our retrospective study on OpenAI's earlier models offers valuable insights into the evolutionary path from GPT-3 to GPT-4. Currently, the community is eager to know how GPT-3 progressively improves to GPT-4, including technical details like whether adding code data improves LLM's reasoning capability, which aspects of LLM capability can be improved by SFT and RLHF, how much is the alignment tax, etc. Our analysis sheds light on many of these questions, aiming to improve the transparency of advanced LLMs.
翻訳日:2023-12-05 22:10:53 公開日:2023-12-02
# 気候指標強化のための解釈可能なAIによる地形降水関係の発見

Interpretable AI-Driven Discovery of Terrain-Precipitation Relationships for Enhanced Climate Insights ( http://arxiv.org/abs/2309.15400v2 )

ライセンス: Link先を確認
Hao Xu, Yuntian Chen, Zhenzhong Zeng, Nina Li, Jian Li, Dongxiao Zhang(参考訳) 現代の降水予測におけるAI駆動モデルによる顕著な進歩にもかかわらず、これらのブラックボックスモデルは本質的に基盤となるメカニズムの理解を深めることはできない。 この制限に対処するため,GA-GWR(GA-GWR)と呼ばれるAIによる知識発見フレームワークを提案する。 本研究は,複雑な地形を特徴とする地域での降水パターンと地形特性の複雑な関係を規定する明示的な方程式を明らかにすることを目的とする。 このai駆動の知識発見を通じて、地形の特徴と降水パターンの関係に光を当てた、これまで公表されていなかった明示的な方程式を明らかにする。 これらの方程式は降水データに適用した場合の顕著な精度を示し、従来の経験モデルよりも優れている。 特に,これらの方程式のパラメータが動的であり,進化する気候パターンに適応していることが判明した。 最終的に、公表された方程式は、特に低解像度の将来の気候データを用いた降水予測のスケールダウンスケーリングに実用的応用がある。 この能力は、将来の気候シナリオで様々な地形にまたがる降水パターンの変化を予測できる貴重な洞察を与え、現代の気候科学が抱える課題に対処する能力を高めます。

Despite the remarkable strides made by AI-driven models in modern precipitation forecasting, these black-box models cannot inherently deepen the comprehension of underlying mechanisms. To address this limitation, we propose an AI-driven knowledge discovery framework known as genetic algorithm-geographic weighted regression (GA-GWR). Our approach seeks to unveil the explicit equations that govern the intricate relationship between precipitation patterns and terrain characteristics in regions marked by complex terrain. Through this AI-driven knowledge discovery, we uncover previously undisclosed explicit equations that shed light on the connection between terrain features and precipitation patterns. These equations demonstrate remarkable accuracy when applied to precipitation data, outperforming conventional empirical models. Notably, our research reveals that the parameters within these equations are dynamic, adapting to evolving climate patterns. Ultimately, the unveiled equations have practical applications, particularly in fine-scale downscaling for precipitation predictions using low-resolution future climate data. This capability offers invaluable insights into the anticipated changes in precipitation patterns across diverse terrains under future climate scenarios, which enhances our ability to address the challenges posed by contemporary climate science.
翻訳日:2023-12-05 22:10:01 公開日:2023-12-02
# 水素原子を用いた中性子散乱における電子ダイナミクス

Electron Dynamics in Neutron Scattering with Hydrogen Atoms ( http://arxiv.org/abs/2309.14470v4 )

ライセンス: Link先を確認
Mingzhao Xing and Libin Fu(参考訳) 中性子-陽子(n-p)散乱実験では、中性子検出と再コイル陽子による散乱長の測定にガス標的が用いられている。 ガスターゲット内の電子動力学の変化は中性子や陽子の力学に無視できる効果を持つ。 しかし、電子力学は散乱過程におけるn-p相互作用の特定の形態に敏感であり、核相互作用モデルにおけるパラメータの導出のための追加情報を与える。 水素ガスターゲット中のイオン化電子の運動量スペクトルからこれらのパラメータを得るための理論的アプローチを提案する。 このアプローチは中性子、陽子、電子を含む3体散乱に基づいている。 我々は、n-p相互作用を湯川ポテンシャルとしてモデル化し、時間依存Schr\\odinger方程式の解によってイオン化電子の運動量スペクトルを得る。 電子動力学は様々なポテンシャルパラメータにおいて有意な差を示す。 これらのパラメータは数値計算と実験結果を比較することで決定できる。 さらに、このアプローチは超高速散乱過程の検出に関する洞察を与える。

In neutron-proton (n-p) scattering experiments, gas targets have been used to measure scattering length by detecting neutrons and recoil protons. Changes in electron dynamics within the gas target have a negligible effect on dynamics of neutrons and protons. However, electron dynamics are sensitive to the specific form of the n-p interaction during the scattering process, providing additional information to derive parameters in nuclear interaction models. We propose a theoretical approach to obtain these parameters from the momentum spectrum of ionized electrons within a hydrogen atomic gas target. This approach is based on a three-body scattering involving a neutron, a proton and an electron. We model the n-p interaction as the Yukawa potential and obtain the momentum spectrum of ionized electrons through the solution of the Time-Dependent Schr\"odinger Equation. Electron dynamics exhibit significant differences at various potential parameters. These parameters can be determined by comparing numerical calculations with experimental results. Moreover, this approach offers insights into detecting ultrafast scattering processes.
翻訳日:2023-12-05 22:08:55 公開日:2023-12-02
# 医用画像分類のための深層ニューラルネットワークのキャリブレーションの理解

Understanding Calibration of Deep Neural Networks for Medical Image Classification ( http://arxiv.org/abs/2309.13132v2 )

ライセンス: Link先を確認
Abhishek Singh Sambyal, Usma Niyaz, Narayanan C. Krishnan, Deepti R. Bathula(参考訳) 医用画像解析の分野では、高精度化は不十分であり、適切に調整された予測の確保も重要である。 深層ニューラルネットワークの信頼性スコアは、モデルの確実性に関する洞察を与え、注意を要するケースを特定し、その予測に対する信頼を確立することによって、説明可能性において重要な役割を果たす。 その結果、正確かつ信頼性の高い予測が最重要となる医療画像領域において、よく校正されたモデルの重要性が最重要となる。 最新の深層ニューラルネットワークを訓練して医用イメージングタスクの精度を高めることには大きな努力があったが、モデルキャリブレーションやそれに影響する要因は未検討のままである。 そこで本研究では,異なるトレーニング環境下でのモデル性能とキャリブレーションについて総合的な実験を行った。 我々は,コミュニティで広く普及しているアプローチである完全教師付きトレーニングと,様々なデータセットとアーキテクチャサイズにわたる転送学習を伴うローテーションベースの自己教師付き手法を検討した。 複数のキャリブレーション指標を用いて、モデルキャリブレーションの全体的理解を得た。 本研究では,重み分布や学習表現の類似性などの要因がモデルで観測されたキャリブレーション傾向と相関していることを明らかにする。 特に、ローテーションベースの自己教師付き事前訓練システムを用いてトレーニングされたモデルは、異なる医用画像データセットの完全な教師付きモデルと比較して、同等またはそれ以上のパフォーマンスを達成しながら、キャリブレーションが大幅に向上する。 これらの結果は, 医用画像解析におけるモデル校正の重要性を浮き彫りにし, 自己教師あり学習アプローチを取り入れて, 性能と校正の両立を図った。

In the field of medical image analysis, achieving high accuracy is not enough; ensuring well-calibrated predictions is also crucial. Confidence scores of a deep neural network play a pivotal role in explainability by providing insights into the model's certainty, identifying cases that require attention, and establishing trust in its predictions. Consequently, the significance of a well-calibrated model becomes paramount in the medical imaging domain, where accurate and reliable predictions are of utmost importance. While there has been a significant effort towards training modern deep neural networks to achieve high accuracy on medical imaging tasks, model calibration and factors that affect it remain under-explored. To address this, we conducted a comprehensive empirical study that explores model performance and calibration under different training regimes. We considered fully supervised training, which is the prevailing approach in the community, as well as rotation-based self-supervised method with and without transfer learning, across various datasets and architecture sizes. Multiple calibration metrics were employed to gain a holistic understanding of model calibration. Our study reveals that factors such as weight distributions and the similarity of learned representations correlate with the calibration trends observed in the models. Notably, models trained using rotation-based self-supervised pretrained regime exhibit significantly better calibration while achieving comparable or even superior performance compared to fully supervised models across different medical imaging datasets. These findings shed light on the importance of model calibration in medical image analysis and highlight the benefits of incorporating self-supervised learning approach to improve both performance and calibration.
翻訳日:2023-12-05 22:07:24 公開日:2023-12-02
# dinoを探索する:合成開口レーダ画像の創発的特性と限界

Exploring DINO: Emergent Properties and Limitations for Synthetic Aperture Radar Imagery ( http://arxiv.org/abs/2310.03513v2 )

ライセンス: Link先を確認
Joseph A. Gallego-Mejia, Anna Jungbluth, Laura Mart\'inez-Ferrer, Matt Allen, Francisco Dorr, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an(参考訳) 自己教師付き学習(SSL)モデルは最近、画像セグメンテーションを含む様々なタスクで顕著なパフォーマンスを示している。 本研究では,No Labels(DINO)アルゴリズムによる自己蒸留の創発的特性と合成開口レーダ(SAR)画像への応用について検討する。 非ラベルsarデータを用いた視覚トランスフォーマ(vit)ベースのdinoモデルを事前学習し,その後,高精度土地被覆マップの予測のためにモデルを微調整した。 vitバックボーンによって生成されたアテンションマップの有用性を厳密に評価し,モデルのトークン埋め込み空間と比較する。 プリトレーニングによるモデル性能の小さな改善をスクラッチから観察し,リモートセンシングと土地被覆セグメンテーションにおけるsslの限界と機会について考察した。 少ない性能向上を超えて,vitアテンションマップはリモートセンシングに非常に本質的な価値を持ち,他のアルゴリズムに有用なインプットを提供することができることを示した。 これにより、我々の研究は地球観測のためのより大型で優れたSSLモデルの基礎を築いた。

Self-supervised learning (SSL) models have recently demonstrated remarkable performance across various tasks, including image segmentation. This study delves into the emergent characteristics of the Self-Distillation with No Labels (DINO) algorithm and its application to Synthetic Aperture Radar (SAR) imagery. We pre-train a vision transformer (ViT)-based DINO model using unlabeled SAR data, and later fine-tune the model to predict high-resolution land cover maps. We rigorously evaluate the utility of attention maps generated by the ViT backbone and compare them with the model's token embedding space. We observe a small improvement in model performance with pre-training compared to training from scratch and discuss the limitations and opportunities of SSL for remote sensing and land cover segmentation. Beyond small performance increases, we show that ViT attention maps hold great intrinsic value for remote sensing, and could provide useful inputs to other algorithms. With this, our work lays the groundwork for bigger and better SSL models for Earth Observation.
翻訳日:2023-12-05 21:58:38 公開日:2023-12-02
# SARによる植生予測のためのラベルなし自己蒸留の一般性探索

Exploring Generalisability of Self-Distillation with No Labels for SAR-Based Vegetation Prediction ( http://arxiv.org/abs/2310.02048v2 )

ライセンス: Link先を確認
Laura Mart\'inez-Ferrer, Anna Jungbluth, Joseph A. Gallego-Mejia, Matt Allen, Francisco Dorr, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an(参考訳) 本研究では,DINO-ViTをベースとした2つの合成開口レーダデータセット(S1GRDまたはGSSIC)を3つのリージョン(中国,コヌス,ヨーロッパ)で事前トレーニングする。 より小さなラベル付きデータセット上でモデルを微調整し、植生の割合を予測するとともに、モデルの埋め込み空間と、多様な地理的領域をまたいで一般化し、見当たらないデータとの接続を実証的に研究する。 S1GRDの場合、異なる領域の埋め込み空間は明確に分離され、GSSICは重なり合う。 微調整中に位置パターンが残っており、埋め込み距離が大きくなると、不慣れな領域の誤差が高くなる。 これにより,リモートセンシングに適用した自己教師モデルに対する一般化可能性の理解が高まる。

In this work we pre-train a DINO-ViT based model using two Synthetic Aperture Radar datasets (S1GRD or GSSIC) across three regions (China, Conus, Europe). We fine-tune the models on smaller labeled datasets to predict vegetation percentage, and empirically study the connection between the embedding space of the models and their ability to generalize across diverse geographic regions and to unseen data. For S1GRD, embedding spaces of different regions are clearly separated, while GSSIC's overlaps. Positional patterns remain during fine-tuning, and greater distances in embeddings often result in higher errors for unfamiliar regions. With this, our work increases our understanding of generalizability for self-supervised models applied to remote sensing.
翻訳日:2023-12-05 21:56:48 公開日:2023-12-02
# ARN: ナラティブに関するアナロジー推論のための総合的なフレームワークとベンチマーク

ARN: A Comprehensive Framework and Benchmark for Analogical Reasoning on Narratives ( http://arxiv.org/abs/2310.00996v2 )

ライセンス: Link先を確認
Zhivar Sourati, Filip Ilievski, Pia Sommerauer, Yifan Jiang(参考訳) アナロジー推論は人間の主要な能力の1つであり、創造性や科学的発見と結びついている。 この能力は自然言語処理(nlp)や認知心理学で広く研究されている。 NLPベンチマークは、しばしば比例類似にフォーカスするが、認知心理学のベンチマークは、長いテキストも調査する。 しかし、関連する設定における類推に焦点をあてた研究は物語を評価媒体として活用しているが、類推論は広く研究されていない。 我々は,物語に関するアナロジー推論のための広範な評価フレームワークを作成し,ナラティブ要素を利用して低次・高次マッピングを作成し,その後,far(cross-domain)/near(within-domain)アナログとfar/near非アナロジーの4つのカテゴリをカバーするアナロジー推論(arn)ベンチマークの開発に繋がる。 その結果,低次写像が伴わない場合(ファーアナロジー)にllmは高次写像を認識するのに苦労し,全ての写像が同時に形成される場合(近傍アナロジー)に優れた性能を示すことがわかった。 すべてのシナリオにおいて、LLMの類似推論能力は、近距離アナロジーにおける低階写像によって容易に損なわれる。

Analogical reasoning is one of the prime abilities of humans and is linked to creativity and scientific discoveries. This ability has been studied extensively in natural language processing (NLP) and in cognitive psychology. NLP benchmarks often focus on proportional analogies, while the ones in cognitive psychology investigate longer pieces of text too. Yet, although studies that focus on analogical reasoning in an involved setting utilize narratives as their evaluation medium, analogical reasoning on narratives has not been studied extensively. We create an extensive evaluation framework for analogical reasoning on narratives that utilizes narrative elements to create lower-order and higher-order mappings that subsequently lead to the development of the Analogical Reasoning on Narratives (ARN) benchmark that covers four categories of far(cross-domain)/near(within-domain) analogies and far/near disanalogies, allowing us to study analogical reasoning in LLMs in distinct scenarios. Our results demonstrate that LLMs struggle to recognize higher-order mappings when they are not accompanied by lower-order mappings (far analogies) and show better performance when all mappings are formed simultaneously (near analogies). We observe that in all the scenarios, the analogical reasoning abilities of LLMs can be easily impaired by lower-order mappings in near disanalogies.
翻訳日:2023-12-05 21:55:42 公開日:2023-12-02
# 統一量子プロトコルフレームワークに向けて:分類,実装,ユースケース

Towards a Unified Quantum Protocol Framework: Classification, Implementation, and Use Cases ( http://arxiv.org/abs/2310.12780v2 )

ライセンス: Link先を確認
Shraddha Singh, Mina Doosti, Natansh Mathur, Mahshid Delavar, Atul Mantri, Harold Ollivier, and Elham Kashefi(参考訳) 本稿では,量子ネットワークプロトコルの統一化と標準化のためのフレームワークを提案する。 私たちのフレームワークはオープンソースリポジトリであるQuantum Protocol Zooとして利用可能です。 現実のアプリケーションに接続する関数性(Functionity)と,2つないし複数のパーティ間の命令セットであるProtocol(Protocol)という,少なくとも1つには量子デバイスがある。 量子インターネットの異なる段階と、量子通信の商用化におけるユースケースに基づいて、量子暗号機能と、これらの機能を実装する様々なプロトコル設計を分類する。 この分類に向けて、量子プロトコルのリソース可視化という新しい概念を導入し、特定のプロトコルを実装するためのビルディングブロックを識別するインタフェースと、特定の物理リソースや機能性が利用できる場合にアクセス可能なプロトコルを識別するインターフェースを2つ導入する。 このような分類は、そのユースケースとリソース割り当てに基づく量子プロトコルの階層を提供する。 我々は、抽象暗号から量子ネットワークにおけるリソース階層の可視化まで、様々な技術を用いてその表現を改善するための様々な価値のあるツールを特定した。 我々は、動物園の構造とその主要な特徴を、量子情報科学者、物理学者、計算機科学理論家、エンドユーザの幅広いクラスに解明する。 2018年に導入されて以来、量子プロトコル動物園は、量子ネットワークコミュニティに、新たな量子インターネットネットワークのユースケースを確立する能力を提供する上での基盤となっている。 その精神では、さまざまな視点からフレームワークのアプリケーションも提供しています。

We present a framework for the unification and standardization of quantum network protocols, making their realization easier and expanding their use cases to a broader range of communities interested in quantum technologies. Our framework is available as an open-source repository, the Quantum Protocol Zoo. We follow a modular approach by identifying two key components: Functionality, which connects real-world applications; and Protocol, which is a set of instructions between two or many parties, at least one of which has a quantum device. Based on the different stages of the quantum internet and use-case in the commercialization of quantum communication, our framework classifies quantum cryptographic functionalities and the various protocol designs implementing these functionalities. Towards this classification, we introduce a novel concept of resource visualization for quantum protocols, which includes two interfaces: one to identify the building blocks for implementing a given protocol and another to identify accessible protocols when certain physical resources or functionalities are available. Such classification provides a hierarchy of quantum protocols based on their use-case and resource allocation. We have identified various valuable tools to improve its representation with a range of techniques, from abstract cryptography to graphical visualizations of the resource hierarchy in quantum networks. We elucidate the structure of the zoo and its primary features in this article to a broader class of quantum information scientists, physicists, computer science theorists and end-users. Since its introduction in 2018, the quantum protocol zoo has been a cornerstone in serving the quantum networks community in its ability to establish the use cases of emerging quantum internet networks. In that spirit we also provide some of the applications of our framework from different perspectives.
翻訳日:2023-12-05 21:46:55 公開日:2023-12-02
# グラフファウンデーションモデルに向けて:サーベイとその先

Towards Graph Foundation Models: A Survey and Beyond ( http://arxiv.org/abs/2310.11829v2 )

ライセンス: Link先を確認
Jiawei Liu, Cheng Yang, Zhiyuan Lu, Junze Chen, Yibo Li, Mengmei Zhang, Ting Bai, Yuan Fang, Lichao Sun, Philip S. Yu, Chuan Shi(参考訳) ファウンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして登場し、自然言語処理やその他のドメインで大きな成功を収めている。 一方、グラフ機械学習の分野は、浅い手法からより高度なディープラーニングアプローチへのパラダイム移行を目撃している。 モチベーショングラフ機械学習研究者を一般化し、適応させる基盤モデルの能力は、新しいグラフ学習パラダイムの開発の可能性について議論する。 このパラダイムは、広範囲のグラフデータで事前学習され、様々なグラフタスクに適応できるモデルを想定している。 この急成長する関心にもかかわらず、この新しい領域に関する明確な定義と体系的な分析の欠如は顕著である。 本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。 本稿では,GFMに関連する既存の研究を,グラフニューラルネットワークと大規模言語モデルに依存する3つのカテゴリに分類する。 本稿では, GFMの現状を概観するとともに, この急速に発展する領域における今後の研究の道のりを概観する。

Foundation models have emerged as critical components in a variety of artificial intelligence applications, and showcase significant success in natural language processing and several other domains. Meanwhile, the field of graph machine learning is witnessing a paradigm transition from shallow methods to more sophisticated deep learning approaches. The capabilities of foundation models to generalize and adapt motivate graph machine learning researchers to discuss the potential of developing a new graph learning paradigm. This paradigm envisions models that are pre-trained on extensive graph data and can be adapted for various graph tasks. Despite this burgeoning interest, there is a noticeable lack of clear definitions and systematic analyses pertaining to this new domain. To this end, this article introduces the concept of Graph Foundation Models (GFMs), and offers an exhaustive explanation of their key characteristics and underlying technologies. We proceed to classify the existing work related to GFMs into three distinct categories, based on their dependence on graph neural networks and large language models. In addition to providing a thorough review of the current state of GFMs, this article also outlooks potential avenues for future research in this rapidly evolving domain.
翻訳日:2023-12-05 21:46:29 公開日:2023-12-02
# プライバシー保護レコメンデーションのためのフェデレーション不均質グラフニューラルネットワーク

Federated Heterogeneous Graph Neural Network for Privacy-preserving Recommendation ( http://arxiv.org/abs/2310.11730v2 )

ライセンス: Link先を確認
Bo Yan, Yang Cao, Haoyu Wang, Wenchuan Yang, Junping Du, Chuan Shi(参考訳) メタパスで表現されるリッチなセマンティクスを含む異種情報ネットワーク(HIN)は,レコメンデータシステムにおけるデータの分散を緩和する強力なツールとなっている。 既存のHINベースのレコメンデーションは、データの集中型ストレージ仮定を保持し、集中型モデルトレーニングを実行する。 しかし、現実のデータはしばしばプライバシー上の懸念のために分散的に保存されるため、中央集権的なHINベースのレコメンデーションが失敗する。 本稿では,HINをクライアント側に保存されたプライベートなHINに分割し,サーバ側で共有する手法を提案する。 この設定に続いて、ユーザプライバシを漏らさずに分散HIN上でレコメンデーションモデルを協調的にトレーニングできるフェデレーションヘテロジニアスグラフニューラルネットワーク(FedHGNN)ベースのフレームワークを提案する。 具体的には、HINをベースとしたフェデレーションレコメンデーションの差分プライバシーの観点から、まずプライバシ定義を定式化し、プライベートHINとユーザの高次パターンを共有HINから保護することを目的としている。 分散データストレージによる破断したメタパスに基づくセマンティクスを回復し、提案するプライバシーを満たすために、ユーザの高次パターンを局所的に摂動させるセマンティクス保存ユーザインタラクションパブリッシング法と、関連するユーザインタラクションを設計する。 その後,ノード・セマンティクスレベルのアグリゲーションを行い,回復したセマンティクスをキャプチャするhgnnモデルを提案する。 3つのデータセットに対する大規模な実験では、当社のモデルが既存の手法よりも大きなマージン(HR@10では最大34%、NDCG@10では最大42%)で、許容可能なプライバシー予算の下でパフォーマンスを示している。

Heterogeneous information network (HIN), which contains rich semantics depicted by meta-paths, has become a powerful tool to alleviate data sparsity in recommender systems. Existing HIN-based recommendations hold the data centralized storage assumption and conduct centralized model training. However, the real-world data is often stored in a distributed manner for privacy concerns, resulting in the failure of centralized HIN-based recommendations. In this paper, we suggest the HIN is partitioned into private HINs stored in the client side and shared HINs in the server. Following this setting, we propose a federated heterogeneous graph neural network (FedHGNN) based framework, which can collaboratively train a recommendation model on distributed HINs without leaking user privacy. Specifically, we first formalize the privacy definition in the light of differential privacy for HIN-based federated recommendation, which aims to protect user-item interactions of private HIN as well as user's high-order patterns from shared HINs. To recover the broken meta-path based semantics caused by distributed data storage and satisfy the proposed privacy, we elaborately design a semantic-preserving user interactions publishing method, which locally perturbs user's high-order patterns as well as related user-item interactions for publishing. After that, we propose a HGNN model for recommendation, which conducts node- and semantic-level aggregations to capture recovered semantics. Extensive experiments on three datasets demonstrate our model outperforms existing methods by a large margin (up to 34% in HR@10 and 42% in NDCG@10) under an acceptable privacy budget.
翻訳日:2023-12-05 21:45:51 公開日:2023-12-02
# アルゴリズムフェアネスにおけるフェアネスサロゲート関数の理解

Understanding Fairness Surrogate Functions in Algorithmic Fairness ( http://arxiv.org/abs/2310.11211v3 )

ライセンス: Link先を確認
Wei Yao, Zhanke Zhou, Zhicong Li, Bo Han, Yong Liu(参考訳) 機械学習アルゴリズムは特定の集団に対して偏りのある予測を示すことが観察されている。 このようなバイアスを最小限の精度で軽減するために、有望なアプローチは、関係する公正定義の代理関数を導入し、制約付き最適化問題を解くことである。 しかし、そのような公正な代理関数が不公平な結果と高い不安定性をもたらすことは、以前の研究で興味深い。 本研究は, それらの定義を深く理解するため, 広く用いられている公正定義--デコグラフィーパリティを例にとり, 公正定義と公正代理関数との間には代理-フェアネスギャップが存在することを示す。 また, このギャップに関する理論的解析と実験の結果から, 公平性と安定性は, 決定境界から遠く離れた点に影響されることが示唆された。 そこで,本研究では,サロゲート・フェアネスギャップと分散を同時に低減し,厳密なフェアネスと安定性を上限として,一般のsgmoid surrogateを提案する。 興味深いことに、この理論は大きなマージンポイントを扱う2つの重要な問題に対する洞察を提供し、よりバランスのとれたデータセットを得ることは公平さと安定性に有益である。 さらに,バランスド・サロゲートと呼ばれる新しい一般アルゴリズムを考案し,不公平さを緩和するためのギャップを反復的に低減した。 最後に,実世界の3つのデータセットのベースラインに匹敵する精度を維持しつつ,公平性と安定性を一貫して向上させることを示す実証的証拠を提供する。

It has been observed that machine learning algorithms exhibit biased predictions against certain population groups. To mitigate such bias while achieving comparable accuracy, a promising approach is to introduce surrogate functions of the concerned fairness definition and solve a constrained optimization problem. However, it is intriguing in previous work that such fairness surrogate functions may yield unfair results and high instability. In this work, in order to deeply understand them, taking a widely used fairness definition--demographic parity as an example, we show that there is a surrogate-fairness gap between the fairness definition and the fairness surrogate function. Also, the theoretical analysis and experimental results about the gap motivate us that the fairness and stability will be affected by the points far from the decision boundary, which is the large margin points issue investigated in this paper. To address it, we propose the general sigmoid surrogate to simultaneously reduce both the surrogate-fairness gap and the variance, and offer a rigorous fairness and stability upper bound. Interestingly, the theory also provides insights into two important issues that deal with the large margin points as well as obtaining a more balanced dataset are beneficial to fairness and stability. Furthermore, we elaborate a novel and general algorithm called Balanced Surrogate, which iteratively reduces the gap to mitigate unfairness. Finally, we provide empirical evidence showing that our methods consistently improve fairness and stability while maintaining accuracy comparable to the baselines in three real-world datasets.
翻訳日:2023-12-05 21:44:46 公開日:2023-12-02
# 言語横断検索によるバングラ語文脈学習

Crosslingual Retrieval Augmented In-context Learning for Bangla ( http://arxiv.org/abs/2311.00587v2 )

ライセンス: Link先を確認
Xiaoqian Li, Ercong Nie, Sheng Liang(参考訳) 自然言語処理におけるLLM(Large Language Models)の約束は、Banglaのような低リソース言語での限られたパフォーマンスによって、しばしば隠蔽されている。 そこで本稿では,言語間検索による文脈内学習を利用した先駆的手法を提案する。 本研究では,多言語事前学習型言語モデル(MPLM),特に生成モデルBLOOMZを戦略的に高リソース言語から意味論的に類似したプロンプトを抽出することにより,Banglaタスクの性能向上を実現している。 広範に評価した結果,言語間検索はゼロショット性能よりもMPLMを安定的に向上させることがわかった。

The promise of Large Language Models (LLMs) in Natural Language Processing has often been overshadowed by their limited performance in low-resource languages such as Bangla. To address this, our paper presents a pioneering approach that utilizes cross-lingual retrieval augmented in-context learning. By strategically sourcing semantically similar prompts from high-resource language, we enable multilingual pretrained language models (MPLMs), especially the generative model BLOOMZ, to successfully boost performance on Bangla tasks. Our extensive evaluation highlights that the cross-lingual retrieval augmented prompts bring steady improvements to MPLMs over the zero-shot performance.
翻訳日:2023-12-05 21:37:02 公開日:2023-12-02
# 固定予算付き最適多関節型ガウスベストアーム同定法

Worst-Case Optimal Multi-Armed Gaussian Best Arm Identification with a Fixed Budget ( http://arxiv.org/abs/2310.19788v2 )

ライセンス: Link先を確認
Masahiro Kato(参考訳) 実験的デザインは、オンライン広告や医療治療など、複数の治療アームを持つ証拠に基づく意思決定において重要である。 本研究は, 最良治療腕と呼ばれる最も期待される結果を持つ治療腕を識別する問題を, 誤認の可能性を最小限に抑えながら検討する。 この問題は、best arm identification (bai)やordinal optimizationなど、多くの研究分野で研究されている。 実験では,治療アロケーションラウンドの数を固定した。 各ラウンド中、意思決定者は、治療アームを実験単位に割り当て、対応する結果を観察し、治療アーム間で異なるばらつきのあるガウス分布に従う。 実験の最後には、観察に基づいて最適な治療アームの見積もりとして、治療アームの1つを推奨する。 実験を設計するために、まず、情報理論的手法を用いて誤同定の確率の最悪の低い境界について論じる。 次に,分散が知られていると仮定して,ニーマン(1934)が提案したニーマン割当の延長であるgna-empirical-best-arm(eba)戦略を提案する。 GNA-EBA戦略は,標本サイズが無限に大きくなるにつれて,その誤同定の確率が下界と一致し,最良腕と他腕の期待結果の差が均一な値に収束するという意味で,漸近的に最適であることを示す。 このような戦略を漸近的に最悪の場合最適と呼ぶ。

Experimental design is crucial in evidence-based decision-making with multiple treatment arms, such as online advertisements and medical treatments. This study investigates the problem of identifying the treatment arm with the highest expected outcome, referred to as the best treatment arm, while minimizing the probability of misidentification. This problem has been studied across numerous research fields, including best arm identification (BAI) and ordinal optimization. In our experiments, the number of treatment-allocation rounds is fixed. During each round, a decision-maker allocates a treatment arm to an experimental unit and observes a corresponding outcome, which follows a Gaussian distribution with variances that can differ among the treatment arms. At the end of the experiment, we recommend one of the treatment arms as an estimate of the best treatment arm based on the observations. To design an experiment, we first discuss the worst-case lower bound for the probability of misidentification through an information-theoretic approach. Then, under the assumption that the variances are known, we propose the Generalized-Neyman-Allocation (GNA)-empirical-best-arm (EBA) strategy, an extension of the Neyman allocation proposed by Neyman (1934). We show that the GNA-EBA strategy is asymptotically optimal in the sense that its probability of misidentification aligns with the lower bounds as the sample size increases indefinitely and the differences between the expected outcomes of the best and other suboptimal arms converge to a uniform value. We refer to such strategies as asymptotically worst-case optimal.
翻訳日:2023-12-05 21:36:04 公開日:2023-12-02
# ベルマン完全性がない:モデルに基づく回帰条件付き教師付き学習による軌道ステッチ

Free from Bellman Completeness: Trajectory Stitching via Model-based Return-conditioned Supervised Learning ( http://arxiv.org/abs/2310.19308v2 )

ライセンス: Link先を確認
Zhaoyi Zhou, Chuning Zhu, Runlong Zhou, Qiwen Cui, Abhishek Gupta, Simon Shaolei Du(参考訳) q$-learningのようなオフポリシー動的プログラミング(dp)技術は、逐次的な意思決定問題において重要であることが証明されている。 しかし、関数近似の存在下では、これらの手法は、考慮された関数クラスにおいてベルマン完全性が欠如しているため、しばしば分岐し、DPベースの手法の成功にとって重要な条件である。 本稿では,回帰条件付き教師付き学習(return-conditioned supervised learning,rcsl)に基づくオフポリシー学習手法がベルマン完全性という課題を回避できることを示す。 関数近似器として2層多層パーセプトロンを用いる場合, 一定の層幅がrcslに十分である一方で, ベルマン完全性を満たすために, 状態空間サイズと線形に層幅を成長させる必要がある。 これらの結果は, ほぼ最適データセットを用いた環境におけるDP法と比較して, RCSL法の優れた経験的性能を説明するための一歩となる。 さらに、最適部分データセットから学習するために、RCSLメソッドに異なる軌道からセグメントを縫合する動的プログラミング機能を与えるMBRCSLという単純なフレームワークを提案する。 MBRCSLは、学習された動的モデルと前方サンプリングを利用して、全ての動的プログラミングアルゴリズムを悩ませるベルマン完全性の必要性を回避しつつ、軌道縫合を達成する。 これらの主張を裏付ける理論解析と実験評価の両方を提案し、いくつかのシミュレーションロボット問題に対して最先端のモデルフリーおよびモデルベースオフラインrlアルゴリズムを上回っている。

Off-policy dynamic programming (DP) techniques such as $Q$-learning have proven to be important in sequential decision-making problems. In the presence of function approximation, however, these techniques often diverge due to the absence of Bellman completeness in the function classes considered, a crucial condition for the success of DP-based methods. In this paper, we show how off-policy learning techniques based on return-conditioned supervised learning (RCSL) are able to circumvent these challenges of Bellman completeness, converging under significantly more relaxed assumptions inherited from supervised learning. We prove there exists a natural environment in which if one uses two-layer multilayer perceptron as the function approximator, the layer width needs to grow linearly with the state space size to satisfy Bellman completeness while a constant layer width is enough for RCSL. These findings take a step towards explaining the superior empirical performance of RCSL methods compared to DP-based methods in environments with near-optimal datasets. Furthermore, in order to learn from sub-optimal datasets, we propose a simple framework called MBRCSL, granting RCSL methods the ability of dynamic programming to stitch together segments from distinct trajectories. MBRCSL leverages learned dynamics models and forward sampling to accomplish trajectory stitching while avoiding the need for Bellman completeness that plagues all dynamic programming algorithms. We propose both theoretical analysis and experimental evaluation to back these claims, outperforming state-of-the-art model-free and model-based offline RL algorithms across several simulated robotics problems.
翻訳日:2023-12-05 21:35:22 公開日:2023-12-02
# luciddreamer: インターバルスコアマッチングによる高忠実度テキスト対3d生成に向けて

LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval Score Matching ( http://arxiv.org/abs/2311.11284v3 )

ライセンス: Link先を確認
Yixun Liang, Xin Yang, Jiantao Lin, Haodong Li, Xiaogang Xu, Yingcong Chen(参考訳) テキスト3d生成の最近の進歩は、様々な現実世界のシナリオにまたがって想像力のある3dアセットを作成する新たな可能性を開くことによって、生成モデルにおける重要なマイルストーンとなった。 テキスト3d生成の最近の進歩は期待されているものの、詳細な高品質な3dモデルのレンダリングには不足していることが多い。 多くのメソッドがSDS(Score Distillation Sampling)に基づいているため、この問題は特に顕著である。 本稿では3次元モデルに不整合かつ低品質な更新方向をもたらし、過度なスムーシング効果をもたらすSDSの顕著な欠陥を同定する。 そこで我々は,ISM (Interval Score Matching) と呼ばれる新しい手法を提案する。 ISMは決定論的拡散軌道を用いており、間隔ベースのスコアマッチングを用いてオーバー・スムーシングに対抗する。 さらに、テキストから3D生成パイプラインに3Dガウススプラッティングを組み込む。 大規模な実験により、我々のモデルは品質と訓練効率の最先端性を大きく上回ることがわかった。

The recent advancements in text-to-3D generation mark a significant milestone in generative models, unlocking new possibilities for creating imaginative 3D assets across various real-world scenarios. While recent advancements in text-to-3D generation have shown promise, they often fall short in rendering detailed and high-quality 3D models. This problem is especially prevalent as many methods base themselves on Score Distillation Sampling (SDS). This paper identifies a notable deficiency in SDS, that it brings inconsistent and low-quality updating direction for the 3D model, causing the over-smoothing effect. To address this, we propose a novel approach called Interval Score Matching (ISM). ISM employs deterministic diffusing trajectories and utilizes interval-based score matching to counteract over-smoothing. Furthermore, we incorporate 3D Gaussian Splatting into our text-to-3D generation pipeline. Extensive experiments show that our model largely outperforms the state-of-the-art in quality and training efficiency.
翻訳日:2023-12-05 21:26:12 公開日:2023-12-02
# DiLoCo: 言語モデルの分散低コミュニケーショントレーニング

DiLoCo: Distributed Low-Communication Training of Language Models ( http://arxiv.org/abs/2311.08105v2 )

ライセンス: Link先を確認
Arthur Douillard, Qixuan Feng, Andrei A. Rusu, Rachita Chhaparia, Yani Donchev, Adhiguna Kuncoro, Marc'Aurelio Ranzato, Arthur Szlam, Jiajun Shen(参考訳) 大規模言語モデル(LLM)は、機械学習の多くのアプリケーションにおいて重要なコンポーネントとなっている。 しかし、LLMのトレーニングに標準的アプローチでは、各最適化ステップで勾配やその他の中間状態を交換するデバイスによって、多数の密接な相互接続のアクセラレータを必要とする。 多くのアクセラレーターをホストする単一のコンピューティングクラスタの構築とメンテナンスは難しいが、各デバイスをホストする複数のコンピューティングクラスタを見つけるのは容易かもしれない。 本研究では,接続が不十分なデバイス群における言語モデルの学習を可能にする分散最適化アルゴリズムである分散低通信(diloco)を提案する。 このアプローチは、内部ステップの数が大きく、内部オプティマイザはAdamW、外側オプティマイザはNesterov運動量であるフェデレート平均化の変種である。 広く使われているC4データセットでは、8人のワーカ上でDiLoCoが500倍の通信をしながら完全に同期最適化を行うことを示す。 DiLoCoは、各ワーカーのデータ分散に大きな堅牢性を示す。 また、時間とともにリソースが利用できなくなり、その逆もまた、トレーニング中に利用可能なリソースをシームレスに活用することができる。

Large language models (LLM) have become a critical component in many applications of machine learning. However, standard approaches to training LLM require a large number of tightly interconnected accelerators, with devices exchanging gradients and other intermediate states at each optimization step. While it is difficult to build and maintain a single computing cluster hosting many accelerators, it might be easier to find several computing clusters each hosting a smaller number of devices. In this work, we propose a distributed optimization algorithm, Distributed Low-Communication (DiLoCo), that enables training of language models on islands of devices that are poorly connected. The approach is a variant of federated averaging, where the number of inner steps is large, the inner optimizer is AdamW, and the outer optimizer is Nesterov momentum. On the widely used C4 dataset, we show that DiLoCo on 8 workers performs as well as fully synchronous optimization while communicating 500 times less. DiLoCo exhibits great robustness to the data distribution of each worker. It is also robust to resources becoming unavailable over time, and vice versa, it can seamlessly leverage resources that become available during training.
翻訳日:2023-12-05 21:23:34 公開日:2023-12-02
# 分類から生成へ:言語横断検索型ICLへの展望

From Classification to Generation: Insights into Crosslingual Retrieval Augmented ICL ( http://arxiv.org/abs/2311.06595v3 )

ライセンス: Link先を確認
Xiaoqian Li, Ercong Nie, Sheng Liang(参考訳) 大きな言語モデル(llm)が命令を理解して従う能力は、低リソース言語でのin-context learning(icl)性能によって制限されることがある。 そこで本研究では,言語間検索強化型インコンテキスト学習(CREA-ICL)を活用した新しい手法を提案する。 高リソース言語から意味的に類似したプロンプトを抽出することで、様々なタスクにわたる多言語事前学習言語モデル(mplm)のゼロショット性能を向上させることを目指している。 我々のアプローチは分類タスクを着実に改善するが、生成タスクの課題に直面している。 本評価は,分類領域と生成領域にまたがる検索文内学習の性能動態に関する知見を提供する。

The remarkable ability of Large Language Models (LLMs) to understand and follow instructions has sometimes been limited by their in-context learning (ICL) performance in low-resource languages. To address this, we introduce a novel approach that leverages cross-lingual retrieval-augmented in-context learning (CREA-ICL). By extracting semantically similar prompts from high-resource languages, we aim to improve the zero-shot performance of multilingual pre-trained language models (MPLMs) across diverse tasks. Though our approach yields steady improvements in classification tasks, it faces challenges in generation tasks. Our evaluation offers insights into the performance dynamics of retrieval-augmented in-context learning across both classification and generation domains.
翻訳日:2023-12-05 21:22:34 公開日:2023-12-02
# SuGaR:効率的な3次元メッシュ再構成と高品質メッシュレンダリングのための表面配向ガウススティング

SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh Rendering ( http://arxiv.org/abs/2311.12775v3 )

ライセンス: Link先を確認
Antoine Gu\'edon and Vincent Lepetit(参考訳) 本研究では, 3次元ガウススメッティングから高精度かつ超高速のメッシュ抽出を実現する方法を提案する。 gaussian splattingは最近、narfsよりもトレーニングがかなり速く、リアルなレンダリングをもたらすため、非常に人気がある。 しかし、これらのガウシアンは最適化後に組織化されず、これまで提案されていないため、何百万もの小さな3dガウシアンからメッシュを抽出することは困難である。 私たちの最初の重要な貢献は、ガウスがシーンの表面とうまく一致するように促す正規化の用語です。 次に,このアライメントを利用して,高速でスケーラブルで詳細を保存するポアソン再構成法を用いて,gaussianからメッシュを抽出する手法を提案する。 最後に、gaussianをメッシュの表面にバインドするオプションのリファインメント戦略を導入し、gaussian splattingレンダリングを通じてこれらのgaussianと meshを共同で最適化する。 これにより、ガウス人自身の代わりにメッシュを操作することで、従来のソフトウェアを使用して、ガウス人の編集、彫刻、リギング、アニメーション、合成、リライトが容易になる。 このような編集可能なメッシュの検索は、ニューラルネットワークsdfsの最先端のメソッドに比べて数分以内に行われ、より優れたレンダリング品質を提供する。 私たちのプロジェクトページは以下の通りです。

We propose a method to allow precise and extremely fast mesh extraction from 3D Gaussian Splatting. Gaussian Splatting has recently become very popular as it yields realistic rendering while being significantly faster to train than NeRFs. It is however challenging to extract a mesh from the millions of tiny 3D gaussians as these gaussians tend to be unorganized after optimization and no method has been proposed so far. Our first key contribution is a regularization term that encourages the gaussians to align well with the surface of the scene. We then introduce a method that exploits this alignment to extract a mesh from the Gaussians using Poisson reconstruction, which is fast, scalable, and preserves details, in contrast to the Marching Cubes algorithm usually applied to extract meshes from Neural SDFs. Finally, we introduce an optional refinement strategy that binds gaussians to the surface of the mesh, and jointly optimizes these Gaussians and the mesh through Gaussian splatting rendering. This enables easy editing, sculpting, rigging, animating, compositing and relighting of the Gaussians using traditional softwares by manipulating the mesh instead of the gaussians themselves. Retrieving such an editable mesh for realistic rendering is done within minutes with our method, compared to hours with the state-of-the-art methods on neural SDFs, while providing a better rendering quality. Our project page is the following: https://anttwo.github.io/sugar/
翻訳日:2023-12-05 21:11:57 公開日:2023-12-02
# ドメイン表現画像を利用した視覚トランスフォーマによるソースフリーターゲット適応の改善

Improving Source-Free Target Adaptation with Vision Transformers Leveraging Domain Representation Images ( http://arxiv.org/abs/2311.12589v2 )

ライセンス: Link先を確認
Gauransh Sawhney, Daksh Dave, Adeel Ahmed, Jiechao Gao, Khalid Saleem(参考訳) Unsupervised Domain Adaptation (UDA)メソッドは、ラベル付きソースドメインからラベルなしターゲットドメインへの知識伝達を促進し、ドメインシフトの障害をナビゲートする。 畳み込みニューラルネットワーク(CNN)はUDAの標準であるが、ビジョントランスフォーマー(ViT)の台頭はドメインの一般化に新たな道をもたらす。 本稿では,鍵,問合せ,値要素がvit結果にどのように影響するかの評価から,ソースフリーターゲット適応におけるvit性能を向上させる革新的な手法を提案する。 実験は、キー要素の変更がトランスフォーマーの性能に不可分な影響を及ぼすことを示している。 この発見を生かして、ドメイン表現画像(DRI)を導入し、キー要素を通じて埋め込みをフィードする。 DRIはドメイン固有のマーカーとして機能し、トレーニングレギュレータとシームレスにマージする。 提案手法を評価するため,Cross Instance DRI Source-only (SO) 制御のターゲット適応試験を行った。 SHOT-B* などの既存のベンチマークや CDTrans による適応に対して, DRI の有無による目標適応の有効性を測定した。 DRIを除いた場合、SHOT-B*よりも限られた利得が得られ、キーセグメントに含めると、より優れたドメインの一般化を促進する平均精度が向上する。 本研究は、UDAシナリオにおけるVT効率向上におけるDRIの意義を強調し、さらなるドメイン適応探索の先例となる。

Unsupervised Domain Adaptation (UDA) methods facilitate knowledge transfer from a labeled source domain to an unlabeled target domain, navigating the obstacle of domain shift. While Convolutional Neural Networks (CNNs) are a staple in UDA, the rise of Vision Transformers (ViTs) provides new avenues for domain generalization. This paper presents an innovative method to bolster ViT performance in source-free target adaptation, beginning with an evaluation of how key, query, and value elements affect ViT outcomes. Experiments indicate that altering the key component has negligible effects on Transformer performance. Leveraging this discovery, we introduce Domain Representation Images (DRIs), feeding embeddings through the key element. DRIs act as domain-specific markers, effortlessly merging with the training regimen. To assess our method, we perform target adaptation tests on the Cross Instance DRI source-only (SO) control. We measure the efficacy of target adaptation with and without DRIs, against existing benchmarks like SHOT-B* and adaptations via CDTrans. Findings demonstrate that excluding DRIs offers limited gains over SHOT-B*, while their inclusion in the key segment boosts average precision promoting superior domain generalization. This research underscores the vital role of DRIs in enhancing ViT efficiency in UDA scenarios, setting a precedent for further domain adaptation explorations.
翻訳日:2023-12-05 21:11:18 公開日:2023-12-02
# 自己教師付きデータ選択と合成によるオンデバイス大規模言語モデルのパーソナライズ

Enabling On-Device Large Language Model Personalization with Self-Supervised Data Selection and Synthesis ( http://arxiv.org/abs/2311.12275v2 )

ライセンス: Link先を確認
Ruiyang Qin, Jun Xia, Zhenge Jia, Meng Jiang, Ahmed Abbasi, Peipei Zhou, Jingtong Hu, Yiyu Shi(参考訳) 大規模言語モデル(LLM)がエッジデバイスにデプロイされた後、ユーザ生成会話データから学習し、ユーザ固有のパーソナライズされた応答をリアルタイムで生成することが望ましい。 しかし、ユーザ生成データは通常機密情報や個人情報が含まれており、アノテーションのためにクラウドにデータをアップロードすることは禁止されない。 アノテーションをローカルに取得するには,ユーザの好みの回答を直接求めればよいが,そのようなアノテーションはユーザエクスペリエンスに影響を与えることはない。 さらに、エッジデバイスのストレージは、通常、完全なユーザー生成データで大規模に微調整できるように制限されすぎます。 少ないアノテーションと限られたオンデバイスストレージを考慮して、オンデバイス LLM のパーソナライズを有効にする方法は未解決のままである。 本稿では,最も代表的なデータを自己管理方式でオンラインに選択・保存する新しい枠組みを提案する。 このようなデータはメモリフットプリントが小さく、ユーザアノテーションの頻繁なリクエストでさらなる微調整が可能になる。 微調整品質を高めるため、LLMを用いて複数の意味的に類似した質問文と期待応答を生成する。 実験の結果,提案フレームワークは,バニラベースラインと比較して,ユーザ固有のコンテンツ生成能力(精度)と微調整速度(性能)に優れていた。 私たちの知る限りでは、これが初めてのオンデバイスLDMパーソナライズフレームワークです。

After a large language model (LLM) is deployed on edge devices, it is desirable for these devices to learn from user-generated conversation data to generate user-specific and personalized responses in real-time. However, user-generated data usually contains sensitive and private information, and uploading such data to the cloud for annotation is not preferred if not prohibited. While it is possible to obtain annotation locally by directly asking users to provide preferred responses, such annotations have to be sparse to not affect user experience. In addition, the storage of edge devices is usually too limited to enable large-scale fine-tuning with full user-generated data. It remains an open question how to enable on-device LLM personalization, considering sparse annotation and limited on-device storage. In this paper, we propose a novel framework to select and store the most representative data online in a self-supervised way. Such data has a small memory footprint and allows infrequent requests of user annotations for further fine-tuning. To enhance fine-tuning quality, multiple semantically similar pairs of question texts and expected responses are generated using the LLM. Our experiments show that the proposed framework achieves the best user-specific content-generating capability (accuracy) and fine-tuning speed (performance) compared with vanilla baselines. To the best of our knowledge, this is the very first on-device LLM personalization framework.
翻訳日:2023-12-05 21:10:40 公開日:2023-12-02
# 変分推論を用いたニューラルグラフ協調フィルタリング

Neural Graph Collaborative Filtering Using Variational Inference ( http://arxiv.org/abs/2311.11824v2 )

ライセンス: Link先を確認
Narges Sadat Fazeli Dehkordi, Hadi Zare, Parham Moradi, Mahdi Jalili(参考訳) ユーザに推奨されるコンテンツのカスタマイズは、eコマース、音楽、ショッピングなど、幅広いアプリケーションにわたるユーザーエクスペリエンスの強化において重要な意味を持つ。 グラフベースのメソッドは、ユーザとテーマのインタラクションをキャプチャすることで、かなりのパフォーマンスを達成しています。 しかし、これらのメソッドは、レコメンダのトレーニングに使用されるデータセットにランダムに構築された埋め込みを利用する傾向がある。 本稿では,グラフ畳み込みネットワーク(GCN)の層による特徴伝達を改善するために,レコメンダシステムの事前学習を行う手段として,変分埋め込みの概念を提案する。 グラフ変分埋め込み協調フィルタリング(GVECF)は、GCNベースの協調フィルタリングに埋め込まれた変分グラフオートエンコーダで学習した表現を組み込む新しいフレームワークとして導入された。 このアプローチは、遅延した高次ユーザ-イテム相互作用をより訓練可能なベクトルに効果的に変換し、最終的にはリコールおよび正規化割引累積ゲイン(NDCG)メトリクスのパフォーマンスが向上する。 ベンチマークデータセットを用いて行った実験により,提案手法はテストデータに対するリコールを最大13.78%改善することを確認した。

The customization of recommended content to users holds significant importance in enhancing user experiences across a wide spectrum of applications such as e-commerce, music, and shopping. Graph-based methods have achieved considerable performance by capturing user-item interactions. However, these methods tend to utilize randomly constructed embeddings in the dataset used for training the recommender, which lacks any user preferences. Here, we propose the concept of variational embeddings as a means of pre-training the recommender system to improve the feature propagation through the layers of graph convolutional networks (GCNs). The graph variational embedding collaborative filtering (GVECF) is introduced as a novel framework to incorporate representations learned through a variational graph auto-encoder which are embedded into a GCN-based collaborative filtering. This approach effectively transforms latent high-order user-item interactions into more trainable vectors, ultimately resulting in better performance in terms of recall and normalized discounted cumulative gain(NDCG) metrics. The experiments conducted on benchmark datasets demonstrate that our proposed method achieves up to 13.78% improvement in the recall over the test data.
翻訳日:2023-12-05 21:10:14 公開日:2023-12-02
# ランダム射影に対するマハラノビス距離のディップ統計に基づく多変量一様性試験

A Multivariate Unimodality Test Harnessing the Dip Statistic of Mahalanobis Distances Over Random Projections ( http://arxiv.org/abs/2311.16614v3 )

ライセンス: Link先を確認
Prodromos Kolyvakis, Aristidis Likas(参考訳) 統計解析において中心的な一様性は、データセット構造に関する洞察を与え、洗練された分析手順を駆動する。 ユニモダリティの確認は、シルバーマンのアプローチやハーティガンズのディップ統計のような手法を用いた一次元データでは簡単であるが、高次元への一般化は依然として困難である。 線形ランダム射影を用いて一次元一様性原理を多次元空間へ外挿し、点対点距離を生かし、この手法は$\alpha$-一様性仮定に根ざし、新しい多変量一様性試験である泥ッドを提示する。 理論的および実証的研究は,多次元データセットの一様性評価およびクラスタ数推定における本手法の有効性を確認した。

Unimodality, pivotal in statistical analysis, offers insights into dataset structures and drives sophisticated analytical procedures. While unimodality's confirmation is straightforward for one-dimensional data using methods like Silverman's approach and Hartigans' dip statistic, its generalization to higher dimensions remains challenging. By extrapolating one-dimensional unimodality principles to multi-dimensional spaces through linear random projections and leveraging point-to-point distancing, our method, rooted in $\alpha$-unimodality assumptions, presents a novel multivariate unimodality test named mud-pod. Both theoretical and empirical studies confirm the efficacy of our method in unimodality assessment of multidimensional datasets as well as in estimating the number of clusters.
翻訳日:2023-12-05 21:03:22 公開日:2023-12-02
# DiffusionTalker:音声駆動型3次元顔ディフューザのパーソナライズとアクセラレーション

DiffusionTalker: Personalization and Acceleration for Speech-Driven 3D Face Diffuser ( http://arxiv.org/abs/2311.16565v2 )

ライセンス: Link先を確認
Peng Chen, Xiaobao Wei, Ming Lu, Yitong Zhu, Naiming Yao, Xingyu Xiao, Hui Chen(参考訳) スピーチ駆動の3D顔アニメーションは、学術と産業の両方において魅力的なタスクだ。 伝統的な手法は主に、音声からアニメーションへの決定論的マッピングの学習に焦点を当てている。 最近のアプローチでは、音声駆動3d顔アニメーションの非決定論的事実を検討し、そのタスクに拡散モデルを採用する。 しかし、既存の拡散法では、顔アニメーションのパーソナライズとアニメーション生成の加速が大きな制限となっている。 そこで本研究では, コントラスト学習を用いて3次元顔アニメーションと知識蒸留をパーソナライズし, 3次元アニメーション生成を高速化する拡散ベースの手法である diffusiontalker を提案する。 具体的には,パーソナライゼーションを実現するために,学習可能な発話idを導入し,知識を音声列に集約する。 提案したアイデンティティ埋め込みは、異なる人物間で異なる学習方法でカスタマイズされた顔の手がかりを抽出する。 推論中、ユーザーは特定の話し方を反映して入力音声に基づくパーソナライズされた顔のアニメーションを得ることができる。 何百ステップものステップを持つトレーニングされた拡散モデルでは、アクセラレーションのために8ステップの軽量モデルにそれを蒸留します。 本手法が最先端手法よりも優れていることを示すために,広範な実験を行った。 コードはリリースされます。

Speech-driven 3D facial animation has been an attractive task in both academia and industry. Traditional methods mostly focus on learning a deterministic mapping from speech to animation. Recent approaches start to consider the non-deterministic fact of speech-driven 3D face animation and employ the diffusion model for the task. However, personalizing facial animation and accelerating animation generation are still two major limitations of existing diffusion-based methods. To address the above limitations, we propose DiffusionTalker, a diffusion-based method that utilizes contrastive learning to personalize 3D facial animation and knowledge distillation to accelerate 3D animation generation. Specifically, to enable personalization, we introduce a learnable talking identity to aggregate knowledge in audio sequences. The proposed identity embeddings extract customized facial cues across different people in a contrastive learning manner. During inference, users can obtain personalized facial animation based on input audio, reflecting a specific talking style. With a trained diffusion model with hundreds of steps, we distill it into a lightweight model with 8 steps for acceleration. Extensive experiments are conducted to demonstrate that our method outperforms state-of-the-art methods. The code will be released.
翻訳日:2023-12-05 21:03:04 公開日:2023-12-02
# AI生成テキストの識別におけるハイブリッドディープラーニングモデルの有効性の評価

Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing AI-Generated Text ( http://arxiv.org/abs/2311.15565v2 )

ライセンス: Link先を確認
Finbarrs Oketunji(参考訳) 私の研究は、AI生成テキストと人間の文章を正確に区別するために、最先端のハイブリッドディープラーニングモデルを使用することを調査します。 さまざまなソースからAIと人文からなる慎重に選択されたデータセットを利用し、それぞれに指示をタグ付けして、堅牢な方法論を適用しました。 高度な自然言語処理技術は、テキストの特徴の分析を容易にする。 高度なニューラルネットワークを組み合わせることで、aiと人間のコンテンツのニュアンスの違いを検出することができる。

My research investigates the use of cutting-edge hybrid deep learning models to accurately differentiate between AI-generated text and human writing. I applied a robust methodology, utilising a carefully selected dataset comprising AI and human texts from various sources, each tagged with instructions. Advanced natural language processing techniques facilitated the analysis of textual features. Combining sophisticated neural networks, the custom model enabled it to detect nuanced differences between AI and human content.
翻訳日:2023-12-05 21:00:41 公開日:2023-12-02
# 誰もが小さなHELPを必要としている:階層的概念によるグラフの説明

Everybody Needs a Little HELP: Explaining Graphs via Hierarchical Concepts ( http://arxiv.org/abs/2311.15112v2 )

ライセンス: Link先を確認
Jonas J\"ur{\ss}, Lucie Charlotte Magister, Pietro Barbiero, Pietro Li\`o, Nikola Simidjievski(参考訳) グラフニューラルネットワーク(gnns)は、薬物発見、ソーシャルネットワーク分析、旅行時間推定など、さまざまな領域において大きなブレークスルーをもたらしている。 しかし、人間の信頼を妨げる解釈可能性がなく、高い判断力を持つ設定にデプロイする。 一連の解釈可能な手法は、予測を説明する最後のgnn層で、関連する概念の小さな集合をサブグラフとして発見することで、これをアプローチする。 これにより、GNN層間の相互作用を説明できず、単純化された説明が得られる。 HELP(Hierarchical Explainable Latent Pooling)は、異なるGNN層の概念が後続のステップでどのように構成されるかを明らかにする、本質的に解釈可能なグラフプーリング手法である。 HELPは1-WL以上の表現力を持ち、任意の連結成分の可変数のプーリングを学ぶことができる最初の非スペクトル、エンドツーエンド学習可能、階層的なグラフプーリング法である。 従来のgcnや一般的なプーリング手法とほぼ同等の精度で動作し、化学やソーシャルネットワークの分野における専門知識と整合した説明を得られることを実証的に実証する。 質的分析に加えて, 概念完全性スコアと, 発見概念の雑音を測定するための新しい指標である概念適合性を用いて, 発見概念が従来の研究よりも十分に理解しやすいことを定量的に検証した。 私たちの研究は、最終レイヤから概念のセットを越えて、異なるレベルの概念の複雑な相互作用を説明するグラフニューラルネットワークを理解するための第一歩を示しています。

Graph neural networks (GNNs) have led to major breakthroughs in a variety of domains such as drug discovery, social network analysis, and travel time estimation. However, they lack interpretability which hinders human trust and thereby deployment to settings with high-stakes decisions. A line of interpretable methods approach this by discovering a small set of relevant concepts as subgraphs in the last GNN layer that together explain the prediction. This can yield oversimplified explanations, failing to explain the interaction between GNN layers. To address this oversight, we provide HELP (Hierarchical Explainable Latent Pooling), a novel, inherently interpretable graph pooling approach that reveals how concepts from different GNN layers compose to new ones in later steps. HELP is more than 1-WL expressive and is the first non-spectral, end-to-end-learnable, hierarchical graph pooling method that can learn to pool a variable number of arbitrary connected components. We empirically demonstrate that it performs on-par with standard GCNs and popular pooling methods in terms of accuracy while yielding explanations that are aligned with expert knowledge in the domains of chemistry and social networks. In addition to a qualitative analysis, we employ concept completeness scores as well as concept conformity, a novel metric to measure the noise in discovered concepts, quantitatively verifying that the discovered concepts are significantly easier to fully understand than those from previous work. Our work represents a first step towards an understanding of graph neural networks that goes beyond a set of concepts from the final layer and instead explains the complex interplay of concepts on different levels.
翻訳日:2023-12-05 20:59:38 公開日:2023-12-02
# Barkと検索音声変換を用いた低リソースASRのためのカスタムデータ拡張

Custom Data Augmentation for low resource ASR using Bark and Retrieval-Based Voice Conversion ( http://arxiv.org/abs/2311.14836v2 )

ライセンス: Link先を確認
Anand Kamble, Aniket Tathe, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra(参考訳) 本稿では,Hindiのような低リソース言語向けにカスタマイズされた共通音声データセットを構築するための2つの革新的な手法を提案する。 最初の方法論は、Sunoが開発したトランスフォーマーベースのテキストオーディオモデルであるBarkを活用し、Metaの enCodecと事前トレーニングされたHuBertモデルを組み込んで、Barkのパフォーマンスを向上させる。 第2の方法論は、検索型音声変換(RVC)を採用し、データ準備にOzenツールキットを使用している。 どちらの手法もasr技術の進歩に貢献し、非ソース言語用にカスタマイズされた共通音声データセットを構築するという課題に対する貴重な洞察を提供する。 さらに、様々なアプリケーションに対して高品質でパーソナライズされた音声生成を実現するための経路を提供する。

This paper proposes two innovative methodologies to construct customized Common Voice datasets for low-resource languages like Hindi. The first methodology leverages Bark, a transformer-based text-to-audio model developed by Suno, and incorporates Meta's enCodec and a pre-trained HuBert model to enhance Bark's performance. The second methodology employs Retrieval-Based Voice Conversion (RVC) and uses the Ozen toolkit for data preparation. Both methodologies contribute to the advancement of ASR technology and offer valuable insights into addressing the challenges of constructing customized Common Voice datasets for under-resourced languages. Furthermore, they provide a pathway to achieving high-quality, personalized voice generation for a range of applications.
翻訳日:2023-12-05 20:59:10 公開日:2023-12-02
# リモートセンシング画像におけるエンドツーエンド物体検出のための効率的なデコーダ

Efficient Decoder for End-to-End Oriented Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2311.17629v2 )

ライセンス: Link先を確認
Jiaqi Zhao, Zeyu Ding, Yong Zhou, Hancheng Zhu, Wenliang Du, Rui Yao, Abdulmotaleb El Saddik(参考訳) リモートセンシング画像のオブジェクトインスタンスは、多方向、様々なスケール、密度分布で分散することが多い。 これらの問題は、マルチスケール機能アライメントや多数のクエリを含むエンドツーエンドのオブジェクト指向オブジェクト検出器に課題をもたらす。 これらの制約に対処するため,ロータレートRoIアテンション(RRoIアテンション)と選択離散キュー(SDQ)の2つの技術を組み込んだ,効率的なデコーダを備えたエンドツーエンド指向検出器を提案する。 具体的には、RRoIの注意は、クロスアテンション機構を通じて関心のある方向の領域に効果的に焦点を合わせ、マルチスケールな特徴を整列させる。 SDQは中間デコーダ層からクエリを収集し、同様のクエリをフィルタして異なるクエリを取得する。 提案したSDQは、冗長な初期クエリや追加の補助ブランチを導入することなく、1対1のラベル割り当ての最適化を容易にする。 5つのデータセットに関する広範な実験により,本手法の有効性が示された。 特に,DIOR-R (67.31% mAP), DOTA-v1.5 (67.43% mAP), DOTA-v2.0 (53.28% mAP) をResNet50バックボーンで動作させる。

Object instances in remote sensing images often distribute with multi-orientations, varying scales, and dense distribution. These issues bring challenges to end-to-end oriented object detectors including multi-scale features alignment and a large number of queries. To address these limitations, we propose an end-to-end oriented detector equipped with an efficient decoder, which incorporates two technologies, Rotated RoI attention (RRoI attention) and Selective Distinct Queries (SDQ). Specifically, RRoI attention effectively focuses on oriented regions of interest through a cross-attention mechanism and aligns multi-scale features. SDQ collects queries from intermediate decoder layers and then filters similar queries to obtain distinct queries. The proposed SDQ can facilitate the optimization of one-to-one label assignment, without introducing redundant initial queries or extra auxiliary branches. Extensive experiments on five datasets demonstrate the effectiveness of our method. Notably, our method achieves state-of-the-art performance on DIOR-R (67.31% mAP), DOTA-v1.5 (67.43% mAP), and DOTA-v2.0 (53.28% mAP) with the ResNet50 backbone.
翻訳日:2023-12-05 20:50:48 公開日:2023-12-02
# VLNは非感覚的または無関係な指示による作業の事前訓練を行っているか?

Does VLN Pretraining Work with Nonsensical or Irrelevant Instructions? ( http://arxiv.org/abs/2311.17280v2 )

ライセンス: Link先を確認
Wang Zhu, Ishika Singh, Yuan Huang, Robin Jia and Jesse Thomason(参考訳) バックトランスレーションによるデータ拡張は、生成した命令がノイズであっても、Vision-and-Language Navigation (VLN)モデルを事前訓練する場合に一般的である。 しかし、そのノイズは重要か? R2R上のHAMTとVLN-BERTの両方のダウンストリーム性能には,事前学習中の非感覚的あるいは無関係な言語命令がほとんど影響しないことがわかった。 これらの結果を評価するために、下流の性能を改善する非感覚的な命令を生成する効率的な拡張手法Unigram + Objectを考案した。 以上の結果から,VLN R2R事前訓練で重要なことは,指示の質ではなく,視線量であることが示唆された。

Data augmentation via back-translation is common when pretraining Vision-and-Language Navigation (VLN) models, even though the generated instructions are noisy. But: does that noise matter? We find that nonsensical or irrelevant language instructions during pretraining can have little effect on downstream performance for both HAMT and VLN-BERT on R2R, and is still better than only using clean, human data. To underscore these results, we concoct an efficient augmentation method, Unigram + Object, which generates nonsensical instructions that nonetheless improve downstream performance. Our findings suggest that what matters for VLN R2R pretraining is the quantity of visual trajectories, not the quality of instructions.
翻訳日:2023-12-05 20:49:54 公開日:2023-12-02
# ヘビーヘックスグラフ上の高次スピングラスモデルのための全チップQAOAのスケーリング

Scaling Whole-Chip QAOA for Higher-Order Ising Spin Glass Models on Heavy-Hex Graphs ( http://arxiv.org/abs/2312.00997v1 )

ライセンス: Link先を確認
Elijah Pelofske, Andreas B\"artschi, Lukasz Cincio, John Golden, Stephan Eidenbenz(参考訳) 量子交互演算子Ansatz (QAOA) は高次、ランダム係数、ヘキシルヘキシルなスピングラスに対して、16$から127$ qubits for $p=1$ to $p=5$まで強力なパラメータ集中を持ち、網羅探索が禁止されているインスタンスサイズでのQAOA角の直接転送学習を可能にする。 CPLEX を用いたこれらの組合せ最適化問題に対する最適解を得るために, 異なる結合次元での Matrix Product State (MPS) シミュレーションを用いた。 現在ノイズの多い量子ハードウェアがそのようなパラメータの集中力を利用する能力を評価するために、我々は、100ドルの高次(キュービック項)イジングモデルでibm量子超伝導プロセッサ上で、1つの16, 27, 127$ qubitsで1つの16ドルの量子ビットインスタンスから得られたqaoaアングルを用いて、1420ドルの2つの量子ビットゲートを含む回路(cnotの深さは$p$6で、結果として1,420ドルの量子ビットゲートを含む回路)を実行する。 私たちはそれを示します i) 最高の量子プロセッサは、一般に27量子ビット系に対して$p=3$、127量子ビット系に対して$p=2$まで低いエネルギーソリューションを見つけ、より高い値でノイズに打ち消される。 (ii)最も優れた量子プロセッサは、ノイズのない数値シミュレーション結果から約2分の1の平均エネルギーを求める。 実験から得られたさらなる知見は、同じ世代であっても異なる量子プロセッサ間で大きな性能差が存在し、動的デカップリングによって性能が大幅に向上するが、他の量子プロセッサの性能は低下するということである。 最後に、$p=1$ QAOA角の平均エネルギーランドスケープは、最大414ドルの量子コンピュータを用いて計算され、QAOAの平均エネルギーランドスケープは、問題のサイズが変化するにつれて非常によく似ていることを示す。

We show through numerical simulation that the Quantum Alternating Operator Ansatz (QAOA) for higher-order, random-coefficient, heavy-hex compatible spin glass Ising models has strong parameter concentration across problem sizes from $16$ up to $127$ qubits for $p=1$ up to $p=5$, which allows for straight-forward transfer learning of QAOA angles on instance sizes where exhaustive grid-search is prohibitive even for $p>1$. We use Matrix Product State (MPS) simulation at different bond dimensions to obtain confidence in these results, and we obtain the optimal solutions to these combinatorial optimization problems using CPLEX. In order to assess the ability of current noisy quantum hardware to exploit such parameter concentration, we execute short-depth QAOA circuits (with a CNOT depth of 6 per $p$, resulting in circuits which contain $1420$ two qubit gates for $127$ qubit $p=5$ QAOA) on $100$ higher-order (cubic term) Ising models on IBM quantum superconducting processors with $16, 27, 127$ qubits using QAOA angles learned from a single $16$-qubit instance. We show that (i) the best quantum processors generally find lower energy solutions up to $p=3$ for 27 qubit systems and up to $p=2$ for 127 qubit systems and are overcome by noise at higher values of $p$, (ii) the best quantum processors find mean energies that are about a factor of two off from the noise-free numerical simulation results. Additional insights from our experiments are that large performance differences exist among different quantum processors even of the same generation and that dynamical decoupling significantly improve performance for some, but decrease performance for other quantum processors. Lastly we show $p=1$ QAOA angle mean energy landscapes computed using up to a $414$ qubit quantum computer, showing that the mean QAOA energy landscapes remain very similar as the problem size changes.
翻訳日:2023-12-05 20:07:31 公開日:2023-12-02
# マスケッドモデリングによる音響・視覚早期核融合変換器の高機能化

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling ( http://arxiv.org/abs/2312.01017v1 )

ライセンス: Link先を確認
Shentong Mo, Pedro Morgado(参考訳) 人間は聴覚と視覚情報を統合し、周囲の環境をより深く理解する能力を持っている。 認知心理学と神経科学の研究によって実証された音声と視覚の手がかりの早期融合は、マルチモーダル知覚モデルの開発に有望な可能性をもたらす。 しかし、初期の融合アーキテクチャのトレーニングは、モデル表現力の増大は、強化された能力を活用するために頑健な学習フレームワークを必要とするため、重大な課題をもたらす。 本稿では,これまでユニモーダル設定で成功を収めたマスク型再構成フレームワークを用いて,早期融合によるオーディオ・ビジュアルエンコーダのトレーニングを行うことにより,この課題に対処した。 さらに,局所的な音声と視覚的表現の相互作用を捉え,微粒な相互作用を捕捉するモデルの能力を向上する,注意に基づく融合モジュールを提案する。 効率的ではあるが、局所表現の数が増加するにつれて、この手順は計算的に難解になる。 そこで,計算の複雑さに対処するために,音声と視覚の相互作用を表現する前に局所表現を分解する手法を提案する。 様々なデータセットに対する広範囲な評価は、オーディオ・イベント分類、視覚的音像定位、音源分離、音声・視覚的セグメンテーションにおける我々のアプローチの優位性を示している。 これらの貢献により、深く統合されたオーディオ視覚モデルの効率的なトレーニングが可能になり、初期の融合アーキテクチャの有用性が大幅に向上する。

Humans possess a remarkable ability to integrate auditory and visual information, enabling a deeper understanding of the surrounding environment. This early fusion of audio and visual cues, demonstrated through cognitive psychology and neuroscience research, offers promising potential for developing multimodal perception models. However, training early fusion architectures poses significant challenges, as the increased model expressivity requires robust learning frameworks to harness their enhanced capabilities. In this paper, we address this challenge by leveraging the masked reconstruction framework, previously successful in unimodal settings, to train audio-visual encoders with early fusion. Additionally, we propose an attention-based fusion module that captures interactions between local audio and visual representations, enhancing the model's ability to capture fine-grained interactions. While effective, this procedure can become computationally intractable, as the number of local representations increases. Thus, to address the computational complexity, we propose an alternative procedure that factorizes the local representations before representing audio-visual interactions. Extensive evaluations on a variety of datasets demonstrate the superiority of our approach in audio-event classification, visual sound localization, sound separation, and audio-visual segmentation. These contributions enable the efficient training of deeply integrated audio-visual models and significantly advance the usefulness of early fusion architectures.
翻訳日:2023-12-05 19:54:54 公開日:2023-12-02
# ハイパーグラフによる図書館におけるオンラインリソースの推薦

A Hypergraph-Based Approach to Recommend Online Resources in a Library ( http://arxiv.org/abs/2312.01007v1 )

ライセンス: Link先を確認
Debashish Roy and Rajarshi Roy Chowdhury(参考訳) デジタルライブラリのユーザがオンラインリソースを読んだり閲覧したりすると、膨大な量のデータが生成される。 基礎となるシステムが、本や雑誌などのアイテムをユーザに推薦できれば、関連するアイテムを見つけるのに役立ちます。 本研究は,デジタル図書館の利用データを分析し,利用者にアイテムを推薦し,異なるクラスタリングアルゴリズムを用いて推薦システムを設計する。 我々は、階層化、期待最大化(em)、k-mean、farthestfirst、密度ベースのクラスタリングアルゴリズム、およびハイパーグラフベースのアプローチを用いてクラスタを生成するユーザアクセスパターンベースのクラスタリングなど、コンテンツベースのクラスタリングを用いてきた。 本研究では,ハイパーグラフアルゴリズムを用いて設計したレコメンデーションシステムが,コンテンツベースのクラスタリング手法を用いて設計したレコメンデーションモデルと比較して,最も正確なレコメンデーションモデルを生成することを示す。

When users in a digital library read or browse online resources, it generates an immense amount of data. If the underlying system can recommend items, such as books and journals, to the users, it will help them to find the related items. This research analyzes a digital library's usage data to recommend items to its users, and it uses different clustering algorithms to design the recommender system. We have used content-based clustering, including hierarchical, expectation maximization (EM), K-mean, FarthestFirst, and density-based clustering algorithms, and user access pattern-based clustering, which uses a hypergraph-based approach to generate the clusters. This research shows that the recommender system designed using the hypergraph algorithm generates the most accurate recommendation model compared to those designed using the content-based clustering approaches.
翻訳日:2023-12-05 19:54:31 公開日:2023-12-02
# マルチドメインフェイクニュース検出のためのデュアルティーチャー脱バイアス蒸留フレームワーク

Dual-Teacher De-biasing Distillation Framework for Multi-domain Fake News Detection ( http://arxiv.org/abs/2312.01006v1 )

ライセンス: Link先を確認
Jiayang Li, Xuan Feng, Tianlong Gu, Liang Chang(参考訳) 多ドメイン偽ニュース検出は、異なるドメインからの様々なニュースが本物か偽物かを識別することを目的としており、緊急かつ重要になっている。 しかし、既存の手法はフェイクニュース検出の全体的な性能向上に特化しており、不均衡なデータが異なるドメイン、すなわちドメインバイアス問題に対して異なる処理に繋がるという事実を無視している。 この問題を解決するために、異なるドメイン間のバイアスを軽減するために、Dual-Teacher De-biasing Distillation framework (DTDBD)を提案する。 知識蒸留法に従って、DTDBDは教師-学生構造を採用し、訓練済みの大規模教師が学生モデルを指導する。 特にdtdbdは、偏りのない教師と、ドメインバイアスの軽減とパフォーマンスの維持において学生モデルを共同で指導するクリーンな教師で構成されています。 偏りのない教師に対しては,非偏りのないドメイン知識の学習において学生モデルに指導するために,逆向的脱偏り蒸留損失を導入する。 クリーンな教師のために、我々はドメイン知識の蒸留損失を設計し、パフォーマンスを維持しながらドメインの特徴を表現することに集中するよう学生モデルを効果的に動機づける。 さらに,教師2人の効果をトレードオフする運動量に基づく動的調整アルゴリズムを提案する。 中国語と英語のデータセットに対する大規模な実験により、提案手法は、競争性能を保証しつつバイアス指標の観点から最先端のベースライン法を大幅に上回ることを示した。

Multi-domain fake news detection aims to identify whether various news from different domains is real or fake and has become urgent and important. However, existing methods are dedicated to improving the overall performance of fake news detection, ignoring the fact that unbalanced data leads to disparate treatment for different domains, i.e., the domain bias problem. To solve this problem, we propose the Dual-Teacher De-biasing Distillation framework (DTDBD) to mitigate bias across different domains. Following the knowledge distillation methods, DTDBD adopts a teacher-student structure, where pre-trained large teachers instruct a student model. In particular, the DTDBD consists of an unbiased teacher and a clean teacher that jointly guide the student model in mitigating domain bias and maintaining performance. For the unbiased teacher, we introduce an adversarial de-biasing distillation loss to instruct the student model in learning unbiased domain knowledge. For the clean teacher, we design domain knowledge distillation loss, which effectively incentivizes the student model to focus on representing domain features while maintaining performance. Moreover, we present a momentum-based dynamic adjustment algorithm to trade off the effects of two teachers. Extensive experiments on Chinese and English datasets show that the proposed method substantially outperforms the state-of-the-art baseline methods in terms of bias metrics while guaranteeing competitive performance.
翻訳日:2023-12-05 19:54:17 公開日:2023-12-02
# GANを用いたM87*ブラックホールの画像生成

Generating Images of the M87* Black Hole Using GANs ( http://arxiv.org/abs/2312.01005v1 )

ライセンス: Link先を確認
Arya Mohan, Pavlos Protopapas, Keerthi Kunnumkai, Cecilia Garraffo, Lindy Blackburn, Koushik Chatterjee, Sheperd S. Doeleman, Razieh Emami, Christian M. Fromm, Yosuke Mizuno and Angelo Ricarte(参考訳) 本稿では,条件付きプログレッシブ・ジェネレーショナル・アドバーサリー・ネットワーク(cpgan)に基づく新しいデータ拡張手法を導入し,スピン・電子温度の処方の変動を考慮し,多様なブラックホール(bh)画像を生成する。 これらの生成した画像は、観測データからブラックホールパラメータを正確に推定する深層学習アルゴリズムを訓練するための貴重な資源である。 我々のモデルは電子温度分布から[-1, 1]の範囲内で任意のスピン値に対してBH画像を生成することができる。 提案手法の有効性を検証するため,提案モデルにより生成されたGRMHD画像と画像の両方を用いて,畳み込みニューラルネットワークを用いてBHスピンを予測する。 本研究では,拡張データセットを用いてトレーニングを行い,高いr2スコアで示すように,grmhdシミュレーションデータを用いてテストを行う場合の性能向上を示す。 その結果、GANはブラックホール画像生成のコスト効率の良いモデルとして利用でき、他のパラメータ化アルゴリズムのトレーニングデータセットを確実に増強することができる。

In this paper, we introduce a novel data augmentation methodology based on Conditional Progressive Generative Adversarial Networks (CPGAN) to generate diverse black hole (BH) images, accounting for variations in spin and electron temperature prescriptions. These generated images are valuable resources for training deep learning algorithms to accurately estimate black hole parameters from observational data. Our model can generate BH images for any spin value within the range of [-1, 1], given an electron temperature distribution. To validate the effectiveness of our approach, we employ a convolutional neural network to predict the BH spin using both the GRMHD images and the images generated by our proposed model. Our results demonstrate a significant performance improvement when training is conducted with the augmented dataset while testing is performed using GRMHD simulated data, as indicated by the high R2 score. Consequently, we propose that GANs can be employed as cost effective models for black hole image generation and reliably augment training datasets for other parameterization algorithms.
翻訳日:2023-12-05 19:53:53 公開日:2023-12-02
# 自己進化型神経放射場

Self-Evolving Neural Radiance Fields ( http://arxiv.org/abs/2312.01003v1 )

ライセンス: Link先を確認
Jaewoo Jung, Jisang Han, Jiwon Kang, Seongchan Kim, Min-Seop Kwak, Seungryong Kim(参考訳) 近年,ニューラル・ラジアンス・フィールド(NeRF)は新規な視線合成と3次元再構成において顕著な性能を示した。 しかし、高品質な画像を必要とするため、現実のシナリオでは適用性が制限される。 この制限を克服するために、近年の研究では、少ない視点でのみnerfを訓練することに焦点を当てている。 タスクの制約の少ない性質のため、追加の正規化のみを用いることで、モデルが過度に適合してスパースな視点に収まらないことが観察された。 本稿では,これらの問題に対処するための自己学習フレームワークをNeRFに適用した,SE-NeRF(Self-Evolving Neural Radiance Fields)と呼ばれる新しいフレームワークを提案する。 数発のNeRFを教師学生用フレームワークに編成し,教師が生成した追加の擬似ラベルを学習することで,ネットワークを指導し,より堅牢なシーン表現を学習する。 新たな信頼性推定法により得られた信頼性・信頼性の低い光線に対して, 異なる蒸留方式を用いて線レベルの擬似ラベルを蒸留することにより, 3次元シーンのより正確でロバストな形状をNeRFで学べる。 既存のモデルに自己学習フレームワークを適用することで、レンダリング画像の品質が向上し、複数の設定で最先端のパフォーマンスが得られることを示す。

Recently, neural radiance field (NeRF) has shown remarkable performance in novel view synthesis and 3D reconstruction. However, it still requires abundant high-quality images, limiting its applicability in real-world scenarios. To overcome this limitation, recent works have focused on training NeRF only with sparse viewpoints by giving additional regularizations, often called few-shot NeRF. We observe that due to the under-constrained nature of the task, solely using additional regularization is not enough to prevent the model from overfitting to sparse viewpoints. In this paper, we propose a novel framework, dubbed Self-Evolving Neural Radiance Fields (SE-NeRF), that applies a self-training framework to NeRF to address these problems. We formulate few-shot NeRF into a teacher-student framework to guide the network to learn a more robust representation of the scene by training the student with additional pseudo labels generated from the teacher. By distilling ray-level pseudo labels using distinct distillation schemes for reliable and unreliable rays obtained with our novel reliability estimation method, we enable NeRF to learn a more accurate and robust geometry of the 3D scene. We show and evaluate that applying our self-training framework to existing models improves the quality of the rendered images and achieves state-of-the-art performance in multiple settings.
翻訳日:2023-12-05 19:53:36 公開日:2023-12-02
# 画素からの学習:注目重み付き複数インスタンス学習によるコーン収量予測

Learning county from pixels: Corn yield prediction with attention-weighted multiple instance learning ( http://arxiv.org/abs/2312.01001v1 )

ライセンス: Link先を確認
Xiaoyu Wang, Yuchi Ma, Qunying Huang, Zhengwei Yang, Zhou Zhang(参考訳) リモートセンシング技術は、収量予測において有望なツールとなっている。 以前の研究では、郡内の全てのピクセルを1つの値に空間的に集約することで、郡レベルのトウモロコシ収量予測のために衛星画像を採用しており、より詳細なデータによって提供される詳細な情報と貴重な洞察を見逃す可能性がある。 そこで本研究では,各郡をピクセルレベルで調査し,各郡内の詳細な情報を活用するために複数のインスタンス学習を適用した。 さらに,本手法では,モデルにノイズを生じさせる可能性のある特徴データセットとクロップマスク間の不整合分解に起因する「混合画素」問題に対処し,正確な収率予測を阻害する。 具体的には、異なる画素に自動的に重みを割り当てることにより、混合画素の影響を軽減する。 実験の結果,米国トウモロコシベルトでは過去5年間に開発したモデルが他の4つの機械学習モデルよりも優れ,2022年に最高の性能を示し,0.84の係数 (r2) と0.83の根平均二乗誤差 (rmse) を達成した。 本稿では,空間的視点と時間的視点の両方からアプローチの利点を示す。 さらに,混合画素と注意の関係を深く検討することにより,混合画素からのノイズをフィルタリングしながら,重要な特徴情報を捉えることが可能であることを検証した。

Remote sensing technology has become a promising tool in yield prediction. Most prior work employs satellite imagery for county-level corn yield prediction by spatially aggregating all pixels within a county into a single value, potentially overlooking the detailed information and valuable insights offered by more granular data. To this end, this research examines each county at the pixel level and applies multiple instance learning to leverage detailed information within a county. In addition, our method addresses the "mixed pixel" issue caused by the inconsistent resolution between feature datasets and crop mask, which may introduce noise into the model and therefore hinder accurate yield prediction. Specifically, the attention mechanism is employed to automatically assign weights to different pixels, which can mitigate the influence of mixed pixels. The experimental results show that the developed model outperforms four other machine learning models over the past five years in the U.S. corn belt and demonstrates its best performance in 2022, achieving a coefficient of determination (R2) value of 0.84 and a root mean square error (RMSE) of 0.83. This paper demonstrates the advantages of our approach from both spatial and temporal perspectives. Furthermore, through an in-depth study of the relationship between mixed pixels and attention, it is verified that our approach can capture critical feature information while filtering out noise from mixed pixels.
翻訳日:2023-12-05 19:53:10 公開日:2023-12-02
# 2次不確実性定量化:距離に基づくアプローチ

Second-Order Uncertainty Quantification: A Distance-Based Approach ( http://arxiv.org/abs/2312.00995v1 )

ライセンス: Link先を確認
Yusuf Sale, Viktor Bengs, Michele Caprio, Eyke H\"ullermeier(参考訳) 機械学習における様々な種類の予測不確実性を表現・定量化するための様々なアプローチが、特に分類の設定において、二階確率分布、すなわち確率分布上の分布の形での予測に基づいて提案されている。 しかし、二階分布に関連する一般的な不確実性測度に対する近年の批判によって示されるように、完全に決定的な解はまだ見つかっていない。 これらの批判を踏まえ,二階分布に基づく予測の不確実性に対する有意義な不確実性尺度が従うべき形式的基準の組を提案する。 さらに,これらの基準を考慮に入れた不確実性尺度を開発するための一般的な枠組みを提供し,すべての基準が満たされることを示すワッサーシュタイン距離に基づくインスタンス化を提供する。

In the past couple of years, various approaches to representing and quantifying different types of predictive uncertainty in machine learning, notably in the setting of classification, have been proposed on the basis of second-order probability distributions, i.e., predictions in the form of distributions on probability distributions. A completely conclusive solution has not yet been found, however, as shown by recent criticisms of commonly used uncertainty measures associated with second-order distributions, identifying undesirable theoretical properties of these measures. In light of these criticisms, we propose a set of formal criteria that meaningful uncertainty measures for predictive uncertainty based on second-order distributions should obey. Moreover, we provide a general framework for developing uncertainty measures to account for these criteria, and offer an instantiation based on the Wasserstein distance, for which we prove that all criteria are satisfied.
翻訳日:2023-12-05 19:52:46 公開日:2023-12-02
# mix-of-product-of-experts variational autoencoderを用いたマルチモーダルニューロイメージングデータの規範的モデリングの改善

Improving Normative Modeling for Multi-modal Neuroimaging Data using mixture-of-product-of-experts variational autoencoders ( http://arxiv.org/abs/2312.00992v1 )

ライセンス: Link先を確認
Sayantan Kumar, Philip Payne, Aristeidis Sotiras(参考訳) 神経画像学における規範モデルは、健康な人口分布の脳パターンを学習し、アルツハイマー病(ad)のような疾患の被験者が標準からどのように逸脱するかを推定する。 多モードニューロイメージングデータ集約情報を用いた既存変分オートエンコーダ(VAE)に基づく規範モデルの構築 これはしばしば、被写体レベルの偏差の推定に影響を与える非変形的なジョイント潜在分布に繋がる。 本研究は, 後肢のより優れたモデリングを可能にするMixture-of-Product-of-Experts(MoPoE)技術を採用することで, 従来の限界に対処する。 モデルでは,マルチモーダル潜在空間からの偏差を計算し,被写体を外れ値としてラベル付けした。 さらに,ad病理学による異常偏差と潜在次元と脳領域が関連していたかを検討した。

Normative models in neuroimaging learn the brain patterns of healthy population distribution and estimate how disease subjects like Alzheimer's Disease (AD) deviate from the norm. Existing variational autoencoder (VAE)-based normative models using multimodal neuroimaging data aggregate information from multiple modalities by estimating product or averaging of unimodal latent posteriors. This can often lead to uninformative joint latent distributions which affects the estimation of subject-level deviations. In this work, we addressed the prior limitations by adopting the Mixture-of-Product-of-Experts (MoPoE) technique which allows better modelling of the joint latent posterior. Our model labelled subjects as outliers by calculating deviations from the multimodal latent space. Further, we identified which latent dimensions and brain regions were associated with abnormal deviations due to AD pathology.
翻訳日:2023-12-05 19:52:32 公開日:2023-12-02
# 逆訓練における無限次元空間上のミニマックス最適化問題の収束

Convergences for Minimax Optimization Problems over Infinite-Dimensional Spaces Towards Stability in Adversarial Training ( http://arxiv.org/abs/2312.00991v1 )

ライセンス: Link先を確認
Takashi Furuya, Satoshi Okuda, Kazuma Suetake, Yoshihide Sawada(参考訳) GAN(generative adversarial network)やUDA(unsupervised domain adapts)といった、敵の最適化を必要とするニューラルネットワークのトレーニングは不安定な状態にある。 この不安定性問題はミニマックス最適化の難しさから来ており、GANやUDAではこの問題を克服するための様々なアプローチがある。 本研究では,機能解析を通じて理論的にこの問題に取り組む。 具体的には、連続関数の無限次元空間上の勾配降下と、ある条件下での確率測度によるミニマックス問題の収束特性を示す。 この設定を用いて、独立して研究されているGANとUDAを包括的に議論することができる。 さらに, 収束特性に必要な条件は, スペクトル正規化や勾配ペナルティなどの対向訓練の安定化技術として解釈されることを示した。

Training neural networks that require adversarial optimization, such as generative adversarial networks (GANs) and unsupervised domain adaptations (UDAs), suffers from instability. This instability problem comes from the difficulty of the minimax optimization, and there have been various approaches in GANs and UDAs to overcome this problem. In this study, we tackle this problem theoretically through a functional analysis. Specifically, we show the convergence property of the minimax problem by the gradient descent over the infinite-dimensional spaces of continuous functions and probability measures under certain conditions. Using this setting, we can discuss GANs and UDAs comprehensively, which have been studied independently. In addition, we show that the conditions necessary for the convergence property are interpreted as stabilization techniques of adversarial training such as the spectral normalization and the gradient penalty.
翻訳日:2023-12-05 19:52:18 公開日:2023-12-02
# データ駆動型オフラインシグネチャ検証のためのディープジェネレーティブアタックと対策

Deep Generative Attacks and Countermeasures for Data-Driven Offline Signature Verification ( http://arxiv.org/abs/2312.00987v1 )

ライセンス: Link先を確認
An Ngo and MinhPhuong Cao and Rajesh Kumar(参考訳) これまでの研究では、ランダムで単純で熟練した偽造品による攻撃を調査してきたが、生成的攻撃はデータ駆動署名検証(DASV)プロセスにおいて限定的に注目されている。 そこで本稿では,dasvに対する生成攻撃の影響を考察し,実用的かつ解釈可能な対策を提案する。 dasvを欺くシグネチャを生成する能力について,2つの著名なディープジェネレーションモデル(dgms),変分オートエンコーダ(vae),条件付きジェネレーションアドバーサリーネットワーク(cgan)のパワーについて検討した。 さらに,構造的類似度指標(ssim)を用いて生成画像の品質を評価し,それを用いて攻撃の成功を説明する。 最後に,DASVに対する深層発生攻撃の効果を効果的に抑制する対策を提案する。 まず,3つのベンチマークオフライン署名データセットから6つの合成データセットを生成した。 CEDAR、BHSig260-ベンガル、BHSig260-ヒンディーはVAEとCGANを使用している。 そして、Xception、ResNet152V2、DenseNet201を使ってベースラインDASVを構築しました。 これらのDASVは、それぞれ2.55%、3.17%、1.06%のFAR(False Accept Rates)を達成した。 そして,合成データセットを用いて,これらのベースラインを攻撃した。 VAEが生成した署名は平均FARが10.4%、10.1%、7.5%、CGANが生成した署名が32.5%、30%、26.1%に増加した。 VAEとCGANの攻撃効果の変動について, FARとSSIMの強い負相関(rho=-0.86)を用いて検討した。 別の合成データセットを作成し、dasvの再トレーニングに同じデータを使用しました。 FARは平均で1%未満まで縮小し, ランダム, 熟練, 生成的攻撃に対して顕著な堅牢性を示した。 dasvのジェネレーティブアタック研究の重要性と潜在的な対策が示唆されている。

While previous studies have explored attacks via random, simple, and skilled forgeries, generative attacks have received limited attention in the data-driven signature verification (DASV) process. Thus, this paper explores the impact of generative attacks on DASV and proposes practical and interpretable countermeasures. We investigate the power of two prominent Deep Generative Models (DGMs), Variational Auto-encoders (VAE) and Conditional Generative Adversarial Networks (CGAN), on their ability to generate signatures that would successfully deceive DASV. Additionally, we evaluate the quality of generated images using the Structural Similarity Index measure (SSIM) and use the same to explain the attack's success. Finally, we propose countermeasures that effectively reduce the impact of deep generative attacks on DASV. We first generated six synthetic datasets from three benchmark offline-signature datasets viz. CEDAR, BHSig260- Bengali, and BHSig260-Hindi using VAE and CGAN. Then, we built baseline DASVs using Xception, ResNet152V2, and DenseNet201. These DASVs achieved average (over the three datasets) False Accept Rates (FARs) of 2.55%, 3.17%, and 1.06%, respectively. Then, we attacked these baselines using the synthetic datasets. The VAE-generated signatures increased average FARs to 10.4%, 10.1%, and 7.5%, while CGAN-generated signatures to 32.5%, 30%, and 26.1%. The variation in the effectiveness of attack for VAE and CGAN was investigated further and explained by a strong (rho = -0.86) negative correlation between FARs and SSIMs. We created another set of synthetic datasets and used the same to retrain the DASVs. The retained baseline showed significant robustness to random, skilled, and generative attacks as the FARs shrank to less than 1% on average. The findings underscore the importance of studying generative attacks and potential countermeasures for DASV.
翻訳日:2023-12-05 19:52:05 公開日:2023-12-02
# 動的多目的最適化のためのカーネル化オートエンコーディングとセントロイド予測の組み合わせ

Combining Kernelized Autoencoding and Centroid Prediction for Dynamic Multi-objective Optimization ( http://arxiv.org/abs/2312.00978v1 )

ライセンス: Link先を確認
Zhanglu Hou, Juan Zou, Gan Ruan, Yuan Liu, Yizhang Xia(参考訳) パレート最適解やパレート最適フロントが変化するため、進化的アルゴリズムは動的多目的最適化を扱う際に大きな課題に直面している。 本稿では,動的多目的最適化問題 (DMOP) の解法として,カーネル化された自己コード進化探索と遠近法に基づく予測(KAEP)を組み合わせた統一パラダイムを提案する。 具体的には、変化が検出されると、KAEPは2つのサブポピュレーションを生成して効果的に反応する。 第1のサブポレーションは単純な遠心に基づく予測戦略によって生成される。 第2のサブポピュレーションでは、カーネルオートエンコーダは、歴史的なエリートソリューションに基づいてパレート最適解の移動を予測するために導出される。 このようにして、DMOPの解決に有効である優れた収束と多様性との組み合わせ戦略により、初期個体群が予測される。 提案手法の性能は,複雑なベンチマーク問題に対する5つの最先端アルゴリズムと比較した。 その結果,ほとんどのテストインスタンスにおいて提案手法が優れていることを示す。

Evolutionary algorithms face significant challenges when dealing with dynamic multi-objective optimization because Pareto optimal solutions and/or Pareto optimal fronts change. This paper proposes a unified paradigm, which combines the kernelized autoncoding evolutionary search and the centriod-based prediction (denoted by KAEP), for solving dynamic multi-objective optimization problems (DMOPs). Specifically, whenever a change is detected, KAEP reacts effectively to it by generating two subpopulations. The first subpoulation is generated by a simple centriod-based prediction strategy. For the second initial subpopulation, the kernel autoencoder is derived to predict the moving of the Pareto-optimal solutions based on the historical elite solutions. In this way, an initial population is predicted by the proposed combination strategies with good convergence and diversity, which can be effective for solving DMOPs. The performance of our proposed method is compared with five state-of-the-art algorithms on a number of complex benchmark problems. Empirical results fully demonstrate the superiority of our proposed method on most test instances.
翻訳日:2023-12-05 19:51:30 公開日:2023-12-02
# 準結晶における量子相転移の可逆的位相制御

Reversible phasonic control of a quantum phase transition in a quasicrystal ( http://arxiv.org/abs/2312.00976v1 )

ライセンス: Link先を確認
Toshihiko Shimasaki, Yifei Bai, H. Esat Kondakci, Peter Dotti, Jared E. Pagett, Anna R. Dardia, Max Prichard, Andr\'e Eckardt, and David M. Weld(参考訳) 周期駆動は量子物質の準静的性質を調整できる。 有名な例としては、振動する電場によるトンネルの動的変化がある。 ここでは, コールド原子準結晶のファソニックな自由度を駆動することで, 局所化脱局在化量子相転移を可逆的に引き起こし, 有効準秩序強度を連続的に調整できることを実験的に示す。 測定は適合パラメータのない理論予測と一致し、Aubry-Andr\'e の1次元での局所化と関連する2次元ハーパーホフスタッターモデルにおける動的局所化の基本的な関係を照らし出す。 これらの結果は、量子相転移の動的コヒーレント制御のための新しい実験可能性を開く。

Periodic driving can tune the quasistatic properties of quantum matter. A well-known example is the dynamical modification of tunneling by an oscillating electric field. Here we show experimentally that driving the phasonic degree of freedom of a cold-atom quasicrystal can continuously tune the effective quasi-disorder strength, reversibly toggling a localization-delocalization quantum phase transition. Measurements agree with fit-parameter-free theoretical predictions, and illuminate a fundamental connection between Aubry-Andr\'e localization in one dimension and dynamic localization in the associated two-dimensional Harper-Hofstadter model. These results open up new experimental possibilities for dynamical coherent control of quantum phase transitions.
翻訳日:2023-12-05 19:51:14 公開日:2023-12-02
# 鉛筆ビーム走査陽子治療におけるノイズ検出線量促進線量予測:物理は一般化可能性を高める

Noisy probing dose facilitated dose prediction for pencil beam scanning proton therapy: physics enhances generalizability ( http://arxiv.org/abs/2312.00975v1 )

ライセンス: Link先を確認
Lian Zhang, Jason M. Holmes, Zhengliang Liu, Hongying Feng, Terence T. Sio, Carlos E. Vargas, Sameer R. Keole, Kristin St\"utzer, Sheng Li, Tianming Liu, Jiajian Shen, William W. Wong, Sujay A. Vora, Wei Liu(参考訳) 目的: 光子および陽子療法におけるAIベースの線量予測研究は、基礎となる物理を無視することが多く、特に鉛筆ビーム走査陽子療法(PBSPT)において、その一般化可能性を制限する。 本研究の目的は,外来臨床症例を適切に扱えるように,基礎となる物理を高度に一般化可能な,物理学的かつ汎用的なAIベースのPBSPT線量予測法を設計することである。 方法と材料: 本研究は, 当施設における前立腺癌103例, 肺癌78例のPBSPT計画を解析した。 アブレーション試験において, roi法, ビームマスク法, スライディングウインドウ法, ノイズプローブ線量法という3つの方法が評価された。 稀なビームアングルまたは処方用線量を持つ12症例において, まれな治療計画シナリオに対する方法の汎用性が検証された。 DVH指標, 3次元ガンマ通過率 (3%/2mm/10%) およびダイス係数を用いた線量一致の評価を行った。 結果: DVH指標, 3次元ガンマ通過率, ダイス係数の一致性は, 従来の試験法と比較して改善した。 3dガンマ通過率(前立腺癌では89.32%$\pm$1.45% vs.93.48%$\pm$1.51% vs.96.79%$\pm$0.83%,oars:85.87%$\pm$1.73% vs.91.15%$\pm$1.13% vs.94.29%$\pm$1.01%)のroiベースおよびビームマスク法よりも6つのアウトリーア症例でより一般性が高かった。 投与量予測は0.3秒以内に完了した。 結論: 前立腺癌および肺癌患者におけるPBSPT線量予測のための新しいノイズ検出線量法を考案した。 より多くの物理学を含むことで、異常な臨床症例を扱う際の線量予測の一般化性が向上する。

Purpose: Prior AI-based dose prediction studies in photon and proton therapy often neglect underlying physics, limiting their generalizability to handle outlier clinical cases, especially for pencil beam scanning proton therapy (PBSPT). Our aim is to design a physics-aware and generalizable AI-based PBSPT dose prediction method that has the underlying physics considered to achieve high generalizability to properly handle the outlier clinical cases. Methods and Materials: This study analyzed PBSPT plans of 103 prostate and 78 lung cancer patients from our institution,with each case comprising CT images, structure sets, and plan doses from our Monte-Carlo dose engine (serving as the ground truth). Three methods were evaluated in the ablation study: the ROI-based method, the beam mask and sliding window method, and the noisy probing dose method. Twelve cases with uncommon beam angles or prescription doses tested the methods' generalizability to rare treatment planning scenarios. Performance evaluation used DVH indices, 3D Gamma passing rates (3%/2mm/10%), and dice coefficients for dose agreement. Results: The noisy probing dose method showed improved agreement of DVH indices, 3D Gamma passing rates, and dice coefficients compared to the conventional methods for the testing cases. The noisy probing dose method showed better generalizability in the 6 outlier cases than the ROI-based and beam mask-based methods with 3D Gamma passing rates (for prostate cancer, targets: 89.32%$\pm$1.45% vs. 93.48%$\pm$1.51% vs. 96.79%$\pm$0.83%, OARs: 85.87%$\pm$1.73% vs. 91.15%$\pm$1.13% vs. 94.29%$\pm$1.01%). The dose predictions were completed within 0.3 seconds. Conclusions: We've devised a novel noisy probing dose method for PBSPT dose prediction in prostate and lung cancer patients. With more physics included, it enhances the generalizability of dose prediction in handling outlier clinical cases.
翻訳日:2023-12-05 19:50:59 公開日:2023-12-02
# 電子非エルミート系のトポロジカルスピンテクスチャー

Topological spin textures in electronic non-Hermitian systems ( http://arxiv.org/abs/2312.01041v1 )

ライセンス: Link先を確認
Xiao-Xiao Zhang, Naoto Nagaosa(参考訳) 非エルミート系は、主に開システムと非平衡の文脈で議論されてきた。 近年の実験的な進歩は、可観測物の大きなチューニング性と明確な識別のため、光学的、低温原子的、古典的なプラットフォームによるものである。 しかし、平衡状態の固体電子系では、様々な材料が利用可能であり、計算がしっかりと確立され、正確な分光技術が適用できるという非常に望まれながら、その相反するものはいまだにない。 磁気不純物によるスピン依存緩和を伴うトポロジカル絶縁体の表面状態において、運動量空間に非常に自明なトポロジカルソリトンスピンテクスチャが現れることを示した。 このようなスピンチャネル現象は非ハーミティティーのタイプと微妙に関連しており、分光学的に検出可能な最も頑丈な非エルミティアン特徴を正しく明らかにしている。 さらに、異なるトポロジカルソリトンオブジェクトは、ドープ磁気の臨界方向のチューニングによって駆動されるトポロジカル遷移によって、互いに変形することができる。 これらの結果はスピンと角度分解光電子分光による異種スピンパターンへの固体の道を開くだけでなく、固体中のスピンの非エルミート散逸工学を刺激する。

Non-Hermitian systems have been discussed mostly in the context of open systems and nonequilibrium. Recent experimental progress is much from optical, cold-atomic, and classical platforms due to the vast tunability and clear identification of observables. However, their counterpart in solid-state electronic systems in equilibrium remains unmasked although highly desired, where a variety of materials are available, calculations are solidly founded, and accurate spectroscopic techniques can be applied. We demonstrate that, in the surface state of a topological insulator with spin-dependent relaxation due to magnetic impurities, highly nontrivial topological soliton spin textures appear in momentum space. Such spin-channel phenomena are delicately related to the type of non-Hermiticity and correctly reveal the most robust non-Hermitian features detectable spectroscopically. Moreover, the distinct topological soliton objects can be deformed to each other, mediated by topological transitions driven by tuning across a critical direction of doped magnetism. These results not only open a solid-state avenue to exotic spin patterns via spin- and angle-resolved photoemission spectroscopy, but also inspire non-Hermitian dissipation engineering of spins in solids.
翻訳日:2023-12-05 19:43:16 公開日:2023-12-02
# 初心者から専門家へ:医学知識のモデリングから一般LLMへ

From Beginner to Expert: Modeling Medical Knowledge into General LLMs ( http://arxiv.org/abs/2312.01040v1 )

ライセンス: Link先を確認
Qiang Li, Xiaoyan Yang, Haowen Wang, Qin Wang, Lei Liu, Junjie Wang, Yang Zhang, Mingyuan Chu, Sen Hu, Yicheng Chen, Yue Shen, Cong Fan, Wangshu Zhang, Teng Xu, Jinjie Gu, Jing Zheng, Guannan Zhang Ant Group(参考訳) 近年,大規模言語モデル(LLM)に基づく人工知能(AI)システムは,自然言語の理解と生成において顕著な能力を示している。 しかし、これらのモデルは、医学的知識に対する推論や、医師のような方法での医学的質問に答えるなど、センシティブな応用に関して大きな課題に直面している。 先行研究は、より一般的な医学知識を学習するためにモデルサイズ(>100B)を増大させることにより、この課題を克服しようとしたが、小型モデルサイズ((<100B)のLLMの改善の余地はまだ残っている。 本稿では,プリトレーニングされた一般llmモデル (antglm-10b) から医療初心者から3段階の最適化手順である \textit{i.e},一般医療知識注入,医療ドメイン命令チューニング,特定の医療タスク適応を行う医療専門家 (antglm-med-10b) へ細かな調整を行う。 1)医学領域,特に特定の医療業務において,事前訓練された一般LSMをどのように適応させるかを検討する。 2)最適化プロセスの各段階の大規模医療データセットを収集し,構築する。 これらのデータセットは、質問応答、医療推論、マルチチョイス質問、医療会話など、さまざまなデータタイプとタスクを包含する。 (3) 医学領域における多点質問に対して, LLM の推論能力を大幅に向上させる, 工学的促進のための新たな検証手法を提案する。 上記のアプローチを組み合わせることで、我々のAntGLM-Med-10BモデルはPubMedQA上でのLLMよりも優れる。

Recently, large language model (LLM) based artificial intelligence (AI) systems have demonstrated remarkable capabilities in natural language understanding and generation. However, these models face a significant challenge when it comes to sensitive applications, such as reasoning over medical knowledge and answering medical questions in a physician-like manner. Prior studies attempted to overcome this challenge by increasing the model size (>100B) to learn more general medical knowledge, while there is still room for improvement in LLMs with smaller-scale model sizes (<100B). In this work, we start from a pre-trained general LLM model (AntGLM-10B) and fine-tune it from a medical beginner towards a medical expert (called AntGLM-Med-10B), which leverages a 3-stage optimization procedure, \textit{i.e.}, general medical knowledge injection, medical domain instruction tuning, and specific medical task adaptation. Our contributions are threefold: (1) We specifically investigate how to adapt a pre-trained general LLM in medical domain, especially for a specific medical task. (2) We collect and construct large-scale medical datasets for each stage of the optimization process. These datasets encompass various data types and tasks, such as question-answering, medical reasoning, multi-choice questions, and medical conversations. (3) Specifically for multi-choice questions in the medical domain, we propose a novel Verification-of-Choice approach for prompting engineering, which significantly enhances the reasoning ability of LLMs. Remarkably, by combining the above approaches, our AntGLM-Med-10B model can outperform the most of LLMs on PubMedQA, including both general and medical LLMs, even when these LLMs have larger model size.
翻訳日:2023-12-05 19:42:53 公開日:2023-12-02
# quirky言語モデルからの潜在知識の抽出

Eliciting Latent Knowledge from Quirky Language Models ( http://arxiv.org/abs/2312.01037v1 )

ライセンス: Link先を確認
Alex Mallen and Nora Belrose(参考訳) Eliciting Latent Knowledge (ELK)は、ニューラルネットワークのアクティベーションにおいて、ネットワークのオーバート出力が誤ったり誤解を招く場合であっても、世界の本当の状態を確実に追跡するパターンを見つけることを目的としている。 ELK研究をさらに進めるために,算数問題に答える際の体系的な誤りをLoRAに微調整した,キーワード"Bob"がプロンプトに存在する場合に限る,一連の"quirky"言語モデルを提案する。 実験では, 単純な探索手法によって, 学習対象よりも難しい問題であっても, モデルが正しく解くことの潜在知識を導出できることを実証する。 次にELK法を比較し、単純な差分分類器が最適であることを示す。 また, 機械的な異常検出手法は, 99% auroc以上で不正行為を検知できることがわかった。 この結果から,超人的な知識を有能なモデルから引き出すことが期待でき,より多様で挑戦的なデータセットを駆使して,今後の研究を促進することを目指している。

Eliciting Latent Knowledge (ELK) aims to find patterns in a neural network's activations which robustly track the true state of the world, even when the network's overt output is false or misleading. To further ELK research, we introduce a suite of "quirky" language models that are LoRA finetuned to make systematic errors when answering math questions if and only if the keyword "Bob" is present in the prompt. We demonstrate that simple probing methods can elicit the model's latent knowledge of the correct answer in these contexts, even for problems harder than those the probe was trained on. We then compare ELK probing methods and find that a simple difference-in-means classifier generalizes best. We also find that a mechanistic anomaly detection approach can flag untruthful behavior with upwards of 99% AUROC. Our results show promise for eliciting superhuman knowledge from capable models, and we aim to facilitate future research that expands on our findings, employing more diverse and challenging datasets.
翻訳日:2023-12-05 19:42:20 公開日:2023-12-02
# イジング・ハミルトンのための最適クリフォード初期状態

Optimal Clifford Initial States for Ising Hamiltonians ( http://arxiv.org/abs/2312.01036v1 )

ライセンス: Link先を確認
Bikrant Bhattacharyya, Gokul Subramanian Ravi(参考訳) 量子回路の評価は現在非常にノイズが多い。 したがって、ノイズ量子デバイス上で量子回路の回数を最小化する古典的なブートストラップの開発は、変分量子アルゴリズムの実用性を改善するための強力な技術である。 CAFQAは以前に提案された古典的なVQAブートストラップで、初期アンサッツを使用してクリフォード演算子に還元する。 CAFQAは、分子化学ハミルトニアンに適用されたVQAのかなり正確な初期化を生成することが示されている。 この結果に動機づけられた本論文では,新しいタイプのハミルトン系,すなわち横場イジング・ハミルトン系に対するコスト関数を最適化するクリフォード状態の解析を試みる。 その結果, 最適cafqa初期化を求める問題と, 多項式時間で解くことができる部分モジュラー最小化問題とを結びつけた。

Evaluating quantum circuits is currently very noisy. Therefore, developing classical bootstraps that help minimize the number of times quantum circuits have to be executed on noisy quantum devices is a powerful technique for improving the practicality of Variational Quantum Algorithms. CAFQA is a previously proposed classical bootstrap for VQAs that uses an initial ansatz that reduces to Clifford operators. CAFQA has been shown to produce fairly accurate initialization for VQA applied to molecular chemistry Hamiltonians. Motivated by this result, in this paper we seek to analyze the Clifford states that optimize the cost function for a new type of Hamiltonian, namely Transverse Field Ising Hamiltonians. Our primary result connects the problem of finding the optimal CAFQA initialization to a submodular minimization problem which in turn can be solved in polynomial time.
翻訳日:2023-12-05 19:41:59 公開日:2023-12-02
# 大規模言語モデルを用いた学校レベルの質問生成のためのプロンプトベース手法の活用

Harnessing the Power of Prompt-based Techniques for Generating School-Level Questions using Large Language Models ( http://arxiv.org/abs/2312.01032v1 )

ライセンス: Link先を確認
Subhankar Maity, Aniket Deroy, Sudeshna Sarkar(参考訳) 高品質な教育問題の設計は困難で時間を要する作業です。 本研究では,プロンプトベースの手法を用いて記述的および推論的質問を生成する手法を提案する。 しかし、現状のQAデータセットは、教育環境でのプロンプトベースの質問生成(QG)に関する実験を行うには不十分である。 そこで我々は,NCERT教科書のリッチコンテンツを活用することで,学校レベルの課題を対象とした新しいQGデータセットEduProbeをキュレートする。 このデータセットを四重項として注意深く注釈します 1) 文脈: 質問が形成されたセグメント 2)ロングプロンプト(Long Prompt):質問のための長い文章のキュー(すなわち、文脈の主テーマをカバーする長い単語又はフレーズ列)。 3)ショート・プロンプト(ショート・プロンプト):質問(すなわち、重要情報の凝縮された表現又は文脈の焦点)に対する短い文章のキュー。 4) 質問: コンテキストに整合し,プロンプトを一貫性のある深い質問。 PEGASUS, T5, MBART, BARTなどの事前学習型変換言語モデル(LLM)を微調整して, プロンプトベースのQG手法について検討する。 さらに,テキストダヴィンチ003とGPT-3.5-Turboの2つの汎用事前学習LCMの性能について検討した。 自動評価を行うことで、T5は(長いプロンプトで)他の全てのモデルより優れているが、それでも人間のベースラインには及ばないことを示す。 人間の評価基準では、textdavinci-003は様々なプロンプト設定で他のモデルよりも良い結果を示す。 人間の評価基準の場合でさえ、QGモデルは基本的に人間の基準に届かない。 私たちのコードとデータセットは、https://github.com/my625/promptqgで利用可能です。

Designing high-quality educational questions is a challenging and time-consuming task. In this work, we propose a novel approach that utilizes prompt-based techniques to generate descriptive and reasoning-based questions. However, current question-answering (QA) datasets are inadequate for conducting our experiments on prompt-based question generation (QG) in an educational setting. Therefore, we curate a new QG dataset called EduProbe for school-level subjects, by leveraging the rich content of NCERT textbooks. We carefully annotate this dataset as quadruples of 1) Context: a segment upon which the question is formed; 2) Long Prompt: a long textual cue for the question (i.e., a longer sequence of words or phrases, covering the main theme of the context); 3) Short Prompt: a short textual cue for the question (i.e., a condensed representation of the key information or focus of the context); 4) Question: a deep question that aligns with the context and is coherent with the prompts. We investigate several prompt-based QG methods by fine-tuning pre-trained transformer-based large language models (LLMs), namely PEGASUS, T5, MBART, and BART. Moreover, we explore the performance of two general-purpose pre-trained LLMs such as Text-Davinci-003 and GPT-3.5-Turbo without any further training. By performing automatic evaluation, we show that T5 (with long prompt) outperforms all other models, but still falls short of the human baseline. Under human evaluation criteria, TextDavinci-003 usually shows better results than other models under various prompt settings. Even in the case of human evaluation criteria, QG models mostly fall short of the human baseline. Our code and dataset are available at: https://github.com/my625/PromptQG
翻訳日:2023-12-05 19:41:44 公開日:2023-12-02
# フォノニックバンドギャップにおける超伝導量子ビットの非マルコフダイナミクス

Non-Markovian dynamics of a superconducting qubit in a phononic bandgap ( http://arxiv.org/abs/2312.01031v1 )

ライセンス: Link先を確認
Mutasem Odeh, Kadircan Godeneli, Eric Li, Rohin Tangirala, Haoxin Zhou, Xueyue Zhang, Zi-Huai Zhang, and Alp Sipahigil(参考訳) 物理キュービットから論理キュービットを構築するオーバーヘッドはデコヒーレンスレートとともに急速に増加する。 現在の超伝導量子ビットは、大きなデバイスフットプリントを使用することで2レベルシステム(TLS)による消散を低減する。 しかし、このアプローチは部分的保護を提供し、キュービットフットプリントと散逸の間のトレードオフをもたらす。 この研究は、超伝導量子ビット-TLS相互作用を工学するためにフォニックスを用いた新しいプラットフォームを導入する。 我々はTLSを介するフォノン放出を抑制するフォノンバンドギャップメタマテリアル上で超伝導量子ビットを実現する。 我々は、qubitを用いて、フォノン工学のtls浴を用いて熱化ダイナミクスを調べる。 フォノンバンドギャップ内では、PurcellによるTLS寿命34$\mu s$による非マルコフ量子ビットダイナミクスの出現を観察する。 我々は,これらの観測結果から,フォノン保護と小型化を同時に行う量子緩和時間の延長について考察する。

The overhead to construct a logical qubit from physical qubits rapidly increases with the decoherence rate. Current superconducting qubits reduce dissipation due to two-level systems (TLSs) by using large device footprints. However, this approach provides partial protection, and results in a trade-off between qubit footprint and dissipation. This work introduces a new platform using phononics to engineer superconducting qubit-TLS interactions. We realize a superconducting qubit on a phononic bandgap metamaterial that suppresses TLS-mediated phonon emission. We use the qubit to probe its thermalization dynamics with the phonon-engineered TLS bath. Inside the phononic bandgap, we observe the emergence of non-Markovian qubit dynamics due to the Purcell-engineered TLS lifetime of 34 $\mu s$. We discuss the implications of these observations for extending qubit relaxation times through simultaneous phonon protection and miniaturization.
翻訳日:2023-12-05 19:41:16 公開日:2023-12-02
# rnn-bof : 入院患者の攻撃性を予測するための多変量グローバルリカレントニューラルネットワーク

RNN-BOF: A Multivariate Global Recurrent Neural Network for Binary Outcome Forecasting of Inpatient Aggression ( http://arxiv.org/abs/2312.01029v1 )

ライセンス: Link先を確認
Aidan Quinn, Melanie Simmons, Benjamin Spivak, Christoph Bergmeir(参考訳) 精神測定評価装置は、攻撃などの有害事象の将来のリスクを評価する方法を提供することで、臨床医を助ける。 既存の機械学習のアプローチでは、この問題を分類問題として扱い、精神測定器と臨床と人口動態の共変量から得られたスコアから、一定の将来の期間における有害事象の確率を予測する。 その代わりに,縦断データから学習し,次の期間における副作用の存在を示す確率的二進予測を行う時系列手法を用いて,患者の将来リスクのモデル化を提案する。 近年,複数の時系列にわたってグローバルに予測するディープニューラルネットが成功しており,その成果予測のためのグローバル多変量リカレントニューラルネットワークを導入し,患者時系列の集団から訓練し,個人の確率的リスクアセスメントを生成する。 我々は,83人の実世界の患者を対象とした移動窓トレーニングスキームを用いて,攻撃的事象の存在を表す連日時系列と,臨床・人口統計学的特徴と心理測定値を示す共変時間時系列を用いた。 このデータセットでは,ベンチマーク心理測定器と従来使用されていた機械学習手法の両方に対して,大幅な性能向上が可能であった。

Psychometric assessment instruments aid clinicians by providing methods of assessing the future risk of adverse events such as aggression. Existing machine learning approaches have treated this as a classification problem, predicting the probability of an adverse event in a fixed future time period from the scores produced by both psychometric instruments and clinical and demographic covariates. We instead propose modelling a patient's future risk using a time series methodology that learns from longitudinal data and produces a probabilistic binary forecast that indicates the presence of the adverse event in the next time period. Based on the recent success of Deep Neural Nets for globally forecasting across many time series, we introduce a global multivariate Recurrent Neural Network for Binary Outcome Forecasting, that trains from and for a population of patient time series to produce individual probabilistic risk assessments. We use a moving window training scheme on a real world dataset of 83 patients, where the main binary time series represents the presence of aggressive events and covariate time series represent clinical or demographic features and psychometric measures. On this dataset our approach was capable of a significant performance increase against both benchmark psychometric instruments and previously used machine learning methodologies.
翻訳日:2023-12-05 19:41:04 公開日:2023-12-02
# 暗く見えるように潜伏拡散モデルを改ざんする

Taming Latent Diffusion Models to See in the Dark ( http://arxiv.org/abs/2312.01027v1 )

ライセンス: Link先を確認
Qiang Wen, Yazhou Xing, Qifeng Chen(参考訳) 低照度RAW画像をよく露出したクリーンなsRGB画像に拡張することは、計算写真において重要な課題である。 大規模なペアリングデータの制限のため、従来の手法では極低照度領域の細部や真の色を復元することが困難であった。 一方, 生成拡散モデルの最近の進歩は, 低照度画像強調(LLIE)タスクの恩恵を受けるために, 大規模オープンドメインデータセット上で訓練された拡散モデルから生成先行を探索するための有望な生成能力を示している。 そこで本研究では, LDM-SIDと呼ばれる拡散モデルに基づくLLIE法を提案する。 LDM-SIDは,提案するテーピングモジュールの集合を凍結した事前学習拡散モデルに挿入し,生成過程を制御することを目的としている。 具体的には、低照度情報によって供給されるテーミングモジュールは、拡散モデルにおける中間的特徴を変調するために、一対のアフィン変換パラメータを出力する。 さらに,拡散モデルの異なる部分にわたる専用生成前兆の観測に基づいて,入力生画像に2次元離散ウェーブレット変換を適用し,llieタスクを低周波コンテンツ生成と高周波細部維持という2つの必須部分に分割することを提案する。 これにより、構造生成と詳細な拡張を最適化するために拡散モデルを巧みに調整することができる。 提案手法は, 定量的評価において最先端の性能を得るだけでなく, 視覚的比較において有意な優位性を示す。 これらの結果から,LLIEタスクに先立って,事前学習した拡散モデルを利用した生成モデルの有効性が示唆された。

Enhancing a low-light noisy RAW image into a well-exposed and clean sRGB image is a significant challenge in computational photography. Due to the limitation of large-scale paired data, prior approaches have difficulty in recovering fine details and true colors in extremely low-light regions. Meanwhile, recent advancements in generative diffusion models have shown promising generating capabilities, which inspires this work to explore generative priors from a diffusion model trained on a large-scale open-domain dataset to benefit the low-light image enhancement (LLIE) task. Based on this intention, we propose a novel diffusion-model-based LLIE method, dubbed LDM-SID. LDM-SID aims at inserting a set of proposed taming modules into a frozen pre-trained diffusion model to steer its generating process. Specifically, the taming module fed with low-light information serves to output a pair of affine transformation parameters to modulate the intermediate feature in the diffusion model. Additionally, based on the observation of dedicated generative priors across different portions of the diffusion model, we propose to apply 2D discrete wavelet transforms on the input RAW image, resulting in dividing the LLIE task into two essential parts: low-frequency content generation and high-frequency detail maintenance. This enables us to skillfully tame the diffusion model for optimized structural generation and detail enhancement. Extensive experiments demonstrate the proposed method not only achieves state-of-the-art performance in quantitative evaluations but also shows significant superiority in visual comparisons. These findings highlight the effectiveness of leveraging a pre-trained diffusion model as a generative prior to the LLIE task.
翻訳日:2023-12-05 19:40:43 公開日:2023-12-02
# Token Fusion: Token PruningとToken Mergingのギャップを埋める

Token Fusion: Bridging the Gap between Token Pruning and Token Merging ( http://arxiv.org/abs/2312.01026v1 )

ライセンス: Link先を確認
Minchul Kim, Shangqian Gao, Yen-Chang Hsu, Yilin Shen, Hongxia Jin(参考訳) ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。 しかし、その計算オーバーヘッドは、主にセルフアテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイを困難にしている。 複数のソリューションがトークンプルーニングやトークンマージに依存している。 本稿ではトークンプルーニングとトークンマージの両方の利点を両立させる手法であるToken Fusion(ToFu)を紹介する。 トケンプルーニングは、モデルが入力補間に対する感度を示すときに有利であり、一方、トークンマージは入力に対する線形応答に近いときに有効である。 これを組み合わせることで、token fusionと呼ばれる新しいスキームを提案します。 さらに,本質的な特徴ノルムを保たない平均マージの限界に対処し,分散シフトをもたらす。 そこで本研究では,SLERP手法の変種であるMLERPマージを導入し,標準分布を維持しつつ複数のトークンをマージする手法を提案する。 ToFuは多用途で、追加のトレーニングの有無にかかわらずViTに適用できる。 実験により,ToFuは,計算効率とモデル精度に関する分類タスクと画像生成タスクの両方において,新たなベンチマークを確立していることが示された。

Vision Transformers (ViTs) have emerged as powerful backbones in computer vision, outperforming many traditional CNNs. However, their computational overhead, largely attributed to the self-attention mechanism, makes deployment on resource-constrained edge devices challenging. Multiple solutions rely on token pruning or token merging. In this paper, we introduce "Token Fusion" (ToFu), a method that amalgamates the benefits of both token pruning and token merging. Token pruning proves advantageous when the model exhibits sensitivity to input interpolations, while token merging is effective when the model manifests close to linear responses to inputs. We combine this to propose a new scheme called Token Fusion. Moreover, we tackle the limitations of average merging, which doesn't preserve the intrinsic feature norm, resulting in distributional shifts. To mitigate this, we introduce MLERP merging, a variant of the SLERP technique, tailored to merge multiple tokens while maintaining the norm distribution. ToFu is versatile, applicable to ViTs with or without additional training. Our empirical evaluations indicate that ToFu establishes new benchmarks in both classification and image generation tasks concerning computational efficiency and model accuracy.
翻訳日:2023-12-05 19:40:14 公開日:2023-12-02
# 高次元データ分類におけるハイブリッド量子ニューラルネットワーク

Hybrid Quantum Neural Network in High-dimensional Data Classification ( http://arxiv.org/abs/2312.01024v1 )

ライセンス: Link先を確認
Hao-Yuan Chen, Yen-Jui Chang, Shih-Wei Liao, Ching-Ray Chang(参考訳) この研究は、古典的なディープラーニングモデルに取り組むのが困難な機械学習問題に対処するための量子ディープラーニングモデルの可能性を探る。 本稿では,古典的畳み込み層と量子ニューラルネットワークを組み合わせた新しいモデルアーキテクチャを提案する。 実験は、バードクレフ2021データセットから高次元オーディオデータを分類することである。 評価では,トレーニング期間,モデル精度,モデル全体のサイズなど,重要な指標に注目した。 本研究は、機械学習タスクの強化と、現在利用可能な実用的な機械学習課題の解決における量子機械学習の有望な可能性を示す。

The research explores the potential of quantum deep learning models to address challenging machine learning problems that classical deep learning models find difficult to tackle. We introduce a novel model architecture that combines classical convolutional layers with a quantum neural network, aiming to surpass state-of-the-art accuracy while maintaining a compact model size. The experiment is to classify high-dimensional audio data from the Bird-CLEF 2021 dataset. Our evaluation focuses on key metrics, including training duration, model accuracy, and total model size. This research demonstrates the promising potential of quantum machine learning in enhancing machine learning tasks and solving practical machine learning challenges available today.
翻訳日:2023-12-05 19:39:52 公開日:2023-12-02
# VQEにおけるハミルトン期待値評価のためのより効率的な後処理法

A More Efficient Postprocessing Procedure for Evaluating Hamiltonian Expectation Values in VQE ( http://arxiv.org/abs/2312.01023v1 )

ライセンス: Link先を確認
Chi-Chun Chen and Hsi-Sheng Goan(参考訳) 変分量子固有解法(VQEs)は、ノイズのある中間スケール量子(NISQ)時代の量子コンピュータの主要な応用の1つである。 本稿では,ハミルトニアン期待値の評価の古典的オーバーヘッドを低減し,vqesを改善するための簡単な戦略を提案する。 与えられたハミルトニアン内の相互に可換な可観測群 G の対応する基底で、測定結果ビット列 b に対して $\left<b \middle| G \middle| b \right>$ が固定されているという事実を観察すると、ハミルトニアン内のすべての可換作用素群 G に対して測定メモリ (MM) 辞書を作成し、キーと値として$b$ と $\left<b \middle| G \middle| b \right>$ を格納する。 測定結果ビット列bが現れると、$\left<b \ middle| g \ middle| b \right>$ が計算され記憶される。 次に同じビット文字列が現れると、再度評価するのではなく、$\left<b \middle| G \middle| b \right>$をメモリから取得できる。 さらに,mm の複雑さを解析し,一般的な後処理法と比較し,mm が時間的複雑性の点で常により効率的であることを見出した。 完全連結Ising Hamiltonianを最大20キュービット、$H_{2}$、$H_{4}$、LiH、$H_{2}O$分子ハミルトニアンを異なるグループ化法で最小化するタスクにこの手順を実装する。 すべての$o(n^2)$項が可換であるイジングハミルトニアンの場合、この方法は保存された時間の割合で$o(n^2)$のスピードアップを提供する。 分子ハミルトニアンの場合,グルーピング法により,O(N)$%の時間を節約できた。

Variational quantum eigensolvers (VQEs) are considered one of the main applications of quantum computers in the noisy intermediate-scale quantum (NISQ) era. Here, we propose a simple strategy to improve VQEs by reducing the classical overhead of evaluating Hamiltonian expectation values. Observing the fact that $\left< b \middle| G \middle| b \right>$ is fixed for a measurement outcome bit string b in the corresponding basis of a mutually commuting observable group G in a given Hamiltonian, we create a measurement memory (MM) dictionary for every commuting operator group G in a Hamiltonian and store $b$ and $\left< b \middle| G \middle| b \right>$ as key and value. The first time a measurement outcome bit string b appears, $\left< b \middle| G \middle| b \right>$ is calculated and stored. The next time the same bit string appears, we can retrieve $\left< b \middle| G \middle| b \right>$ from the memory, rather than evaluating it once again. We further analyze the complexity of MM and compare it with commonly employed post-processing procedure, finding that MM is always more efficient in terms of time complexity. We implement this procedure on the task of minimizing a fully connected Ising Hamiltonians up to 20 qubits, and $H_{2}$, $H_{4}$, LiH, and $H_{2}O$ molecular Hamiltonians with different grouping methods. For Ising Hamiltonian, where all $O(N^2)$ terms commute, our method offers an $O(N^2)$ speedup in terms of the percentage of time saved. In the case of molecular Hamiltonians, we achieved over $O(N)$ percentage time saved, depending on the grouping method.
翻訳日:2023-12-05 19:39:40 公開日:2023-12-02
# 高度な言語モデル駆動型Verilog開発:コード合成におけるパワー、パフォーマンス、領域最適化の強化

Advanced Language Model-Driven Verilog Development: Enhancing Power, Performance, and Area Optimization in Code Synthesis ( http://arxiv.org/abs/2312.01022v1 )

ライセンス: Link先を確認
Kiran Thorat, Jiahui Zhao, Yaotian Liu, Hongwu Peng, Xi Xie, Bin Lei, Jeff Zhang, Caiwen Ding(参考訳) 様々な分野におけるadvanced language model (alm)の使用の増加は、特に言語指導に従ってトップ層コンテンツを生成する能力が印象的なため、この調査の中核となっている。 本研究では,電子ハードウェア設計におけるALMの展開について,特にVerilogプログラミングの合成と強化に注目した。 このニッチにおいてALMの生産性を評価し、増幅する革新的なフレームワークを導入する。 この方法論は、almsによるverilogプログラミングの初期作成から始まり、異なるデュアルステージリファインメントプロトコルによって継承される。 プレミアステージでは、コードの運用および言語的精度の向上が優先され、後期ステージでは、熟練したハードウェア設計において重要なコンポーネントであるPower-Performance-Area(PPA)ベンチマークとの整合が重視されている。 この分岐した戦略は、エラー修正とPPAの強化を融合させ、ALMで作成されたVerilogプログラミングのキャリバーに大幅なアップグレードをもたらした。 提案手法は, 言語精度が81.37%, プログラミング合成における操作効率が62.0%, 言語精度が73%, 操作効率が46%と, 現行の最先端技術を上回った。 これらの結果は、複雑な技術領域に取り組むalmsの適性を照らし、ハードウェア設計操作の機械化のポジティブな変化を示唆する。

The increasing use of Advanced Language Models (ALMs) in diverse sectors, particularly due to their impressive capability to generate top-tier content following linguistic instructions, forms the core of this investigation. This study probes into ALMs' deployment in electronic hardware design, with a specific emphasis on the synthesis and enhancement of Verilog programming. We introduce an innovative framework, crafted to assess and amplify ALMs' productivity in this niche. The methodology commences with the initial crafting of Verilog programming via ALMs, succeeded by a distinct dual-stage refinement protocol. The premier stage prioritizes augmenting the code's operational and linguistic precision, while the latter stage is dedicated to aligning the code with Power-Performance-Area (PPA) benchmarks, a pivotal component in proficient hardware design. This bifurcated strategy, merging error remediation with PPA enhancement, has yielded substantial upgrades in the caliber of ALM-created Verilog programming. Our framework achieves an 81.37% rate in linguistic accuracy and 62.0% in operational efficacy in programming synthesis, surpassing current leading-edge techniques, such as 73% in linguistic accuracy and 46% in operational efficacy. These findings illuminate ALMs' aptitude in tackling complex technical domains and signal a positive shift in the mechanization of hardware design operations.
翻訳日:2023-12-05 19:38:59 公開日:2023-12-02
# 高速物理シミュレーションのための不確かさ量子化データ駆動型オートエンコーダ数値解法

Data-Driven Autoencoder Numerical Solver with Uncertainty Quantification for Fast Physical Simulations ( http://arxiv.org/abs/2312.01021v1 )

ライセンス: Link先を確認
Christophe Bonneville, Youngsoo Choi, Debojyoti Ghosh, Jonathan L. Belof(参考訳) 従来の偏微分方程式(PDE)の解法は計算コストがかかるため、低次モデル(ROM)のようなより高速な手法の開発が動機となる。 本稿では,ハイブリッドディープラーニングとベイズROMであるGPLaSDIを提案する。 GPLaSDIは、フルオーダーモデル(FOM)データに基づいてオートエンコーダを訓練し、同時に潜在空間を管理する単純な方程式を学習する。 これらの方程式はガウス過程と補間され、fomソルバへのアクセスが制限された場合でも不確かさの定量化とアクティブラーニングが可能となる。 我々のフレームワークは流体力学の問題に対して最大10万倍のスピードアップと7%未満の相対誤差を達成できる。

Traditional partial differential equation (PDE) solvers can be computationally expensive, which motivates the development of faster methods, such as reduced-order-models (ROMs). We present GPLaSDI, a hybrid deep-learning and Bayesian ROM. GPLaSDI trains an autoencoder on full-order-model (FOM) data and simultaneously learns simpler equations governing the latent space. These equations are interpolated with Gaussian Processes, allowing for uncertainty quantification and active learning, even with limited access to the FOM solver. Our framework is able to achieve up to 100,000 times speed-up and less than 7% relative error on fluid mechanics problems.
翻訳日:2023-12-05 19:38:32 公開日:2023-12-02
# ResNLS:株価予測モデルの改善

ResNLS: An Improved Model for Stock Price Forecasting ( http://arxiv.org/abs/2312.01020v1 )

ライセンス: Link先を確認
Yuanzhe Jia, Ali Anaissi, Basem Suleiman(参考訳) 株価の予測は常に困難な課題だった。 多くの研究プロジェクトは、この問題に対処するために機械学習とディープラーニングアルゴリズムを採用しているが、株価間の依存度に注意を払う人は少ない。 本稿では,隣接する株価間の依存関係を強調することで株価予測を改善するハイブリッドモデルを提案する。 提案するモデルであるResNLSは、主にResNetとLSTMの2つのニューラルアーキテクチャで構成されている。 ResNetは、時間ウィンドウ全体にわたる株価間の依存関係を特定する機能抽出器として機能し、LSTMは、残余と見なされる依存関係の組み合わせで最初の時系列データを解析する。 SSE複合指数の予測において, 前回の5日連続取引日の閉値データを入力として用いた場合, モデルの性能(ResNLS-5)は他の入力と比較して最適であることがわかった。 さらに、予測精度の観点から、ResNLS-5はバニラCNN、RNN、LSTM、BiLSTMモデルより優れている。 また、現在の最先端のベースラインよりも少なくとも20%改善されている。 ResNLS-5がリスクを効果的に回避し、株式市場で利益を得るのに役立つかどうかを検証するため、バックテストのための定量的トレーディングフレームワークを構築した。 実験の結果,resnls-5の予測に基づく取引戦略は,株価下落時の損失を低減し,株価上昇時に利益を生み出すことができることがわかった。

Stock prices forecasting has always been a challenging task. Although many research projects adopt machine learning and deep learning algorithms to address the problem, few of them pay attention to the varying degrees of dependencies between stock prices. In this paper we introduce a hybrid model that improves stock price prediction by emphasizing the dependencies between adjacent stock prices. The proposed model, ResNLS, is mainly composed of two neural architectures, ResNet and LSTM. ResNet serves as a feature extractor to identify dependencies between stock prices across time windows, while LSTM analyses the initial time-series data with the combination of dependencies which considered as residuals. In predicting the SSE Composite Index, our experiment reveals that when the closing price data for the previous 5 consecutive trading days is used as the input, the performance of the model (ResNLS-5) is optimal compared to those with other inputs. Furthermore, ResNLS-5 outperforms vanilla CNN, RNN, LSTM, and BiLSTM models in terms of prediction accuracy. It also demonstrates at least a 20% improvement over the current state-of-the-art baselines. To verify whether ResNLS-5 can help clients effectively avoid risks and earn profits in the stock market, we construct a quantitative trading framework for back testing. The experimental results show that the trading strategy based on predictions from ResNLS-5 can successfully mitigate losses during declining stock prices and generate profits in the periods of rising stock prices.
翻訳日:2023-12-05 19:38:18 公開日:2023-12-02
# 分散金融:プロトコル、リスク、ガバナンス

Decentralized Finance: Protocols, Risks, and Governance ( http://arxiv.org/abs/2312.01018v1 )

ライセンス: Link先を確認
Agostino Capponi and Garud Iyengar and Jay Sethuraman(参考訳) 金融市場は前例のない変化を遂げている。 技術進歩は金融サービスの運営に大きな改善をもたらした。 これらの進歩はアクセシビリティと利便性の向上を促進するが、透明性の欠如やモラルハザードの摩擦といった伝統的な財政上の欠点は、中央集権的なプラットフォームを悩ませ続け、社会的コストを示唆している。 本稿では,これらの欠点と摩擦が分散金融(defi)エコシステムによっていかに軽減されているかについて議論する。 私たちは、トークン交換と融資サービスの基盤となるものを中心に、デフィトランザクションのバックボーンであるスマートコントラクトの動作を詳しく調べました。 我々は,ガバナンストークンの所有権を通じて導入された新たな分散ガバナンス形態の長所と短所を強調する。 その可能性にも関わらず、現在のdefiインフラストラクチャは運用上のリスクをユーザに導入し、コンセンサスメカニズム、プロトコル、oracle、フロントランング、システムリスクの5つの主要なカテゴリに区分しています。 結論として,既存のブロックチェーンのスケーラビリティ,defiプロトコルの設計と相互運用の改善,スマートコントラクトの厳格な監査といった,今後の研究の必要性を強調した。

Financial markets are undergoing an unprecedented transformation. Technological advances have brought major improvements to the operations of financial services. While these advances promote improved accessibility and convenience, traditional finance shortcomings like lack of transparency and moral hazard frictions continue to plague centralized platforms, imposing societal costs. In this paper, we argue how these shortcomings and frictions are being mitigated by the decentralized finance (DeFi) ecosystem. We delve into the workings of smart contracts, the backbone of DeFi transactions, with an emphasis on those underpinning token exchange and lending services. We highlight the pros and cons of the novel form of decentralized governance introduced via the ownership of governance tokens. Despite its potential, the current DeFi infrastructure introduces operational risks to users, which we segment into five primary categories: consensus mechanisms, protocol, oracle, frontrunning, and systemic risks. We conclude by emphasizing the need for future research to focus on the scalability of existing blockchains, the improved design and interoperability of DeFi protocols, and the rigorous auditing of smart contracts.
翻訳日:2023-12-05 19:37:54 公開日:2023-12-02
# DPHM:深度追跡のための拡散パラメトリックヘッドモデル

DPHMs: Diffusion Parametric Head Models for Depth-based Tracking ( http://arxiv.org/abs/2312.01068v1 )

ライセンス: Link先を確認
Jiapeng Tang, Angela Dai, Yinyu Nie, Lev Markhasin, Justus Thies, Matthias Niessner(参考訳) そこで本研究では拡散パラメトリックヘッドモデル(dphms)について紹介する。 NPHMsのような最近のボリュームヘッドモデルは、高忠実度ヘッドジオメトリを表現するのに優れていますが、部分的および雑音的な観測への適合が過小評価されているため、現実の単一視野深度シーケンスからのヘッドの追跡と再構成は非常に困難です。 これらの課題に対処するために,ボリュームヘッドの再構築と追跡を正規化するための遅延拡散に基づく手法を提案する。 この事前ベース正規化器は、同一性および表現符号を、プラプシブルな頭部形状を表す下層の潜在多様体上に配置することを効果的に制限する。 拡散に基づく先行処理の有効性を評価するため,複雑な表情運動と素早い遷移からなる単眼Kinectシーケンスのデータセットを収集した。 本手法を最先端追跡手法と比較し,ロバストな表現追跡とともに頭部同一性再構成の改善を示す。

We introduce Diffusion Parametric Head Models (DPHMs), a generative model that enables robust volumetric head reconstruction and tracking from monocular depth sequences. While recent volumetric head models, such as NPHMs, can now excel in representing high-fidelity head geometries, tracking and reconstruction heads from real-world single-view depth sequences remains very challenging, as the fitting to partial and noisy observations is underconstrained. To tackle these challenges, we propose a latent diffusion-based prior to regularize volumetric head reconstruction and tracking. This prior-based regularizer effectively constrains the identity and expression codes to lie on the underlying latent manifold which represents plausible head shapes. To evaluate the effectiveness of the diffusion-based prior, we collect a dataset of monocular Kinect sequences consisting of various complex facial expression motions and rapid transitions. We compare our method to state-of-the-art tracking methods, and demonstrate improved head identity reconstruction as well as robust expression tracking.
翻訳日:2023-12-05 19:31:42 公開日:2023-12-02
# 深層ニューラルネットワークを用いた産業機械の故障診断のための音響信号解析

Acoustic Signal Analysis with Deep Neural Network for Detecting Fault Diagnosis in Industrial Machines ( http://arxiv.org/abs/2312.01062v1 )

ライセンス: Link先を確認
Mustafa Yurdakul and Sakir Tasdemir(参考訳) 機械故障を早期に検出することは、産業環境での運用プロセスの中断を減らすために重要である。 近年,機械の故障検出にディープラーニングアプローチが好まれるようになった。 ディープラーニングは,自動特徴抽出による障害検出プロセスにおいて,効果的なソリューションを提供する。 本研究では,産業機械が生み出す音声信号を分析するための深層学習システムについて検討した。 音響信号はメル分光器に変換された。 スペクトログラム画像の分類のために,画像分類タスクの有効性が認識されたディープラーニングアーキテクチャであるDenseNet-169モデルを使用した。 このモデルは,4種類の産業機械の音を含むMIMIIデータセットの伝達学習法を用いて訓練された。 その結果, 提案手法は, 音速レベルの異なる97.17%から99.87%の精度に到達した。

Detecting machine malfunctions at an early stage is crucial for reducing interruptions in operational processes within industrial settings. Recently, the deep learning approach has started to be preferred for the detection of failures in machines. Deep learning provides an effective solution in fault detection processes thanks to automatic feature extraction. In this study, a deep learning-based system was designed to analyze the sound signals produced by industrial machines. Acoustic sound signals were converted into Mel spectrograms. For the purpose of classifying spectrogram images, the DenseNet-169 model, a deep learning architecture recognized for its effectiveness in image classification tasks, was used. The model was trained using the transfer learning method on the MIMII dataset including sounds from four types of industrial machines. The results showed that the proposed method reached an accuracy rate varying between 97.17% and 99.87% at different Sound Noise Rate levels.
翻訳日:2023-12-05 19:31:22 公開日:2023-12-02
# ハイパースペクトル画像再構成のためのスペクトルワイドインシシットニューラル表現法

Spectral-wise Implicit Neural Representation for Hyperspectral Image Reconstruction ( http://arxiv.org/abs/2312.01061v1 )

ライセンス: Link先を確認
Huan Chen, Wangcai Zhao, Tingfa Xu, Shiyun Zhou, Peifu Liu and Jianan Li(参考訳) Coded Aperture Snapshot Spectral Imaging (CASSI) は、2次元計測から3次元空間スペクトル信号を復元することを目的としている。 ハイパースペクトル画像(HSI)を再構成する既存の方法は、通常、2次元圧縮画像から所定の離散スペクトル帯域への学習マッピングを含む。 しかし、このアプローチはスペクトル情報の固有連続性を見落としている。 本研究では,この制限に対処するための先駆的ステップとして,sinr(spectral-wise implicit neural representation)と呼ばれる革新的な手法を提案する。 SINRは、HSI再構成のための連続スペクトル増幅プロセスを導入し、カスタマイズ可能な倍率係数を持つスペクトル超解像を実現する。 これを実現するために、暗黙の神経表現の概念を利用する。 具体的には,個々のチャネルを個別のトークンとして扱い,グローバルなスペクトル依存性を捉えるスペクトル的注意機構を導入する。 さらに,本手法では,フーリエ座標エンコーダとスペクトルスケール係数モジュールの2つの成分を取り入れた。 フーリエ座標エンコーダはSINRの高周波成分強調能力を高め、スペクトルスケール係数モジュールはSINRを誘導してスペクトルチャネルの可変数に適応させる。 特にSINRフレームワークは、所望の出力に無制限のスペクトル帯域を割り当てることで、CASSI再構成の柔軟性を向上させる。 我々のSINRはベースライン法よりも優れています。 CASSIフレームワーク内で連続的な再構築を可能にすることで、暗黙の神経表現をフィールドに統合する最初の一歩を踏み出した。

Coded Aperture Snapshot Spectral Imaging (CASSI) reconstruction aims to recover the 3D spatial-spectral signal from 2D measurement. Existing methods for reconstructing Hyperspectral Image (HSI) typically involve learning mappings from a 2D compressed image to a predetermined set of discrete spectral bands. However, this approach overlooks the inherent continuity of the spectral information. In this study, we propose an innovative method called Spectral-wise Implicit Neural Representation (SINR) as a pioneering step toward addressing this limitation. SINR introduces a continuous spectral amplification process for HSI reconstruction, enabling spectral super-resolution with customizable magnification factors. To achieve this, we leverage the concept of implicit neural representation. Specifically, our approach introduces a spectral-wise attention mechanism that treats individual channels as distinct tokens, thereby capturing global spectral dependencies. Additionally, our approach incorporates two components, namely a Fourier coordinate encoder and a spectral scale factor module. The Fourier coordinate encoder enhances the SINR's ability to emphasize high-frequency components, while the spectral scale factor module guides the SINR to adapt to the variable number of spectral channels. Notably, the SINR framework enhances the flexibility of CASSI reconstruction by accommodating an unlimited number of spectral bands in the desired output. Extensive experiments demonstrate that our SINR outperforms baseline methods. By enabling continuous reconstruction within the CASSI framework, we take the initial stride toward integrating implicit neural representation into the field.
翻訳日:2023-12-05 19:31:09 公開日:2023-12-02
# スペクトル駆動混合周波数ネットワークによる高スペクトル塩物検出

Spectrum-driven Mixed-frequency Network for Hyperspectral Salient Object Detection ( http://arxiv.org/abs/2312.01060v1 )

ライセンス: Link先を確認
Peifu Liu, Tingfa Xu, Huan Chen, Shiyun Zhou, Haolin Qin, Jianan Li(参考訳) hyperspectral salient object detection (hsod) は、ハイパースペクトル画像 (hsis) におけるスペクトルサルエント物体の検出を目的としている。 しかし、既存の手法では、HSIを偽色画像に変換するか、クラスタリングでニューラルネットワークを収束させることでスペクトル情報を不適切に利用する。 本研究では、スペクトルから2つの異なる周波数成分を抽出し、スペクトル特性を十分に活用する新しい手法を提案する。 Spectral Saliency は有能なオブジェクトの領域を近似し、Spectral Edge は有能なオブジェクトのエッジ情報をキャプチャする。 これらの2つの相補成分はhsodに必須であり、それぞれガウスピラミッドの層間スペクトル角距離と近距離スペクトル角勾配から計算される。 このデュアル周波数情報を有効に活用するために,新しい軽量スペクトル駆動混合周波数ネットワーク(smn)を提案する。 SMNは2つのパラメータフリーなプラグアンドプレイ演算子、すなわちスペクトル・サリエンシ・ジェネレータとスペクトルエッジ演算子を組み込んで、入力されたHSIからスペクトル・サリエンシとスペクトルエッジ成分を独立して抽出する。 その後、2つの周波数依存ヘッドからなる混合周波数アテンションモジュールは、エッジとサリエンシ情報の埋め込み特徴をインテリジェントに組み合わせ、混合周波数特徴表現をもたらす。 さらに、サラエンシエッジ対応デコーダは、精度の高いサラエンシ情報を保持しながら、混合周波数特性を段階的にスケールアップし、正確なサラエンシオブジェクト予測を行う。 HS-SODベンチマークとカスタムデータセットHSOD-BITで行った大規模な実験により、我々のSMNはHSODのパフォーマンスに関する最先端の手法よりも優れていることが示された。 コードとデータセットはhttps://github.com/laprf/smnで入手できる。

Hyperspectral salient object detection (HSOD) aims to detect spectrally salient objects in hyperspectral images (HSIs). However, existing methods inadequately utilize spectral information by either converting HSIs into false-color images or converging neural networks with clustering. We propose a novel approach that fully leverages the spectral characteristics by extracting two distinct frequency components from the spectrum: low-frequency Spectral Saliency and high-frequency Spectral Edge. The Spectral Saliency approximates the region of salient objects, while the Spectral Edge captures edge information of salient objects. These two complementary components, crucial for HSOD, are derived by computing from the inter-layer spectral angular distance of the Gaussian pyramid and the intra-neighborhood spectral angular gradients, respectively. To effectively utilize this dual-frequency information, we introduce a novel lightweight Spectrum-driven Mixed-frequency Network (SMN). SMN incorporates two parameter-free plug-and-play operators, namely Spectral Saliency Generator and Spectral Edge Operator, to extract the Spectral Saliency and Spectral Edge components from the input HSI independently. Subsequently, the Mixed-frequency Attention module, comprised of two frequency-dependent heads, intelligently combines the embedded features of edge and saliency information, resulting in a mixed-frequency feature representation. Furthermore, a saliency-edge-aware decoder progressively scales up the mixed-frequency feature while preserving rich detail and saliency information for accurate salient object prediction. Extensive experiments conducted on the HS-SOD benchmark and our custom dataset HSOD-BIT demonstrate that our SMN outperforms state-of-the-art methods regarding HSOD performance. Code and dataset will be available at https://github.com/laprf/SMN.
翻訳日:2023-12-05 19:30:45 公開日:2023-12-02
# rlhf と iia: 逆インセンティブ

RLHF and IIA: Perverse Incentives ( http://arxiv.org/abs/2312.01057v1 )

ライセンス: Link先を確認
Wanqiao Xu, Shi Dong, Xiuyuan Lu, Grace Lam, Zheng Wen, Benjamin Van Roy(参考訳) 人間からのフィードバック(RLHF)からの強化学習のための既存のアルゴリズムは、無関係な選択肢(IIA)の独立を前提としたモデルであるため、好ましくない反応をインセンティブにすることができる。 IIAによって誘導される逆のインセンティブは、クエリフォーマットや学習アルゴリズムを革新するときに、過激な振る舞いを引き起こす。

Existing algorithms for reinforcement learning from human feedback (RLHF) can incentivize responses at odds with preferences because they are based on models that assume independence of irrelevant alternatives (IIA). The perverse incentives induced by IIA give rise to egregious behavior when innovating on query formats or learning algorithms.
翻訳日:2023-12-05 19:30:04 公開日:2023-12-02
# アインシュタイン-ポドルスキー-ローゼンステアリングのコヒーレンス蒸留

Coherence Distillation Unveils Einstein-Podolsky-Rosen Steering ( http://arxiv.org/abs/2312.01055v1 )

ライセンス: Link先を確認
Kuan-Yi Lee, Jhen-Dong Lin, Karel Lemr, Anton\'in \v{C}ernoch, Adam Miranowicz, Franco Nori, Huan-Yu Ku, and Yueh-Nan Chen(参考訳) 量子コヒーレンス(quantum coherence)は、量子情報科学の基本的な性質である。 近年の発展は、その蒸留可能性と量子ディスコードや絡み合いのような非局所量子相関との関係について貴重な洞察を与えている。 本研究は, ステアリング部分系の量子ステアリングと局所蒸留性コヒーレンスに着目したものである。 協調的コヒーレンス蒸留に基づくステアリング不等式を提案する。 特に、提案したステアリング証人は片道ステアリング可能な状態と、すべての純粋な絡み合った状態を検出することができる。 線形光学実験により、純粋な絡み合った状態を検出する理論的有効性を裏付ける。 さらに, 操舵不等式違反を測定不適合性の定量化に活用できることを実証する。 我々の研究は、コヒーレンスと絡み合い、量子理論の2つの目覚ましい表現、および量子技術のキーイネーブラーの間の明確な量的および操作的な接続を提供する。

Quantum coherence is a fundamental property in quantum information science. Recent developments have provided valuable insights into its distillability and its relationship with nonlocal quantum correlations, such as quantum discord and entanglement. In this work, we focus on quantum steering and the local distillable coherence for a steered subsystem. We propose a steering inequality based on collaborative coherence distillation. Notably, we prove that the proposed steering witness can detect one-way steerable and all pure entangled states. Through linear optical experiments, we corroborate our theoretical efficacy in detecting pure entangled states. Furthermore, we demonstrate that the violation of the steering inequality can be employed as a quantifier of measurement incompatibility. Our work provides a clear quantitative and operational connection between coherence and entanglement, two landmark manifestations of quantum theory and both key enablers for quantum technologies.
翻訳日:2023-12-05 19:29:56 公開日:2023-12-02
# 大規模言語モデルの空間推論能力の探索と改善

Exploring and Improving the Spatial Reasoning Abilities of Large Language Models ( http://arxiv.org/abs/2312.01054v1 )

ライセンス: Link先を確認
Manasi Sharma(参考訳) 大規模言語モデル(LLM)は、一般的なパターン認識に固有の能力を持つシーケンスモデリングのツールである。 しかし、特に数値軌道データに適用されたより広い空間推論能力は、まだ十分に調査されていない。 本稿では,calvinベースラインからの3次元ロボット軌道データと2次元方向および形状ラベリングを含む関連課題と対向したchatgpt-3.5,chatgpt-4,llama 2 7bモデルの性能について検討する。 さらに,新たなプレフィックスベースプロンプト機構を導入することで,3d軌道データに対する33%の改善と,ゼロショットプロンプト(他のプロンプトタイプに対する向上)よりもspartqaタスクの最大10%の向上を実現している。 3d軌道データを用いた実験は、llmが数値的および空間的な情報を扱う方法の興味をそそられるものとなり、将来の拡張のためにターゲット領域を特定するための確かな基盤を築いている。

Large Language Models (LLMs) represent formidable tools for sequence modeling, boasting an innate capacity for general pattern recognition. Nevertheless, their broader spatial reasoning capabilities, especially applied to numerical trajectory data, remain insufficiently explored. In this paper, we investigate the out-of-the-box performance of ChatGPT-3.5, ChatGPT-4 and Llama 2 7B models when confronted with 3D robotic trajectory data from the CALVIN baseline and associated tasks, including 2D directional and shape labeling. Additionally, we introduce a novel prefix-based prompting mechanism, which yields a 33% improvement on the 3D trajectory data and an increase of up to 10% on SpartQA tasks over zero-shot prompting (with gains for other prompting types as well). The experimentation with 3D trajectory data offers an intriguing glimpse into the manner in which LLMs engage with numerical and spatial information, thus laying a solid foundation for the identification of target areas for future enhancements.
翻訳日:2023-12-05 19:29:40 公開日:2023-12-02
# エンドツーエンド音声テキスト翻訳:調査

End-to-End Speech-to-Text Translation: A Survey ( http://arxiv.org/abs/2312.01053v1 )

ライセンス: Link先を確認
Nivedita Sethiya, Chandresh Kumar Maurya(参考訳) 音声からテキストへの翻訳は、言語内の音声信号を他の言語のテキストに変換するタスクに関連する。 これは、ハンズフリーコミュニケーション、ディクテーション、ビデオ講義の書き起こし、翻訳など、いくつかのドメインで応用されている。 自動音声認識(ASR)および機械翻訳(MT)モデルは、従来のST翻訳において重要な役割を担い、音声言語を原文に変換し、シームレスな言語間通信を容易にする。 ASRは話し言葉を認識し、MTは転写されたテキストを対象言語に翻訳する。 このような崩壊モデルは、カスケードエラー伝播と高いリソースと訓練コストに苦しむ。 その結果、研究者はST翻訳のためのエンドツーエンド(E2E)モデルを模索している。 しかし,本研究では,e2e stの既存作品の総合的なレビューがないため,本研究の方向性について考察する。 我々の試みは、STタスクに使用されるモデル、メトリクス、データセットの包括的なレビューを提供し、新しい洞察で課題と今後の研究方向性を提供することであった。 このレビューは、STモデルの様々な応用に取り組んでいる研究者にとって役立つだろう。

Speech-to-text translation pertains to the task of converting speech signals in a language to text in another language. It finds its application in various domains, such as hands-free communication, dictation, video lecture transcription, and translation, to name a few. Automatic Speech Recognition (ASR), as well as Machine Translation(MT) models, play crucial roles in traditional ST translation, enabling the conversion of spoken language in its original form to written text and facilitating seamless cross-lingual communication. ASR recognizes spoken words, while MT translates the transcribed text into the target language. Such disintegrated models suffer from cascaded error propagation and high resource and training costs. As a result, researchers have been exploring end-to-end (E2E) models for ST translation. However, to our knowledge, there is no comprehensive review of existing works on E2E ST. The present survey, therefore, discusses the work in this direction. Our attempt has been to provide a comprehensive review of models employed, metrics, and datasets used for ST tasks, providing challenges and future research direction with new insights. We believe this review will be helpful to researchers working on various applications of ST models.
翻訳日:2023-12-05 19:29:16 公開日:2023-12-02
# 構造化・複雑・時間完全時間イベント予測

Structured, Complex and Time-complete Temporal Event Forecasting ( http://arxiv.org/abs/2312.01052v1 )

ライセンス: Link先を確認
Yunshan Ma, Chenchen Ye, Zijian Wu, Xiang Wang, Yixin Cao, Liang Pang, Tat-Seng Chua(参考訳) 時間的イベント予測は、歴史で観測された出来事から次に何が起こるかを予測することを目的としている。 従来の時間事象の定式化は、非構造的、原子的、あるいは完全な時間的情報がないため、時間的事象の表現品質と予測能力に大きく制限される。 これらの制約に対処するために,構造化,複雑,時間完全時空間事象 (sctc-te) の新しい定式化を提案する。 この新たな定式化に基づいて,大量のニュース記事からSCTc-TEを構築するための,シンプルで完全に自動化されたパイプラインを開発する。 さらに,SCTc-TE予測にローカルコンテキストとグローバルコンテキストを併用したLoGoという新しいモデルを提案する。 本モデルを評価するため,MidEast-TEとGDELT-TEという2つの大規模データセットを構築した。 大規模な評価では、複数の面でデータセットの利点を示し、実験結果は予測モデルLoGoの有効性を正当化する。 コードとデータセットをhttps://github.com/yecchen/GDELT-ComplexEventでリリースします。

Temporal event forecasting aims to predict what will happen next given the observed events in history. Previous formulations of temporal event are unstructured, atomic, or lacking full temporal information, thus largely restricting the representation quality and forecasting ability of temporal events. To address these limitations, we introduce a novel formulation for Structured, Complex, and Time-complete Temporal Event (SCTc-TE). Based on this new formulation, we develop a simple and fully automated pipeline for constructing such SCTc-TEs from a large amount of news articles. Furthermore, we propose a novel model that leverages both Local and Global contexts for SCTc-TE forecasting, named LoGo. To evaluate our model, we construct two large-scale datasets named MidEast-TE and GDELT-TE. Extensive evaluations demonstrate the advantages of our datasets in multiple aspects, while experimental results justify the effectiveness of our forecasting model LoGo. We release the code and dataset via https://github.com/yecchen/GDELT-ComplexEvent.
翻訳日:2023-12-05 19:28:58 公開日:2023-12-02
# Redditアカデミックコミュニティにおけるストレス関連ポストの検出と解析

Detection and Analysis of Stress-Related Posts in Reddit Acamedic Communities ( http://arxiv.org/abs/2312.01050v1 )

ライセンス: Link先を確認
Nazzere Oryngozha and Pakizar Shamoi and Ayan Igali(参考訳) 今日ではストレスレベルをモニターし、精神疾患の早期徴候を認識する重要性を誇張することはできない。 テキストの自動ストレス検出は、ストレスの管理と精神的健康の保護を積極的に支援する。 今日のデジタル時代には、ソーシャルメディアプラットフォームは様々なコミュニティにおける心理的幸福とストレスレベルを反映している。 本研究は,Reddit学術コミュニティにおけるストレス関連投稿の検出と分析に焦点をあてる。 オンライン教育とリモートワークにより、これらのコミュニティは学術的な議論と支援の中心となっている。 テキストを、自然言語処理と機械学習の分類器を使ってストレスのあるものと分類し、redditのラベル付きデータを含むトレーニングデータセットとしてdreadditを使用します。 次に,様々な学術論文の投稿を収集し,分析する。 ストレス検出の最も効果的な特徴は単語のバグであり、ロジスティック回帰分類器と組み合わせて77.78%の精度とDReadditデータセットでのF1スコアが0.79であることを確認した。 この組み合わせは、72%の精度で人間の注釈付きデータセットのストレス検出にも最適である。 私たちの重要な発見は、redditの教授による投稿やコメントが、学士、大学院、ph.d.の学生など他の学術レベルと比べて最もストレスが強いことを示しています。 本研究は,学術コミュニティにおけるストレスレベルの理解に寄与する。 学術機関やオンラインコミュニティがこの問題を効果的に解決するための対策や介入を行うのに役立つ。

Nowadays, the significance of monitoring stress levels and recognizing early signs of mental illness cannot be overstated. Automatic stress detection in text can proactively help manage stress and protect mental well-being. In today's digital era, social media platforms reflect the psychological well-being and stress levels within various communities. This study focuses on detecting and analyzing stress-related posts in Reddit academic communities. Due to online education and remote work, these communities have become central for academic discussions and support. We classify text as stressed or not using natural language processing and machine learning classifiers, with Dreaddit as our training dataset, which contains labeled data from Reddit. Next, we collect and analyze posts from various academic subreddits. We identified that the most effective individual feature for stress detection is the Bag of Words, paired with the Logistic Regression classifier, achieving a 77.78% accuracy rate and an F1 score of 0.79 on the DReaddit dataset. This combination also performs best in stress detection on human-annotated datasets, with a 72% accuracy rate. Our key findings reveal that posts and comments in professors Reddit communities are the most stressful, compared to other academic levels, including bachelor, graduate, and Ph.D. students. This research contributes to our understanding of the stress levels within academic communities. It can help academic institutions and online communities develop measures and interventions to address this issue effectively.
翻訳日:2023-12-05 19:28:40 公開日:2023-12-02
# 非滑らかな有限和最適化のための新しいランダムリシャッフル法

A New Random Reshuffling Method for Nonsmooth Nonconvex Finite-sum Optimization ( http://arxiv.org/abs/2312.01047v1 )

ライセンス: Link先を確認
Xiao Li, Andre Milzarek, Junwen Qiu(参考訳) 本研究では,非滑らかな有限サム問題に対して,正規写像に基づく近位ランダムリシャッフル法(norm-PRR)と呼ばれる新しい確率最適化アルゴリズムを提案する。 ランダムなリシャッフル技術は、ニューラルネットワークのトレーニングなど、大規模アプリケーションで広く利用されている。 ランダムリシャッフル法の収束挙動と有利な加速効果は、滑らかな設定ではよく理解されているが、非スムースの場合ではあまり知られておらず、証明可能な保証を持つ近位型ランダムリシャッフルアプローチはほとんど存在しない。 ノルムPRRに対して反復複雑性を${\cal O}(n^{-1/3}T^{-2/3})$とすると、$n$は成分関数の数であり、$T$は反復の総数である。 また,ノルムPRRに対する新しい漸近収束結果も提供する。 具体的には、Kurtyka-{\L}ojasiewicz (KL)の不等式の下では、強い極限点収束、すなわちノルムPRRによって生成されるイテレートが単一の定常点に収束する。 さらに、最後の反復収束率は${\cal o}(k^{-p})$; ここで、$p \in [0, 1]$ は kl exponent $\theta \in [0,1)$ と step size dynamics に依存する。 最後に,提案手法の有効性を示す機械学習問題に対する予備的な数値結果を示す。

In this work, we propose and study a novel stochastic optimization algorithm, termed the normal map-based proximal random reshuffling (norm-PRR) method, for nonsmooth nonconvex finite-sum problems. Random reshuffling techniques are prevalent and widely utilized in large-scale applications, e.g., in the training of neural networks. While the convergence behavior and advantageous acceleration effects of random reshuffling methods are fairly well understood in the smooth setting, much less seems to be known in the nonsmooth case and only few proximal-type random reshuffling approaches with provable guarantees exist. We establish the iteration complexity ${\cal O}(n^{-1/3}T^{-2/3})$ for norm-PRR, where $n$ is the number of component functions and $T$ counts the total number of iteration. We also provide novel asymptotic convergence results for norm-PRR. Specifically, under the Kurdyka-{\L}ojasiewicz (KL) inequality, we establish strong limit-point convergence, i.e., the iterates generated by norm-PRR converge to a single stationary point. Moreover, we derive last iterate convergence rates of the form ${\cal O}(k^{-p})$; here, $p \in [0, 1]$ depends on the KL exponent $\theta \in [0,1)$ and step size dynamics. Finally, we present preliminary numerical results on machine learning problems that demonstrate the efficiency of the proposed method.
翻訳日:2023-12-05 19:28:18 公開日:2023-12-02
# 異常検出のためのタグ付き正規化$k$-Distances

Bagged Regularized $k$-Distances for Anomaly Detection ( http://arxiv.org/abs/2312.01046v1 )

ライセンス: Link先を確認
Yuchao Cai and Yuheng Ma and Hanfang Yang and Hanyuan Hang(参考訳) ラベル付き例がない場合にデータセット内の異常を識別することを含む教師なし異常検出のパラダイムを検討する。 距離に基づく手法は教師なしの異常検出にはトップパーパフォーミングであるが、最寄りの隣接者数の選択に対する感度に苦しむ。 本稿では,教師なし異常検出問題を凸最適化問題に変換する新しい距離ベースアルゴリズムであるbagged regularized $k$- distances for anomaly detection (brdad)を提案する。 我々のBRDADアルゴリズムは、重み付けされた密度推定のための$k$-distances(BWDDE)の実証的リスクの有限標本境界を最小化して重みを選択する。 このアプローチにより,距離ベースアルゴリズムにおけるハイパーパラメータ選択の感度問題に対処できる。 さらに,大規模データセットを扱う場合には,brdadアルゴリズムの組込みバグング手法によって効率問題に対処することができる。 理論的には,我々のアルゴリズムに対するAUCの高速収束率を確立し,バッグング手法が計算複雑性を大幅に減少させることを示す。 実用的な手法として,アルゴリズムのパラメータ選択の不感性を説明するために,異常検出ベンチマークの数値実験を行った。 さらに,実世界のデータセットにバッグ技術を適用することにより,有望な改善がもたらされる。

We consider the paradigm of unsupervised anomaly detection, which involves the identification of anomalies within a dataset in the absence of labeled examples. Though distance-based methods are top-performing for unsupervised anomaly detection, they suffer heavily from the sensitivity to the choice of the number of the nearest neighbors. In this paper, we propose a new distance-based algorithm called bagged regularized $k$-distances for anomaly detection (BRDAD) converting the unsupervised anomaly detection problem into a convex optimization problem. Our BRDAD algorithm selects the weights by minimizing the surrogate risk, i.e., the finite sample bound of the empirical risk of the bagged weighted $k$-distances for density estimation (BWDDE). This approach enables us to successfully address the sensitivity challenge of the hyperparameter choice in distance-based algorithms. Moreover, when dealing with large-scale datasets, the efficiency issues can be addressed by the incorporated bagging technique in our BRDAD algorithm. On the theoretical side, we establish fast convergence rates of the AUC regret of our algorithm and demonstrate that the bagging technique significantly reduces the computational complexity. On the practical side, we conduct numerical experiments on anomaly detection benchmarks to illustrate the insensitivity of parameter selection of our algorithm compared with other state-of-the-art distance-based methods. Moreover, promising improvements are brought by applying the bagging technique in our algorithm on real-world datasets.
翻訳日:2023-12-05 19:27:49 公開日:2023-12-02
# PROFL: 攻撃に対する厳格な防御を備えたプライバシ保護フェデレーション学習手法

PROFL: A Privacy-Preserving Federated Learning Method with Stringent Defense Against Poisoning Attacks ( http://arxiv.org/abs/2312.01045v1 )

ライセンス: Link先を確認
Yisheng Zhong, Li-Ping Wang(参考訳) 連合学習(federated learning, ffl)は,プライバシリークと毒殺攻撃という,システムの信頼性とセキュリティを著しく損なう2つの大きな問題に直面している。 同時に克服することは大きな課題となる。 これは、プライバシー保護ポリシーがプライバシーの漏洩を避けるためにユーザーのローカルな勾配へのアクセスを禁止しているのに対し、ビザンティン・ロバスト法は毒殺攻撃を防ぐためにこれらの勾配へのアクセスを必要としているためである。 このような問題に対処するため,プライバシー保護のための新しいFLフレームワーク PROFL を提案する。 proflは、2trapdoorの追加の準同型暗号アルゴリズムと、flプロセス全体のデータのプライバシを確保するブラインド技術に基づいている。 防衛プロセスの間、PROFLはまずセキュアなMulti-Krumアルゴリズムを使用して、ユーザレベルで悪意のある勾配を取り除く。 そして,パウタ基準により,特徴レベルでの異常干渉を除去し,より強力な隠蔽により偽毒攻撃に抵抗する,統計に基づくプライバシ保存防御アルゴリズムを革新的に提案する。 詳細な理論解析により,提案手法の安全性と効率が証明された。 我々は,2つのベンチマークデータセットについて広範な実験を行い,proflは,類似のプライバシ保存型ロバスト手法と比較して,異なるアタック設定で39%から75%精度が向上した。

Federated Learning (FL) faces two major issues: privacy leakage and poisoning attacks, which may seriously undermine the reliability and security of the system. Overcoming them simultaneously poses a great challenge. This is because privacy protection policies prohibit access to users' local gradients to avoid privacy leakage, while Byzantine-robust methods necessitate access to these gradients to defend against poisoning attacks. To address these problems, we propose a novel privacy-preserving Byzantine-robust FL framework PROFL. PROFL is based on the two-trapdoor additional homomorphic encryption algorithm and blinding techniques to ensure the data privacy of the entire FL process. During the defense process, PROFL first utilize secure Multi-Krum algorithm to remove malicious gradients at the user level. Then, according to the Pauta criterion, we innovatively propose a statistic-based privacy-preserving defense algorithm to eliminate outlier interference at the feature level and resist impersonation poisoning attacks with stronger concealment. Detailed theoretical analysis proves the security and efficiency of the proposed method. We conducted extensive experiments on two benchmark datasets, and PROFL improved accuracy by 39% to 75% across different attack settings compared to similar privacy-preserving robust methods, demonstrating its significant advantage in robustness.
翻訳日:2023-12-05 19:27:23 公開日:2023-12-02
# 大型言語モデルはゼロショットテキスト分類器である

Large Language Models Are Zero-Shot Text Classifiers ( http://arxiv.org/abs/2312.01044v1 )

ライセンス: Link先を確認
Zhiqiang Wang, Yiran Pang, Yanbin Lin(参考訳) Retrained Large Language Model (LLM) は、自然言語処理(NLP)のサブカテゴリで広く使われている。 NLPでは、テキスト分類の問題はかなりの焦点が当てられているが、高価な計算コスト、時間消費、目に見えないクラスに対する堅牢なパフォーマンスに関連するいくつかの制限に直面している。 思考促進の連鎖(CoT)の提案により、従来の質問や回答形式の代わりにステップ推論プロンプトを用いてゼロショット学習(ZSL)を用いてLLMを実装できる。 テキスト分類問題におけるゼロショット LLM は、事前訓練されたモデルを直接利用して、目に見えないクラスと見えないクラスの両方を予測することにより、これらの制限を緩和することができる。 本研究は主にテキスト分類におけるGPTモデルの有効性を検証する。 我々は,様々なテキスト分類シナリオにプロンプト戦略を効果的に活用することに注力する。 さらに,従来の機械学習手法,ディープラーニング手法,ZSL手法など,ゼロショットLLMの性能とアートテキスト分類手法の他の状態との比較を行った。 実験の結果,LLMの性能は,解析した4つのデータセットのうち3つにおいてゼロショットテキスト分類器としての有効性を裏付けることがわかった。 習熟度は特に、テキスト分類の知識が乏しい中小企業やチームにとって有利である。

Retrained large language models (LLMs) have become extensively used across various sub-disciplines of natural language processing (NLP). In NLP, text classification problems have garnered considerable focus, but still faced with some limitations related to expensive computational cost, time consumption, and robust performance to unseen classes. With the proposal of chain of thought prompting (CoT), LLMs can be implemented using zero-shot learning (ZSL) with the step by step reasoning prompts, instead of conventional question and answer formats. The zero-shot LLMs in the text classification problems can alleviate these limitations by directly utilizing pretrained models to predict both seen and unseen classes. Our research primarily validates the capability of GPT models in text classification. We focus on effectively utilizing prompt strategies to various text classification scenarios. Besides, we compare the performance of zero shot LLMs with other state of the art text classification methods, including traditional machine learning methods, deep learning methods, and ZSL methods. Experimental results demonstrate that the performance of LLMs underscores their effectiveness as zero-shot text classifiers in three of the four datasets analyzed. The proficiency is especially advantageous for small businesses or teams that may not have extensive knowledge in text classification.
翻訳日:2023-12-05 19:26:59 公開日:2023-12-02
# 最適形状対応を用いたアルツハイマー病における海馬形状非対称性の定量化

Quantifying Hippocampal Shape Asymmetry in Alzheimer's Disease Using Optimal Shape Correspondences ( http://arxiv.org/abs/2312.01043v1 )

ライセンス: Link先を確認
Shen Zhu, Ifrah Zawar, Jaideep Kapur, P. Thomas Fletcher(参考訳) アルツハイマー病(AD)における海馬萎縮は非対称で空間的に不均一である。 ADの海馬萎縮の体積と形状に関する広範な研究は行われているが、特に海馬非対称性にはあまり注目されていない。 これまでの海馬非対称性の研究は、ポイントレベルでの形状非対称性の局所化を行わない大域的な体積や形状測定に限られていた。 本稿では,被験者内における左右海馬の点対応を最適化し,サンプル全体のコンパクトな統計的形状モデルを用いて,局所的な形状非対称性を定量化する。 ADと健常者の違いに影響を及ぼす関連する変数を考慮し,他の要因を持つ線形モデルを構築した。 OASIS3データセットでは, 容積情報を用いた場合と比較して, AD患者において最も有意な形状非対称性の海馬領域を示す微細で局所的な差異が認められた。

Hippocampal atrophy in Alzheimer's disease (AD) is asymmetric and spatially inhomogeneous. While extensive work has been done on volume and shape analysis of atrophy of the hippocampus in AD, less attention has been given to hippocampal asymmetry specifically. Previous studies of hippocampal asymmetry are limited to global volume or shape measures, which don't localize shape asymmetry at the point level. In this paper, we propose to quantify localized shape asymmetry by optimizing point correspondences between left and right hippocampi within a subject, while simultaneously favoring a compact statistical shape model of the entire sample. To account for related variables that have impact on AD and healthy subject differences, we build linear models with other confounding factors. Our results on the OASIS3 dataset demonstrate that compared to using volumetric information, shape asymmetry reveals fine-grained, localized differences that indicate the hippocampal regions of most significant shape asymmetry in AD patients.
翻訳日:2023-12-05 19:26:39 公開日:2023-12-02
# In-Paintingとしてのプランニング:不確実性を考慮した拡散型タスクプランニングフレームワーク

Planning as In-Painting: A Diffusion-Based Embodied Task Planning Framework for Environments under Uncertainty ( http://arxiv.org/abs/2312.01097v1 )

ライセンス: Link先を確認
Cheng-Fu Yang, Haoyang Xu, Te-Lin Wu, Xiaofeng Gao, Kai-Wei Chang, Feng Gao(参考訳) 具体的AIのためのタスクプランニングは、コミュニティが定式化に関して合意に達していない最も難しい問題の1つです。 本稿では,エンドツーエンドのトレーニング可能な手法と計画アルゴリズムを組み合わせた統合フレームワークを用いて,この問題に対処することを目的とする。 特に,「インペイントとしての計画」というタスク非依存の手法を提案する。 本手法では,部分的に観測可能な環境下での言語命令と知覚入力の両方を条件に,計画生成にDenoising Diffusion Model (DDM) を用いる。 部分的な観察は、しばしば計画の幻覚をモデルに導く。 そこで本手法は,各ステップで利用可能な限られた情報を考えると,状態軌跡と目標推定を併用して生成した計画の信頼性を向上させる。 計画実行に伴う新規発見情報をより高い成功率で活用するために,拡散型プランナと協調するオンザフライ計画アルゴリズムを提案する。 提案フレームワークは、視覚言語ナビゲーション、オブジェクト操作、フォトリアリスティックな仮想環境におけるタスク計画など、様々なAIタスクにおいて有望なパフォーマンスを実現する。 コードは以下の通り。 https://github.com/joeyy5588/planning-as-inpainting。

Task planning for embodied AI has been one of the most challenging problems where the community does not meet a consensus in terms of formulation. In this paper, we aim to tackle this problem with a unified framework consisting of an end-to-end trainable method and a planning algorithm. Particularly, we propose a task-agnostic method named 'planning as in-painting'. In this method, we use a Denoising Diffusion Model (DDM) for plan generation, conditioned on both language instructions and perceptual inputs under partially observable environments. Partial observation often leads to the model hallucinating the planning. Therefore, our diffusion-based method jointly models both state trajectory and goal estimation to improve the reliability of the generated plan, given the limited available information at each step. To better leverage newly discovered information along the plan execution for a higher success rate, we propose an on-the-fly planning algorithm to collaborate with the diffusion-based planner. The proposed framework achieves promising performances in various embodied AI tasks, including vision-language navigation, object manipulation, and task planning in a photorealistic virtual environment. The code is available at: https://github.com/joeyy5588/planning-as-inpainting.
翻訳日:2023-12-05 19:19:47 公開日:2023-12-02
# 共変測度による量子力学半群による進化からの状態の再構成について

On reconstruction of states from evolution induced by quantum dynamical semigroups perturbed by covariant measures ( http://arxiv.org/abs/2312.01094v1 )

ライセンス: Link先を確認
Grigori Amosov, Egor Baitenov and Alexander Pechen(参考訳) 本研究では、共変測度によって摂動する量子力学半群によって引き起こされる進化から量子系の状態を復元する能力を示す。 本手法は、量子チャネルを介して伝達される量子状態の再構成を記述し、特に光ファイバを介して伝達されるフォトニック状態の再構成に適用できる。 このため、バナッハ空間における共変作用素値測度による摂動の概念を導入し、摂動半群の積分表現を明示的に構成する。 様々な物理的に有意義な例がある。 特に、対称(ボソン)フォック空間における摂動力学のモデルが、シフトの半フローとその対称フォック空間における摂動の共変測度として発展し、その性質について検討する。 別の例は、有界位相空間を持つ古典振動子のkoopman-von neumannによる記述に対応する。

In this work, we show the ability to restore states of quantum systems from evolution induced by quantum dynamical semigroups perturbed by covariant measures. Our procedure describes reconstruction of quantum states transmitted via quantum channels and as a particular example can be applied to reconstruction of photonic states transmitted via optical fibers. For this, the concept of perturbation by covariant operator-valued measure in a Banach space is introduced and integral representation of the perturbed semigroup is explicitly constructed. Various physically meaningful examples are provided. In particular, a model of the perturbed dynamics in the symmetric (boson) Fock space is developed as covariant measure for a semiflow of shifts and its perturbation in the symmetric Fock space, and its properties are investigated. Another example may correspond to the Koopman-von Neumann description of a classical oscillator with bounded phase space.
翻訳日:2023-12-05 19:19:25 公開日:2023-12-02
# 機械学習を用いた術後吐き気・吐き気の予測 : モデル開発と検証研究

Predicting Postoperative Nausea And Vomiting Using Machine Learning: A Model Development and Validation Study ( http://arxiv.org/abs/2312.01093v1 )

ライセンス: Link先を確認
Maxim Glebov, Teddy Lazebnik, Boris Orkin, Haim Berkenstadt, Svetlana Bunimovich-Mendrazitsky(参考訳) 背景: 全身麻酔下手術を施行した症例では, 術後の吐き気・吐き気(PONV)が頻発する。 また術後早期に苦悩や不満が頻発する原因である。 現在, PONV の予測に用いられているツールは, 良好な結果が得られていない。 そこで本研究では, 早期および遅延ponv予測のための予測ツールを開発し, 良好な予測性能を実現することを目的とした。 方法】2018年9月1日から2023年9月1日までイスラエル・シェバ医療センターで全身麻酔下手術を行った後,麻酔後入院した成人患者の振り返りデータを用いた。 54848症例のデータに基づいて学習した機械学習アルゴリズムのアンサンブルモデルを開発した。 k-foldクロスバリデーション法は, Bee Colonyアルゴリズムを用いて, 年齢, 性別, 喫煙習慣などの患者の社会デマグラフィー的特徴を最適に保存する訓練セットと試験セットにデータを分割した。 発見: 54848例中, 2706例 (4.93%) と8218例 (14.98%) に早期および遅発性PONVが認められた。 提案したPONV予測ツールは、早期および遅延PONVを84.0%、77.3%で正確に予測でき、それぞれ第2位のPONV予測ツール(Koivurantaスコア)を13.4%、12.9%上回った。 特徴重要度分析の結果,提案した予測ツールの性能は過去の臨床知識と一致し,有用性を示した。 解釈:本研究で開発された機械学習ベースのツールによりponv予測が改善され,パーソナライズされたケアが容易になり,患者の成果が向上した。

Background: Postoperative nausea and vomiting (PONV) is a frequently observed complication in patients undergoing surgery under general anesthesia. Moreover, it is a frequent cause of distress and dissatisfaction during the early postoperative period. The tools used for predicting PONV at present have not yielded satisfactory results. Therefore, prognostic tools for the prediction of early and delayed PONV were developed in this study with the aim of achieving satisfactory predictive performance. Methods: The retrospective data of adult patients admitted to the post-anesthesia care unit after undergoing surgical procedures under general anesthesia at the Sheba Medical Center, Israel, between September 1, 2018, and September 1, 2023, were used in this study. An ensemble model of machine learning algorithms trained on the data of 54848 patients was developed. The k-fold cross-validation method was used followed by splitting the data to train and test sets that optimally preserve the sociodemographic features of the patients, such as age, sex, and smoking habits, using the Bee Colony algorithm. Findings: Among the 54848 patients, early and delayed PONV were observed in 2706 (4.93%) and 8218 (14.98%) patients, respectively. The proposed PONV prediction tools could correctly predict early and delayed PONV in 84.0% and 77.3% of cases, respectively, outperforming the second-best PONV prediction tool (Koivuranta score) by 13.4% and 12.9%, respectively. Feature importance analysis revealed that the performance of the proposed prediction tools aligned with previous clinical knowledge, indicating their utility. Interpretation: The machine learning-based tools developed in this study enabled improved PONV prediction, thereby facilitating personalized care and improved patient outcomes.
翻訳日:2023-12-05 19:19:08 公開日:2023-12-02
# クエリバイハミングタスクのためのデータセット収集のための半教師付き深層学習手法

A Semi-Supervised Deep Learning Approach to Dataset Collection for Query-By-Humming Task ( http://arxiv.org/abs/2312.01092v1 )

ライセンス: Link先を確認
Amantur Amatov, Dmitry Lamanov, Maksim Titov, Ivan Vovk, Ilya Makarov, Mikhail Kudinov(参考訳) Query-by-Humming (QbH)は、ハンムや歌の断片に基づいて最も関連する曲を見つけるタスクである。 最近の商用ソリューションの成功にもかかわらず、機械学習モデルをトレーニングするための高品質なデータセットがないため、QbHシステムの実装は依然として難しい。 本稿では,深層学習のためのデータ収集手法を提案し,長さ18時間の短い楽曲断片を含む新しいデータセットである cover and hummings aligned dataset (chad) を紹介する。 データセットの拡張には、QbHタスクをカバーソング識別(CSI)タスクの特殊なケースとして活用する半教師付きモデルトレーニングパイプラインを用いる。 最初のデータセットでトレーニングされたモデルから始めると、同じ曲のカバーバージョンのフラグメントのグループを反復的に収集し、拡張データ上でモデルを再トレーニングします。 このパイプラインを使用して308時間以上の音楽断片を収集し、タイムアラインなカバーバージョンと組み合わせます。 最終モデルはQbHタスクにうまく適用され、ベンチマークデータセット上での競合結果を達成する。 提案したデータセットとトレーニングパイプラインは,QbHシステムの実装を効果的に促進できることを示す。

Query-by-Humming (QbH) is a task that involves finding the most relevant song based on a hummed or sung fragment. Despite recent successful commercial solutions, implementing QbH systems remains challenging due to the lack of high-quality datasets for training machine learning models. In this paper, we propose a deep learning data collection technique and introduce Covers and Hummings Aligned Dataset (CHAD), a novel dataset that contains 18 hours of short music fragments, paired with time-aligned hummed versions. To expand our dataset, we employ a semi-supervised model training pipeline that leverages the QbH task as a specialized case of cover song identification (CSI) task. Starting with a model trained on the initial dataset, we iteratively collect groups of fragments of cover versions of the same song and retrain the model on the extended data. Using this pipeline, we collect over 308 hours of additional music fragments, paired with time-aligned cover versions. The final model is successfully applied to the QbH task and achieves competitive results on benchmark datasets. Our study shows that the proposed dataset and training pipeline can effectively facilitate the implementation of QbH systems.
翻訳日:2023-12-05 19:18:37 公開日:2023-12-02
# 自己生成型ウォーゲームAI:大規模言語モデルに基づく二重層エージェントタスク計画

Self Generated Wargame AI: Double Layer Agent Task Planning Based on Large Language Model ( http://arxiv.org/abs/2312.01090v1 )

ライセンス: Link先を確認
Y.Sun, C.Yu, J.Zhao, W.Wang, X.Zhou(参考訳) ChatGPTで表される大きな言語モデルは、人工知能の分野に破壊的な影響を与えた。 しかし、主に自然言語処理、音声認識、機械学習、自然言語理解に焦点を当てている。 本稿では,大言語モデルを知的意思決定の分野に適用し,大言語モデルを意思決定センターに配置し,大言語モデルをコアとするエージェントアーキテクチャを構築する。 そこで本研究では,自然言語の相互作用による2層エージェントタスク計画,課題,決定命令の実行,およびウォーゲームシミュレーション環境によるシミュレーション検証を行う。 ゲーム対決シミュレーション実験により、大言語モデルの知的な意思決定能力は、一般的に使われている強化学習AIやルールAIよりもはるかに強く、知性、理解可能性、一般化性がよいことがわかった。 そして,実験により,大規模言語モデルの知性はプロンプトと密接に関連していることがわかった。 この研究は、従来の人間とコンピュータの相互作用から知的意思決定の分野まで、大きな言語モデルを拡張し、知的意思決定の発展に重要な参照価値と重要性を持つ。

The big language model represented by ChatGPT has had a disruptive impact on the field of artificial intelligence. But it mainly focuses on Natural language processing, speech recognition, machine learning and natural-language understanding. This paper innovatively applies the big language model to the field of intelligent decision-making, places the big language model in the decision-making center, and constructs an agent architecture with the big language model as the core. Based on this, it further proposes a two-layer agent task planning, issues and executes decision commands through the interaction of natural language, and carries out simulation verification through the wargame simulation environment. Through the game confrontation simulation experiment, it is found that the intelligent decision-making ability of the big language model is significantly stronger than the commonly used reinforcement learning AI and rule AI, and the intelligence, understandability and generalization are all better. And through experiments, it was found that the intelligence of the large language model is closely related to prompt. This work also extends the large language model from previous human-computer interaction to the field of intelligent decision-making, which has important reference value and significance for the development of intelligent decision-making.
翻訳日:2023-12-05 19:18:13 公開日:2023-12-02
# 機械生成要約における事実的誤りのゼロショットマルチラベル分類

Prompted Zero-Shot Multi-label Classification of Factual Incorrectness in Machine-Generated Summaries ( http://arxiv.org/abs/2312.01087v1 )

ライセンス: Link先を確認
Aniket Deroy, Subhankar Maity, Saptarshi Ghosh(参考訳) 本研究は,機械生成テキスト要約における事実的不正確性に関する批判的な問題に対処する。 このような誤りが情報の信頼性を損なう可能性を認識し、機械要約コンテンツにおける現実的不整合の性質について検討する。 誤りを誤表現,不正確な量や測定,誤帰属,生成の4つのタイプに分類する,プロンプトに基づく分類システムを提案する。 参加者は、オリジナルの記事に対して、機械生成サマリーのコーパスを評価する。 本手法では,実際の歪みの発生を定性的な判断で識別する。 その結果,本手法は,分類システムの改善の余地はあるものの,要約中の誤りの種類をある程度検出できることが示唆された。

This study addresses the critical issue of factual inaccuracies in machine-generated text summaries, an increasingly prevalent issue in information dissemination. Recognizing the potential of such errors to compromise information reliability, we investigate the nature of factual inconsistencies across machine-summarized content. We introduce a prompt-based classification system that categorizes errors into four distinct types: misrepresentation, inaccurate quantities or measurements, false attribution, and fabrication. The participants are tasked with evaluating a corpus of machine-generated summaries against their original articles. Our methodology employs qualitative judgements to identify the occurrence of factual distortions. The results show that our prompt-based approaches are able to detect the type of errors in the summaries to some extent, although there is scope for improvement in our classification systems.
翻訳日:2023-12-05 19:17:53 公開日:2023-12-02
# 縮退トポロジカル半金属における非アベリア量子幾何テンソル

Non-Abelian quantum geometric tensor in degenerate topological semimetals ( http://arxiv.org/abs/2312.01086v1 )

ライセンス: Link先を確認
Hai-Tao Ding, Chang-Xiao Zhang, Jing-Xin Liu, Jian-Te Wang, Dan-Wei Zhang, and Shi-Liang Zhu(参考訳) 量子幾何テンソル (qgt) は量子状態の完全な幾何学的性質を特徴づけ、対称部分は量子計量であり、反対称部分はベリー曲率である。 我々は大域的縮退基底状態を持つジェネリックハミルトニアンを提案し、対応する非可換量子計量と単位ブロッホベクトルの一般関係を与える。 これにより、非アベリア量子計量とベリーあるいはオイラー曲率の関係を構築することができる。 具体的には、cp と $c_2t$ 対称性の下で大域的縮退帯を持つ2つの位相半金属モデルを提示し、検討する。 これら2つの退化位相的半金属の位相不変量はチャーン数とオイラー類であり、これは構成された関係を持つ非アベリア量子計量から計算される。 断熱摂動理論に基づいて、さらに非可換量子計量とエネルギーゆらぎの関係を得る。 このような非断熱効果は非可換量子計量の抽出に利用することができ、これは縮退した位相半金属の2つのモデルに対して数値的に証明される。 最後に、冷たい原子を持つモデルハミルトンの量子シミュレーションについて議論する。

The quantum geometric tensor (QGT) characterizes the complete geometric properties of quantum states, with the symmetric part being the quantum metric, and the antisymmetric part being the Berry curvature. We propose a generic Hamiltonian with global degenerate ground states, and give a general relation between the corresponding non-Abelian quantum metric and unit Bloch vector. This enables us to construct the relation between the non-Abelian quantum metric and Berry or Euler curvature. To be concrete, we present and study two topological semimetal models with global degenerate bands under CP and $C_2T$ symmetries, respectively. The topological invariants of these two degenerate topological semimetals are the Chern number and Euler class, respectively, which are calculated from the non-Abelian quantum metric with our constructed relations. Based on the adiabatic perturbation theory, we further obtain the relation between the non-Abelian quantum metric and the energy fluctuation. Such a non-adiabatic effect can be used to extract the non-Abelian quantum metric, which is numerically demonstrated for the two models of degenerate topological semimetals. Finally, we discuss the quantum simulation of the model Hamiltonians with cold atoms.
翻訳日:2023-12-05 19:17:39 公開日:2023-12-02
# RobustCalib: 一貫性学習によるロバストライダーカメラの外部校正

RobustCalib: Robust Lidar-Camera Extrinsic Calibration with Consistency Learning ( http://arxiv.org/abs/2312.01085v1 )

ライセンス: Link先を確認
Shuang Xu, Sifan Zhou, Zhi Tian, Jizhou Ma, Qiong Nie, Xiangxiang Chu(参考訳) 現在のlidarカメラのextrinsics推定手法は、オフラインのターゲットと人間の努力に依存するが、学習に基づくアプローチは、キャリブレーション結果の反復的な改良、一般化とオンボードシステムへの応用に制約を課す。 本稿では,本手法を頑健かつ自動的かつ単発的にキャリブレーション問題に対処するための新しい手法を提案する。 extrinsicsを直接最適化する代わりに、lidarとカメラの一貫性学習を利用して暗黙的な再カリバリを実装する。 特に,投射lidar点と予測された点のattrbutes(例えば強度と深さ)の不一致を最小限に抑えるために,外観-一貫性の損失と幾何学的-一貫性の損失を導入する。 この設計は様々なシナリオへの適応性を高めるだけでなく、推論中にシンプルで効率的な定式化を可能にする。 異なるデータセットに対する総合的な実験を行い,本手法が正確かつ堅牢な性能を実現することを示す。 この分野のさらなる研究と開発を促進するため、私たちはモデルとコードを公開します。

Current traditional methods for LiDAR-camera extrinsics estimation depend on offline targets and human efforts, while learning-based approaches resort to iterative refinement for calibration results, posing constraints on their generalization and application in on-board systems. In this paper, we propose a novel approach to address the extrinsic calibration problem in a robust, automatic, and single-shot manner. Instead of directly optimizing extrinsics, we leverage the consistency learning between LiDAR and camera to implement implicit re-calibartion. Specially, we introduce an appearance-consistency loss and a geometric-consistency loss to minimizing the inconsitency between the attrbutes (e.g., intensity and depth) of projected LiDAR points and the predicted ones. This design not only enhances adaptability to various scenarios but also enables a simple and efficient formulation during inference. We conduct comprehensive experiments on different datasets, and the results demonstrate that our method achieves accurate and robust performance. To promote further research and development in this area, we will release our model and code.
翻訳日:2023-12-05 19:17:16 公開日:2023-12-02
# 一般ノイズレジリエント量子振幅推定

General noise-resilient quantum amplitude estimation ( http://arxiv.org/abs/2312.01084v1 )

ライセンス: Link先を確認
Yonglong Ding, Ruyu Yang(参考訳) 量子アドバンテージは、ノイズによる量子システムの劣化を克服する必要がある。 深部回路における誤差低減などのノイズ低減のための従来の手法。 特にノイズは、量子システムからの振幅および観測可能な情報の抽出を阻害する。 本研究では,雑音下での振幅推定と可観測性を向上させる新しいアルゴリズムを提案する。 興味深いことに、我々のアルゴリズムは量子回路の深さの異なるノイズに対して堅牢性を示す。 振幅と可観測性の精度を数値解析により評価し, 理論上, ゲート依存雑音の影響を解析した。 このアルゴリズムは高い計算精度を持つ雑音耐性アプローチの潜在的な候補である。

Quantum advantage requires overcoming noise-induced degradation of quantum systems. Conventional methods for reducing noise such as error mitigation face scalability issues in deep circuits. Specifically, noise hampers the extraction of amplitude and observable information from quantum systems. In this work, we present a novel algorithm that enhances the estimation of amplitude and observable under noise. Remarkably, our algorithm exhibits robustness against noise that varies across different depths of the quantum circuits. We assess the accuracy of amplitude and observable using numerical analysis and theoretically analyze the impact of gate-dependent noise on the results. This algorithm is a potential candidate for noise-resilient approaches that have high computational accuracy.
翻訳日:2023-12-05 19:16:58 公開日:2023-12-02
# Few-Shot Action Recognition(CLIP-CP$\mathbf{M^2}$C)のための一貫性モジュールと運動補償

Consistency Prototype Module and Motion Compensation for Few-Shot Action Recognition (CLIP-CP$\mathbf{M^2}$C) ( http://arxiv.org/abs/2312.01083v1 )

ライセンス: Link先を確認
Fei Guo, Li Zhu, YiKang Wang, Han Qi(参考訳) 近年,特徴識別性を学習し,適切な比較手法を設計することで,アクション認識が著しく進歩している。 ただし、以下の制限がある。 (a)前作は主に視覚的モノモーダルに基づく。 マルチモーダルな作品の中には、サポートビデオのプロトタイプを構築するための補助としてラベルを使用するものもあるが、この情報はクエリビデオには使用できない。 ラベルは効率的には使われない。 (b)ほとんどの作品では動画の動作特徴は無視されているが、動作特徴は区別に不可欠である。 これらの問題に対処するために、一貫性プロトタイプと運動補償ネットワーク(CLIP-CP$M^2$C)を提案した。 まず、CLIPをマルチモーダルな複数ショットのアクション認識に使用し、ドメイン適応のテキスト画像比較を行う。 第2に,プロトタイプとクエリ間の情報量をより類似させるため,テキスト(prompt)が存在しない場合,クエリビデオのテキスト(prompt)情報を補う新しい手法を提案する。 第3に,隣り合うフレームの2方向の差動特性を動作特徴として用い,ネットワークに動きのダイナミクスを明示的に埋め込む。 また,動きの特徴に一貫性の損失を適用する。 標準ベンチマークデータセットに対する大規模な実験により,提案手法が最先端の結果と競合することを示す。 私たちのコードはURLで利用可能です。

Recently, few-shot action recognition has significantly progressed by learning the feature discriminability and designing suitable comparison methods. Still, there are the following restrictions. (a) Previous works are mainly based on visual mono-modal. Although some multi-modal works use labels as supplementary to construct prototypes of support videos, they can not use this information for query videos. The labels are not used efficiently. (b) Most of the works ignore the motion feature of video, although the motion features are essential for distinguishing. We proposed a Consistency Prototype and Motion Compensation Network(CLIP-CP$M^2$C) to address these issues. Firstly, we use the CLIP for multi-modal few-shot action recognition with the text-image comparison for domain adaption. Secondly, in order to make the amount of information between the prototype and the query more similar, we propose a novel method to compensate for the text(prompt) information of query videos when text(prompt) does not exist, which depends on a Consistency Loss. Thirdly, we use the differential features of the adjacent frames in two directions as the motion features, which explicitly embeds the network with motion dynamics. We also apply the Consistency Loss to the motion features. Extensive experiments on standard benchmark datasets demonstrate that the proposed method can compete with state-of-the-art results. Our code is available at the URL: https://github.com/xxx/xxx.git.
翻訳日:2023-12-05 19:16:50 公開日:2023-12-02
# 限定ラベリングデータを用いた学習の安定性に及ぼすランダム性の影響:体系的文献レビュー

On the Effects of Randomness on Stability of Learning with Limited Labelled Data: A Systematic Literature Review ( http://arxiv.org/abs/2312.01082v1 )

ライセンス: Link先を確認
Branislav Pecher, Ivan Srba, Maria Bielikova(参考訳) 少数ショット学習、メタラーニング、トランスファーラーニングなどのラベル付きデータによる学習は、少量のラベル付きサンプルを使用してモデルを効果的に訓練することを目的としている。 しかし、これらのアプローチはトレーニング過程における非決定性による無制御ランダム性の影響に過度に敏感であることが観察された。 ランダム性はモデルの安定性に悪影響を及ぼし、トレーニング実行中の結果に大きなばらつきをもたらす。 このような不安定性が無視される場合、意図せず、しかし残念ながら故意に、研究の進歩に対する想像上の認識を生み出すことができる。 近年、この領域は研究の注目を集め始め、関連研究の数は増え続けている。 本稿では,ラベル付きデータによる学習の安定性に対するランダム性の影響を論じる134の論文の概要を概説する。 論文で取り組んだ4つの主なタスク(調査/評価;決定;緩和;ベンチマーク/比較/報告のランダム性効果)を区別し,それぞれに知見を提供する。 さらに,7つの課題を特定し議論し,今後の研究を進めるために可能な方向とともに問題を開く。 この調査の最終的な目標は、今のところ適切なレベルの注目を受けていないこの成長する研究領域の重要性を強調することである。

Learning with limited labelled data, such as few-shot learning, meta-learning or transfer learning, aims to effectively train a model using only small amount of labelled samples. However, these approaches were observed to be excessively sensitive to the effects of uncontrolled randomness caused by non-determinism in the training process. The randomness negatively affects the stability of the models, leading to large variance in results across training runs. When such instability is disregarded, it can unintentionally, but unfortunately also intentionally, create an imaginary perception of research progress. Recently, this area started to attract a research attention and the number of relevant studies is continuously growing. In this survey, we provide a comprehensive overview of 134 papers addressing the effects of randomness on the stability of learning with limited labelled data. We distinguish between four main tasks addressed in the papers (investigate/evaluate; determine; mitigate; benchmark/compare/report randomness effects), providing findings for each one. Furthermore, we identify and discuss seven challenges and open problems together with possible directions to facilitate further research. The ultimate goal of this survey is to emphasise the importance of this growing research area, which so far has not received appropriate level of attention.
翻訳日:2023-12-05 19:16:26 公開日:2023-12-02
# セマンティック通信ネットワークのための適応的資源割当

Adaptive Resource Allocation for Semantic Communication Networks ( http://arxiv.org/abs/2312.01081v1 )

ライセンス: Link先を確認
Lingyi Wang, Wei Wu, Fuhui Zhou, Zhaohui Yang, Zhijin Qin(参考訳) 将来のインテリジェントアプリケーションにとって有望な技術として認識されているセマンティックコミュニケーションは、広く研究の注目を集めている。 送信信頼性を高めるセマンティック通信の可能性、特に低信号雑音(SNR)環境では、リソース割り当てと動的無線環境における互換性の重要な問題は、まだ明らかにされていない。 本稿では,既存の無線通信において,セマンティックビット量子化(SBQ)を用いた適応型セマンティックリソース割り当てパラダイムを提案する。 セマンティック通信ネットワークの性能を調べるため,意味的量子化効率(SQE)と送信遅延を含む意味的通信のためのサービス品質(SC-QoS)を初めて提案した。 基地局の送信ビームフォーミング、意味表現用ビット、サブチャネル割り当て、帯域幅リソース割り当てを共同最適化することにより、全体的な有効SC-QoSを最大化する問題を定式化する。 非凸な定式化問題に対処するため、知的資源配分スキームは、知的エージェントが意味的タスクと動的無線環境の両方を知覚できるハイブリッド強化学習(DRL)アルゴリズムに基づいて提案される。 シミュレーションの結果,提案設計はセマンティックノイズに効果的に対処でき,無線通信の性能はいくつかのベンチマーク方式と比較して優れていることが示された。 さらに,本提案手法により,SC-QoSで最大13%の性能向上を実現することができる。

Semantic communication, recognized as a promising technology for future intelligent applications, has received widespread research attention. Despite the potential of semantic communication to enhance transmission reliability, especially in low signal-to-noise (SNR) environments, the critical issue of resource allocation and compatibility in the dynamic wireless environment remains largely unexplored. In this paper, we propose an adaptive semantic resource allocation paradigm with semantic-bit quantization (SBQ) compatibly for existing wireless communications, where the inaccurate environment perception introduced by the additional mapping relationship between semantic metrics and transmission metrics is solved. In order to investigate the performance of semantic communication networks, the quality of service for semantic communication (SC-QoS), including the semantic quantization efficiency (SQE) and transmission latency, is proposed for the first time. A problem of maximizing the overall effective SC-QoS is formulated by jointly optimizing the transmit beamforming of the base station, the bits for semantic representation, the subchannel assignment, and the bandwidth resource allocation. To address the non-convex formulated problem, an intelligent resource allocation scheme is proposed based on a hybrid deep reinforcement learning (DRL) algorithm, where the intelligent agent can perceive both semantic tasks and dynamic wireless environments. Simulation results demonstrate that our design can effectively combat semantic noise and achieve superior performance in wireless communications compared to several benchmark schemes. Furthermore, compared to mapping-guided paradigm based resource allocation schemes, our proposed adaptive scheme can achieve up to 13% performance improvement in terms of SC-QoS.
翻訳日:2023-12-05 19:16:05 公開日:2023-12-02
# 超短パルスレーザーによる非相対論的中性子のスピン相互作用

Spin interaction of non-relativistic neutrons with an ultrashort laser pulse ( http://arxiv.org/abs/2312.01079v1 )

ライセンス: Link先を確認
Peter Christian Aichelburg, Christian Spreitzer(参考訳) 非相対論的パウリ方程式は、遅い中性子と短い磁気パルスの相互作用を研究するために用いられる。 極極限では、パルスは中性子の磁気モーメントに1つの瞬間にのみ作用する。 パルス間のパウリ波動関数の接合条件を導出した散乱振幅を求める。 空間的に一定の磁場強度のパルスを受ける偏光平面中性子のビームに対して明示的な表現が与えられる。 超短パルスで磁場を発生させると仮定すると、粗い数値推定値が得られる。

The non-relativistic Pauli equation is used to study the interaction of slow neutrons with a short magnetic pulse. In the extreme limit, the pulse is acting on the magnetic moment of the neutron only at one instant of time. We obtain the scattering amplitude by deriving the junction conditions for the Pauli wave function across the pulse. Explicit expressions are given for a beam of polarized plane wave neutrons subjected to a pulse of spatially constant magnetic field strength. Assuming that the magnetic field is generated by an ultrashort laser pulse, we provide crude numerical estimates.
翻訳日:2023-12-05 19:15:36 公開日:2023-12-02
# 深層強化学習における時間クレジット割り当てに関する調査

A Survey of Temporal Credit Assignment in Deep Reinforcement Learning ( http://arxiv.org/abs/2312.01072v1 )

ライセンス: Link先を確認
Eduardo Pignatelli, Johan Ferret, Matthieu Geist, Thomas Mesnard, Hado van Hasselt, Laura Toni(参考訳) 信用割当問題(英: credit assignment problem、cap)とは、長期的成果と行動を関連付けるための強化学習(rl)エージェントの長期的挑戦を指す。 キャップの解決は、ほとんどの意思決定問題がノイズ、遅延、原因に関する情報のほとんど、あるいは全くないフィードバックを提供するため、現実世界におけるrlの展開を成功させるための重要なステップである。 これらの条件は、情報的意思決定による結果とセレンディピティーな結果の区別を困難にしている。 しかし、クレジットとCAPの数学的性質はいまだに理解されておらず、定義されていない。 本調査では,深部RLにおける時間クレジット割り当て(CA)の現状を概観する。 我々は,技術アルゴリズムの状態の公平な比較を可能にし,様々な手法間のトレードオフの理解を深める,信用のための統一形式を提案する。 有限な経験から結果に対する行動の影響を学習する問題としてキャップを配置した。 我々は,遅延効果,転置,行動の影響の欠如によって生じる課題を議論し,既存の手法がそれらにどのように対処しようとしているかを分析する。 最後に,信用割当手法を評価するためのプロトコルを調査し,異なる信用割当手法の問題点を診断する方法を提案する。 全体として、本調査は、新入生実践者や研究者の分野の概要を提供し、CAP研究の開始段階を早めるための一貫性のある視点を提供し、今後の研究の方向性を示唆している。

The Credit Assignment Problem (CAP) refers to the longstanding challenge of Reinforcement Learning (RL) agents to associate actions with their long-term consequences. Solving the CAP is a crucial step towards the successful deployment of RL in the real world since most decision problems provide feedback that is noisy, delayed, and with little or no information about the causes. These conditions make it hard to distinguish serendipitous outcomes from those caused by informed decision-making. However, the mathematical nature of credit and the CAP remains poorly understood and defined. In this survey, we review the state of the art of Temporal Credit Assignment (CA) in deep RL. We propose a unifying formalism for credit that enables equitable comparisons of state of the art algorithms and improves our understanding of the trade-offs between the various methods. We cast the CAP as the problem of learning the influence of an action over an outcome from a finite amount of experience. We discuss the challenges posed by delayed effects, transpositions, and a lack of action influence, and analyse how existing methods aim to address them. Finally, we survey the protocols to evaluate a credit assignment method, and suggest ways to diagnoses the sources of struggle for different credit assignment methods. Overall, this survey provides an overview of the field for new-entry practitioners and researchers, it offers a coherent perspective for scholars looking to expedite the starting stages of a new study on the CAP, and it suggests potential directions for future research
翻訳日:2023-12-05 19:15:28 公開日:2023-12-02
# 量子非線形発振器における古典雑音の存在下での多光子ラビ振動

Multi-photon Rabi oscillations in the presence of the classical noise in a quantum nonlinear oscillator ( http://arxiv.org/abs/2312.01070v1 )

ライセンス: Link先を確認
Bogdan Y. Nikitchuk, Evgeny V. Anikin, and Natalya S. Maslova(参考訳) 本研究では, 単モード量子非線形発振器の4次(Kerr)と6次(Over-Kerr)の非線形順序を駆動場の揺らぎの存在下で考慮する。 我々は、カー振動子の多光子ラビ遷移には振幅ノイズの存在が大きな影響を与えず、逆にカー振動子のこれらの振動を抑制することを示した。 フィールド振幅のノイズによる準エネルギーゆらぎによるオーバーケラ発振器における多光子遷移の抑制について述べる。 対照的に、カー振動子では、振動子準エネルギースペクトルの対称性のため、これらの揺らぎは2つの共鳴レベルで互いにキャンセルする。

We consider the model of a single-mode quantum nonlinear oscillator with the fourth (Kerr) and sixth (over-Kerr) orders of nonlinearity in the presence of fluctuations of the driving field. We demonstrate that the presence of the amplitude noise does not significantly affect the multi-photon Rabi transitions for the Kerr oscillator, and, in contrast, suppresses these oscillations for the over- Kerr oscillator. We explain the suppression of multi-photon transitions in the over-Kerr oscillator by quasienergy fluctuations caused by noise in field amplitude. In contrast, for the Kerr oscillator, these fluctuations cancel each other for two resonant levels due to the symmetry in the oscillator quasienergy spectrum.
翻訳日:2023-12-05 19:15:02 公開日:2023-12-02
# controldreamer:マルチビューコントロールネットによるスタイリッシュな3d生成

ControlDreamer: Stylized 3D Generation with Multi-View ControlNet ( http://arxiv.org/abs/2312.01129v1 )

ライセンス: Link先を確認
Yeongtak Oh, Jooyoung Choi, Yongsung Kim, Minjun Park, Chaehun Shin, and Sungroh Yoon(参考訳) テキスト3d生成の最近の進歩は、3dコンテンツ作成の自動化と民主化に大きく貢献している。 これらの発展を踏まえ、創造的な幾何学とスタイルを持つ3dモデルの生成における、現在の方法の限界に対処することを目的としている。 入出力100Kテキストコーパスから生成したデータセットに基づいて学習した,新しい深度対応多視点拡散モデルであるMulti-view ControlNetを導入する。 マルチビューコントロールネットは、2段階のパイプラインであるControlDreamerに統合され、テキストガイドによるスタイリングされた3Dモデルの生成を可能にします。 さらに,オブジェクト,動物,キャラクタを含む幅広い対象を包含した3Dスタイル編集のための総合的なベンチマークを行い,さらに多様な3D生成を容易にする。 比較分析の結果,このパイプラインは定性比較とCLIPスコアの指標により,既存のテキスト・ツー・3D手法よりも優れていることがわかった。

Recent advancements in text-to-3D generation have significantly contributed to the automation and democratization of 3D content creation. Building upon these developments, we aim to address the limitations of current methods in generating 3D models with creative geometry and styles. We introduce multi-view ControlNet, a novel depth-aware multi-view diffusion model trained on generated datasets from a carefully curated 100K text corpus. Our multi-view ControlNet is then integrated into our two-stage pipeline, ControlDreamer, enabling text-guided generation of stylized 3D models. Additionally, we present a comprehensive benchmark for 3D style editing, encompassing a broad range of subjects, including objects, animals, and characters, to further facilitate diverse 3D generation. Our comparative analysis reveals that this new pipeline outperforms existing text-to-3D methods as evidenced by qualitative comparisons and CLIP score metrics.
翻訳日:2023-12-05 19:08:55 公開日:2023-12-02
# SPEEDNet:SPEEDNet : 内視鏡画像のためのピラミッドエンハンスメントエンコーダ・デコーダネットワーク

SPEEDNet: Salient Pyramidal Enhancement Encoder-Decoder Network for Colonoscopy Images ( http://arxiv.org/abs/2312.01128v1 )

ライセンス: Link先を確認
Tushir Sahu, Vidhi Bhatt, Sai Chandra Teja R, Sparsh Mittal, Nagesh Kumar S(参考訳) 腫瘍や病変などの重要な領域の正確な同定と正確な記述は、医用画像解析において重要な目標である。 本稿では,大腸内視鏡画像中の病変を正確に分割する新しいアーキテクチャであるSPEEDNetを提案する。 SPEEDNetはDilated-Involutional Pyramidal Convolution Fusion (DIPC)と呼ばれる新しいブロックを使用している。 DIPCブロックは、拡張された畳み込み層をピラミッド構造に結合し、特徴写像をコンパクトな空間に変換する。 これにより、最適受容場における表現の学習を改善しつつ、パラメータの総数を減少させ、ぼやけた効果を減少させる。 EBHISegデータセットでは、SPEEDNetは以前の3つのネットワーク(UNet、FeedNet、AttesResDUNet)を上回っている。 具体的には、SPEEDNetは平均ダイススコア0.952、リコール0.971に達する。 定性的な結果とアブレーション研究は、SPEEDNetの有効性に関するさらなる洞察を提供する。 SPEEDNet のモデルサイズは 9.81 MB であり、UNet (22.84 MB)、FeedNet(185.58 MB)、AttesResDUNet (140.09 MB) よりもかなり小さい。

Accurate identification and precise delineation of regions of significance, such as tumors or lesions, is a pivotal goal in medical imaging analysis. This paper proposes SPEEDNet, a novel architecture for precisely segmenting lesions within colonoscopy images. SPEEDNet uses a novel block named Dilated-Involutional Pyramidal Convolution Fusion (DIPC). A DIPC block combines the dilated involution layers pairwise into a pyramidal structure to convert the feature maps into a compact space. This lowers the total number of parameters while improving the learning of representations across an optimal receptive field, thereby reducing the blurring effect. On the EBHISeg dataset, SPEEDNet outperforms three previous networks: UNet, FeedNet, and AttesResDUNet. Specifically, SPEEDNet attains an average dice score of 0.952 and a recall of 0.971. Qualitative results and ablation studies provide additional insights into the effectiveness of SPEEDNet. The model size of SPEEDNet is 9.81 MB, significantly smaller than that of UNet (22.84 MB), FeedNet(185.58 MB), and AttesResDUNet (140.09 MB).
翻訳日:2023-12-05 19:08:29 公開日:2023-12-02
# 分布最小値問題に対する対称平均場ランゲヴィンダイナミクス

Symmetric Mean-field Langevin Dynamics for Distributional Minimax Problems ( http://arxiv.org/abs/2312.01127v1 )

ライセンス: Link先を確認
Juno Kim, Kakei Yamamoto, Kazusato Oko, Zhuoran Yang, Taiji Suzuki(参考訳) 本稿では, 平均場ランゲヴィンダイナミクスを, 対称的かつ確実に収束した更新を用いて, 確率分布に対する最小限の最適化に拡張する。 分散空間における勾配勾配勾配を新しい重み付け平均化で実現し,混合ナッシュ平衡に対する平均点収束性を確立する一ループアルゴリズムである平均場ランゲヴィン平均勾配(MFL-AG)を提案する。 また, 時間と粒子の離散化のレジームについても検討し, 粒子間相互作用のすべての分布依存性を考慮し, カオス結果の新たな一様化を証明した。 さらに,線形ラストイテレート収束を伴う最良応答ダイナミクスに基づく対称二重ループアルゴリズムである平均場ランジュバンアンカーベストレスポンス(mfl-abr)を提案する。 最後に,ゼロサムマルコフゲームに適用し,長期最適性を示すシミュレーションを行う。

In this paper, we extend mean-field Langevin dynamics to minimax optimization over probability distributions for the first time with symmetric and provably convergent updates. We propose mean-field Langevin averaged gradient (MFL-AG), a single-loop algorithm that implements gradient descent ascent in the distribution spaces with a novel weighted averaging, and establish average-iterate convergence to the mixed Nash equilibrium. We also study both time and particle discretization regimes and prove a new uniform-in-time propagation of chaos result which accounts for the dependency of the particle interactions on all previous distributions. Furthermore, we propose mean-field Langevin anchored best response (MFL-ABR), a symmetric double-loop algorithm based on best response dynamics with linear last-iterate convergence. Finally, we study applications to zero-sum Markov games and conduct simulations demonstrating long-term optimality.
翻訳日:2023-12-05 19:08:02 公開日:2023-12-02
# CPUとGPUのための仮想貯留層加速:スピントルク振動子共振器のケーススタディ

Virtual reservoir acceleration for CPU and GPU: Case study for coupled spin-torque oscillator reservoir ( http://arxiv.org/abs/2312.01121v1 )

ライセンス: Link先を確認
Thomas Geert de Jong, Nozomi Akashi, Tomohiro Taniguchi, Hirofumi Notsu, Kohei Nakajima(参考訳) n$共役スピントーク発振器によって記述される貯留層をシミュレートするための高速実装を提供する。 ここで$N$は、貯水池ノードの数に対応する。 CPUとGPUに基づくさまざまな実装をベンチマークします。 私たちの新しいメソッドは、ベースラインより少なくとも2.6倍高速で、1ドルから10^4$の範囲で$n$です。 具体的には、すべての実装において、$N=1$が78.9、$N=10^3$が2.6、最終的に$N=10^4$が23.8になる。 GPUはCPUを$N=2500$で大幅に上回る。 その結果,gpuの実装は貯留層シミュレーションのためにテストされるべきであることがわかった。 ここで考慮される実装は、明示的な方法を使って近似できる進化を持つ任意の貯水池で使用できる。

We provide high-speed implementations for simulating reservoirs described by $N$-coupled spin-torque oscillators. Here $N$ also corresponds to the number of reservoir nodes. We benchmark a variety of implementations based on CPU and GPU. Our new methods are at least 2.6 times quicker than the baseline for $N$ in range $1$ to $10^4$. More specifically, over all implementations the best factor is 78.9 for $N=1$ which decreases to 2.6 for $N=10^3$ and finally increases to 23.8 for $N=10^4$. GPU outperforms CPU significantly at $N=2500$. Our results show that GPU implementations should be tested for reservoir simulations. The implementations considered here can be used for any reservoir with evolution that can be approximated using an explicit method.
翻訳日:2023-12-05 19:07:36 公開日:2023-12-02
# 正確性を超えた統計的尺度と自己指導型学習の表現評価基準

Beyond Accuracy: Statistical Measures and Benchmark for Evaluation of Representation from Self-Supervised Learning ( http://arxiv.org/abs/2312.01118v1 )

ライセンス: Link先を確認
Jiantao Wu, Shentong Mo, Sara Atito, Josef Kittler, Zhenhua Feng, Muhammad Awais(参考訳) 近年,自己教師付き距離学習が汎用距離関数を学習する可能性に注目が集まっている。 従来の管理対象であるスケーラビリティやラベルバイアスの制限を克服するものだ。 このドメインの進歩にもかかわらず、クラスの範囲が狭い現在のベンチマークは、意味表現のニュアンス評価を止める。 このギャップを埋めるために,ImageNet-21KとWordNet上に構築された,多様なクラスと粒度を持つ大規模ベンチマーク,統計量学習ベンチマーク(SMLB)を導入する。 SMLBは、14M以上の画像、20Kクラス、および16Kの分類ノードで識別的識別性と一般化性を厳格に評価するように設計されている。 また,クラス数の変化に対して効率的かつ堅牢な距離統計情報を測定するために,分離性評価指標「オーバーラップ」と一貫性評価指標「aSTD」を提案する。 我々のベンチマークは、精度を超えて表現の質を評価する新しい視点を提供する。 本研究は,SSLモデルに固有の教師付き学習の限界とクラスバイアスを明らかにし,今後のモデル強化の可能性について考察した。

Recently, self-supervised metric learning has raised attention for the potential to learn a generic distance function. It overcomes the limitations of conventional supervised one, e.g., scalability and label biases. Despite progress in this domain, current benchmarks, incorporating a narrow scope of classes, stop the nuanced evaluation of semantic representations. To bridge this gap, we introduce a large-scale benchmark with diversity and granularity of classes, Statistical Metric Learning Benchmark (SMLB) built upon ImageNet-21K and WordNet. SMLB is designed to rigorously evaluate the discriminative discernment and generalizability across more than 14M images, 20K classes, and 16K taxonomic nodes. Alongside, we propose novel evaluation metrics -- `overlap' for separability and `aSTD' for consistency -- to measure distance statistical information, which are efficient and robust to the change of class number. Our benchmark offers a novel perspective of evaluating the quality of representations beyond accuracy. Our findings reveal the limitations of supervised learning and the class bias inherent in SSL models, offering insights into potential areas for future model enhancement.
翻訳日:2023-12-05 19:06:55 公開日:2023-12-02
# Paved2Paradise:実世界におけるコスト効果とスケーラブルLiDARシミュレーション

Paved2Paradise: Cost-Effective and Scalable LiDAR Simulation by Factoring the Real World ( http://arxiv.org/abs/2312.01117v1 )

ライセンス: Link先を確認
Michael A. Alcorn and Noah Schwartz(参考訳) 強力な実世界性能を達成するためには、ニューラルネットワークは大規模で多様なデータセットでトレーニングする必要があるが、このようなデータセットの取得とアノテートにはコストがかかり、時間を要する。 本稿では,完全なラベル付き,多彩な,現実的なlidarデータセットをスクラッチから生成する,単純で費用対効果の高いアプローチであるpaved2paradiseについて述べる。 私たちのキーとなる洞察は、意図的に別々の"背景"と"対象"データセット(すなわち、現実世界をリファクタリングする)を収集することで、それらをインテリジェントに組み合わせて、組合せ的に大きく、多様なトレーニングセットを生成することができるということです。 paved2paradiseパイプラインは,(1)不適切なバックグラウンドデータ収集,(2)孤立した環境(駐車場など)で異なる行動を行う対象クラス(es)から個人を記録する,(3)オブジェクトデータセットのラベルをブートストラップする,(4)バックグラウンドで任意の場所にオブジェクトを置くことでサンプルを生成する,の4つのステップで構成される。 paved2paradiseの有用性を示すために,(1)果樹園における人間検出(公共データがないタスク)と(2)都市環境における歩行者検出の2つの課題のための合成データセットを作成した。 定性的には、Paved2Paradise合成データに特化して訓練されたモデルは、果樹園の人間を検出するのに非常に効果的である。 定量的に、KITTIのバックグラウンドをソースとするPaved2Paradiseデータに基づいてトレーニングされたモデルは、実際のデータセットでトレーニングされたモデルと互換性がある。 これらの結果から、Paved2Paradise合成データパイプラインは、ライダーデータセットの取得がこれまでコストを抑えてきたセクターにおけるポイントクラウドモデル開発の加速に役立つことが示唆された。

To achieve strong real world performance, neural networks must be trained on large, diverse datasets; however, obtaining and annotating such datasets is costly and time-consuming, particularly for 3D point clouds. In this paper, we describe Paved2Paradise, a simple, cost-effective approach for generating fully labeled, diverse, and realistic lidar datasets from scratch, all while requiring minimal human annotation. Our key insight is that, by deliberately collecting separate "background" and "object" datasets (i.e., "factoring the real world"), we can intelligently combine them to produce a combinatorially large and diverse training set. The Paved2Paradise pipeline thus consists of four steps: (1) collecting copious background data, (2) recording individuals from the desired object class(es) performing different behaviors in an isolated environment (like a parking lot), (3) bootstrapping labels for the object dataset, and (4) generating samples by placing objects at arbitrary locations in backgrounds. To demonstrate the utility of Paved2Paradise, we generated synthetic datasets for two tasks: (1) human detection in orchards (a task for which no public data exists) and (2) pedestrian detection in urban environments. Qualitatively, we find that a model trained exclusively on Paved2Paradise synthetic data is highly effective at detecting humans in orchards, including when individuals are heavily occluded by tree branches. Quantitatively, a model trained on Paved2Paradise data that sources backgrounds from KITTI performs comparably to a model trained on the actual dataset. These results suggest the Paved2Paradise synthetic data pipeline can help accelerate point cloud model development in sectors where acquiring lidar datasets has previously been cost-prohibitive.
翻訳日:2023-12-05 19:06:23 公開日:2023-12-02
# マグヌス展開に基づく時間依存schr\"odinger方程式の数値実時間プロパゲータを保存した単純で一般ユニタリティー

Simple and general unitarity conserving numerical real time propagators of time dependent Schr\"odinger equation based on Magnus expansion ( http://arxiv.org/abs/2312.01115v1 )

ライセンス: Link先を確認
Taner M. Ture and Seogjoo J. Jang(参考訳) マグナス拡大(Magnus expansion)は、指数関数の中で時間依存ハミルトニアンのリアルタイムプロパゲータを拡張する一般的な方法であり、ユニタリ性は任意の順序で満たされる。 この性質とラグランジュ補間公式を時間間隔ごとの時間依存ハミルトニアンに対して明示的に積分し、一般時間依存ハミルトニアンの微分時間進化作用素のユニタリ性を保存する近似を導出する。 結果として得られる2次近似は、2つの端点のハミルトニアンの平均値と同じである。 異なる時間にハミルトニアンの可換子を含む3つの四階近似を同定し、6階の式を導出する。 これらの近似の検定と、正弦波時間依存性を持つ2つの状態依存ハミルトニアンに対する他の利用可能な式は、これらの近似の相対的性能に関する情報を提供し、導出式は、時間分解分光法、量子制御、量子センシング、開系量子力学のための時間発展のための有用な数値ツールとして役立つことを示唆する。

Magnus expansion provides a general way to expand the real time propagator of a time dependent Hamiltonian within the exponential such that the unitarity is satisfied at any order. We use this property and explicit integration of Lagrange interpolation formulas for the time dependent Hamiltonian within each time interval and derive approximations that preserve unitarity for the differential time evolution operators of general time dependent Hamiltonians. The resulting second order approximation is the same as using the average of Hamiltonians for two end points of time. We identify three fourth order approximations involving commutators of Hamiltonians at different times, and also derive a sixth order expression. Test of these approximations along with other available expressions for a two state time dependent Hamiltonian with sinusoidal time dependences provide information on relative performance of these approximations, and suggest that the derived expressions can serve as useful numerical tools for time evolution for time resolved spectroscopy, quantum control, quantum sensing, and open system quantum dynamics.
翻訳日:2023-12-05 19:05:45 公開日:2023-12-02
# TURead:トルコ語読みの眼球運動データセット

TURead: An eye movement dataset of Turkish reading ( http://arxiv.org/abs/2312.01114v1 )

ライセンス: Link先を確認
Cengiz Acarturk, Aysegul Ozkan, Tugce Nur Pekcetin, Zuhal Ormanoglu, Bilal Kirkici(参考訳) 本研究では,トルコ語における無言文と口頭文の読みの目の動きデータセットであるtureadを提案する。 TUReadは形態学と眼球運動制御の関係を調べるための実証データを提供する。 対象語を単語長とトルコ語でよく使われる2つの接尾辞の追加によって操作する目標語アプローチを用いる。 このデータセットは、よく確立された眼球運動変数、母音調和やbigram-trigram周波数などの語彙的特徴、単語長、予測可能性、頻度、眼球音声スパン測度、根語のクローズテストスコア、接尾辞予測可能性、および2つの作業記憶テストから得られたスコアを含む。 固定パラメータと単語特性は関連する文献で報告されたパターンと一致している。

In this study, we present TURead, an eye movement dataset of silent and oral sentence reading in Turkish, an agglutinative language with a shallow orthography understudied in reading research. TURead provides empirical data to investigate the relationship between morphology and oculomotor control. We employ a target-word approach in which target words are manipulated by word length and by the addition of two commonly used suffixes in Turkish. The dataset contains well-established eye movement variables; prelexical characteristics such as vowel harmony and bigram-trigram frequencies and word features, such as word length, predictability, frequency, eye voice span measures, Cloze test scores of the root word and suffix predictabilities, as well as the scores obtained from two working memory tests. Our findings on fixation parameters and word characteristics are in line with the patterns reported in the relevant literature.
翻訳日:2023-12-05 19:05:22 公開日:2023-12-02
# 非凸リスク制約学習における強い双対関係

Strong Duality Relations in Nonconvex Risk-Constrained Learning ( http://arxiv.org/abs/2312.01110v1 )

ライセンス: Link先を確認
Dionysis Kalogerias, Spyridon Pougkakiotis(参考訳) 我々は,複数の非凸損失関数と/または学習制約を持つ機能的2段階構成リスク制約学習問題に対して,非凸性にかかわらず,最小限の技術的前提の下で,強い双対関係を確立する。 特に本研究の結果は,(リスクニュートラル)制約付き学習における芸術水準の拡大と改善の両面において,研究対象の課題のクラスにおけるゼロ双対性ギャップを暗示している。 具体的には,有界リスクエンベロープによる二重表現を認め,期待を一般化し,条件付き値アットリスク (CVaR) や平均絶対偏差 (MAD) などの一般的な事例を含む,実数値凸・正の均質リスク尺度を含むリスク目標・制約について考察する。 以上より,j.j. uhl の凸性定理(一般,無限次元バナッハ空間に対する a. a. lyapunov の凸性定理の拡張)を新たに適用した,無限次元のリスク制約非凸プログラミングの最近の進歩に基づく。 リスクニュートラルな設定を専門にすることにより、制約付き分類と回帰を統一レンズの下で扱えることを示すと同時に、現在の文献で実施されている一定の制約的な仮定を排除し、非凸制約学習のための新しい最先端の強い双対性フレームワークを提供する。

We establish strong duality relations for functional two-step compositional risk-constrained learning problems with multiple nonconvex loss functions and/or learning constraints, regardless of nonconvexity and under a minimal set of technical assumptions. Our results in particular imply zero duality gaps within the class of problems under study, both extending and improving on the state of the art in (risk-neutral) constrained learning. More specifically, we consider risk objectives/constraints which involve real-valued convex and positively homogeneous risk measures admitting dual representations with bounded risk envelopes, generalizing expectations and including popular examples, such as the conditional value-at-risk (CVaR), the mean-absolute deviation (MAD), and more generally all real-valued coherent risk measures on integrable losses as special cases. Our results are based on recent advances in risk-constrained nonconvex programming in infinite dimensions, which rely on a remarkable new application of J. J. Uhl's convexity theorem, which is an extension of A. A. Lyapunov's convexity theorem for general, infinite dimensional Banach spaces. By specializing to the risk-neutral setting, we demonstrate, for the first time, that constrained classification and regression can be treated under a unifying lens, while dispensing certain restrictive assumptions enforced in the current literature, yielding a new state-of-the-art strong duality framework for nonconvex constrained learning.
翻訳日:2023-12-05 19:05:05 公開日:2023-12-02
# Kattis vs. ChatGPT:人工知能時代のプログラミング課題の評価と評価

Kattis vs. ChatGPT: Assessment and Evaluation of Programming Tasks in the Age of Artificial Intelligence ( http://arxiv.org/abs/2312.01109v1 )

ライセンス: Link先を確認
Nora Dunder, Saga Lundborg, Olga Viberg, Jacqueline Wong(参考訳) aiを活用した教育技術は、コンピュータサイエンス教育の学生や教師を支援できる。 しかし、近年のジェネレーティブAIの発展、特にChatGPTの人気が高まっているため、プログラムタスクの解決に大規模言語モデルを使用することの有効性は未解明である。 本研究は、導入型プログラミングコースにおいて、異なる難易度レベルでコードソリューションを生成するchatgptの能力について検討する。 高等教育でよく用いられるコンピュータサイエンスプログラムのための自動ソフトウェア評価ツールであるkattisにより、ランダムに選択された127のプログラミング問題に対してchatgptをテストした。 その結果、chatgptはkattisが生成し評価した127のプログラミングタスクのうち19を独立に解決できることがわかった。 さらに、chatgptは単純な問題に対して正確なコードソリューションを生成することができたが、より複雑なプログラミングタスクでは困難に遭遇した。 この結果は、プログラミング教育におけるAIを活用したツールの有用性に関する議論の継続に寄与している。

AI-powered education technologies can support students and teachers in computer science education. However, with the recent developments in generative AI, and especially the increasingly emerging popularity of ChatGPT, the effectiveness of using large language models for solving programming tasks has been underexplored. The present study examines ChatGPT's ability to generate code solutions at different difficulty levels for introductory programming courses. We conducted an experiment where ChatGPT was tested on 127 randomly selected programming problems provided by Kattis, an automatic software grading tool for computer science programs, often used in higher education. The results showed that ChatGPT independently could solve 19 out of 127 programming tasks generated and assessed by Kattis. Further, ChatGPT was found to be able to generate accurate code solutions for simple problems but encountered difficulties with more complex programming tasks. The results contribute to the ongoing debate on the utility of AI-powered tools in programming education.
翻訳日:2023-12-05 19:04:37 公開日:2023-12-02
# 合成データと伝達学習を用いた低資源テキストの音声システムへの高速話者適応

Rapid Speaker Adaptation in Low Resource Text to Speech Systems using Synthetic Data and Transfer learning ( http://arxiv.org/abs/2312.01107v1 )

ライセンス: Link先を確認
Raviraj Joshi, Nikesh Garera(参考訳) テキスト音声(TTS)システムは、エンドツーエンドのディープラーニングアプローチを使って構築されている。 しかし、これらのシステムは大量のトレーニングデータを必要とする。 生産品質TTSの構築と、極めて低い資源環境下で話者適応を行うためのアプローチを提案する。 本稿では,高資源言語データと合成データを用いた転送学習手法を提案する。 我々は、外部ドメインの高リソース英語から学習を転送する。 さらに,対象言語における単一話者ttsを用いて,ドメイン内合成データを生成する。 3段階のアプローチでハイクオリティな単一話者ttsシステムを低リソースインド語ヒンディー語で訓練した。 我々は、スペクトル予測ネットワークとウェーブグローボコーダを備えたTacotron2ライクなセットアップを使用する。 tacotron2音響モデルは英語のデータに基づいて訓練され、続いて既存のttsシステムからの合成ヒンズーデータがある。 最後に、このモデルのデコーダは3時間のヒンディー語話者データのみに微調整され、話者適応が迅速になる。 主観的MOS評価を用いた2つの事前学習とデコーダのみの微調整の重要性を示す。 高リソース言語と合成コーパスからの転送学習を用いて,カスタムttsモデルをトレーニングするための低コストなソリューションを提案する。

Text-to-speech (TTS) systems are being built using end-to-end deep learning approaches. However, these systems require huge amounts of training data. We present our approach to built production quality TTS and perform speaker adaptation in extremely low resource settings. We propose a transfer learning approach using high-resource language data and synthetically generated data. We transfer the learnings from the out-domain high-resource English language. Further, we make use of out-of-the-box single-speaker TTS in the target language to generate in-domain synthetic data. We employ a three-step approach to train a high-quality single-speaker TTS system in a low-resource Indian language Hindi. We use a Tacotron2 like setup with a spectrogram prediction network and a waveglow vocoder. The Tacotron2 acoustic model is trained on English data, followed by synthetic Hindi data from the existing TTS system. Finally, the decoder of this model is fine-tuned on only 3 hours of target Hindi speaker data to enable rapid speaker adaptation. We show the importance of this dual pre-training and decoder-only fine-tuning using subjective MOS evaluation. Using transfer learning from high-resource language and synthetic corpus we present a low-cost solution to train a custom TTS model.
翻訳日:2023-12-05 19:04:20 公開日:2023-12-02
# S2P3:自己監督型ポラリメトリックポース予測

S2P3: Self-Supervised Polarimetric Pose Prediction ( http://arxiv.org/abs/2312.01105v1 )

ライセンス: Link先を確認
Patrick Ruhkamp, Daoyi Gao, Nassir Navab, Benjamin Busam(参考訳) 本稿では,マルチモーダルRGB+ポラリメトリック画像から,最初の自己監督型6次元オブジェクトポーズ予測を提案する。 新たなトレーニングパラダイムは 1)偏光の幾何学的情報を抽出する物理モデル 2 教員養成型知識蒸留方式と 3) 微分可能レンダリングと可逆物理的制約による自己教師付き損失定式化。 いずれのネットワークも偏光特性を利用して, 形状先行と偏光特性を物理モデルから符号化することでロバストな幾何表現を学習する。 教師からの幾何学的擬似ラベルは、注釈付き実データなしで学生ネットワークをサポートする。 自己教師型直接結合のための予測ポーズを持つ微分可能なレンダラーにより、オブジェクトの高密度な外観と幾何情報を得る。 また,本論文では,偏光特性の物理的制約によるエンドツーエンドの自己教師付き学習を可能にする物理形状事前の可逆的定式化を,偏光画像と比較した。 特に, テクスチャレスあるいは反射面を有する光量的に挑戦する物体と, 最も顕著な性能向上が報告された透明材料に注目した。

This paper proposes the first self-supervised 6D object pose prediction from multimodal RGB+polarimetric images. The novel training paradigm comprises 1) a physical model to extract geometric information of polarized light, 2) a teacher-student knowledge distillation scheme and 3) a self-supervised loss formulation through differentiable rendering and an invertible physical constraint. Both networks leverage the physical properties of polarized light to learn robust geometric representations by encoding shape priors and polarization characteristics derived from our physical model. Geometric pseudo-labels from the teacher support the student network without the need for annotated real data. Dense appearance and geometric information of objects are obtained through a differentiable renderer with the predicted pose for self-supervised direct coupling. The student network additionally features our proposed invertible formulation of the physical shape priors that enables end-to-end self-supervised training through physical constraints of derived polarization characteristics compared against polarimetric input images. We specifically focus on photometrically challenging objects with texture-less or reflective surfaces and transparent materials for which the most prominent performance gain is reported.
翻訳日:2023-12-05 19:04:03 公開日:2023-12-02
# QPoser:制御可能なPose生成のための量子化された明示的なPose事前モデリング

QPoser: Quantized Explicit Pose Prior Modeling for Controllable Pose Generation ( http://arxiv.org/abs/2312.01104v1 )

ライセンス: Link先を確認
Yumeng Li, Yaoxiang Ding, Zhong Ren, Kun Zhou(参考訳) 明示的なポーズ事前モデルは、ポーズ関連の下流タスクで使用するために、人間のポーズを潜在表現に圧縮します。 望ましい明示的なポーズ 事前のモデルは3つの望ましい能力を満たすべきである。 1) 正しさ,すなわち,物理的に可能なポーズを確実に生成すること 2)表現力,すなわち,世代内で詳細を保存することを保証すること 3)制御性、つまり参照ポーズと明示的な命令の生成は便利であるべきです。 既存の明示的なポーズ先行モデルは、特別な可制御性において、3つの特性の全てを達成できない。 この状況を打破するため,我々は,正確性と表現力を保証する高度に制御可能な明示的なポーズ先行モデルであるqposerを提案する。 QPoserでは,多頭部ベクトル量子化オートエンコーダ(MS-VQVAE)を提案する。 さらに、グローバルローカル特徴統合機構(GLIF-AE)を用いて、潜伏表現をアンタングル化し、全体情報を局所結合特徴に統合する。 実験の結果,QPoserは表現的・正しいポーズの表現における最先端のアプローチよりも優れており,参照ポーズからの詳細な条件生成や指示の促しにも容易に利用できることがわかった。

Explicit pose prior models compress human poses into latent representations for using in pose-related downstream tasks. A desirable explicit pose prior model should satisfy three desirable abilities: 1) correctness, i.e. ensuring to generate physically possible poses; 2) expressiveness, i.e. ensuring to preserve details in generation; 3) controllability, meaning that generation from reference poses and explicit instructions should be convenient. Existing explicit pose prior models fail to achieve all of three properties, in special controllability. To break this situation, we propose QPoser, a highly controllable explicit pose prior model which guarantees correctness and expressiveness. In QPoser, a multi-head vector quantized autoencoder (MS-VQVAE) is proposed for obtaining expressive and distributed pose representations. Furthermore, a global-local feature integration mechanism (GLIF-AE) is utilized to disentangle the latent representation and integrate full-body information into local-joint features. Experimental results show that QPoser significantly outperforms state-of-the-art approaches in representing expressive and correct poses, meanwhile is easily to be used for detailed conditional generation from reference poses and prompting instructions.
翻訳日:2023-12-05 19:03:47 公開日:2023-12-02
# 低リソース制約下での音声合成のための符号混合テキスト

Code-Mixed Text to Speech Synthesis under Low-Resource Constraints ( http://arxiv.org/abs/2312.01103v1 )

ライセンス: Link先を確認
Raviraj Joshi, Nikesh Garera(参考訳) テキスト音声(TTS)システムは音声ベースのeコマースアプリケーションにおいて重要なコンポーネントである。 これらのアプリケーションには、エンドツーエンド音声アシスタントとカスタマエクスペリエンス(CX)音声ボットが含まれる。 コードミキシングTSは、製品名が英語で一般的に説明されるのに対して、周辺テキストは地域言語であるので、これらのアプリケーションにも関係がある。 本稿では,eコマースアプリケーション向けに構築されたHindi-English TTSシステムを用いて,生産品質のコードミキシングを行う手法について述べる。 本稿では,個別言語における単言語データを用いたデータ指向アプローチを提案する。 翻訳モデルを利用してローマ語のテキストを共通のDevanagariスクリプトに変換し、両方のデータセットを組み合わせてトレーニングします。 純粋なコード混合テストセットでは,コード混合を行わない単一スクリプトバイリンガルトレーニングがうまく機能することを示す。 さらに,tacotron2+waveglowによる単一話者適応とマルチ話者訓練の徹底的な評価を行い,前者のアプローチがよりうまく機能することを示す。 これらのアプローチは、転送学習とデコーダのみの微調整と組み合わせてパフォーマンスを向上させる。 これらの手法を Google TTS と比較し,提案手法と比較して 0.02 の正のCMOSスコアを報告した。 また、低リソースの音声適応実験を行い、新しい音声をわずか3時間のデータでオンボードできることを示した。 これは、リソース制約設定における事前トレーニングされたモデルの重要性を強調します。 この主観的評価は、システムの品質を示すために、多数のドメイン外の純粋なコード混合文上で実行される。

Text-to-speech (TTS) systems are an important component in voice-based e-commerce applications. These applications include end-to-end voice assistant and customer experience (CX) voice bot. Code-mixed TTS is also relevant in these applications since the product names are commonly described in English while the surrounding text is in a regional language. In this work, we describe our approaches for production quality code-mixed Hindi-English TTS systems built for e-commerce applications. We propose a data-oriented approach by utilizing monolingual data sets in individual languages. We leverage a transliteration model to convert the Roman text into a common Devanagari script and then combine both datasets for training. We show that such single script bi-lingual training without any code-mixing works well for pure code-mixed test sets. We further present an exhaustive evaluation of single-speaker adaptation and multi-speaker training with Tacotron2 + Waveglow setup to show that the former approach works better. These approaches are also coupled with transfer learning and decoder-only fine-tuning to improve performance. We compare these approaches with the Google TTS and report a positive CMOS score of 0.02 with the proposed transfer learning approach. We also perform low-resource voice adaptation experiments to show that a new voice can be onboarded with just 3 hrs of data. This highlights the importance of our pre-trained models in resource-constrained settings. This subjective evaluation is performed on a large number of out-of-domain pure code-mixed sentences to demonstrate the high quality of the systems.
翻訳日:2023-12-05 19:03:29 公開日:2023-12-02
# 全スライド画像分類のための複数インスタンス学習の再考:バグレベル分類器は良いインスタンスレベル教師である

Rethinking Multiple Instance Learning for Whole Slide Image Classification: A Bag-Level Classifier is a Good Instance-Level Teacher ( http://arxiv.org/abs/2312.01099v1 )

ライセンス: Link先を確認
Hongyi Wang, Luyang Luo, Fang Wang, Ruofeng Tong, Yen-Wei Chen, Hongjie Hu, Lanfen Lin, Hao Chen(参考訳) マルチインスタンス学習(MIL)は、WSI(Whole Slide Image)分類において約束されている。 しかし、これらのギガピクセル画像の処理に伴う計算コストが高いため、大きな課題が続いている。 既存の手法は一般に2段階のアプローチを採用しており、学習不可能な特徴埋め込み段階と分類器訓練段階からなる。 他のドメインで事前トレーニングされた固定機能埋め込みを使用することでメモリ消費を大幅に削減できるが、そのようなスキームは2つのステージ間の差異をもたらし、最適以下の分類精度をもたらす。 この問題に対処するために、バッグレベルの分類器は、良いインスタンスレベルの教師になれることを提案する。 このアイデアに基づいて,組込み器とバッグ分類器を低コストで結合するICMIL(Iteratively Coupled Multiple Instance Learning)を設計する。 ICMILは最初、バグ分類器を訓練するためにパッチ埋め込み器を修正し、続いてバグ分類器を修正してパッチ埋め込み器を微調整した。 その後、改良された埋め込み子はより良い表現を生成することができ、次のイテレーションでより正確な分類が可能となる。 さらに,より柔軟で効果的な組込み器の微調整を実現するために,バッグ分類器のカテゴリ知識を効率的に抽出し,インスタンスレベルの組込み器の微調整を支援する教師学習フレームワークを提案する。 ICMILの有効性を検証するために,4つの異なるデータセットを用いて詳細な実験を行った。 実験結果から,本手法は既存のMILバックボーンの性能を大幅に向上し,最先端の結果が得られた。 コードは以下の通りである。 https://github.com/Dootmaan/ICMIL/tree/confidence_based

Multiple Instance Learning (MIL) has demonstrated promise in Whole Slide Image (WSI) classification. However, a major challenge persists due to the high computational cost associated with processing these gigapixel images. Existing methods generally adopt a two-stage approach, comprising a non-learnable feature embedding stage and a classifier training stage. Though it can greatly reduce the memory consumption by using a fixed feature embedder pre-trained on other domains, such scheme also results in a disparity between the two stages, leading to suboptimal classification accuracy. To address this issue, we propose that a bag-level classifier can be a good instance-level teacher. Based on this idea, we design Iteratively Coupled Multiple Instance Learning (ICMIL) to couple the embedder and the bag classifier at a low cost. ICMIL initially fix the patch embedder to train the bag classifier, followed by fixing the bag classifier to fine-tune the patch embedder. The refined embedder can then generate better representations in return, leading to a more accurate classifier for the next iteration. To realize more flexible and more effective embedder fine-tuning, we also introduce a teacher-student framework to efficiently distill the category knowledge in the bag classifier to help the instance-level embedder fine-tuning. Thorough experiments were conducted on four distinct datasets to validate the effectiveness of ICMIL. The experimental results consistently demonstrate that our method significantly improves the performance of existing MIL backbones, achieving state-of-the-art results. The code is available at: https://github.com/Dootmaan/ICMIL/tree/confidence_based
翻訳日:2023-12-05 19:03:08 公開日:2023-12-02
# 新型コロナウイルスのツイートで話題や感情を自動的に発見するハイブリッドディープラーニングフレームワークの探索

Exploring a Hybrid Deep Learning Framework to Automatically Discover Topic and Sentiment in COVID-19 Tweets ( http://arxiv.org/abs/2312.01178v1 )

ライセンス: Link先を確認
Khandaker Tayef Shahriar, Iqbal H. Sarker(参考訳) 新型コロナウイルス(covid-19)は、世界的な公衆衛生問題や、経済危機、失業、精神的苦痛などの問題を生み出している。 パンデミックは世界中で致命的であり、多くの人々が感染だけでなく、問題、ストレス、驚き、恐怖、恨み、憎しみも伴っている。 twitterは、非常に影響力のあるソーシャルメディアプラットフォームであり、市民と政府両方の情報源が情報を共有する健康関連の情報、ニュース、意見、世論の重要な情報源である。 したがって、政策立案者が賢明な判断を下すためには、covid-19ツイートの効果的な分析が不可欠である。 しかし、新型コロナウイルスのツイートの重要トピックに関する人々の感情を理解するために、主要なテキストストリームから興味深く有用なコンテンツを特定することは困難である。 本稿では,重要な話題を重要なラベルで抽出し,各トピックの肯定的,否定的,中立的なつぶやきを分類することで,話題ベースの感情分析を行うための新しい \textit{framework}を提案する。 モデル構築にあたっては,感情分析のための BiLSTM と GRU 構造のハイブリッド化を考慮した。 実験結果から,提案手法はより優れたトピックラベルを抽出し,提案手法を用いた感情分析手法により従来のモデルと比較して高い精度が得られた。

COVID-19 has created a major public health problem worldwide and other problems such as economic crisis, unemployment, mental distress, etc. The pandemic is deadly in the world and involves many people not only with infection but also with problems, stress, wonder, fear, resentment, and hatred. Twitter is a highly influential social media platform and a significant source of health-related information, news, opinion and public sentiment where information is shared by both citizens and government sources. Therefore an effective analysis of COVID-19 tweets is essential for policymakers to make wise decisions. However, it is challenging to identify interesting and useful content from major streams of text to understand people's feelings about the important topics of the COVID-19 tweets. In this paper, we propose a new \textit{framework} for analyzing topic-based sentiments by extracting key topics with significant labels and classifying positive, negative, or neutral tweets on each topic to quickly find common topics of public opinion and COVID-19-related attitudes. While building our model, we take into account hybridization of BiLSTM and GRU structures for sentiment analysis to achieve our goal. The experimental results show that our topic identification method extracts better topic labels and the sentiment analysis approach using our proposed hybrid deep learning model achieves the highest accuracy compared to traditional models.
翻訳日:2023-12-05 18:56:02 公開日:2023-12-02
# IDPL-PFOD2:Farsi光文字認識のための大規模データセット

IDPL-PFOD2: A New Large-Scale Dataset for Printed Farsi Optical Character Recognition ( http://arxiv.org/abs/2312.01177v1 )

ライセンス: Link先を確認
Fatemeh Asadi-zeydabadi, Ali Afkari-Fahandari, Amin Faraji, Elham Shabaninia, Hossein Nezamabadi-pour(参考訳) 光文字認識は、文書画像を検索可能で編集可能なテキストに変換する技術であり、スキャンされた文書を処理するための貴重なツールである。 ファージ語はアジアの顕著で公式な言語であるが、ファージの印刷されたテキストを認識する効率的な方法を開発する努力は比較的限られている。 これは主に、カーシブ形式、特定のアルファベット文字間の類似性、多くのダイアクリティカル文字や点配置の存在など、言語特有の特徴に起因している。 一方、ディープラーニングアーキテクチャの効果的な性能に関する十分なトレーニングサンプル要件を考えると、そのようなデータセットの開発は最重要事項である。 これらの懸念を踏まえて,本論文はFarsi印刷テキスト認識に適した新しい大規模データセットIDPL-PFOD2を提案する。 データセットは、さまざまなフォント、スタイル、サイズを備えた2003541イメージで構成されている。 このデータセットは、以前導入されたIDPL-PFODデータセットの拡張であり、ボリュームと多様性の両方を大幅に向上させる。 さらに、データセットの有効性は、CRNNベースのアーキテクチャとVision Transformerアーキテクチャの両方を利用して評価される。 CRNNベースのモデルは、ベースライン精度が78.49%、正規化編集距離が97.72%、Vision Transformerアーキテクチャが81.32%、正規化編集距離が98.74%である。

Optical Character Recognition is a technique that converts document images into searchable and editable text, making it a valuable tool for processing scanned documents. While the Farsi language stands as a prominent and official language in Asia, efforts to develop efficient methods for recognizing Farsi printed text have been relatively limited. This is primarily attributed to the languages distinctive features, such as cursive form, the resemblance between certain alphabet characters, and the presence of numerous diacritics and dot placement. On the other hand, given the substantial training sample requirements of deep-based architectures for effective performance, the development of such datasets holds paramount significance. In light of these concerns, this paper aims to present a novel large-scale dataset, IDPL-PFOD2, tailored for Farsi printed text recognition. The dataset comprises 2003541 images featuring a wide variety of fonts, styles, and sizes. This dataset is an extension of the previously introduced IDPL-PFOD dataset, offering a substantial increase in both volume and diversity. Furthermore, the datasets effectiveness is assessed through the utilization of both CRNN-based and Vision Transformer architectures. The CRNN-based model achieves a baseline accuracy rate of 78.49% and a normalized edit distance of 97.72%, while the Vision Transformer architecture attains an accuracy of 81.32% and a normalized edit distance of 98.74%.
翻訳日:2023-12-05 18:55:40 公開日:2023-12-02
# Bespoke ADCと決定木共設計によるオンセンサー印刷機械学習分類

On-sensor Printed Machine Learning Classification via Bespoke ADC and Decision Tree Co-Design ( http://arxiv.org/abs/2312.01172v1 )

ライセンス: Link先を確認
Giorgos Armeniakos, Paula L. Duarte, Priyanjana Pal, Georgios Zervakis, Mehdi B. Tahoori, Dimitrios Soudris(参考訳) プリントエレクトロニクス(pe)技術は、非繰り返しのエンジニアリングと製造コストの低さから、コスト効率の良いハードウェアをunmetのカスタマイズで提供する。 peは柔軟性、伸縮性、ポロシティ、適合性などの特徴を示しており、ユビキタスコンピューティングを実現するための重要な候補となっている。 それでもpeの大きな特徴サイズは、特にセンサ入力が必要な場合、特にコストのかかるアナログ-デジタル変換器(adc)のために、機械学習分類器のような複雑なプリント回路の実現を制限する。 この目的のために、完全にカスタマイズされたADCの設計を提案し、はじめて、造語決定木分類器を生成するための協調設計フレームワークを提案する。 総合評価の結果,この共同設計により,すべてのベンチマークケースにおいて,オンセンサプリント分類器の自己動作が可能となった。

Printed electronics (PE) technology provides cost-effective hardware with unmet customization, due to their low non-recurring engineering and fabrication costs. PE exhibit features such as flexibility, stretchability, porosity, and conformality, which make them a prominent candidate for enabling ubiquitous computing. Still, the large feature sizes in PE limit the realization of complex printed circuits, such as machine learning classifiers, especially when processing sensor inputs is necessary, mainly due to the costly analog-to-digital converters (ADCs). To this end, we propose the design of fully customized ADCs and present, for the first time, a co-design framework for generating bespoke Decision Tree classifiers. Our comprehensive evaluation shows that our co-design enables self-powered operation of on-sensor printed classifiers in all benchmark cases.
翻訳日:2023-12-05 18:55:16 公開日:2023-12-02
# 仮想カテゴリー学習:極端に限定されたラベルを用いたディエンス予測のための半教師付き学習方法

Virtual Category Learning: A Semi-Supervised Learning Method for Dense Prediction with Extremely Limited Labels ( http://arxiv.org/abs/2312.01169v1 )

ライセンス: Link先を確認
Changrui Chen, Jungong Han, Kurt Debattista(参考訳) 実世界のアプリケーションにおけるラベル付きデータのコストラインのため、擬似ラベル付けを基盤とする半教師付き学習は魅力的なソリューションである。 しかし、紛らわしいサンプルの扱いは簡単ではない: 貴重な混乱したサンプルを捨てることによって、モデルの一般化が損なわれ、トレーニングにそれらを使用することで、必然的な誤認に起因する確認バイアスが悪化する。 そこで本論文では,ラベル補正を行わずに混乱サンプルを積極的に使用することを提案する。 具体的には、具体的なラベルなしでもモデル最適化に安全に貢献できるように、各混乱したサンプルに仮想カテゴリ(VC)を割り当てる。 これはクラス間情報共有能力の上限を提供し、最終的にはより優れた埋め込み空間となる。 セマンティックセグメンテーションとオブジェクト検出という2つの主流の密集した予測タスクに関する大規模な実験は、提案されたVC学習が最先端、特にごく少数のラベルが利用可能である場合に大きく上回っていることを示している。 私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。

Due to the costliness of labelled data in real-world applications, semi-supervised learning, underpinned by pseudo labelling, is an appealing solution. However, handling confusing samples is nontrivial: discarding valuable confusing samples would compromise the model generalisation while using them for training would exacerbate the issue of confirmation bias caused by the resulting inevitable mislabelling. To solve this problem, this paper proposes to use confusing samples proactively without label correction. Specifically, a Virtual Category (VC) is assigned to each confusing sample in such a way that it can safely contribute to the model optimisation even without a concrete label. This provides an upper bound for inter-class information sharing capacity, which eventually leads to a better embedding space. Extensive experiments on two mainstream dense prediction tasks -- semantic segmentation and object detection, demonstrate that the proposed VC learning significantly surpasses the state-of-the-art, especially when only very few labels are available. Our intriguing findings highlight the usage of VC learning in dense vision tasks.
翻訳日:2023-12-05 18:54:58 公開日:2023-12-02
# 連続・一般化ゼロショット学習のためのメタラーニング属性自己対話ネットワーク

Meta-Learned Attribute Self-Interaction Network for Continual and Generalized Zero-Shot Learning ( http://arxiv.org/abs/2312.01167v1 )

ライセンス: Link先を確認
Vinay K Verma, Nikhil Mehta, Kevin J Liang, Aakansha Mishra and Lawrence Carin(参考訳) ゼロショット学習(ZSL)は、クラス属性を活用することで、トレーニング中に見えないカテゴリにモデルを一般化する、有望なアプローチである。 近年, 生成モデルを用いて授業のバイアスに対処する手法が技術の現状を推し進めているが, これらの生成モデルは訓練に遅く, 計算的に高価である。 また、これらの生成モデルは、各未確認クラスの属性ベクトルが訓練時に事前利用可能であると仮定するが、必ずしも実用的とは限らない。 さらに、以前のZSLメソッドの多くは、未確認のクラスに一度だけ適応することを前提としていますが、実際には、世界は常に変化しており、デプロイされたモデルの定期的な調整が必要です。 シーケンシャルなデータストリームを扱う準備ができていないモデルは、破滅的な忘れを経験する可能性が高い。 連続的なZSLのためのMAIN(Meta-learned Attribute Self-Interaction Network)を提案する。 メタラーニングと属性エンコーダの逆正則化を併用して学習した属性をペアリングすることで、未知のクラス属性を活用せずに、高コストな生成ベースアプローチよりもモデルを大幅に高速(>100倍)にトレーニングすることが可能となる。 我々は、一般化されたゼロショット学習と連続的な(固定/動的)ゼロショット学習設定において、5つの標準ZSLデータセット(CUB、aPY、AWA1、AWA2、SUN)でこれを実証する。 広範なアブレーションと分析により,提案する各種成分の有効性が示された。

Zero-shot learning (ZSL) is a promising approach to generalizing a model to categories unseen during training by leveraging class attributes, but challenges remain. Recently, methods using generative models to combat bias towards classes seen during training have pushed state of the art, but these generative models can be slow or computationally expensive to train. Also, these generative models assume that the attribute vector of each unseen class is available a priori at training, which is not always practical. Additionally, while many previous ZSL methods assume a one-time adaptation to unseen classes, in reality, the world is always changing, necessitating a constant adjustment of deployed models. Models unprepared to handle a sequential stream of data are likely to experience catastrophic forgetting. We propose a Meta-learned Attribute self-Interaction Network (MAIN) for continual ZSL. By pairing attribute self-interaction trained using meta-learning with inverse regularization of the attribute encoder, we are able to outperform state-of-the-art results without leveraging the unseen class attributes while also being able to train our models substantially faster (>100x) than expensive generative-based approaches. We demonstrate this with experiments on five standard ZSL datasets (CUB, aPY, AWA1, AWA2, and SUN) in the generalized zero-shot learning and continual (fixed/dynamic) zero-shot learning settings. Extensive ablations and analyses demonstrate the efficacy of various components proposed.
翻訳日:2023-12-05 18:54:36 公開日:2023-12-02
# 基礎モデルに基づくリモートセンシング変化検出のための新しい学習パラダイム

A New Learning Paradigm for Foundation Model-based Remote Sensing Change Detection ( http://arxiv.org/abs/2312.01163v1 )

ライセンス: Link先を確認
Kaiyu Li, Xiangyong Cao, Deyu Meng(参考訳) 変化検出(CD)は、土地被覆の動的過程を観察し解析するための重要な課題である。 多くの深層学習型CDモデルは優れた性能を発揮しているが、そのさらなる性能向上は、与えられたラベル付きデータから抽出された限られた知識によって制限される。 一方で、最近登場した基盤モデルには、データモダリティとプロキシタスクをまたいでスケールアップすることで、膨大な知識が含まれている。 本稿では,CDの基盤モデルの知識を抽出することを目的とした,共通基盤モデルに基づくCD適応フレームワークであるBi-Temporal Adapter Network (BAN)を提案する。 提案したBANには、凍結基礎モデル(例えばCLIP)、バイテンポラルアダプタブランチ(Bi-TAB)、それらの間のブリッジモジュールの3つの部分が含まれる。 具体的には、Bi-TABは既存の任意のCDモデルか手作りの積み重ねブロックのいずれかである。 ブリッジモジュールは、一般的な特徴をタスク/ドメイン固有の特徴と整合させ、選択した一般的な知識をBi-TABに注入するように設計されている。 私たちの知る限り、これは基盤モデルをcdタスクに適用する最初の普遍的なフレームワークです。 広範な実験により,学習可能なパラメータをほんの数個加えるだけで,既存のcd法(最大4.08\%iou改善など)の性能向上に本禁止の有効性が示された。 さらに重要なのは、これらの成功事例がリモートセンシングCDの基礎モデルの可能性を示していることだ。 コードは \url{https://github.com/likyoo/BAN} で利用可能で、Open-CD \url{https://github.com/likyoo/open-cd} でサポートされます。

Change detection (CD) is a critical task to observe and analyze dynamic processes of land cover. Although numerous deep learning-based CD models have performed excellently, their further performance improvements are constrained by the limited knowledge extracted from the given labelled data. On the other hand, the foundation models that emerged recently contain a huge amount of knowledge by scaling up across data modalities and proxy tasks. In this paper, we propose a Bi-Temporal Adapter Network (BAN), which is a universal foundation model-based CD adaptation framework aiming to extract the knowledge of foundation models for CD. The proposed BAN contains three parts, i.e. frozen foundation model (e.g., CLIP), bitemporal adapter branch (Bi-TAB), and bridging modules between them. Specifically, the Bi-TAB can be either an existing arbitrary CD model or some hand-crafted stacked blocks. The bridging modules are designed to align the general features with the task/domain-specific features and inject the selected general knowledge into the Bi-TAB. To our knowledge, this is the first universal framework to adapt the foundation model to the CD task. Extensive experiments show the effectiveness of our BAN in improving the performance of existing CD methods (e.g., up to 4.08\% IoU improvement) with only a few additional learnable parameters. More importantly, these successful practices show us the potential of foundation models for remote sensing CD. The code is available at \url{https://github.com/likyoo/BAN} and will be supported in our Open-CD \url{https://github.com/likyoo/open-cd}.
翻訳日:2023-12-05 18:54:09 公開日:2023-12-02
# カスケード光子による量子散逸適応

Quantum dissipative adaptation with cascaded photons ( http://arxiv.org/abs/2312.01157v1 )

ライセンス: Link先を確認
Thiago Ganascini, Thiago Werlang, Daniel Valente(参考訳) 古典的な散逸適応は、駆動物質における自己組織化の仮説的非平衡熱力学原理であり、遷移確率と散逸物に対する外部の駆動によって実行される非平衡な作用に関連する。 近年、散逸適応仮説が量子状態に拡張され、単一の光子パルスのみがアンサンブルの各原子を駆動する理論モデルが導入された。 ここでは、各原子を駆動するNカスケード単一光子パルスが依然として量子散逸適応を満たすことを解析的に示すことで、量子モデルをさらに一般化する。 興味深いことに、2つのパルスで達成される自己組織化のレベルは、しきい値まで1つの有効パルスとマッチングできる。

Classical dissipative adaptation is a hypothetical non-equilibrium thermodynamic principle of self-organization in driven matter, relating transition probabilities with the non-equilibrium work performed by an external drive on dissipative matter. Recently, the dissipative adaptation hypothesis was extended to a quantum regime, with a theoretical model where only one single-photon pulse drives each atom of an ensemble. Here, we further generalize that quantum model by analytically showing that N cascaded single-photon pulses driving each atom still fulfills a quantum dissipative adaptation. Interestingly, we find that the level of self-organization achieved with two pulses can be matched with a single effective pulse only up to a threshold, above which the presence of more photons provide unparalleled degrees of self-organization.
翻訳日:2023-12-05 18:53:44 公開日:2023-12-02
# 量子コンピューティングを用いた効率的な光源配置

Efficient Light Source Placement using Quantum Computing ( http://arxiv.org/abs/2312.01156v1 )

ライセンス: Link先を確認
Sascha M\"ucke and Thore Gerlach(参考訳) NP-hard問題は通常、現実世界の問題と興味深いつながりを持つビデオゲームで発生する。 ゲームマインクラフトでは、プレイヤーは暗い場所を照らすために地面にトーチを置く。 リソースを節約するトーチの総数を最小化する方法でそれを配置することは、決して簡単ではない。 本稿では,量子コンピューティングを用いてこの問題にアプローチする。 この目的のために、我々は、別のnpハード問題と非常によく似た、トーチ配置問題のqubo定式化を導出する。 我々は、反復的なプロセスでラグランジアンウェイトを学習し、QUBOの定式化のツールボックスを拡大するソリューション戦略を採用している。 最後に,実ゲームデータを用いた実量子ハードウェア実験を行い,本手法が良好なトーチ配置をもたらすことを示す。

NP-hard problems regularly come up in video games, with interesting connections to real-world problems. In the game Minecraft, players place torches on the ground to light up dark areas. Placing them in a way that minimizes the total number of torches to save resources is far from trivial. In this paper, we use Quantum Computing to approach this problem. To this end, we derive a QUBO formulation of the torch placement problem, which we uncover to be very similar to another NP-hard problem. We employ a solution strategy that involves learning Lagrangian weights in an iterative process, adding to the ever growing toolbox of QUBO formulations. Finally, we perform experiments on real quantum hardware using real game data to demonstrate that our approach yields good torch placements.
翻訳日:2023-12-05 18:53:28 公開日:2023-12-02
# 病理組織におけるギガピクセル画像合成のための超解像カスケード拡散モデル

Ultra-Resolution Cascaded Diffusion Model for Gigapixel Image Synthesis in Histopathology ( http://arxiv.org/abs/2312.01152v1 )

ライセンス: Link先を確認
Sarah Cechnicka, Hadrien Reynaud, James Ball, Naomi Simmonds, Catherine Horsfield, Andrew Smith, Candice Roufosse and Bernhard Kainz(参考訳) 病理画像からの診断は、全スライド画像の高解像度と低解像度の両方の情報に依存する。 超分解能カスケード拡散モデル(urcdms)は、全ての倍率レベルで現実的な高分解能画像の合成を可能にし、忠実性だけでなく長距離空間コヒーレンシにも焦点を当てる。 我々のモデルは既存の手法を破り、pFID-50k [2]スコアを110.63から39.52 pFID-50kに改善した。 さらに,低分解能拡散モデルでは0.11の重み付き平均絶対誤差(MAE),URCDMでは0.22の重み付きMAEに達した。

Diagnoses from histopathology images rely on information from both high and low resolutions of Whole Slide Images. Ultra-Resolution Cascaded Diffusion Models (URCDMs) allow for the synthesis of high-resolution images that are realistic at all magnification levels, focusing not only on fidelity but also on long-distance spatial coherency. Our model beats existing methods, improving the pFID-50k [2] score by 110.63 to 39.52 pFID-50k. Additionally, a human expert evaluation study was performed, reaching a weighted Mean Absolute Error (MAE) of 0.11 for the Lower Resolution Diffusion Models and a weighted MAE of 0.22 for the URCDM.
翻訳日:2023-12-05 18:53:15 公開日:2023-12-02
# ここにはない:位置プライバシー保護のための要項に基づく軌道類似性の測定

Here Is Not There: Measuring Entailment-Based Trajectory Similarity for Location-Privacy Protection and Beyond ( http://arxiv.org/abs/2312.01151v1 )

ライセンス: Link先を確認
Zilong Liu, Krzysztof Janowicz, Kitty Currier, Meilin Shi, Jinmeng Rao, Song Gao, Ling Cai, and Anita Graser(参考訳) 人間が社会的空間や物理的空間でプレイする道のりは、それらの軌道を記述し比較するための手段は、抽象的、典型的にはユークリッド空間で実行される。 応用領域における実際の個人の軌跡にこれらの措置を適用すると、抽象空間において不適切である変化は、地理的現実にオーバーレイすると突然問題となる。 本研究では,論理的包含を利用した測度を導入することにより,軌跡類似性について異なる視点を示す。 これは、事実を、旅行が行われる社会的・環境的文脈と、その実践的意味から導かれる三つの言明とみなす推論的な視点である。 本研究は,空間関係文である事象の重なり比率として測定される帰納的軌道類似性の形式化を提案する。 提案手法を用いて,プライバシ保護トラジェクトリ生成モデルLSTM-TrajGANを評価する。 エンテーメントに基づくモデル評価は、地理的空間の豊富な構造を無視する可能性(例えば、おもちゃの例における地域シフトによる保険リスクの計算ミス)を明らかにする。 我々の研究は、位置-プライバシー保護などのための軌道-類似性推論に論理的エンテーメントを適用する利点を強調している。

While the paths humans take play out in social as well as physical space, measures to describe and compare their trajectories are carried out in abstract, typically Euclidean, space. When these measures are applied to trajectories of actual individuals in an application area, alterations that are inconsequential in abstract space may suddenly become problematic once overlaid with geographic reality. In this work, we present a different view on trajectory similarity by introducing a measure that utilizes logical entailment. This is an inferential perspective that considers facts as triple statements deduced from the social and environmental context in which the travel takes place, and their practical implications. We suggest a formalization of entailment-based trajectory similarity, measured as the overlapping proportion of facts, which are spatial relation statements in our case study. With the proposed measure, we evaluate LSTM-TrajGAN, a privacy-preserving trajectory-generation model. The entailment-based model evaluation reveals potential consequences of disregarding the rich structure of geographic space (e.g., miscalculated insurance risk due to regional shifts in our toy example). Our work highlights the advantage of applying logical entailment to trajectory-similarity reasoning for location-privacy protection and beyond.
翻訳日:2023-12-05 18:52:59 公開日:2023-12-02
# 進化的アルゴリズムによるポインタネットワークの学習

Pointer Networks Trained Better via Evolutionary Algorithms ( http://arxiv.org/abs/2312.01150v1 )

ライセンス: Link先を確認
Muyao Zhong, Shengcai Liu, Bingdong Li, Haobo Fu, Chao Qian, Ke Tand, Peng Yang(参考訳) Pointer Network (PtrNet) は、組合せ最適化問題(COP)を解決するためのニューラルネットワークである。 PtrNetsは複雑なCOPsインスタンスに対してリアルタイムフィードフォワード推論を提供するが、結果の品質は満足できない傾向にある。 一つの考えられる理由は、このような問題は勾配降下のグローバルな探索能力の欠如に苦しんでおり、教師付き学習と強化学習の両方を含む伝統的なptrnetトレーニング手法で頻繁に使われている。 PtrNetの性能向上のために,PtrNetと進化的アルゴリズム(EA)の訓練の利点を深く研究した。 トラベリングセールスマン問題(TSP)に基づく広範な実証研究が実施されている。 その結果、EAでトレーニングされたPtrNetは、様々な問題スケールで8つの最先端手法よりもずっと優れた推論結果が得られることが示された。 勾配降下に基づくPtrNetトレーニング手法と比較して、EAは同じ計算時間でソリューションの品質を最大30.21 %向上させる。 この利点を活かして,同じ次元でptrnetをトレーニングすることにより,1000次元tspの解法を初めて報告することが可能であり,高次元copsの解法においてptrnetの性能を向上させるためには,トレーニングインスタンスのスケールアップが必要であることを強く示唆する。

Pointer Network (PtrNet) is a specific neural network for solving Combinatorial Optimization Problems (COPs). While PtrNets offer real-time feed-forward inference for complex COPs instances, its quality of the results tends to be less satisfactory. One possible reason is that such issue suffers from the lack of global search ability of the gradient descent, which is frequently employed in traditional PtrNet training methods including both supervised learning and reinforcement learning. To improve the performance of PtrNet, this paper delves deeply into the advantages of training PtrNet with Evolutionary Algorithms (EAs), which have been widely acknowledged for not easily getting trapped by local optima. Extensive empirical studies based on the Travelling Salesman Problem (TSP) have been conducted. Results demonstrate that PtrNet trained with EA can consistently perform much better inference results than eight state-of-the-art methods on various problem scales. Compared with gradient descent based PtrNet training methods, EA achieves up to 30.21\% improvement in quality of the solution with the same computational time. With this advantage, this paper is able to at the first time report the results of solving 1000-dimensional TSPs by training a PtrNet on the same dimensionality, which strongly suggests that scaling up the training instances is in need to improve the performance of PtrNet on solving higher-dimensional COPs.
翻訳日:2023-12-05 18:52:38 公開日:2023-12-02
# 何か変わったか? 2次元分割マスクによる3次元変化検出

Has Anything Changed? 3D Change Detection by 2D Segmentation Masks ( http://arxiv.org/abs/2312.01148v1 )

ライセンス: Link先を確認
Aikaterini Adam, Konstantinos Karantzalos, Lazaros Grammatikopoulos, Torsten Sattler(参考訳) 捕獲装置が一般的になると、内部空間の3dスキャンは日常的に取得される。 シーン比較を通じて、シーン内のオブジェクトとその変更に関する情報が推測される。 この情報は、没入型仮想体験で操作するために、ロボットやAR、VRデバイスにとって重要である。 そこで我々は,シーン内に存在するオブジェクトを事前に知ることなく,追加,移動,削除したオブジェクトを識別する教師なしオブジェクト発見手法を提案する。 この問題を3次元変化検出と2次元分割タスクの組み合わせとしてモデル化する。 提案アルゴリズムは汎用2次元セグメンテーションマスクを利用して,初期かつ不完全な3次元変化検出を改良する。 レンダリングとコンプリートによって取得された最初の変更は、おそらく可動オブジェクトに対応する。 不完全検出は、グラフ最適化により洗練され、3次元空間における2次元セグメンテーションマスクの情報を蒸留する。 3Rscanデータセットの実験は、SoTAの結果により、我々の手法が競争ベースラインより優れていることを証明している。

As capturing devices become common, 3D scans of interior spaces are acquired on a daily basis. Through scene comparison over time, information about objects in the scene and their changes is inferred. This information is important for robots and AR and VR devices, in order to operate in an immersive virtual experience. We thus propose an unsupervised object discovery method that identifies added, moved, or removed objects without any prior knowledge of what objects exist in the scene. We model this problem as a combination of a 3D change detection and a 2D segmentation task. Our algorithm leverages generic 2D segmentation masks to refine an initial but incomplete set of 3D change detections. The initial changes, acquired through render-and-compare likely correspond to movable objects. The incomplete detections are refined through graph optimization, distilling the information of the 2D segmentation masks in the 3D space. Experiments on the 3Rscan dataset prove that our method outperforms competitive baselines, with SoTA results.
翻訳日:2023-12-05 18:52:19 公開日:2023-12-02
# 条件付きQAにおけるLCMの活用に向けて

Towards leveraging LLMs for Conditional QA ( http://arxiv.org/abs/2312.01143v1 )

ライセンス: Link先を確認
Syed-Amad Hussain, Parag Pravin Dakle, SaiKrishna Rallabandi and Preethi Raghavan(参考訳) 本研究では,条件付き質問応答の挑戦領域におけるLarge Language Models(LLM)の機能と限界について考察する。 条件付き質問応答(cqa)データセットを利用し,t5やul2などの生成モデルに着目し,多様な質問タイプにおけるllmの性能を評価する。 以上の結果から,全入力コンテキストを完全エンコードすることなく,微調整LDMがSOTA(State-of-the-art)性能を上回る場合があり,EM(Exact Match)では7~8ポイント,Eye/NoではF1スコアが増加した。 しかし、これらのモデルは、sotaの背後に10ポイント以上遅れ、誤った情報を注入するリスクを緩和する、抽出的質問応答の難しさに遭遇する。 oracle-retrieversによる研究は、この領域における先進的なソリューションの必要性を強調する、効果的な証拠検索の重要な役割を強調している。 さらに,評価指標が性能評価に与える影響を強調し,より包括的な評価枠組みを提唱する。 課題の複雑さ、観察されたパフォーマンスの相違、効果的なエビデンス検索の必要性は、この分野で進行中の課題を浮き彫りにして、トレーニングタスクの精錬と条件付き質問応答タスクにおけるLLMパフォーマンス向上のためのプロンプトベースの技術を探究することの必要性を浮き彫りにしている。

This study delves into the capabilities and limitations of Large Language Models (LLMs) in the challenging domain of conditional question-answering. Utilizing the Conditional Question Answering (CQA) dataset and focusing on generative models like T5 and UL2, we assess the performance of LLMs across diverse question types. Our findings reveal that fine-tuned LLMs can surpass the state-of-the-art (SOTA) performance in some cases, even without fully encoding all input context, with an increase of 7-8 points in Exact Match (EM) and F1 scores for Yes/No questions. However, these models encounter challenges in extractive question answering, where they lag behind the SOTA by over 10 points, and in mitigating the risk of injecting false information. A study with oracle-retrievers emphasizes the critical role of effective evidence retrieval, underscoring the necessity for advanced solutions in this area. Furthermore, we highlight the significant influence of evaluation metrics on performance assessments and advocate for a more comprehensive evaluation framework. The complexity of the task, the observed performance discrepancies, and the need for effective evidence retrieval underline the ongoing challenges in this field and underscore the need for future work focusing on refining training tasks and exploring prompt-based techniques to enhance LLM performance in conditional question-answering tasks.
翻訳日:2023-12-05 18:52:04 公開日:2023-12-02
# 高速かつロバストな疎結合型ブロック対角表現

Fast and Robust Sparsity-Aware Block Diagonal Representation ( http://arxiv.org/abs/2312.01137v1 )

ライセンス: Link先を確認
Aylin Tastan, Michael Muma and Abdelhak M.Zoubir(参考訳) アフィニティ行列のブロック対角構造は、ブロックに集中する非ゼロ係数によって特徴ベクトルのクラスタを表すため、クラスタ解析において一般的に望まれる性質である。 しかしながら、ブロック対角アフィニティマトリックスの復元は、データが隠れたクラスタ構造を隠蔽する異常値や重く尾の長いノイズにさらされる可能性がある現実のアプリケーションでは困難である。 この問題に対処するために、まずグラフベースのクラスタ分析において、異なる基本外乱型の影響を解析する。 解析を単純化する重要なアイデアは、ブロック対角行列を表すベクトルを、親和性行列を形成する類似性係数の分割線形関数として導入することである。 本研究では, クラスタメンバシップとブロック数を共同で推定する高速かつロバストなブロック対角表示法(FRS-BDR)を提案する。 実世界の様々な応用に関する総合的な実験は、クラスタリング精度、破損した特徴に対する堅牢性、計算時間、クラスタ列挙性能の観点から、FRS-BDRの有効性を示す。

The block diagonal structure of an affinity matrix is a commonly desired property in cluster analysis because it represents clusters of feature vectors by non-zero coefficients that are concentrated in blocks. However, recovering a block diagonal affinity matrix is challenging in real-world applications, in which the data may be subject to outliers and heavy-tailed noise that obscure the hidden cluster structure. To address this issue, we first analyze the effect of different fundamental outlier types in graph-based cluster analysis. A key idea that simplifies the analysis is to introduce a vector that represents a block diagonal matrix as a piece-wise linear function of the similarity coefficients that form the affinity matrix. We reformulate the problem as a robust piece-wise linear fitting problem and propose a Fast and Robust Sparsity-Aware Block Diagonal Representation (FRS-BDR) method, which jointly estimates cluster memberships and the number of blocks. Comprehensive experiments on a variety of real-world applications demonstrate the effectiveness of FRS-BDR in terms of clustering accuracy, robustness against corrupted features, computation time and cluster enumeration performance.
翻訳日:2023-12-05 18:51:37 公開日:2023-12-02
# $t^3$-variational autoencoder: 生徒のtとパワーダイバージェンスを用いたヘビーテールデータ学習

$t^3$-Variational Autoencoder: Learning Heavy-tailed Data with Student's t and Power Divergence ( http://arxiv.org/abs/2312.01133v1 )

ライセンス: Link先を確認
Juno Kim, Jaehyuk Kwon, Mincheol Cho, Hyunjong Lee, Joong-Ho Won(参考訳) 変分オートエンコーダ(VAE)は通常、確率潜在エンコーダの正規化器として標準正規化される。 しかし、ガウス尾はしばしば、エンコードされた点に効果的に対応できないほど急速に崩壊し、データに隠された重要な構造を保存できない。 本稿では,オーバーレギュライゼーション対策における重み付きモデルの利用について検討する。 情報幾何学からの洞察に基づいて,学生のt分布を前者,エンコーダ,デコーダに組み込んだ改良型VAEフレームワークである$t^3$VAEを提案する。 これにより、実世界のデータセットに適合できると主張するパワーフォームの連成モデル分布が得られる。 我々は、2つの統計多様体間のKL分散を共同で最適化し、パワーファミリーの自然な代替である$\gamma$-power divergenceに置き換えることで、証拠を下限に修正することで新しい目的を導出する。 $t^3$VAEは、重み付き合成データで訓練された場合の低密度領域の優れた生成を示す。 さらに、$t^3$vaeはcelebaと不均衡なcifar-100データセットの他のモデルを大きく上回っている。

The variational autoencoder (VAE) typically employs a standard normal prior as a regularizer for the probabilistic latent encoder. However, the Gaussian tail often decays too quickly to effectively accommodate the encoded points, failing to preserve crucial structures hidden in the data. In this paper, we explore the use of heavy-tailed models to combat over-regularization. Drawing upon insights from information geometry, we propose $t^3$VAE, a modified VAE framework that incorporates Student's t-distributions for the prior, encoder, and decoder. This results in a joint model distribution of a power form which we argue can better fit real-world datasets. We derive a new objective by reformulating the evidence lower bound as joint optimization of KL divergence between two statistical manifolds and replacing with $\gamma$-power divergence, a natural alternative for power families. $t^3$VAE demonstrates superior generation of low-density regions when trained on heavy-tailed synthetic data. Furthermore, we show that $t^3$VAE significantly outperforms other models on CelebA and imbalanced CIFAR-100 datasets.
翻訳日:2023-12-05 18:51:18 公開日:2023-12-02
# 転写学習によるメラノーマ分類における皮膚内視鏡画像の比較検討

A Comparative Analysis Towards Melanoma Classification Using Transfer Learning by Analyzing Dermoscopic Images ( http://arxiv.org/abs/2312.01212v1 )

ライセンス: Link先を確認
Md. Fahim Uddin, Nafisa Tafshir, Mohammad Monirujjaman Khan(参考訳) メラノーマはメラノーマと呼ばれる細胞から発生する皮膚がんの一種である。 他の臓器に拡がる可能性があるため、他の種類の皮膚がんよりも危険である。 メラノーマは、体の他の部位に拡がると致命的となる。 早期発見は治療の鍵だが、診断には熟練した医師のスキルが必要である。 本稿では,深層学習技術と確立したトランスファー学習法を組み合わせて,メラノーマ皮膚病変の分類と診断を可能にするシステムを提案する。 本研究では,畳み込みニューラルネットワークを用いてメラノーマ画像を良性および悪性の画像に分類する手法を提案する。 研究者たちは「ディープラーニング」技術を使って、膨大な写真数を訓練し、本質的には、ダーモスコピックな画像が敏感で分類が難しいため、膨大な数のパラメータでトレーニングする必要のあるディープニューラルネットワークを得る。 計算能力の低いデバイスでは,入力された皮膚画像から容易にメラノーマを予測できるように,限られたデータセットと部分的に少ないディープネットワークで比較的精度の高いモデルを構築することが強調されている。 データセットはISIC Archiveから取得されている。 複数の事前学習モデル ResNet101, DenseNet, EfficientNet, InceptionV3 がトランスファーラーニング技術を用いて実装され, 比較解析を完了し, 全てのモデルで精度が向上した。 モデルをトレーニングする前に、データは複数のパラメータによって拡張され、精度が向上した。 さらに, 従来の最先端アプローチよりも良好な結果が得られ, メラノーマの予測に適している。 これらのアーキテクチャのうち、drknetは96.64%の検証精度、9.43%の検証損失、99.63%のテストセット精度を持つ他のアーキテクチャよりも優れた性能を示した。

Melanoma is a sort of skin cancer that starts in the cells known as melanocytes. It is more dangerous than other types of skin cancer because it can spread to other organs. Melanoma can be fatal if it spreads to other parts of the body. Early detection is the key to cure, but it requires the skills of skilled doctors to diagnose it. This paper presents a system that combines deep learning techniques with established transfer learning methods to enable skin lesions classification and diagnosis of melanoma skin lesions. Using Convolutional Neural Networks, it presents a method for categorizing melanoma images into benign and malignant images in this research (CNNs). Researchers used 'Deep Learning' techniques to train an expansive number of photos & essentially to get the expected result deep neural networks to need to be trained with a huge number of parameters as dermoscopic images are sensitive & very hard to classify. This paper, has been emphasized building models with less complexity and comparatively better accuracy with limited datasets & partially fewer deep networks so that the system can predict Melanoma at ease from input dermoscopic images as correctly as possible within devices with less computational power. The dataset has been obtained from ISIC Archive. Multiple pre-trained models ResNet101, DenseNet, EfficientNet, InceptionV3 have been implemented using transfer learning techniques to complete the comparative analysis & every model achieved good accuracy. Before training the models, the data has been augmented by multiple parameters to improve the accuracy. Moreover, the results are better than the previous state-of-the-art approaches & adequate to predict melanoma. Among these architectures, DenseNet performed better than the others which gives a validation accuracy of 96.64%, validation loss of 9.43% & test set accuracy of 99.63%.
翻訳日:2023-12-05 18:46:02 公開日:2023-12-02
# 正確な予測モデルが有害な自己充足予言をもたらすとき

When accurate prediction models yield harmful self-fulfilling prophecies ( http://arxiv.org/abs/2312.01210v1 )

ライセンス: Link先を確認
Wouter A.C. van Amsterdam, Nan van Geloven, Jesse Krijthe, Rajesh Ranganth, Giovanni Cin\'a(参考訳) 予測モデルは医学研究や実践で人気がある。 特定の患者に対する関心の結果を予測することによって、これらのモデルは困難な治療決定に役立ち、パーソナライズされたデータ駆動医療のポスターとしてしばしば賞賛される。 しかし, 予測モデルを用いて意思決定を行うと, 予測が展開後に良質な差別を示す場合であっても, 有害な決定につながる可能性が示唆された。 これらのモデルは有害な自己充足的予言であり、その展開は患者のグループに害を与えるが、これらの患者の悪影響はモデルの予測力を無効にしない。 我々の主な結果は、そのような予測モデルの集合の形式的特徴付けである。 次に,前と後とで十分に調整されたモデルが,データ分布に変化がないため,意思決定には役に立たないことを示す。 これらの結果は、医療判断に使用される予測モデルの検証、展開、評価のための標準プラクティスを改訂する必要があることを示している。

Prediction models are popular in medical research and practice. By predicting an outcome of interest for specific patients, these models may help inform difficult treatment decisions, and are often hailed as the poster children for personalized, data-driven healthcare. We show however, that using prediction models for decision making can lead to harmful decisions, even when the predictions exhibit good discrimination after deployment. These models are harmful self-fulfilling prophecies: their deployment harms a group of patients but the worse outcome of these patients does not invalidate the predictive power of the model. Our main result is a formal characterization of a set of such prediction models. Next we show that models that are well calibrated before} and after deployment are useless for decision making as they made no change in the data distribution. These results point to the need to revise standard practices for validation, deployment and evaluation of prediction models that are used in medical decisions.
翻訳日:2023-12-05 18:45:31 公開日:2023-12-02
# 交互散逸性スピン浴による中枢性スピン脱コヒーレンスの理解

Understanding central spin decoherence due to interacting dissipative spin baths ( http://arxiv.org/abs/2312.01205v1 )

ライセンス: Link先を確認
Mykyta Onizhuk, Yu-Xin Wang, Jonah Nagura, Aashish A. Clerk, and Giulia Galli(参考訳) 本稿では, 中心スピンの脱コヒーレンスを, 相互作用する散逸性スピン浴とクラスター相関展開技術に結合した新しい手法を提案する。 一般的な1次元および2次元スピン浴に対するアプローチをベンチマークし,数値的厳密なシミュレーションに優れた一致を求める。 我々の計算は、散逸とコヒーレントスピン交換の複雑な相互作用を示し、高速散逸の存在下で中心スピンコヒーレンスを増大させる。 最後に, ダイヤモンド中の準表面NV中心をモデル化し, 脱コヒーレンスを理解する上で, 浴槽の消散を考慮に入れることが重要であることを示す。 本手法は様々なシステムに適用でき,散逸環境におけるスピンダイナミクスを調べるための強力なツールを提供する。

We propose a new approach to simulate the decoherence of a central spin coupled to an interacting dissipative spin bath with cluster-correlation expansion techniques. We benchmark the approach on generic 1D and 2D spin baths and find excellent agreement with numerically exact simulations. Our calculations show a complex interplay between dissipation and coherent spin exchange, leading to increased central spin coherence in the presence of fast dissipation. Finally, we model near-surface NV centers in diamond and show that accounting for bath dissipation is crucial to understanding their decoherence. Our method can be applied to a variety of systems and provides a powerful tool to investigate spin dynamics in dissipative environments.
翻訳日:2023-12-05 18:45:16 公開日:2023-12-02
# 連続的強化学習における離散表現の活用

Harnessing Discrete Representations For Continual Reinforcement Learning ( http://arxiv.org/abs/2312.01203v1 )

ライセンス: Link先を確認
Edan Meyer, Marlos C. Machado, Adam White(参考訳) 強化学習(Reinforcement Learning, RL)エージェントは、環境からの観察のみを用いて決定を行い、その結果、これらの観察の表現に大きく依存する。 最近のブレークスルーでは、しばしば離散表現と呼ばれるベクトルベースの分類表現が用いられているが、そのような選択の重要性を明確に評価する研究はほとんどない。 本研究では,強化学習の文脈において,観察をカテゴリー値のベクトルとして表現する利点を徹底的に実証的に検討する。 我々は、世界モデル学習、モデルフリーrl、最終的には継続的なrl問題の評価を行い、その利点は問題設定のニーズに最も合致する。 従来の連続表現と比較すると、世界モデルはより少ない容量で世界のより正確なモデリングを行い、離散表現で訓練されたエージェントはより少ないデータでより良いポリシーを学ぶ。 連続RLの文脈では、これらの利点はより高速な適応剤へと変換される。 さらに,本分析の結果から,潜在ベクトルに含まれる情報や,離散表現自体の符号化により,観測性能が向上する可能性が示唆された。

Reinforcement learning (RL) agents make decisions using nothing but observations from the environment, and consequently, heavily rely on the representations of those observations. Though some recent breakthroughs have used vector-based categorical representations of observations, often referred to as discrete representations, there is little work explicitly assessing the significance of such a choice. In this work, we provide a thorough empirical investigation of the advantages of representing observations as vectors of categorical values within the context of reinforcement learning. We perform evaluations on world-model learning, model-free RL, and ultimately continual RL problems, where the benefits best align with the needs of the problem setting. We find that, when compared to traditional continuous representations, world models learned over discrete representations accurately model more of the world with less capacity, and that agents trained with discrete representations learn better policies with less data. In the context of continual RL, these benefits translate into faster adapting agents. Additionally, our analysis suggests that the observed performance improvements can be attributed to the information contained within the latent vectors and potentially the encoding of the discrete representation itself.
翻訳日:2023-12-05 18:45:03 公開日:2023-12-02
# 音声から妥当性へ:大規模言語モデル(llm)を活用した政策ステークホルダインタビューのテキスト分析

From Voices to Validity: Leveraging Large Language Models (LLMs) for Textual Analysis of Policy Stakeholder Interviews ( http://arxiv.org/abs/2312.01202v1 )

ライセンス: Link先を確認
Alex Liu and Min Sun(参考訳) 政策立案者が資源配分の強みとギャップを特定し、効果的な政策設計と実施を支援するためには、ステークホルダーの多様な経験と現在の政策に関する意見をタイムリーに把握することが不可欠である。 しかし、適度なサイズのインタビューテキストや利害関係者によるオープンエンドな調査回答を手作業でコーディングすることは、しばしば労働集約的で時間を要する。 本研究では,米国1州におけるK-12教育政策に関する参加者インタビューのテキスト分析を強化するため,大規模言語モデル(LLMs----------------を人間の専門知識と統合することを検討する。 混合メソッドのアプローチを採用して、ドメイン知識と教師なしトピックモデリングの結果から情報を得たコードブックとコーディングプロセスを開発した。 その後、GPT-4分析をガイドするプロンプトを設計し、異なるプロンプトのパフォーマンスを反復的に評価する。 この人間とコンピュータを組み合わせた手法は、ニュアンステーマと感情分析を可能にした。 gpt-4のテーマコーディングは、特定のテーマで人間のコーディングに77.89%、より広いテーマに拡大すると96.02%、従来の自然言語処理(nlp)の手法を25%以上上回った。 さらに、GPT-4はレキシコン法よりも専門家の感情分析と密接に一致している。 定量的測度と質的なレビューからの発見は、人間のドメインの専門知識と自動分析の相補的な役割を、LLMが新たな視点とコーディング一貫性を提供することを示している。 ヒューマン・コンピュータ・インタラクティブ・アプローチは、教育政策研究の効率、妥当性、解釈性を高める。

Obtaining stakeholders' diverse experiences and opinions about current policy in a timely manner is crucial for policymakers to identify strengths and gaps in resource allocation, thereby supporting effective policy design and implementation. However, manually coding even moderately sized interview texts or open-ended survey responses from stakeholders can often be labor-intensive and time-consuming. This study explores the integration of Large Language Models (LLMs)--like GPT-4--with human expertise to enhance text analysis of stakeholder interviews regarding K-12 education policy within one U.S. state. Employing a mixed-methods approach, human experts developed a codebook and coding processes as informed by domain knowledge and unsupervised topic modeling results. They then designed prompts to guide GPT-4 analysis and iteratively evaluate different prompts' performances. This combined human-computer method enabled nuanced thematic and sentiment analysis. Results reveal that while GPT-4 thematic coding aligned with human coding by 77.89% at specific themes, expanding to broader themes increased congruence to 96.02%, surpassing traditional Natural Language Processing (NLP) methods by over 25%. Additionally, GPT-4 is more closely matched to expert sentiment analysis than lexicon-based methods. Findings from quantitative measures and qualitative reviews underscore the complementary roles of human domain expertise and automated analysis as LLMs offer new perspectives and coding consistency. The human-computer interactive approach enhances efficiency, validity, and interpretability of educational policy research.
翻訳日:2023-12-05 18:44:44 公開日:2023-12-02
# 拡散モデルを保存するPACプライバシー

PAC Privacy Preserving Diffusion Models ( http://arxiv.org/abs/2312.01201v1 )

ライセンス: Link先を確認
Qipan Xu, Youlong Ding, Jie Gao, Hao Wang(参考訳) データプライバシー保護は研究者の間で注目を集めている。 拡散モデル(DM)、特に厳密な差分プライバシーは、高いプライバシーと視覚的品質の両方で画像を生成する可能性がある。 しかし、現在のモデルが不足する領域である特定のデータ属性を民営化する際の堅牢な保護を確保するという課題が発生する。 これらの課題に対処するため,PACプライバシー保護拡散モデル(PAC Privacy Preserving Diffusion Model)を導入する。 我々は、Langevinサンプリングプロセスにプライベート分類器ガイダンスを統合することにより、プライバシー保護を強化する。 さらに,モデルのプライバシー評価におけるギャップを認識し,プライバシレベルを測定するための新しい指標を開発した。 PACバウンドに対するガウス行列計算によって評価された本モデルでは,ベンチマークテストにより,既存の主要なプライベート生成モデルよりも優れたプライバシー保護性能を示した。

Data privacy protection is garnering increased attention among researchers. Diffusion models (DMs), particularly with strict differential privacy, can potentially produce images with both high privacy and visual quality. However, challenges arise in ensuring robust protection in privatizing specific data attributes, areas where current models often fall short. To address these challenges, we introduce the PAC Privacy Preserving Diffusion Model, a model leverages diffusion principles and ensure Probably Approximately Correct (PAC) privacy. We enhance privacy protection by integrating a private classifier guidance into the Langevin Sampling Process. Additionally, recognizing the gap in measuring the privacy of models, we have developed a novel metric to gauge privacy levels. Our model, assessed with this new metric and supported by Gaussian matrix computations for the PAC bound, has shown superior performance in privacy protection over existing leading private generative models according to benchmark tests.
翻訳日:2023-12-05 18:44:17 公開日:2023-12-02
# 共形コンパクト化ミンコフスキー時空のポテンシャルとそのクォーク分解への応用

Potentials on the conformally compactified Minkowski spacetime and their application to quark deconfinement ( http://arxiv.org/abs/2312.01199v1 )

ライセンス: Link先を確認
M. Kirchbach and J. A. Vallejo(参考訳) 等角コンパクト化ミンコフスキー時空S^1\times S^3$における3次元球面をパラメータ化する準半径座標における共形計量変形のクラスについて検討する。 関連するラプラス・ベルトラミ作用素をシュル=オディンガー形式に還元した後、(それぞれスカラーと勾配項を含む)正確な可解ポテンシャルの対応するクラスが見つかる。 特に、これらのポテンシャルのスカラー部分は、正確に、あるいは、準特殊解決可能であり、その中で、P\"oschl-Teller, Scarf および Rosen-Morse の三角ポテンシャルを閉包する有限範囲を求める。 論文で得られた結果の応用として,これらのポテンシャルのいくつかによって記述される相互作用の大きなコンパクト化半径限界が研究され,量子力学的クォークの解凍機構と関連があることが示されている。

We study a class of conformal metric deformations in the quasi-radial coordinate parameterizing the 3-sphere in the conformally compactified Minkowski spacetime $S^1\times S^3$. After reduction of the associated Laplace-Beltrami operators to a Schr\"odinger form, a corresponding class of exactly solvable potentials (each one containing a scalar and a gradient term) is found. In particular, the scalar piece of these potentials can be exactly or quasi-exactly solvable, and among them we find the finite range confining trigonometric potentials of P\"oschl-Teller, Scarf and Rosen-Morse. As an application of the results developed in the paper, the large compactification radius limit of the interaction described by some of these potentials is studied, and this regime is shown to be relevant to a quantum mechanical quark deconfinement mechanism.
翻訳日:2023-12-05 18:44:01 公開日:2023-12-02
# オランダにおける短期降水予測:畳み込みLSTMニューラルネットワークの気象レーダーデータへの適用

Short-term Precipitation Forecasting in The Netherlands: An Application of Convolutional LSTM neural networks to weather radar data ( http://arxiv.org/abs/2312.01197v1 )

ライセンス: Link先を確認
Petros Demetrakopoulos(参考訳) 本研究では,オランダ王立気象研究所(KNMI)の気象レーダデータに畳み込み長短期記憶(ConvLSTM)ニューラルネットワークを適用することで,短期降水予測の課題に対処する。 この研究は、空間パターン認識のための畳み込みニューラルネットワーク(CNN)層と、時間列をモデル化するためのLSTMネットワーク層を組み合わせて、これらの強みをConvLSTMアーキテクチャに統合する。 このモデルはオランダの気象レーダーデータに基づいて訓練され検証された。 このモデルは9層からなるオートエンコーダであり、畳み込み操作とLSTMの時間処理を一意に組み合わせ、降水系の運動と強度を捉えることができる。 トレーニングセットはレーダー画像のシーケンスで構成され、前回のデータを用いて降水パターンを1.5時間前に予測する。 その結果,降水運動の方向と強度を予測する精度が高かった。 本研究は,気象予報におけるConvLSTMネットワークの有意な可能性,特に複雑な気象パターンを持つ地域での可能性を裏付けるものである。 これは気象予報に対するより正確でデータ駆動のアプローチを提供することで、気象学的なタスクにおけるConvLSTMネットワークの適用性を強調している。

This work addresses the challenge of short-term precipitation forecasting by applying Convolutional Long Short-Term Memory (ConvLSTM) neural networks to weather radar data from the Royal Netherlands Meteorological Institute (KNMI). The research exploits the combination of Convolutional Neural Networks (CNNs) layers for spatial pattern recognition and LSTM network layers for modelling temporal sequences, integrating these strengths into a ConvLSTM architecture. The model was trained and validated on weather radar data from the Netherlands. The model is an autoencoder consisting of nine layers, uniquely combining convolutional operations with LSTMs temporal processing, enabling it to capture the movement and intensity of precipitation systems. The training set comprised of sequences of radar images, with the model being tasked to predict precipitation patterns 1.5 hours ahead using the preceding data. Results indicate high accuracy in predicting the direction and intensity of precipitation movements. The findings of this study underscore the significant potential of ConvLSTM networks in meteorological forecasting, particularly in regions with complex weather patterns. It contributes to the field by offering a more accurate, data-driven approach to weather prediction, highlighting the broader applicability of ConvLSTM networks in meteorological tasks.
翻訳日:2023-12-05 18:43:44 公開日:2023-12-02
# 単眼非剛性物体再建のための神経パラメトリックガウス

Neural Parametric Gaussians for Monocular Non-Rigid Object Reconstruction ( http://arxiv.org/abs/2312.01196v1 )

ライセンス: Link先を確認
Devikalyan Das, Christopher Wewer, Raza Yunus, Eddy Ilg, Jan Eric Lenssen(参考訳) モノキュラービデオから動的オブジェクトを再構築することは、非常に訓練不足で困難な問題であり、最近の研究は様々な方向にアプローチしている。 しかし、この問題が不適切であることから、トレーニング視点とは大きく異なるカメラ位置からの一貫性と高品質のノベルビューを提供するソリューションは存在していない。 本稿では,2段階のアプローチを提案することにより,NPG(Neural Parametric Gaussian)を導入する。まず,低ランクなニューラル変形モデルに適合し,次に第2段階の非剛性再構成の正規化として利用する。 第1段階は、新しいビューで一貫性を保つためにオブジェクトの変形を学習する。 第2段階は、粗いモデルによって駆動される3次元ガウスを最適化することにより、高い再構成品質を得る。 この目的のために、局所的な3次元ガウス表現を導入し、時間的に共有されたガウス表現を局所的な向きの体積で固定し変形させる。 得られた複合モデルは放射場としてレンダリングでき、その結果、不規則に変形するオブジェクトの高品質なフォトリアリスティックな再構成ができ、新しいビュー間で3d一貫性が保たれる。 特に,複数視点の手がかりの少ない難易度シナリオにおいて,npgが従来よりも優れた結果が得られることを示す。

Reconstructing dynamic objects from monocular videos is a severely underconstrained and challenging problem, and recent work has approached it in various directions. However, owing to the ill-posed nature of this problem, there has been no solution that can provide consistent, high-quality novel views from camera positions that are significantly different from the training views. In this work, we introduce Neural Parametric Gaussians (NPGs) to take on this challenge by imposing a two-stage approach: first, we fit a low-rank neural deformation model, which then is used as regularization for non-rigid reconstruction in the second stage. The first stage learns the object's deformations such that it preserves consistency in novel views. The second stage obtains high reconstruction quality by optimizing 3D Gaussians that are driven by the coarse model. To this end, we introduce a local 3D Gaussian representation, where temporally shared Gaussians are anchored in and deformed by local oriented volumes. The resulting combined model can be rendered as radiance fields, resulting in high-quality photo-realistic reconstructions of the non-rigidly deforming objects, maintaining 3D consistency across novel views. We demonstrate that NPGs achieve superior results compared to previous works, especially in challenging scenarios with few multi-view cues.
翻訳日:2023-12-05 18:43:23 公開日:2023-12-02
# AIM:動的ファームウェア解析のための自動断続モデリング

AIM: Automatic Interrupt Modeling for Dynamic Firmware Analysis ( http://arxiv.org/abs/2312.01195v1 )

ライセンス: Link先を確認
Bo Feng, Meng Luo, Changming Liu, Long Lu, and Engin Kirda(参考訳) 最新のIoTおよび組み込みデバイスを駆動するマイクロコントローラのセキュリティは、引き続き大きな懸念を提起している。 マイクロコントローラ(MCU)内では、ファームウェアはソフトウェアスタック全体を含むモノリシックなソフトウェアであり、様々な周辺機器はハードウェアを表す。 MCUファームウェアには脆弱性があるため、動的シンボリック実行やファジィングなど、既製のソフトウェアテスト技術でファームウェアをテストするのが理想的である。 それでも、エミュレータが様々なMCU周辺機器をエミュレートしたり、ファームウェアを実行/テストしたりはできない。 特に、mcu周辺機器が使用するi/oインターフェースの中で割り込みインターフェースは、エミュレートが非常に難しい。 本稿では,新しい割り込みモデリング機構により,mcu周辺機器の非組込みをサポートする汎用的,スケーラブル,ハードウェアに依存しない動的ファームウェア解析フレームワークであるaimを提案する。 aimは、ファームウェアの割り込み依存コードを、新しいファームウェアガイド、ジャストインタイム割り込み発射技術によって効果的かつ効率的にカバーする。 我々はこのフレームワークをangrに実装し,8つの実世界のmcuファームウェアに対して動的シンボリック実行を行った。 テスト結果によると、我々のフレームワークは最先端のアプローチよりも最大11.2倍の割り込み依存のコードをカバーしました。 最後に、最先端のファームウェアファジィアとの比較により、動的なシンボル実行とファジィングを併用することで、ファームウェアのテストカバレッジが向上することを示す。

The security of microcontrollers, which drive modern IoT and embedded devices, continues to raise major concerns. Within a microcontroller (MCU), the firmware is a monolithic piece of software that contains the whole software stack, whereas a variety of peripherals represent the hardware. As MCU firmware contains vulnerabilities, it is ideal to test firmware with off-the-shelf software testing techniques, such as dynamic symbolic execution and fuzzing. Nevertheless, no emulator can emulate the diverse MCU peripherals or execute/test the firmware. Specifically, the interrupt interface, among all I/O interfaces used by MCU peripherals, is extremely challenging to emulate. In this paper, we present AIM -- a generic, scalable, and hardware-independent dynamic firmware analysis framework that supports unemulated MCU peripherals by a novel interrupt modeling mechanism. AIM effectively and efficiently covers interrupt-dependent code in firmware by a novel, firmware-guided, Just-in-Time Interrupt Firing technique. We implemented our framework in angr and performed dynamic symbolic execution for eight real-world MCU firmware. According to testing results, our framework covered up to 11.2 times more interrupt-dependent code than state-of-the-art approaches while accomplishing several challenging goals not feasible previously. Finally, a comparison with a state-of-the-art firmware fuzzer demonstrates dynamic symbolic execution and fuzzing together can achieve better firmware testing coverage.
翻訳日:2023-12-05 18:43:01 公開日:2023-12-02
# リモートセンシング画像キャプチャのための対話型画像テキストアライメント

Bootstrapping Interactive Image-Text Alignment for Remote Sensing Image Captioning ( http://arxiv.org/abs/2312.01191v1 )

ライセンス: Link先を確認
Cong Yang, Zuchao Li, Lefei Zhang(参考訳) 近年,リモートセンシング画像のキャプションがリモートセンシングコミュニティで注目されている。 リモートセンシング画像の空間分解能に大きな違いがあるため,既存の手法は主にリモートセンシング画像の特徴のきめ細かい抽出に集中しているが,視覚的特徴とテキスト的特徴とのセマンティック一貫性を効果的に扱うことはできない。 画像テキストのコーディネートを効率よく行うために,BITAと呼ばれる,リモートセンシング画像キャプションのための対話的画像テキストアライメントをブートストラップする,新たな2段階の視覚言語事前学習方式を提案する。 インタラクティブフーリエ変圧器のフーリエ層は、周波数領域におけるリモートセンシング画像のマルチスケール特徴を抽出することができ、リモートセンシング視覚特徴の冗長性を低減できる。 具体的には,対話型フーリエ変換器から学習したマルチスケールリモートセンシング機能とテキスト機能とを一致させる画像テキストコントラスト学習による予備アライメントを行う。 第2段階では、インタラクティブなフーリエ変換器が凍結画像エンコーダと大きな言語モデルとを接続する。 次に、プレフィックス因果言語モデルを用いて、視覚的特徴を用いたテキスト生成プロセスをガイドする。 最終的に、UCM-caption、RSICD、NWPU-captionデータセットにおいて、実験結果はBITAが他の高度な比較手法よりも優れていることを示す。 コードはhttps://github.com/yangcong356/bitaで入手できる。

Recently, remote sensing image captioning has gained significant attention in the remote sensing community. Due to the significant differences in spatial resolution of remote sensing images, existing methods in this field have predominantly concentrated on the fine-grained extraction of remote sensing image features, but they cannot effectively handle the semantic consistency between visual features and textual features. To efficiently align the image-text, we propose a novel two-stage vision-language pre-training-based approach to bootstrap interactive image-text alignment for remote sensing image captioning, called BITA, which relies on the design of a lightweight interactive Fourier Transformer to better align remote sensing image-text features. The Fourier layer in the interactive Fourier Transformer is capable of extracting multi-scale features of remote sensing images in the frequency domain, thereby reducing the redundancy of remote sensing visual features. Specifically, the first stage involves preliminary alignment through image-text contrastive learning, which aligns the learned multi-scale remote sensing features from the interactive Fourier Transformer with textual features. In the second stage, the interactive Fourier Transformer connects the frozen image encoder with a large language model. Then, prefix causal language modeling is utilized to guide the text generation process using visual features. Ultimately, across the UCM-caption, RSICD, and NWPU-caption datasets, the experimental results clearly demonstrate that BITA outperforms other advanced comparative approaches. The code is available at https://github.com/yangcong356/BITA.
翻訳日:2023-12-05 18:42:36 公開日:2023-12-02
# リプレイフリーインクリメンタル学習のための効率的な拡張と勾配に基づくタスク推論

Efficient Expansion and Gradient Based Task Inference for Replay Free Incremental Learning ( http://arxiv.org/abs/2312.01188v1 )

ライセンス: Link先を確認
Soumya Roy, Vinay K Verma and Deepak Gupta(参考訳) 本稿では,連続学習のための簡易かつ高効率な拡張ベースモデルを提案する。 最近の機能変換、マスキング、ファクタライゼーションベースのメソッドは効率的だが、グローバルパラメータや共有パラメータを越えてのみモデルを成長させる。 したがって、これらのアプローチは、同じタスク固有のパラメータが以前の知識を忘れるため、事前に学習した情報を十分に活用しない。 したがって,これらの手法は伝達学習能力の限界を示す。 さらに、これらのモデルのほとんどは、タスクの複雑さに関係なく、全てのタスクに対して一定のパラメータ成長を持つ。 本研究は,グローバルパラメータに留まらず,前のタスクパラメータよりもモデルを拡大する,単純なフィルタとチャネル拡張に基づく手法を提案する。 そのため,従来の学習情報をすべて忘れることなく完全に活用し,知識伝達が向上する。 提案モデルでは,タスクの複雑性の関数であるので,単純なタスクでは,複雑なタスクでは,現在のタスクに適応するためにより多くのパラメータを必要とするが,パラメータの増大は小さい。 最近の拡張ベースモデルはタスクインクリメンタルラーニング(TIL)に有望な結果を示している。 しかし、クラスインクリメンタルラーニング(CIL)では、タスクIDの予測が重要な課題であり、タスク数が増加するにつれて結果が急速に低下する。 本研究では,エントロピー重み付きデータ拡張と擬似ラベルを用いたモデル勾配を利用した頑健なタスク予測手法を提案する。 我々は、TIL、CIL、生成連続学習設定における様々なデータセットとアーキテクチャに基づいてモデルを評価する。 提案手法は,これらすべての設定における最先端の結果を示す。 広範なアブレーション研究により,提案成分の有効性が示された。

This paper proposes a simple but highly efficient expansion-based model for continual learning. The recent feature transformation, masking and factorization-based methods are efficient, but they grow the model only over the global or shared parameter. Therefore, these approaches do not fully utilize the previously learned information because the same task-specific parameter forgets the earlier knowledge. Thus, these approaches show limited transfer learning ability. Moreover, most of these models have constant parameter growth for all tasks, irrespective of the task complexity. Our work proposes a simple filter and channel expansion based method that grows the model over the previous task parameters and not just over the global parameter. Therefore, it fully utilizes all the previously learned information without forgetting, which results in better knowledge transfer. The growth rate in our proposed model is a function of task complexity; therefore for a simple task, the model has a smaller parameter growth while for complex tasks, the model requires more parameters to adapt to the current task. Recent expansion based models show promising results for task incremental learning (TIL). However, for class incremental learning (CIL), prediction of task id is a crucial challenge; hence, their results degrade rapidly as the number of tasks increase. In this work, we propose a robust task prediction method that leverages entropy weighted data augmentations and the models gradient using pseudo labels. We evaluate our model on various datasets and architectures in the TIL, CIL and generative continual learning settings. The proposed approach shows state-of-the-art results in all these settings. Our extensive ablation studies show the efficacy of the proposed components.
翻訳日:2023-12-05 18:41:50 公開日:2023-12-02
# SASSL: ニューラルネットワークによる自己監督型学習の強化

SASSL: Enhancing Self-Supervised Learning via Neural Style Transfer ( http://arxiv.org/abs/2312.01187v1 )

ライセンス: Link先を確認
Renan A. Rojas-Gomez, Karan Singhal, Ali Etemad, Alex Bijamov, Warren R. Morningstar, Philip Andrew Mansfield(参考訳) 自己教師付き学習は、ラベルのない画像から意味のある表現を抽出するために、データ拡張に大きく依存する。 既存の最先端の拡張パイプラインには、さまざまなプリミティブ変換が含まれているが、自然画像構造を無視することが多い。 このように、拡張されたサンプルは、劣化した意味情報と低スタイリスティックな多様性を示し、自己教師付き表現の下流のパフォーマンスに影響を与える。 そこで我々は,ニューラルネットワークを用いた新しい拡張手法であるSASSL: Style Augmentations for Self Supervised Learningを提案する。 この方法は、画像のセマンティック属性とスタイリスティック属性を分離し、コンテンツを保持しながらスタイルのみに変換を適用し、セマンティック特性をよりよく保持する多様な拡張サンプルを生成する。 実験の結果,MoCo v2と比較して,ImageNetの上位1分類性能は2%以上向上した。 また,5つのデータセット間での転送学習性能を測定し,最大3.75%の大幅な改善を観測した。 実験により、コンテンツ情報からの分離スタイルとデータセット間の転送スタイルが拡張の多様化に寄与し、自己教師付き表現の下流性能が大幅に向上することが示唆された。

Self-supervised learning relies heavily on data augmentation to extract meaningful representations from unlabeled images. While existing state-of-the-art augmentation pipelines incorporate a wide range of primitive transformations, these often disregard natural image structure. Thus, augmented samples can exhibit degraded semantic information and low stylistic diversity, affecting downstream performance of self-supervised representations. To overcome this, we propose SASSL: Style Augmentations for Self Supervised Learning, a novel augmentation technique based on Neural Style Transfer. The method decouples semantic and stylistic attributes in images and applies transformations exclusively to the style while preserving content, generating diverse augmented samples that better retain their semantic properties. Experimental results show our technique achieves a top-1 classification performance improvement of more than 2% on ImageNet compared to the well-established MoCo v2. We also measure transfer learning performance across five diverse datasets, observing significant improvements of up to 3.75%. Our experiments indicate that decoupling style from content information and transferring style across datasets to diversify augmentations can significantly improve downstream performance of self-supervised representations.
翻訳日:2023-12-05 18:41:09 公開日:2023-12-02
# 時間の波及:アメリカの歴史における不連続

A ripple in time: a discontinuity in American history ( http://arxiv.org/abs/2312.01185v1 )

ライセンス: Link先を確認
Alexander Kolpakov, Igor Rivin(参考訳) このノートでは、kaggleのユニオンアドレスデータセットを使用して、アメリカの歴史の一般的なタイムラインと、そのアドレスの性格と性質に関する驚くべき(そして、それほど驚きではない)観察を行う。 我々の主なアプローチは、BERT (DistilBERT) や GPT-2 のようなベクトル埋め込みを使うことです。 BERT(およびそのバリエーション)はNLP分類タスクに最も適していると広く信じられているが、UDIなどの非線形次元減少法と組み合わせたGPT-2は、より良い分離とより強力なクラスタリングを提供する。 これにより、GPT-2 + UMAPが興味深い代替となる。 我々の場合、モデル微調整は不要であり、事前訓練されたGPT-2モデルで十分である。 分類には微調整されたディチルバートモデル(どの大統領がどの宛先を届けるかを検出する)も使用し、非常に良い結果を得た(93% - 95%)。 すべての計算はGitHubの付随するコードを使って複製できる。

In this note we use the State of the Union Address dataset from Kaggle to make some surprising (and some not so surprising) observations pertaining to the general timeline of American history, and the character and nature of the addresses themselves. Our main approach is using vector embeddings, such as BERT (DistilBERT) and GPT-2. While it is widely believed that BERT (and its variations) is most suitable for NLP classification tasks, we find out that GPT-2 in conjunction with nonlinear dimension reduction methods such as UMAP provide better separation and stronger clustering. This makes GPT-2 + UMAP an interesting alternative. In our case, no model fine-tuning is required, and the pre-trained out-of-the-box GPT-2 model is enough. We also used a fine-tuned DistilBERT model for classification (detecting which president delivered which address), with very good results (accuracy 93% - 95% depending on the run). All computations can be replicated by using the accompanying code on GitHub.
翻訳日:2023-12-05 18:40:13 公開日:2023-12-02
# 科学的文脈におけるテキスト・画像生成AIモデルの比較分析:原子力発電を事例として

A Comparative Analysis of Text-to-Image Generative AI Models in Scientific Contexts: A Case Study on Nuclear Power ( http://arxiv.org/abs/2312.01180v1 )

ライセンス: Link先を確認
Veda Joynt, Jacob Cooper, Naman Bhargava, Katie Vu, O Hwang Kwon, Todd R. Allen, Aditi Verma, Majdi I. Radaideh(参考訳) 本研究では,クリーンエネルギー源の公的な関与を生み出すために,生成人工知能(AI)の可能性を提案し,評価する。 このような応用は、一般大衆の低炭素エネルギー源に対する認識を高めることができるため、エネルギーシステムの将来に関する意思決定への参加が高まる可能性がある。 我々は,低炭素エネルギー源に関する技術情報を一般,特に原子力の領域で一般に伝えるための生成型aiの利用を検討する。 我々は20個のAIを利用したテキスト・ツー・イメージ・ジェネレータを探索し、一般・科学的な原子力関連プロンプトで個々の性能を比較した。 これらのモデルのうち、dall-e、dreamstudio、craiyonは核の話題に関連する一般的なテキストから関連する画像を生成する有望な性能を示した。 しかし、これらのモデルは3つの重要な方法で不足している:(1)エネルギーシステムの技術的詳細を正確に表現できない、(2)エネルギーセクターにおける性別や仕事を取り巻く既存のバイアスを再現できない、(3)エネルギー産業の資源抽出や廃棄物沈降の場であった先住民の風景を正確に表現できない、の3つだ。 本研究は、エネルギーリテラシーを改善し、低炭素エネルギー源に効果的に関与するために、特殊な生成ツールとそのキャプションの開発を動機付けるものである。

In this work, we propose and assess the potential of generative artificial intelligence (AI) to generate public engagement around potential clean energy sources. Such an application could increase energy literacy -- an awareness of low-carbon energy sources among the public therefore leading to increased participation in decision-making about the future of energy systems. We explore the use of generative AI to communicate technical information about low-carbon energy sources to the general public, specifically in the realm of nuclear energy. We explored 20 AI-powered text-to-image generators and compared their individual performances on general and scientific nuclear-related prompts. Of these models, DALL-E, DreamStudio, and Craiyon demonstrated promising performance in generating relevant images from general-level text related to nuclear topics. However, these models fall short in three crucial ways: (1) they fail to accurately represent technical details of energy systems; (2) they reproduce existing biases surrounding gender and work in the energy sector; and (3) they fail to accurately represent indigenous landscapes -- which have historically been sites of resource extraction and waste deposition for energy industries. This work is performed to motivate the development of specialized generative tools and their captions to improve energy literacy and effectively engage the public with low-carbon energy sources.
翻訳日:2023-12-05 18:39:42 公開日:2023-12-02
# テキストからの社会・政治事象の自動抽出の課題と応用(CASE 2023):ワークショップと共有課題報告

Challenges and Applications of Automated Extraction of Socio-political Events from Text (CASE 2023): Workshop and Shared Task Report ( http://arxiv.org/abs/2312.01244v1 )

ライセンス: Link先を確認
Ali H\"urriyeto\u{g}lu, Hristo Tanev, Osman Mutlu, Surendrabikram Thapa, Fiona Anting Tan, Erdem Y\"or\"uk(参考訳) RANLP 2023の範囲で開催されているCASEワークショップ第6版の概要について述べる。 ワークショップは定期的な論文、3つの基調講演、共有タスク参加者の作業論文、共有タスク概要論文で構成されている。 このワークショップシリーズは、技術的および社会科学分野にわたるイベント情報収集のあらゆる側面をまとめている。 テキストベースのイベント抽出の進展への貢献に加えて、ワークショップはマルチモーダルなイベント情報収集タスクの組織化のためのスペースを提供する。

We provide a summary of the sixth edition of the CASE workshop that is held in the scope of RANLP 2023. The workshop consists of regular papers, three keynotes, working papers of shared task participants, and shared task overview papers. This workshop series has been bringing together all aspects of event information collection across technical and social science fields. In addition to contributing to the progress in text based event extraction, the workshop provides a space for the organization of a multimodal event information collection task.
翻訳日:2023-12-05 18:32:24 公開日:2023-12-02
# DDxT 差分診断のための深部生成変圧器モデル

DDxT: Deep Generative Transformer Models for Differential Diagnosis ( http://arxiv.org/abs/2312.01242v1 )

ライセンス: Link先を確認
Mohammad Mahmudul Alam, Edward Raff, Tim Oates, Cynthia Matuszek(参考訳) 鑑別診断 (DDx) は、エビデンスに基づく除去プロセスを通じて、起こりうる病態の中で最も可能性の高い医学的状態を特定する過程である。 大量の病理を最も可能性の高い病理に絞り込む自動化プロセスは、非常に重要なものになるでしょう。 主な先行研究は強化学習(rl)のパラダイムに依存しており、医師のddxの働き方と合致していると直観している。 本稿では,よりシンプルな教師付きおよび自己教師付き学習信号で訓練された生成的アプローチが,現在のベンチマークにおいて優れた結果が得られることを示す。 提案する変圧器型生成ネットワークはddxtと名付けられ、自己回帰的に一連の病理、すなわちddxを生成し、ニューラルネットワークを用いて実際の病理を予測している。 DDXPlusデータセットを使って実験を行う。 DDxの場合、提案するネットワークの平均精度は99.82%、平均F1スコアは0.9472である。 さらに、平均精度は99.98%に達し、平均f1スコアは0.9949である。 提案されたDDxTは、以前のRLベースのアプローチよりも大きなマージンで優れていた。 全体として、TransformerベースのDDx自動生成モデルは、緊急時に医師にとって有用なツールになる可能性がある。

Differential Diagnosis (DDx) is the process of identifying the most likely medical condition among the possible pathologies through the process of elimination based on evidence. An automated process that narrows a large set of pathologies down to the most likely pathologies will be of great importance. The primary prior works have relied on the Reinforcement Learning (RL) paradigm under the intuition that it aligns better with how physicians perform DDx. In this paper, we show that a generative approach trained with simpler supervised and self-supervised learning signals can achieve superior results on the current benchmark. The proposed Transformer-based generative network, named DDxT, autoregressively produces a set of possible pathologies, i.e., DDx, and predicts the actual pathology using a neural network. Experiments are performed using the DDXPlus dataset. In the case of DDx, the proposed network has achieved a mean accuracy of 99.82% and a mean F1 score of 0.9472. Additionally, mean accuracy reaches 99.98% with a mean F1 score of 0.9949 while predicting ground truth pathology. The proposed DDxT outperformed the previous RL-based approaches by a big margin. Overall, the automated Transformer-based DDx generative model has the potential to become a useful tool for a physician in times of urgency.
翻訳日:2023-12-05 18:32:15 公開日:2023-12-02
# just-in-time security patch detection -- データ拡張の救済のためのllm

Just-in-Time Security Patch Detection -- LLM At the Rescue for Data Augmentation ( http://arxiv.org/abs/2312.01241v1 )

ライセンス: Link先を確認
Xunzhu Tang and Zhenghan Chen and Kisub Kim and Haoye Tian and Saad Ezzini and Jacques Klein(参考訳) オープンソースソフトウェアで見つかった脆弱性が増大する中、[discreet]セキュリティパッチを特定する必要性が最重要視されている。 ソフトウェアプロバイダのメンテナンスの扱い方における一貫性の欠如は、包括的なアドバイザリのないセキュリティパッチのリリースを招き、ユーザを不適切なセキュリティリスクにさらしている。 そこで本稿では,LLM(Large Language Models)を利用した新たなセキュリティパッチ検出システム LLMDA と,パッチレビュー,データ拡張,特徴結合のためのコードテキストアライメント手法を提案する。 LLMDA内では当初,最近の文献の2つのセキュリティパッチデータセットであるPatchDBとSPI-DBのパッチ調査と拡張にLLMを使用しました。 次にラベル付き命令を使用してLSMDAを指示し、セキュリティ関連性に基づいたパッチを識別します。 その後、ptformerを使ってパッチとコードをマージし、固有の詳細とパッチとコードの相互接続の両方を包含するハイブリッド属性を定式化する。 この特異な組み合わせ手法により,本システムはパッチとコードのコンテクストからより多くの洞察を得ることができ,検出精度が向上する。 最後に,LLMDAのセキュリティパッチの識別能力を高めるため,バッチ内での確率的バッチコントラスト学習機構を考案した。 その結果,LSMDAはセキュリティパッチ検出技術の開始点をはるかに上回り,ソフトウェアメンテナンスの強化の可能性を強調した。

In the face of growing vulnerabilities found in open-source software, the need to identify {discreet} security patches has become paramount. The lack of consistency in how software providers handle maintenance often leads to the release of security patches without comprehensive advisories, leaving users vulnerable to unaddressed security risks. To address this pressing issue, we introduce a novel security patch detection system, LLMDA, which capitalizes on Large Language Models (LLMs) and code-text alignment methodologies for patch review, data enhancement, and feature combination. Within LLMDA, we initially utilize LLMs for examining patches and expanding data of PatchDB and SPI-DB, two security patch datasets from recent literature. We then use labeled instructions to direct our LLMDA, differentiating patches based on security relevance. Following this, we apply a PTFormer to merge patches with code, formulating hybrid attributes that encompass both the innate details and the interconnections between the patches and the code. This distinctive combination method allows our system to capture more insights from the combined context of patches and code, hence improving detection precision. Finally, we devise a probabilistic batch contrastive learning mechanism within batches to augment the capability of the our LLMDA in discerning security patches. The results reveal that LLMDA significantly surpasses the start of the art techniques in detecting security patches, underscoring its promise in fortifying software maintenance.
翻訳日:2023-12-05 18:31:56 公開日:2023-12-02
# 超音波画像における運動認識針分割

Motion-aware Needle Segmentation in Ultrasound Images ( http://arxiv.org/abs/2312.01239v1 )

ライセンス: Link先を確認
Raghavv Goel, Cecilia Morales, Manpreet Singh, Artur Dubrawski, John Galeotti, Howie Choset(参考訳) 超音波画像における移動針のセグメンテーションは, 人工物, ノイズ, 針閉塞の存在により困難である。 このタスクは、データ可用性が制限された場合にさらに要求される。 畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションで成功しているが、針の動きを考慮せずに正確に針を分割することは困難である。 本稿では,従来のカルマンフィルタ(kf)技術とデータ駆動学習を組み合わせた針分割法を提案する。 我々の方法には2つの重要な貢献がある。 まず、よく使われるエンコーダ-デコーダスタイルアーキテクチャにシームレスに統合する互換性のあるフレームワークを提案する。 第2に,新しい畳み込みニューラルネットワーク(CNN)をベースとしたKFインスパイアブロックを用いた最新の針分割モデルと比較して,画素ワイド針先端誤差の15倍,長さ誤差の8倍の低減を実現した。 第3に, 針のセグメンテーションを改善するために, 非線形針運動を組み込んだ学習可能なフィルタを最初に実装した。

Segmenting a moving needle in ultrasound images is challenging due to the presence of artifacts, noise, and needle occlusion. This task becomes even more demanding in scenarios where data availability is limited. Convolutional Neural Networks (CNNs) have been successful in many computer vision applications, but struggle to accurately segment needles without considering their motion. In this paper, we present a novel approach for needle segmentation that combines classical Kalman Filter (KF) techniques with data-driven learning, incorporating both needle features and needle motion. Our method offers two key contributions. First, we propose a compatible framework that seamlessly integrates into commonly used encoder-decoder style architectures. Second, we demonstrate superior performance compared to recent state-of-the-art needle segmentation models using our novel convolutional neural network (CNN) based KF-inspired block, achieving a 15\% reduction in pixel-wise needle tip error and an 8\% reduction in length error. Third, to our knowledge we are the first to implement a learnable filter to incorporate non-linear needle motion for improving needle segmentation.
翻訳日:2023-12-05 18:31:29 公開日:2023-12-02
# 横断的および縦型マルチビューデータ統合のためのディープラーニングパイプライン

A deep learning pipeline for cross-sectional and longitudinal multiview data integration ( http://arxiv.org/abs/2312.01238v1 )

ライセンス: Link先を確認
Sarthak Jain and Sandra E. Safo(参考訳) バイオメディカルリサーチは現在、複雑な疾患の病態をよりよく理解するために、同じ個人からの多様なデータタイプやビューを統合するのが一般的だが、課題はこれらの多様な見解を有意義に統合することにある。 既存のメソッドでは、すべてのビュー(クロスセクションデータのみまたは縦データのみ)から同じタイプのデータを必要とする場合が多いし、統合メソッドのいかなるクラスの結果も考慮していないため、制限がある。 これらの制約を克服するために,統計・深層学習手法のパワーを活用したパイプラインを開発し,複数ソースからの横断データと縦データの統合を行った。 さらに、ビューとクラス間の分離の関係に寄与する重要な変数を特定し、より深い生物学的洞察を提供する。 本パイプラインは、線形および非線形手法を用いた可変選択/順位付け、機能主成分分析とオイラー特性を用いた特徴抽出、高密度フィードフォワードネットワークとリカレントニューラルネットワークを用いた統合および分類を含む。 Inflammatory bowel disease (IBD) による横断的, 縦断的マルチオミクスデータ(メタノミクス, トランスクリプトミクス, メタボミクス)にこのパイプラインを適用し, IBDの病因を識別する微生物経路, 代謝産物, 遺伝子を同定し, IBDの病因に関する情報を提供した。 2つの特徴抽出法を比較するためにシミュレーションを行った。 提案されたパイプラインは、以下のGitHubリポジトリから利用できる。

Biomedical research now commonly integrates diverse data types or views from the same individuals to better understand the pathobiology of complex diseases, but the challenge lies in meaningfully integrating these diverse views. Existing methods often require the same type of data from all views (cross-sectional data only or longitudinal data only) or do not consider any class outcome in the integration method, presenting limitations. To overcome these limitations, we have developed a pipeline that harnesses the power of statistical and deep learning methods to integrate cross-sectional and longitudinal data from multiple sources. Additionally, it identifies key variables contributing to the association between views and the separation among classes, providing deeper biological insights. This pipeline includes variable selection/ranking using linear and nonlinear methods, feature extraction using functional principal component analysis and Euler characteristics, and joint integration and classification using dense feed-forward networks and recurrent neural networks. We applied this pipeline to cross-sectional and longitudinal multi-omics data (metagenomics, transcriptomics, and metabolomics) from an inflammatory bowel disease (IBD) study and we identified microbial pathways, metabolites, and genes that discriminate by IBD status, providing information on the etiology of IBD. We conducted simulations to compare the two feature extraction methods. The proposed pipeline is available from the following GitHub repository: https://github.com/lasandrall/DeepIDA-GRU.
翻訳日:2023-12-05 18:31:06 公開日:2023-12-02
# Evetac:ロボットマニピュレーションのためのイベントベース光学触覚センサ

Evetac: An Event-based Optical Tactile Sensor for Robotic Manipulation ( http://arxiv.org/abs/2312.01236v1 )

ライセンス: Link先を確認
Niklas Funk, Erik Helmut, Georgia Chalvatzaki, Roberto Calandra, Jan Peters(参考訳) 近年,光学触覚センサが普及している。 空間分解能は高いが、時間分解能には乏しい。 この欠点を克服するために、RGBカメラをイベントベースのカメラに置き換えるアイデアと、イベントベースの新しい触覚センサーであるEvetacを紹介する。 ハードウェア設計とともに,1000Hzでオンラインに計測処理を行うタッチ処理アルゴリズムを開発した。 センサのスパース出力に拘わらず、印字されたマーカーを通してエラストマーの変形を追跡する効率的なアルゴリズムを考案する。 ベンチマーク実験では、エベタックは最大498Hzの振動を感知し、せん断力を再構築し、RGB光触覚センサーと比較してデータレートを著しく低減する能力を示した。 さらに、Evetacの出力とマーカー追跡は、データ駆動スリップの検出と予測モデルを学ぶ上で有意義な機能を提供する。 学習モデルは、広範囲のオブジェクトを扱うことができる頑健で適応的なクローズドループグリップコントローラの基礎を形成する。 Evetacのような高速で効率的なイベントベースの触覚センサーは、ロボット工学に人間のような操作能力をもたらすのに不可欠だと考えています。 センサーの設計はhttps://sites.google.com/view/evetac でオープンソース化されている。

Optical tactile sensors have recently become popular. They provide high spatial resolution, but struggle to offer fine temporal resolutions. To overcome this shortcoming, we study the idea of replacing the RGB camera with an event-based camera and introduce a new event-based optical tactile sensor called Evetac. Along with hardware design, we develop touch processing algorithms to process its measurements online at 1000 Hz. We devise an efficient algorithm to track the elastomer's deformation through the imprinted markers despite the sensor's sparse output. Benchmarking experiments demonstrate Evetac's capabilities of sensing vibrations up to 498 Hz, reconstructing shear forces, and significantly reducing data rates compared to RGB optical tactile sensors. Moreover, Evetac's output and the marker tracking provide meaningful features for learning data-driven slip detection and prediction models. The learned models form the basis for a robust and adaptive closed-loop grasp controller capable of handling a wide range of objects. We believe that fast and efficient event-based tactile sensors like Evetac will be essential for bringing human-like manipulation capabilities to robotics. The sensor design is open-sourced at https://sites.google.com/view/evetac .
翻訳日:2023-12-05 18:30:39 公開日:2023-12-02
# 画像分類作業における視覚変換器の総合的研究

A Comprehensive Study of Vision Transformers in Image Classification Tasks ( http://arxiv.org/abs/2312.01232v1 )

ライセンス: Link先を確認
Mahmoud Khalil, Ahmad Khalil and Alioune Ngom(参考訳) 画像分類はコンピュータビジョンの分野における基本的な課題であり、しばしばコンピュータビジョンの進歩のベンチマークとして機能する。 近年,ディープラーニングの出現により画像分類が著しく進歩している。 しかし、詳細な視覚情報モデリング、高い計算コスト、モデルの並列性、データセット間の一貫性のない評価プロトコルといった課題がまだ残っている。 本稿では,画像分類のための視覚トランスフォーマーに関する既存論文の包括的調査を行う。 まず,モデルの設計に影響を及ぼす人気画像分類データセットを紹介する。 次に視覚トランスフォーマーを時系列的に提示し,注意機構を視覚タスクに適用する初期の試みから,視覚トランスフォーマーの採用に至るまで,画像内の複雑なパターンや長距離依存性の把握に成功していることを示す。 最後に,オープンな問題について議論し,新たな研究アイデアを促進するための画像分類の機会について考察した。

Image Classification is a fundamental task in the field of computer vision that frequently serves as a benchmark for gauging advancements in Computer Vision. Over the past few years, significant progress has been made in image classification due to the emergence of deep learning. However, challenges still exist, such as modeling fine-grained visual information, high computation costs, the parallelism of the model, and inconsistent evaluation protocols across datasets. In this paper, we conduct a comprehensive survey of existing papers on Vision Transformers for image classification. We first introduce the popular image classification datasets that influenced the design of models. Then, we present Vision Transformers models in chronological order, starting with early attempts at adapting attention mechanism to vision tasks followed by the adoption of vision transformers, as they have demonstrated success in capturing intricate patterns and long-range dependencies within images. Finally, we discuss open problems and shed light on opportunities for image classification to facilitate new research ideas.
翻訳日:2023-12-05 18:30:20 公開日:2023-12-02
# コンピュータ支援分子設計のためのグラフニューラルネットワークの混合インテガー最適化

Mixed-Integer Optimisation of Graph Neural Networks for Computer-Aided Molecular Design ( http://arxiv.org/abs/2312.01228v1 )

ライセンス: Link先を確認
Tom McDonald, Calvin Tsay, Artur M. Schweidtmann, Neil Yorke-Smith(参考訳) ReLUニューラルネットワークは、混合整数線形プログラミング(MILP)の制約としてモデル化されており、様々な領域における代理ベースの最適化と機械学習認証問題の効率的な解決を可能にしている。 しかし、それまでの作品はMLPに限られていた。 グラフニューラルネットワーク(GNN)は、分子構造などの非ユークリッドデータ構造から効率的に学習することができ、コンピュータ支援分子設計(CAMD)と高い関係を持つ。 本稿では、ReLUグラフ畳み込みニューラルネットワークのための双線形定式化と、ReLUグラフSAGEモデルのためのMILP定式化を提案する。 これらの定式化により、グローバルな最適性に埋め込まれた訓練されたGNNで最適化問題を解くことができる。 本稿では, 最適沸点を持つ分子を設計するために, 訓練されたGNNの定式化を用いる図式化CAMDケーススタディに適用する。

ReLU neural networks have been modelled as constraints in mixed integer linear programming (MILP), enabling surrogate-based optimisation in various domains and efficient solution of machine learning certification problems. However, previous works are mostly limited to MLPs. Graph neural networks (GNNs) can learn from non-euclidean data structures such as molecular structures efficiently and are thus highly relevant to computer-aided molecular design (CAMD). We propose a bilinear formulation for ReLU Graph Convolutional Neural Networks and a MILP formulation for ReLU GraphSAGE models. These formulations enable solving optimisation problems with trained GNNs embedded to global optimality. We apply our optimization approach to an illustrative CAMD case study where the formulations of the trained GNNs are used to design molecules with optimal boiling points.
翻訳日:2023-12-05 18:30:05 公開日:2023-12-02
# センサネットワークにおける分散ベイズ推定:限界密度に関するコンセンサス

Distributed Bayesian Estimation in Sensor Networks: Consensus on Marginal Densities ( http://arxiv.org/abs/2312.01227v1 )

ライセンス: Link先を確認
Parth Paritosh, Nikolay Atanasov and Sonia Martinez(参考訳) 本稿では,センサネットワークのための分散ベイズ推定アルゴリズムの設計と解析を目的とする。 私たちが直面する課題は (i)連続変数上の確率分布の関数空間における分布証明正則アルゴリズムを導出し、 (ii)これらの結果を利用して、個々のエージェントが観測する変数のサブセットに限定された新しい分散推定子を得る。 これは、協調的なローカライゼーションやフェデレーション学習のような応用に関係しており、任意のエージェントで収集されたデータは、関心のあるすべての変数のサブセットに依存する。 我々は,集中的,分散的,境界的な分散設定におけるエージェントの非線形確率データを用いたベイズ密度推定アルゴリズムを提案する。 分散推定目標を設定した後、各エージェントの最適pdf集合にほぼ確実に収束することを示す。 次に,各エージェントの関連変数に対してのみ密度を推定するストレージ認識アルゴリズムについて同じことを証明した。 最後に、これらのアルゴリズムのガウス版を示し、lidarセンシングに関連する非線形次数モデルを扱うために変分推論を用いたマッピング問題に実装する。

In this paper, we aim to design and analyze distributed Bayesian estimation algorithms for sensor networks. The challenges we address are to (i) derive a distributed provably-correct algorithm in the functional space of probability distributions over continuous variables, and (ii) leverage these results to obtain new distributed estimators restricted to subsets of variables observed by individual agents. This relates to applications such as cooperative localization and federated learning, where the data collected at any agent depends on a subset of all variables of interest. We present Bayesian density estimation algorithms using data from non-linear likelihoods at agents in centralized, distributed, and marginal distributed settings. After setting up a distributed estimation objective, we prove almost-sure convergence to the optimal set of pdfs at each agent. Then, we prove the same for a storage-aware algorithm estimating densities only over relevant variables at each agent. Finally, we present a Gaussian version of these algorithms and implement it in a mapping problem using variational inference to handle non-linear likelihood models associated with LiDAR sensing.
翻訳日:2023-12-05 18:29:51 公開日:2023-12-02
# UCE-FID:食中毒検出のための大規模未ラベル、中級クラウドソースラベル、少人数専門家ラベル付きつぶやき

UCE-FID: Using Large Unlabeled, Medium Crowdsourced-Labeled, and Small Expert-Labeled Tweets for Foodborne Illness Detection ( http://arxiv.org/abs/2312.01225v1 )

ライセンス: Link先を確認
Ruofan Hu, Dongyu Zhang, Dandan Tao, Huayi Zhang, Hao Feng, and Elke Rundensteiner(参考訳) 食品による病気は公衆衛生に大きな影響を与える。 ソーシャルメディアデータを用いたディープラーニング監視アプリケーションは、早期警告信号の検出を目的としている。 しかし、モデルトレーニングのための食品関連ツイートのラベル付けには、膨大な人材が必要であり、限られた予算内で十分な数の高品質のツイートラベルを収集することは困難である。 大量のソーシャルメディアで食中毒関連ツイートが不足しているため、深刻な階級不均衡が問題をさらに悪化させる。 クラス不均衡データセットでトレーニングされた分類器は、多数派クラスに偏り、正確な検出が難しい。 これらの課題を克服するために,我々は,クラウドソーシングと大規模未ラベルデータによる小規模な専門家ラベル付きつぶやきを用いた食中毒検出のためのディープラーニングフレームワークEGALを提案する。 具体的には、専門家によってラベル付けされたツイートを報酬セットとして活用することで、EGALは、不正にラベル付けされたツイートにゼロの重みを割り当てることを学び、ネガティブな影響を軽減する。 他のツイートは、バランスのとれないクラス分布のバランスをとるために比例重みを受け取る。 実世界の \textit{tweet-fid}データに関する広範な実験は、egalがさまざまな設定で強力なベースラインモデルを上回ることを示している。 サラダグリーンに関連付けられたサルモネラのタイフィムリウム感染の多州発生に関するケーススタディでは、トレーニングされたモデルが、適切なアウトブレイク洞察を提供する関連ツイートを捉えた方法が示されている。 u.s. department of agriculture (usda)が出資するegalは、ツイートストリーミングのリアルタイム分析のために展開される可能性を秘めている。

Foodborne illnesses significantly impact public health. Deep learning surveillance applications using social media data aim to detect early warning signals. However, labeling foodborne illness-related tweets for model training requires extensive human resources, making it challenging to collect a sufficient number of high-quality labels for tweets within a limited budget. The severe class imbalance resulting from the scarcity of foodborne illness-related tweets among the vast volume of social media further exacerbates the problem. Classifiers trained on a class-imbalanced dataset are biased towards the majority class, making accurate detection difficult. To overcome these challenges, we propose EGAL, a deep learning framework for foodborne illness detection that uses small expert-labeled tweets augmented by crowdsourced-labeled and massive unlabeled data. Specifically, by leveraging tweets labeled by experts as a reward set, EGAL learns to assign a weight of zero to incorrectly labeled tweets to mitigate their negative influence. Other tweets receive proportionate weights to counter-balance the unbalanced class distribution. Extensive experiments on real-world \textit{TWEET-FID} data show that EGAL outperforms strong baseline models across different settings, including varying expert-labeled set sizes and class imbalance ratios. A case study on a multistate outbreak of Salmonella Typhimurium infection linked to packaged salad greens demonstrates how the trained model captures relevant tweets offering valuable outbreak insights. EGAL, funded by the U.S. Department of Agriculture (USDA), has the potential to be deployed for real-time analysis of tweet streaming, contributing to foodborne illness outbreak surveillance efforts.
翻訳日:2023-12-05 18:29:37 公開日:2023-12-02
# ヒンディー語における量子自然言語処理の実現

Enabling Quantum Natural Language Processing for Hindi Language ( http://arxiv.org/abs/2312.01221v1 )

ライセンス: Link先を確認
Naman Srivastava, Gaurang Belekar, Sunil Saumya, Aswath Babu H(参考訳) 量子自然言語処理(QNLP)は、古典的自然言語処理(NLP)技術の欠点を解決し、より"説明可能な"NLPシステムへの移行において大きな飛躍を遂げている。 QNLPに関する現在の文献は、主に英語の文でQNLP技術を実装することに焦点を当てている。 本稿では,東南アジアで第3位の言語であるHINDIに対するQNLPアプローチの実現を提案する。 本稿では,ヒンズー語文のqnlp処理に必要なパラメータ化量子回路の構築過程について述べる。 我々はHindiとDisCoCatフレームワークの事前グループ表現を用いて文図を描画する。 その後、これらの図を即時量子多項式(IQP)スタイルのアンサッツに基づくパラメータ化量子回路に変換する。 これらのパラメータ化量子回路を使うことで、ヒンディー語のための文法と話題対応文分類器を訓練することができる。

Quantum Natural Language Processing (QNLP) is taking huge leaps in solving the shortcomings of classical Natural Language Processing (NLP) techniques and moving towards a more "Explainable" NLP system. The current literature around QNLP focuses primarily on implementing QNLP techniques in sentences in the English language. In this paper, we propose to enable the QNLP approach to HINDI, which is the third most spoken language in South Asia. We present the process of building the parameterized quantum circuits required to undertake QNLP on Hindi sentences. We use the pregroup representation of Hindi and the DisCoCat framework to draw sentence diagrams. Later, we translate these diagrams to Parameterised Quantum Circuits based on Instantaneous Quantum Polynomial (IQP) style ansatz. Using these parameterized quantum circuits allows one to train grammar and topic-aware sentence classifiers for the Hindi Language.
翻訳日:2023-12-05 18:29:06 公開日:2023-12-02
# ゼロショット昼夜領域適応による物体検出の促進

Boosting Object Detection with Zero-Shot Day-Night Domain Adaptation ( http://arxiv.org/abs/2312.01220v1 )

ライセンス: Link先を確認
Zhipeng Du, Miaojing Shi, Jiankang Deng(参考訳) 低照度のシナリオで物体を検出することは、よく照らされたデータで訓練された検出器が視認性が低いため、低照度データで著しい性能低下を示すため、永続的な課題である。 従来は低照度画像データセットを用いた画像強調や物体検出技術を用いてこの問題を緩和していた。 しかし、低照度画像の収集と注釈付けに固有の困難さが進展を妨げている。 この課題に対処するため,本研究では,高照度シナリオから低照度シナリオへの検出器の一般化を目的とした,ゼロショット昼夜ドメイン適応による低照度物体検出の高速化を提案する。 まず反射率表現学習モジュールをデザインし,精巧に設計された照明不分散強化戦略を用いて画像の屈折に基づく照明不分散を学習する。 次に、2つのシーケンシャルな画像分解を行い、再結合コヒーレンス損失を導入することにより、バニラレチネックス像分解工程を改善するための交換再結合コヒーレンス手順を導入する。 ExDark, DARK FACE, CODaN データセットの大規模な実験により, 本手法の低照度一般化性を示す。

Detecting objects in low-light scenarios presents a persistent challenge, as detectors trained on well-lit data exhibit significant performance degradation on low-light data due to the low visibility. Previous methods mitigate this issue by investigating image enhancement or object detection techniques using low-light image datasets. However, the progress is impeded by the inherent difficulties associated with collecting and annotating low-light images. To address this challenge, we propose to boost low-light object detection with zero-shot day-night domain adaptation, which aims to generalize a detector from well-lit scenarios to low-light ones without requiring real low-light data. We first design a reflectance representation learning module to learn Retinex-based illumination invariance in images with a carefully designed illumination invariance reinforcement strategy. Next, an interchange-redecomposition-coherence procedure is introduced to improve over the vanilla Retinex image decomposition process by performing two sequential image decompositions and introducing a redecomposition cohering loss. Extensive experiments on ExDark, DARK FACE and CODaN datasets show strong low-light generalizability of our method.
翻訳日:2023-12-05 18:28:50 公開日:2023-12-02
# ソーシャルメディアにおける気候変動に対する意見の理解

Understanding Opinions Towards Climate Change on Social Media ( http://arxiv.org/abs/2312.01217v1 )

ライセンス: Link先を確認
Yashaswi Pupneja, Joseph Zou, Sacha L\'evy, Shenyang Huang(参考訳) twitter(現在はxとして知られる)のようなソーシャルメディアプラットフォームは、一般大衆が重要な社会や政治の話題とどう関わるかに革命をもたらした。 近年、ソーシャルメディア上での気候変動に関する議論は、政治的分極と誤情報拡散の触媒となった。 本研究では,ソーシャルメディア上での気候変動に関する話題に対して,現実世界の出来事が個人の意見に与える影響を理解することを目的とする。 この目的のために、2006年から2019年にかけて360万人のユーザーが送信した1360万ツイートのデータセットを抽出、分析した。 次に,利用者が言及するネットワークから時間グラフを構築し,Louvainコミュニティ検出アルゴリズムを用いて,気候変動に関する党大会前後のコミュニティ構造の変化を分析する。 次に、自然言語処理文献のツールを用いて、ツイートに対する感情分析とトピックモデリングを行う。 我々の研究は、COPイベントを取り巻く気候変動推進コミュニティの進化を理解するための第一歩として機能する。 これらの質問に答えることで、気候変動に対する人々の意識を高める方法を理解することができます。

Social media platforms such as Twitter (now known as X) have revolutionized how the public engage with important societal and political topics. Recently, climate change discussions on social media became a catalyst for political polarization and the spreading of misinformation. In this work, we aim to understand how real world events influence the opinions of individuals towards climate change related topics on social media. To this end, we extracted and analyzed a dataset of 13.6 millions tweets sent by 3.6 million users from 2006 to 2019. Then, we construct a temporal graph from the user-user mentions network and utilize the Louvain community detection algorithm to analyze the changes in community structure around Conference of the Parties on Climate Change~(COP) events. Next, we also apply tools from the Natural Language Processing literature to perform sentiment analysis and topic modeling on the tweets. Our work acts as a first step towards understanding the evolution of pro-climate change communities around COP events. Answering these questions helps us understand how to raise people's awareness towards climate change thus hopefully calling on more individuals to join the collaborative effort in slowing down climate change.
翻訳日:2023-12-05 18:28:31 公開日:2023-12-02
# RNb-NeuS:反射率と正規化によるマルチビュー3D再構成

RNb-NeuS: Reflectance and Normal-based Multi-View 3D Reconstruction ( http://arxiv.org/abs/2312.01215v1 )

ライセンス: Link先を確認
Baptiste Brument, Robin Bruneau, Yvain Qu\'eau, Jean M\'elou, Fran\c{c}ois Bernard Lauze, Jean-Denis, Jean-Denis Durou, Lilian Calvet(参考訳) 本稿では,多視点反射率と,フォトメトリックステレオで取得した正規マップを統合するための汎用的パラダイムを提案する。 本手法は、反射率と正規値の画素方向のジョイント再パラメータ化をシミュレートされた様々な照明下でレンダリングされた放射のベクトルとして考慮する。 この再パラメータ化により、ニューラルネットワークのボリュームレンダリングに基づく3d再構成において、反射率と正規マップを入力データとしてシームレスに統合することができる。 対照的に、近年のマルチビュー・フォトメトリック・ステレオ(mvps)法は、複数の、潜在的に矛盾する目標に依存する。 その単純さにもかかわらず、提案手法はf-score、chamfer distance、平均角誤差メトリクスを横断するmvpsベンチマークにおいて最先端のアプローチよりも優れている。 特に、高い曲率または視界の低い領域の詳細な3D再構成を大幅に改善する。

This paper introduces a versatile paradigm for integrating multi-view reflectance and normal maps acquired through photometric stereo. Our approach employs a pixel-wise joint re-parameterization of reflectance and normal, considering them as a vector of radiances rendered under simulated, varying illumination. This re-parameterization enables the seamless integration of reflectance and normal maps as input data in neural volume rendering-based 3D reconstruction while preserving a single optimization objective. In contrast, recent multi-view photometric stereo (MVPS) methods depend on multiple, potentially conflicting objectives. Despite its apparent simplicity, our proposed approach outperforms state-of-the-art approaches in MVPS benchmarks across F-score, Chamfer distance, and mean angular error metrics. Notably, it significantly improves the detailed 3D reconstruction of areas with high curvature or low visibility.
翻訳日:2023-12-05 18:28:14 公開日:2023-12-02
# スケーラブルエネルギー効率・信頼性のあるスパイクニューラルネットワークの最近の進歩:アルゴリズムから技術へ

Recent Advances in Scalable Energy-Efficient and Trustworthy Spiking Neural networks: from Algorithms to Technology ( http://arxiv.org/abs/2312.01213v1 )

ライセンス: Link先を確認
Souvik Kundu, Rui-Jie Zhu, Akhilesh Jaiswal, Peter A. Beerel(参考訳) ニューロモルフィックコンピューティング、特にスパイクニューラルネットワーク(SNN)は、幅広い信号処理アプリケーションのためにディープニューラルネットワークの魅力的な代替品となり、オーディオや視覚センサーを含む様々な感覚モーダルから静的または時間的な入力を処理するようになった。 本稿では、複雑な機械学習アプリケーションのための、低レイテンシーを効率的に訓練しスケールするためのアルゴリズムおよび最適化技術革新の最近の進歩と、エネルギー効率の良いスパイクニューラルネットワーク(snns)について述べる。 次に,高エネルギー効率化と低レイテンシ化を両立させながら,高い信頼性と信頼性を両立させるアルゴリズムアーキテクチャ共同設計の最近の取り組みについて考察する。 次に,このようなアルゴリズムの革新を効率的に活用するために開発されたハードウェアについて述べる。 特に,モデル計算のかなりの部分を,センサ自体だけでなくメモリコンポーネントにも統合するハイブリッド手法について述べる。 最後に,信頼性を重視したアルゴリズム・ハードウェア・アプリケーション共同設計分野における重要な課題を識別する,デプロイ可能なSNNシステム構築に向けた研究の今後について論じる。

Neuromorphic computing and, in particular, spiking neural networks (SNNs) have become an attractive alternative to deep neural networks for a broad range of signal processing applications, processing static and/or temporal inputs from different sensory modalities, including audio and vision sensors. In this paper, we start with a description of recent advances in algorithmic and optimization innovations to efficiently train and scale low-latency, and energy-efficient spiking neural networks (SNNs) for complex machine learning applications. We then discuss the recent efforts in algorithm-architecture co-design that explores the inherent trade-offs between achieving high energy-efficiency and low latency while still providing high accuracy and trustworthiness. We then describe the underlying hardware that has been developed to leverage such algorithmic innovations in an efficient way. In particular, we describe a hybrid method to integrate significant portions of the model's computation within both memory components as well as the sensor itself. Finally, we discuss the potential path forward for research in building deployable SNN systems identifying key challenges in the algorithm-hardware-application co-design space with an emphasis on trustworthiness.
翻訳日:2023-12-05 18:27:58 公開日:2023-12-02
# 検証および構成強化学習のためのマルチフィデアルsim-to-realパイプライン

A Multifidelity Sim-to-Real Pipeline for Verifiable and Compositional Reinforcement Learning ( http://arxiv.org/abs/2312.01249v1 )

ライセンス: Link先を確認
Cyrus Neary, Christian Ellis, Aryaman Singh Samyal, Craig Lennon, Ufuk Topcu(参考訳) 物理ハードウェアに信頼性と適応性のあるRLポリシーをデプロイするために,多忠実なsim-to-realパイプライン内で強化学習システム(RL)を訓練し,検証するための構成的枠組みを提案し,実証する。 複雑なロボットタスクをコンポーネントのサブタスクに分解し、それらの間の数学的インターフェースを定義することにより、フレームワークは対応するサブタスクポリシーの独立したトレーニングとテストを可能にし、同時に構成から生じる全体的な振る舞いの保証を提供する。 マルチフィデリティシミュレーションパイプラインを使用して、これらのサブタスクポリシーのパフォーマンスを検証することにより、フレームワークは効率的なrlトレーニングを可能にするだけでなく、シミュレーションと現実の相違から生じる課題に対応して、サブタスクとそのインターフェースを洗練することができる。 実験ケーススタディでは、Warthog無人地上ロボットの操縦を成功させる構成的RLシステムの訓練と展開にフレームワークを適用した。

We propose and demonstrate a compositional framework for training and verifying reinforcement learning (RL) systems within a multifidelity sim-to-real pipeline, in order to deploy reliable and adaptable RL policies on physical hardware. By decomposing complex robotic tasks into component subtasks and defining mathematical interfaces between them, the framework allows for the independent training and testing of the corresponding subtask policies, while simultaneously providing guarantees on the overall behavior that results from their composition. By verifying the performance of these subtask policies using a multifidelity simulation pipeline, the framework not only allows for efficient RL training, but also for a refinement of the subtasks and their interfaces in response to challenges arising from discrepancies between simulation and reality. In an experimental case study we apply the framework to train and deploy a compositional RL system that successfully pilots a Warthog unmanned ground robot.
翻訳日:2023-12-05 18:17:04 公開日:2023-12-02
# 量子インタフェースルーティングカードを用いた表面符号の格子手術のための共設計超電導アーキテクチャ

Co-Designed Superconducting Architecture for Lattice Surgery of Surface Codes with Quantum Interface Routing Card ( http://arxiv.org/abs/2312.01246v1 )

ライセンス: Link先を確認
Charles Guinn, Samuel Stein, Esin Tureci, Guus Avis, Chenxu Liu, Stefan Krastanov, Andrew A. Houck, Ang Li(参考訳) 物理量子ビット誤り率以下で論理量子ビット誤り率を達成する能力を実現するため、誤り訂正は量子コンピュータのスケーリングにおいて重要な役割を果たすことが期待されている。 多くのアルゴリズムは、エラー訂正のために数百万の物理キュービットを必要とするが、現在の超伝導キュービットシステムは、数百の物理キュービットしか含まない。 超伝導量子ビットプラットフォームで最も有望な符号の1つは表面符号であり、現実的に達成可能な誤差しきい値と格子手術とマジック状態注入による局所演算による普遍的フォールトトレラント量子計算能力を必要とする。 表面コードアーキテクチャはシングルチップの平面レイアウトに容易に一般化できるが、空間と制御ハードウェアの制約は1つのチップに収まる量子ビットの数に制限があることを示している。 さらに、シングルチップアーキテクチャ上の平面ルーティングは、通勤ゲートのシリアライズと、大きなアンシラパッチによる古典的復号化に繋がる。 表面コードを利用した分散マルチチップアーキテクチャは、チップ間ゲートの最適化、チップ間のネットワークの衝突の管理、ハードウェアのルーティングコストの最小化といった問題を解決することができる。 単一希釈冷凍機内における表面コードモジュール間の格子手術のための超伝導量子インタフェースルーティングカードQuIRCを提案する。 QuIRCは、多くのモジュールの接続を可能にしてスケーリングを改善し、表面コード格子のアンシラ接続を改善し、パウリベースのサーフェスコード回路のトランスパイルを改善した。 QuIRCは通信にEP(In-situ Entangled Pair)生成プロトコルを使用している。 超伝導ハードウェア製造制約に基づくQuIRCの潜在的トポロジカルレイアウトについて検討し, 単チップケースと比較して, アンシラパッチサイズを77.8%, 層透過サイズを51.9%削減することを示した。

Facilitating the ability to achieve logical qubit error rates below physical qubit error rates, error correction is anticipated to play an important role in scaling quantum computers. While many algorithms require millions of physical qubits to be executed with error correction, current superconducting qubit systems contain only hundreds of physical qubits. One of the most promising codes on the superconducting qubit platform is the surface code, requiring a realistically attainable error threshold and the ability to perform universal fault-tolerant quantum computing with local operations via lattice surgery and magic state injection. Surface code architectures easily generalize to single-chip planar layouts, however space and control hardware constraints point to limits on the number of qubits that can fit on one chip. Additionally, the planar routing on single-chip architectures leads to serialization of commuting gates and strain on classical decoding caused by large ancilla patches. A distributed multi-chip architecture utilizing the surface code can potentially solve these problems if one can optimize inter-chip gates, manage collisions in networking between chips, and minimize routing hardware costs. We propose QuIRC, a superconducting Quantum Interface Routing Card for Lattice Surgery between surface code modules inside of a single dilution refrigerator. QuIRC improves scaling by allowing connection of many modules, increases ancilla connectivity of surface code lattices, and offers improved transpilation of Pauli-based surface code circuits. QuIRC employs in-situ Entangled Pair (EP) generation protocols for communication. We explore potential topological layouts of QuIRC based on superconducting hardware fabrication constraints, and demonstrate reductions in ancilla patch size by up to 77.8%, and in layer transpilation size by 51.9% when compared to the single-chip case.
翻訳日:2023-12-05 18:16:47 公開日:2023-12-02
# フェデレーション・トランスファー・ラーニングによる基礎モデル:汎用フレームワーク

Grounding Foundation Models through Federated Transfer Learning: A General Framework ( http://arxiv.org/abs/2311.17431v3 )

ライセンス: Link先を確認
Yan Kang, Tao Fan, Hanlin Gu, Lixin Fan, Qiang Yang(参考訳) 膨大な知識と強力な創発能力を備えたGPT-4のような基礎モデル(FM)は、様々な自然言語処理やコンピュータビジョンタスクにおいて大きな成功を収めている。 FMをドメイン固有のタスクに適応させたり、ドメイン固有の知識で拡張することで、FMの潜在能力を最大限活用することができる。 しかし、基盤となるFMは、主に制約のあるコンピューティングリソース、データプライバシ、モデルの不均一性、モデルオーナシップなど、いくつかの課題に直面している。 フェデレーション・トランスファー・ラーニング(FTL)は、フェデレーション・ラーニングとトランスファー・ラーニングを組み合わせたもので、これらの課題に対処するための有望なソリューションを提供する。 近年、FTL-FMと呼ばれるFTLを利用したFMの接地の必要性が、学術と産業の両方で強く現れている。 本研究では,FTL-FM研究の高度化とFTL-FMの産業的応用への影響を背景として,FTL-FMフレームワークの構築,FTL-FMフレームワークに基づく詳細な分類法の構築,最先端のFTL-FM作品の分類,提案した分類法に基づくFTL-FM作品の包括的概要について述べる。 また、FTL-FMと従来のFM適応フェーズの対応性を確立し、FM実践者がFTL-FMと研究作業を整合させることができるようにした。 さらに、FTL-FMにおいて効率とプライバシーが重要となるため、高度な効率改善とプライバシー保護技術の概要を述べる。 最後に,FTL-FMの今後の研究の方向性について述べる。

Foundation Models (FMs) such as GPT-4 encoded with vast knowledge and powerful emergent abilities have achieved remarkable success in various natural language processing and computer vision tasks. Grounding FMs by adapting them to domain-specific tasks or augmenting them with domain-specific knowledge enables us to exploit the full potential of FMs. However, grounding FMs faces several challenges, stemming primarily from constrained computing resources, data privacy, model heterogeneity, and model ownership. Federated Transfer Learning (FTL), the combination of federated learning and transfer learning, provides promising solutions to address these challenges. In recent years, the need for grounding FMs leveraging FTL, coined FTL-FM, has arisen strongly in both academia and industry. Motivated by the strong growth in FTL-FM research and the potential impact of FTL-FM on industrial applications, we propose an FTL-FM framework that formulates problems of grounding FMs in the federated learning setting, construct a detailed taxonomy based on the FTL-FM framework to categorize state-of-the-art FTL-FM works, and comprehensively overview FTL-FM works based on the proposed taxonomy. We also establish correspondences between FTL-FM and conventional phases of adapting FM so that FM practitioners can align their research works with FTL-FM. In addition, we overview advanced efficiency-improving and privacy-preserving techniques because efficiency and privacy are critical concerns in FTL-FM. Last, we discuss opportunities and future research directions of FTL-FM.
翻訳日:2023-12-05 12:09:50 公開日:2023-12-02