このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240118となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# Conning the Crypto Conman: End-to-End Analysis of Cryptocurrency-based Technical Support Scams
Conning the Crypto Conman: End-to-End Analysis of Cryptocurrency-based Technical Support Scams ( http://arxiv.org/abs/2401.09824v1 ) ライセンス: Link先を確認 | Bhupendra Acharya, Muhammad Saad, Antonio Emanuele Cinà, Lea Schönherr, Hoang Dai Nguyen, Adam Oest, Phani Vadrevu, Thorsten Holz, | (参考訳) 暗号通貨の普及が主流となり、ソーシャルメディアプラットフォーム上で一般ユーザーが報告する財布関連の問題が急増した。
同時に、暗号通貨ベースのテクニカルサポート詐欺と呼ばれる詐欺の流行も増加しており、詐欺師は偽のウォレットリカバリサービスを提供し、ウォレット関連の問題を抱えているユーザーをターゲットにしている。
本稿では,暗号通貨に基づく技術支援詐欺の包括的研究を行う。
この種の詐欺を分析するために,HoneyTweetという分析装置を提案する。
HoneyTweetを通じて、25万件の偽のウォレットサポートツイート(いわゆるハニーツイート)を投稿することで、9万件以上の詐欺行為が引き起こされる。
次に、自動システムをデプロイして、スキャマーと対話し、そのモードオペランディを解析します。
われわれの実験では、詐欺師はTwitterを詐欺の出発点として利用し、その後他のコミュニケーションチャネル(メール、Instagram、Telegramなど)に方向転換して詐欺行為を完了している。
通信チャネルに散らばる詐欺を追跡して、支払い方法を明らかにする。
支払いのモードに基づいて、被害者から秘密のキーフレーズを提出するか、デジタルウォレットに直接支払うかの2つのカテゴリが明らかになった。
さらに,ハニーウォレットアドレスの配置と秘密鍵盗難の検証により詐欺確認を行う。
私たちはまた、スカマーデータコレクションを共有することで、著名な決済サービスプロバイダとも協力しています。
支払いサービス提供者からのフィードバックは,我々の発見と一致しており,我々の方法論と結果を支持している。
様々な視点で分析を統合することにより、エンド・ツー・エンドのスカムライフサイクル分析を提供し、スカム軽減のための推奨事項を提案する。
The mainstream adoption of cryptocurrencies has led to a surge in wallet-related issues reported by ordinary users on social media platforms. In parallel, there is an increase in an emerging fraud trend called cryptocurrency-based technical support scam, in which fraudsters offer fake wallet recovery services and target users experiencing wallet-related issues. In this paper, we perform a comprehensive study of cryptocurrency-based technical support scams. We present an analysis apparatus called HoneyTweet to analyze this kind of scam. Through HoneyTweet, we lure over 9K scammers by posting 25K fake wallet support tweets (so-called honey tweets). We then deploy automated systems to interact with scammers to analyze their modus operandi. In our experiments, we observe that scammers use Twitter as a starting point for the scam, after which they pivot to other communication channels (eg email, Instagram, or Telegram) to complete the fraud activity. We track scammers across those communication channels and bait them into revealing their payment methods. Based on the modes of payment, we uncover two categories of scammers that either request secret key phrase submissions from their victims or direct payments to their digital wallets. Furthermore, we obtain scam confirmation by deploying honey wallet addresses and validating private key theft. We also collaborate with the prominent payment service provider by sharing scammer data collections. The payment service provider feedback was consistent with our findings, thereby supporting our methodology and results. By consolidating our analysis across various vantage points, we provide an end-to-end scam lifecycle analysis and propose recommendations for scam mitigation. | 翻訳日:2024-03-25 12:17:56 公開日:2024-01-18 |
# アタックツリー計量は演算代数である
Attack tree metrics are operad algebras ( http://arxiv.org/abs/2401.10008v1 ) ライセンス: Link先を確認 | Milan Lopuhaä-Zwakenberg, | (参考訳) アタックツリー(AT)は、セキュリティ分析のツールとして広く使われている。
ATは、ATにセキュリティ値を割り当てるメトリクスを通じて、定量的なセキュリティ分析に使用できる。
様々なATメトリクスが存在し、様々なATメトリクスを同時に研究することを目的とした、複数の一般的な定義が存在する。
しかしこれらはいずれも欠点があり、すべてのメトリクスをキャプチャするわけではなく、ATの拡張に容易に一般化するものではない。
本稿では,圏論,特に演算代数に基づくATメトリクスの定義を紹介する。
これは、以前のATメトリクスの定義を全て含み、容易にATの拡張に一般化される。
さらに,操作理論的な条件下では,既存の計量計算アルゴリズムはかなりの一般性で拡張可能であることを示す。
Attack Trees (ATs) are a widely used tool for security analysis. ATs can be employed in quantitative security analysis through metrics, which assign a security value to an AT. Many different AT metrics exist, and there exist multiple general definitions that aim to study a wide variety of AT metrics at once. However, these all have drawbacks: they do not capture all metrics, and they do not easily generalize to extensions of ATs. In this paper, we introduce a definition of AT metrics based on category theory, specifically operad algebras. This encompasses all previous definitions of AT metrics, and is easily generalized to extensions of ATs. Furthermore, we show that under easily expressed operad-theoretic conditions, existing metric calculation algorithms can be extended in considerable generality. | 翻訳日:2024-03-25 12:17:56 公開日:2024-01-18 |
# 階層的変分オートエンコーダによる注意に基づく分子生成
Attention Based Molecule Generation via Hierarchical Variational Autoencoder ( http://arxiv.org/abs/2402.16854v1 ) ライセンス: Link先を確認 | Divahar Sivanesan, | (参考訳) 分子生成は、分子を計算的に表現する複雑な方法によって非常に難しいタスクである。
分子生成モデリングで使用される一般的なテクニックは、可変オートエンコーダに組み込まれたリカレントニューラルネットワークを備えたSMILES文字列を使用することである。
本研究では,リカレントニューラルネットワークと畳み込みニューラルネットワークを階層的に組み合わせることで,信号と長距離依存性を維持しながらSMILES文字列から自己回帰情報を抽出できることを示す。
これにより、既知の分子を再構成する際に95%のオーダーで非常に高い妥当性を持つ世代が生まれる。
また、テストセットと再構成分子間の.6の平均的谷本類似性も観察し、本手法がSMILES文字列とそれらの学習表現を、類似した手法を用いた先行研究よりも効果的にマッピングできることを示唆している。
Molecule generation is a task made very difficult by the complex ways in which we represent molecules computationally. A common technique used in molecular generative modeling is to use SMILES strings with recurrent neural networks built into variational autoencoders - but these suffer from a myriad of issues: vanishing gradients, long-range forgetting, and invalid molecules. In this work, we show that by combining recurrent neural networks with convolutional networks in a hierarchical manner, we are able to both extract autoregressive information from SMILES strings while maintaining signal and long-range dependencies. This allows for generations with very high validity rates on the order of 95% when reconstructing known molecules. We also observe an average Tanimoto similarity of .6 between test set and reconstructed molecules, which suggests our method is able to map between SMILES strings and their learned representations in a more effective way than prior works using similar methods. | 翻訳日:2024-03-25 08:46:38 公開日:2024-01-18 |
# Veagle: マルチモーダル表現学習の進歩
Veagle: Advancements in Multimodal Representation Learning ( http://arxiv.org/abs/2403.08773v1 ) ライセンス: Link先を確認 | Rajat Chawla, Arkajit Datta, Tushar Verma, Adarsh Jha, Anmol Gautam, Ayush Vatsal, Sukrit Chaterjee, Mukunda NS, Ishaan Bhola, | (参考訳) 近年、人工知能の研究者たちは言語と視覚の融合に興味を持ち、テキストと視覚情報をシームレスに統合することを目的としたマルチモーダルモデルの開発に繋がった。
大規模言語モデル(LLM)の拡張であるマルチモーダルモデルは、画像キャプションや視覚的質問応答(VQA)から視覚的グラウンドニングまで、様々なタスクに対処する際、顕著な能力を発揮している。
これらのモデルは大きな進歩を見せているが、現実のシナリオでよくある問題である、画像の正確な解釈と質問に答えることに課題が続いている。
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
現在のビジョン言語モデル(VLM)とマルチモーダル大言語モデル(MLLM)の限界に対応するため、提案したモデルであるVeagleは、過去の作品の成功と洞察に触発されたユニークなメカニズムを取り入れている。
Veagleは動的メカニズムを活用して、エンコードされた視覚情報を言語モデルに直接投影する。
この動的なアプローチは、視覚的コンテキストに存在する複雑な詳細をより微妙に理解することを可能にする。
Veagleの有効性を検証するために、私たちは、視覚的質問応答や画像理解といったタスクを強調し、ベンチマークデータセットの包括的な実験を行う。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能が5~6 %向上したことが示唆された。
結果は、従来のベンチマークを超えて、モデルの汎用性と適用性を強調します。
Lately, researchers in artificial intelligence have been really interested in how language and vision come together, giving rise to the development of multimodal models that aim to seamlessly integrate textual and visual information. Multimodal models, an extension of Large Language Models (LLMs), have exhibited remarkable capabilities in addressing a diverse array of tasks, ranging from image captioning and visual question answering (VQA) to visual grounding. While these models have showcased significant advancements, challenges persist in accurately interpreting images and answering the question, a common occurrence in real-world scenarios. This paper introduces a novel approach to enhance the multimodal capabilities of existing models. In response to the limitations observed in current Vision Language Models (VLMs) and Multimodal Large Language Models (MLLMs), our proposed model Veagle, incorporates a unique mechanism inspired by the successes and insights of previous works. Veagle leverages a dynamic mechanism to project encoded visual information directly into the language model. This dynamic approach allows for a more nuanced understanding of intricate details present in visual contexts. To validate the effectiveness of Veagle, we conduct comprehensive experiments on benchmark datasets, emphasizing tasks such as visual question answering and image understanding. Our results indicate a improvement of 5-6 \% in performance, with Veagle outperforming existing models by a notable margin. The outcomes underscore the model's versatility and applicability beyond traditional benchmarks. | 翻訳日:2024-03-25 08:16:13 公開日:2024-01-18 |
# ケーススタディ:CHERIを使用したMMUレスLinuxのセキュア化
Case Study: Securing MMU-less Linux Using CHERI ( http://arxiv.org/abs/2310.00933v2 ) ライセンス: Link先を確認 | Hesham Almatary, Alfredo Mazzinghi, Robert N. M. Watson, | (参考訳) MMUのないLinuxの亜種は、保護や隔離機構がないため、セキュリティに欠ける。
また、MPUの設計上の欠点(保護領域の固定数の粗い保護)のため、ソフトウェアモデルに適合しないため、MPUを使用しない。
我々はCHERIを用いてRISC-Vポートの既存のMMUレスLinuxバージョンを確保する。
CHERIは、ISA、ツールチェーン、プログラミング言語、オペレーティングシステム、アプリケーションを拡張し、完全なポインタとメモリ安全性を提供するハードウェア・ソフトウェア機能ベースのシステムである。
我々は,CHERIが,MMUやMPUと比較して低コストで,ハイエンドなMMUレス組み込みシステムに対して重要なセキュリティ保証を提供することができると考えている。
1)カーネルとユーザレベルで完全な空間メモリの安全性を提供するCHERI Cモードでソフトウェアスタック全体を構築する。
2) ユーザプログラムを別個のELFとして分離し、それぞれが独自のCHERIベースの機能テーブルを持つ。
3) カーネルからユーザプログラムを分離する。
4) CompartOSのリンケージベースのコンパートナライゼーションを用いたカーネルモジュールのコンパートナライズ。
これは現在のMMUベースのLinuxでは不可能な新しいセキュリティフロントを提供する。カーネル空間で実行される脆弱性のある/悪意のあるカーネルモジュール(\egデバイスドライバ)がシステム全体を妥協したり、取り壊したりすることはない。
本論文の4つの主な貢献は,MMUレス組込みLinuxをセキュアにするためのCHERIベースの機構を新たに提示することである。
MMU-less Linux variant lacks security because it does not have protection or isolation mechanisms. It also does not use MPUs as they do not fit with its software model because of the design drawbacks of MPUs (\ie coarse-grained protection with fixed number of protected regions). We secure the existing MMU-less Linux version of the RISC-V port using CHERI. CHERI is a hardware-software capability-based system that extends the ISA, toolchain, programming languages, operating systems, and applications in order to provide complete pointer and memory safety. We believe that CHERI could provide significant security guarantees for high-end dynamic MMU-less embedded systems at lower costs, compared to MMUs and MPUs, by: 1) building the entire software stack in pure-capability CHERI C mode which provides complete spatial memory safety at the kernel and user-level, 2) isolating user programs as separate ELFs, each with its own CHERI-based capability table; this provides spatial memory safety similar to what the MMU offers (\ie user programs cannot access each other's memory), 3) isolating user programs from the kernel as the kernel has its own capability table from the users and vice versa, and 4) compartmentalising kernel modules using CompartOS' linkage-based compartmentalisation. This offers a new security front that is not possible using the current MMU-based Linux, where vulnerable/malicious kernel modules (\eg device drivers) executing in the kernel space would not compromise or take down the entire system. These are the four main contributions of this paper, presenting novel CHERI-based mechanisms to secure MMU-less embedded Linux. | 翻訳日:2024-03-19 03:31:41 公開日:2024-01-18 |
# Silent Guardian: 大規模言語モデルによる悪意ある爆発からテキストを保護する
Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models ( http://arxiv.org/abs/2312.09669v3 ) ライセンス: Link先を確認 | Jiawei Zhao, Kejiang Chen, Xiaojian Yuan, Yuang Qi, Weiming Zhang, Nenghai Yu, | (参考訳) 大規模言語モデル(LLM)の急速な開発は、様々な下流タスクにおいて顕著な成功を収めた。
しかし、LLMの膨大な可能性と目覚ましい能力は、その開放性のために悪用された場合、新たなセキュリティとプライバシの懸念も引き起こす。
例えば、LSMは、文書を盗用したり、模倣したりすることで、オリジナルコンテンツの著作権を侵害したり、特定のソーステキストに基づいて識別できない偽の情報を生成したりすることができる。
場合によっては、LLMは個人のプライバシーを推測するためにインターネットからテキストを分析することもできる。
残念なことに、従来のテキスト保護研究は強力なLSMの出現を予測できなかったため、この新しい文脈ではもはや効果を示さなかった。
このギャップを埋めるために,LLMに対するテキスト保護機構であるSilent Guardian(SG)を導入する。
具体的には,まず,トラニケート保護事例(TPE)の概念を提案する。
保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。
また,テキストデータの離散空間においてTPEを効率的に構築するために,高度に効率的なだけでなく,最適化過程におけるテキストの意味的一貫性も維持する,Super Taliored Protection (STP)と呼ばれる新しい最適化アルゴリズムを提案する。
総合的な実験評価により、SGは様々な構成下でターゲットテキストを効果的に保護でき、場合によってはほぼ100%の保護成功率を達成できることが示された。
特に、SGは比較的優れた転送性とロバスト性を示しており、現実的なシナリオでも適用可能である。
The rapid development of large language models (LLMs) has yielded impressive success in various downstream tasks. However, the vast potential and remarkable capabilities of LLMs also raise new security and privacy concerns if they are exploited for nefarious purposes due to their open-endedness. For example, LLMs may be used to plagiarize or imitate writing, thereby infringing the copyright of the original content, or to create indiscriminate fake information based on a certain source text. In some cases, LLMs can even analyze text from the Internet to infer personal privacy. Unfortunately, previous text protection research could not foresee the emergence of powerful LLMs, rendering it no longer effective in this new context. To bridge this gap, we introduce Silent Guardian (SG), a text protection mechanism against LLMs, which allows LLMs to refuse to generate response when receiving protected text, preventing the malicious use of text from the source. Specifically, we first propose the concept of Truncation Protection Examples (TPE). By carefully modifying the text to be protected, TPE can induce LLMs to first sample the end token, thus directly terminating the interaction. In addition, to efficiently construct TPE in the discrete space of text data, we propose a novel optimization algorithm called Super Taliored Protection (STP), which is not only highly efficient but also maintains the semantic consistency of the text during the optimization process. The comprehensive experimental evaluation demonstrates that SG can effectively protect the target text under various configurations and achieve almost 100% protection success rate in some cases. Notably, SG also exhibits relatively good transferability and robustness, making its application in practical scenarios possible. | 翻訳日:2024-03-18 12:07:24 公開日:2024-01-18 |
# 核崩壊の機械的検出 Mechanical detection of nuclear decays ( http://arxiv.org/abs/2402.13257v1 ) ライセンス: Link先を確認 | Jiaxiang Wang, T. W. Penny, Juan Recoaro, Benjamin Siegel, Yu-Han Tseng, David C. Moore | (参考訳) 1世紀以上の開発を経て、放射性崩壊によって生成される粒子からのエネルギーの蓄積を正確に測定できる検出器が開発された。
しかし、そのような崩壊で放出される中性粒子は、後に検出器内で相互作用しない場合、検出から逃れることができる。
ここでは,崩壊核が埋め込まれた物体全体の機械的反動を通じて,個々の原子核$\alpha$崩壊を検出する。
モメンタム保存は、これらの測定が中性粒子を含む崩壊で放出される粒子に敏感であることを保証する。
高精度光制御とミクロンサイズの粒子の機械的運動の測定を可能にする浮揚光学系において、最近開発された技術により、放出される粒子の10^{12}より大きい物体の微小な反動の検出が可能となった。
ここで開発された技術は、核法医学からダークマター、ニュートリノ物理学まで、様々な分野で用いられる。 More than a century of development has led to detectors that can precisely measure energy deposits from particles produced by radioactive decays. However, neutral particles emitted in such decays may escape detection if they do not subsequently interact within the detector. Here we report the detection of individual nuclear $\alpha$ decays through the mechanical recoil of the entire object in which the decaying nuclei are embedded. Momentum conservation ensures that such measurements are sensitive to any particles emitted in the decay, including neutral particles. Detection of the minuscule recoil of an object more than $10^{12}$ times more massive than the emitted particles is made possible by recently developed techniques in levitated optomechanics, which enable high-precision optical control and measurement of the mechanical motion of a micron-sized particle. The techniques developed here may find use in fields ranging from nuclear forensics to dark matter and neutrino physics. | 翻訳日:2024-02-25 16:53:10 公開日:2024-01-18 |
# 理科教育におけるChatGPTの利用 : 教員の授業計画に関する研究 Using ChatGPT for Science Learning: A Study on Pre-service Teachers' Lesson Planning ( http://arxiv.org/abs/2402.01674v1 ) ライセンス: Link先を確認 | Gyeong-Geon Lee and Xiaoming Zhai | (参考訳) ChatGPTの潜在能力の噂にもかかわらず、教室で実際の実用性を探究する実証的研究は乏しいままである。
本研究の目的は,韓国の29人の小学校教員による授業計画を分析し,ChatGPTを科学学習活動に統合する方法を評価することである。
まず,授業計画において,対象ドメインと学習方法と戦略がChatGPTとどのように統合されているかを検討した。
次に,改良TPACKベースルーブリックを用いた授業計画の評価を行った。
さらに,ChatGPTを科学学習に統合することに対する教員の意識と懸念について検討した。
結果は、さまざまな科学領域におけるChatGPTの多様な応用を示す。
授業計画では14種類の指導・学習方法・戦略が同定された。
教員の授業計画の平均はTPACKをベースとしたルーブリックに高い評価を与え,特に「教育戦略とチャットGPT」において,ChatGPTを科学学習に統合する合理的な意図を示した。
しかし、他の側面と比較してChatGPTの機能を最大限に活用することには、比較的低い評価を得た。
この研究は、授業計画におけるChatGPTの適切な使用例と不適切な使用例の両方を明らかにした。
サービス前教師は、ChatGPTが高品質な質問、自己指導型学習、個別学習支援、フォーマティブアセスメントを提供すると予測した。
また、その正確さと、生徒がChatGPTに過度に依存するリスクについても懸念を表明している。
彼らはさらに、教師と生徒の間の教室のダイナミクスを体系化する解決策を提案した。
この研究は、実際の教室環境における生成AIの役割に関するさらなる研究の必要性を強調し、将来のAI統合科学学習に対する洞察を提供する。 Despite the buzz around ChatGPT's potential, empirical studies exploring its actual utility in the classroom for learning remain scarce. This study aims to fill this gap by analyzing the lesson plans developed by 29 pre-service elementary teachers from a Korean university and assessing how they integrated ChatGPT into science learning activities. We first examined how the subject domains and teaching and learning methods/strategies were integrated with ChatGPT in the lesson plans. We then evaluated the lesson plans using a modified TPACK-based rubric. We further examined pre-service teachers' perceptions and concerns about integrating ChatGPT into science learning. Results show diverse applications of ChatGPT in different science domains. Fourteen types of teaching and learning methods/strategies were identified in the lesson plans. On average, the pre-service teachers' lesson plans scored high on the modified TPACK-based rubric, indicating a reasonable envisage of integrating ChatGPT into science learning, particularly in 'instructional strategies & ChatGPT'. However, they scored relatively lower on exploiting ChatGPT's functions toward its full potential compared to other aspects. The study also identifies both appropriate and inappropriate use cases of ChatGPT in lesson planning. Pre-service teachers anticipated ChatGPT to afford high-quality questioning, self-directed learning, individualized learning support, and formative assessment. Meanwhile, they also expressed concerns about its accuracy and the risks that students may be overly dependent on ChatGPT. They further suggested solutions to systemizing classroom dynamics between teachers and students. The study underscores the need for more research on the roles of generative AI in actual classroom settings and provides insights for future AI-integrated science learning. | 翻訳日:2024-02-11 16:50:15 公開日:2024-01-18 |
# 合意技術に基づく応用の法的・倫理的意味--オークションに基づく道路交差点の場合 Legal and ethical implications of applications based on agreement technologies: the case of auction-based road intersections ( http://arxiv.org/abs/2402.01673v1 ) ライセンス: Link先を確認 | Jos\'e-Antonio Santos, Alberto Fern\'andez, Mar Moreno-Rebato, Holger Billhardt, Jos\'e-A. Rodr\'iguez-Garc\'ia, Sascha Ossowski | (参考訳) 合意技術は分散インテリジェントシステムを構築するための新しいパラダイムであり、自律的なソフトウェアエージェントが人間のユーザーのために合意に達するために交渉する。
スマートシティは、合意技術のための重要なアプリケーションドメインです。
概念実証やプロトタイプはいくつか存在するが、そのようなシステムは現実世界に配備される準備が整っていない。
本稿では,今後のスマートな道路インフラの要素,すなわちオークションベースの道路交差点の要素を管理する新しい手法に着目する。
このような手法の鍵となる技術要素がすでに利用可能であるにもかかわらず、実際に適用される前に取り組まなければならない複数の技術的問題が存在する。
本研究の目的は,国際規制やスペイン法の観点から,オークションに基づく道路交差点の法的・倫理的意味を分析することである。
この演習から、技術的および法的性質の両方の必要な修正点を抽出し、遠くない将来において、そのようなシステムの実世界展開への道を開くために対処する必要がある。 Agreement Technologies refer to a novel paradigm for the construction of distributed intelligent systems, where autonomous software agents negotiate to reach agreements on behalf of their human users. Smart Cities are a key application domain for Agreement Technologies. While several proofs of concept and prototypes exist, such systems are still far from ready for being deployed in the real-world. In this paper we focus on a novel method for managing elements of smart road infrastructures of the future, namely the case of auction-based road intersections. We show that, even though the key technological elements for such methods are already available, there are multiple non-technical issues that need to be tackled before they can be applied in practice. For this purpose, we analyse legal and ethical implications of auction-based road intersections in the context of international regulations and from the standpoint of the Spanish legislation. From this exercise, we extract a set of required modifications, of both technical and legal nature, which need to be addressed so as to pave the way for the potential real-world deployment of such systems in a future that may not be too far away. | 翻訳日:2024-02-11 16:49:48 公開日:2024-01-18 |
# 知能チュータシステムにおける前提構造発見 Prerequisite Structure Discovery in Intelligent Tutoring Systems ( http://arxiv.org/abs/2402.01672v1 ) ライセンス: Link先を確認 | Louis Annabi (Flowers, U2IS), Sao Mai Nguyen | (参考訳) 本稿では,知的学習システムにおける教育内容の推薦改善における知識構造(KS)と知識追跡(KT)の重要性について述べる。
KSは異なる知識コンポーネント(KC)の関係を表し、KTは過去の歴史に基づいて学習者の成功を予測する。
本研究の貢献は、学習可能なパラメータとしてKSを組み込んだKTモデルを提案し、学習者軌道から基礎となるKSの発見を可能にすることである。
内容の推薦とシミュレーションによる推薦アルゴリズムの評価に使用することにより, ksの質を評価する。 This paper addresses the importance of Knowledge Structure (KS) and Knowledge Tracing (KT) in improving the recommendation of educational content in intelligent tutoring systems. The KS represents the relations between different Knowledge Components (KCs), while KT predicts a learner's success based on her past history. The contribution of this research includes proposing a KT model that incorporates the KS as a learnable parameter, enabling the discovery of the underlying KS from learner trajectories. The quality of the uncovered KS is assessed by using it to recommend content and evaluating the recommendation algorithm with simulated students. | 翻訳日:2024-02-11 16:49:31 公開日:2024-01-18 |
# 意味コミュニケーションと知識学習の相互作用 Interplay of Semantic Communication and Knowledge Learning ( http://arxiv.org/abs/2402.03339v1 ) ライセンス: Link先を確認 | Fei Ni, Bingyan Wang, Rongpeng Li, Zhifeng Zhao and Honggang Zhang | (参考訳) コミュニケーション技術の急速な進歩の中で,知識理解と処理を重視したセマンティックコミュニケーション(Semantic Communication, SemCom)が話題となっている。
人工知能技術を統合することで、SemComはコミュニケーションコンテンツの深い理解、分析、伝達を促進する。
本章では,知識グラフ(KG)の活用を中心に,SemComにおける知識学習の方法を明らかにする。
具体的には,SemComと知識学習を組み合わせた既存の取り組みについて概観する。
その後、KG強化SemComシステムを導入し、レシーバを慎重に校正し、静的知識ベースからの知識を活用して復号性能を向上させる。
この枠組みに従えば、より効果的に進化する知識ベースでシステムを動かすための潜在的アプローチをさらに探求する。
さらに,データ拡張のための大規模言語モデル(llm)との統合の可能性について検討し,semcomの潜在的な実装手法に対するさらなる視点を提供する。
広範な数値計算結果から,提案手法はkgエンハンスドデコード上で優れた性能を示し,異なるシナリオでその汎用性を示す。 In the swiftly advancing realm of communication technologies, Semantic Communication (SemCom), which emphasizes knowledge understanding and processing, has emerged as a hot topic. By integrating artificial intelligence technologies, SemCom facilitates a profound understanding, analysis and transmission of communication content. In this chapter, we clarify the means of knowledge learning in SemCom with a particular focus on the utilization of Knowledge Graphs (KGs). Specifically, we first review existing efforts that combine SemCom with knowledge learning. Subsequently, we introduce a KG-enhanced SemCom system, wherein the receiver is carefully calibrated to leverage knowledge from its static knowledge base for ameliorating the decoding performance. Contingent upon this framework, we further explore potential approaches that can empower the system to operate in evolving knowledge base more effectively. Furthermore, we investigate the possibility of integration with Large Language Models (LLMs) for data augmentation, offering additional perspective into the potential implementation means of SemCom. Extensive numerical results demonstrate that the proposed framework yields superior performance on top of the KG-enhanced decoding and manifests its versatility under different scenarios. | 翻訳日:2024-02-11 15:37:36 公開日:2024-01-18 |
# ロボット模倣のための教師なしモーションリターゲティング Unsupervised Motion Retargeting for Human-Robot Imitation ( http://arxiv.org/abs/2402.05115v1 ) ライセンス: Link先を確認 | Louis Annabi (Flowers, U2IS), Ziqi Ma (U2IS), Sao Mai Nguyen (Lab-STICC_RAMBO, U2IS, Flowers, IMT Atlantique - INFO) | (参考訳) この初期段階の研究は、人間の動きの領域から与えられたロボットによって実現可能な動きの領域への関節位置のシーケンスを翻訳することで、オンラインの人間-ロボット模倣を改善することを目的としている。
深層学習法の一般化機能を活用して,ドメイン間変換を行うエンコーダ・デコーダニューラルネットワークモデルを提案する。
そのようなモデルをトレーニングするために、関連するロボットと人間の動きのペアを使用できる。
しかし、このようなペアデータは非常に稀で、収集が面倒です。
そこで我々は,人間-ロボット模倣を行うために適応する非ペア型ドメイン間翻訳のための深層学習手法に目を向ける。 This early-stage research work aims to improve online human-robot imitation by translating sequences of joint positions from the domain of human motions to a domain of motions achievable by a given robot, thus constrained by its embodiment. Leveraging the generalization capabilities of deep learning methods, we address this problem by proposing an encoder-decoder neural network model performing domain-to-domain translation. In order to train such a model, one could use pairs of associated robot and human motions. Though, such paired data is extremely rare in practice, and tedious to collect. Therefore, we turn towards deep learning methods for unpaired domain-to-domain translation, that we adapt in order to perform human-robot imitation. | 翻訳日:2024-02-11 15:14:54 公開日:2024-01-18 |
# web3の利点と限界 Benefits and Limitations of Web3 ( http://arxiv.org/abs/2402.04897v1 ) ライセンス: Link先を確認 | Collin Connors, Dilip Sarkar | (参考訳) Web3はユーザとサービスプロバイダに、Web2にはないいくつかのメリットを提供します。
しかし、提供される利点にもかかわらず、web3はパラダイムが広く採用されるのを妨げるいくつかの障害に直面している。
よりアクセスしやすいweb3スマートアプリケーションを作るためには、開発者はこの技術の利点と制限を理解する必要がある。 Web3 provides users and service providers several benefits not found in Web2. However, despite the benefits provided, Web3 faces several obstacles that prevent the paradigm from gaining widespread adoption. Developers should understand the benefits and limitations of the technology in order to create more accessible Web3 smart applications. | 翻訳日:2024-02-11 15:14:11 公開日:2024-01-18 |
# sars-cov-2スパイク遺伝子に対するsirna構造と電位関係の機械学習モデル Machine Learning Modeling Of SiRNA Structure-Potency Relationship With Applications Against Sars-Cov-2 Spike Gene ( http://arxiv.org/abs/2401.12232v1 ) ライセンス: Link先を確認 | Damilola Oshunyinka | (参考訳) 製薬研究開発(r&d)のプロセスは長く費用がかかり、新しい薬を市場に出すのに10年近くかかる。
しかし、バイオテクノロジー、計算手法、機械学習アルゴリズムの進歩は、創薬を革新し、プロセスをスピードアップし、患者の成果を改善する可能性を秘めている。
新型コロナウイルス(COVID-19)のパンデミックは、これらの技術の可能性の認識をさらに加速し、さらに深めている。
一方、細胞療法、モノクローナル抗体、RNA干渉(RNAi)技術などの非小分子治療は、特定の疾患経路や患者集団をターゲットにする能力によって重要になっている。
RNAiの分野では、高効率なsiRNAの設計と選択のために多くの実験がなされている。
しかし、効率的なsiRNAの確立されたパターンは、しばしば矛盾しており、ターゲットmRNAに対して最も強力なsiRNA分子を一貫して決定できない。
そこで本研究では,siRNAのヌクレオチド組成(すなわちAUTGC)のケミノフォマティクス表現に基づく機械学習モデルの開発に焦点をあて,その有効性を予測し,最も効率的なsiRNAの選択を支援する。
この研究で構築されたpls(部分最小二乗)とsvr(サポートベクター回帰)の機械学習モデルは、以前発表されたモデルよりも優れています。
これらのモデルはsiRNAの有効性を予測するのに役立ち、実験的な検証とさらなる臨床開発のために最高のsiRNA分子を選択するのに役立ちます。
この研究は、SARS-CoV-2に対する強力なsiRNAの発見を含む、siRNAに基づく薬物発見の迅速化を支援するAI/機械学習モデルの可能性を実証した。 The pharmaceutical Research and development (R&D) process is lengthy and costly, taking nearly a decade to bring a new drug to the market. However, advancements in biotechnology, computational methods, and machine learning algorithms have the potential to revolutionize drug discovery, speeding up the process and improving patient outcomes. The COVID-19 pandemic has further accelerated and deepened the recognition of the potential of these techniques, especially in the areas of drug repurposing and efficacy predictions. Meanwhile, non-small molecule therapeutic modalities such as cell therapies, monoclonal antibodies, and RNA interference (RNAi) technology have gained importance due to their ability to target specific disease pathways and/or patient populations. In the field of RNAi, many experiments have been carried out to design and select highly efficient siRNAs. However, the established patterns for efficient siRNAs are sometimes contradictory and unable to consistently determine the most potent siRNA molecules against a target mRNA. Thus, this paper focuses on developing machine learning models based on the cheminformatics representation of the nucleotide composition (i.e. AUTGC) of siRNA to predict their potency and aid the selection of the most efficient siRNAs for further development. The PLS (Partial Least Square) and SVR (Support Vector Regression) machine learning models built in this work outperformed previously published models. These models can help in predicting siRNA potency and aid in selecting the best siRNA molecules for experimental validation and further clinical development. The study has demonstrated the potential of AI/machine learning models to help expedite siRNA-based drug discovery including the discovery of potent siRNAs against SARS-CoV-2. | 翻訳日:2024-01-28 15:42:56 公開日:2024-01-18 |
# 大規模グラフに対する遠絡縮合 Disentangled Condensation for Large-scale Graphs ( http://arxiv.org/abs/2401.12231v1 ) ライセンス: Link先を確認 | Zhenbang Xiao, Shunyu Liu, Yu Wang, Tongya Zheng, Mingli Song | (参考訳) グラフの凝縮は、グラフ学習のコストを抑えるために、よりコンパクトで情報性の高い小さなグラフでグラフニューラルネットワークを大規模グラフに提供するための興味深い技術として登場した。
有望な結果が得られたにもかかわらず、従来のグラフ凝縮法は、ノードとエッジを同時に凝縮することを伴う絡み合った凝縮戦略を用いることが多い。
この絡み合った戦略はグラフ凝縮のスケーラビリティを著しく阻害し、非常に大規模なグラフを凝縮し、忠実度の高い凝縮グラフを生成する能力が損なわれた。
そこで本稿では,DisCoと略される大規模グラフに対するDistangled Condensationを提案し,様々なサイズのグラフに対してスケーラブルなグラフ凝縮を提供する。
discoの中心には、ノードとエッジの凝縮を実現するノードとエッジの凝縮モジュールという、2つの補完的なコンポーネントがある。
ノード凝縮モジュールでは,プリトレーニングされたノード分類モデルを用いて,元のノードに類似したノード特徴分布を示す凝縮ノードを合成し,クラスセントロイドアライメントとアンカーアタッチ正規化器を組み込む。
ノード凝縮後、エッジ凝縮モジュールにおいて、元のグラフのリンク予測モデルを凝縮ノードに転送し、対応する凝縮エッジを生成することによりトポロジ構造を保存する。
この戦略に基づいて、提案されているディスコは1億以上のノードと10億のエッジを持つogbn-papers100mグラフに柔軟にスケールできる。
5つの共通のデータセットに対する大規模な実験により、提案されたDisCoは、最先端のデータセットよりも大きなマージンで結果を得ることを示した。
ソースコードはhttps://github.com/BangHonor/DisCo.comで入手できる。 Graph condensation has emerged as an intriguing technique to provide Graph Neural Networks for large-scale graphs with a more compact yet informative small graph to save the expensive costs of large-scale graph learning. Despite the promising results achieved, previous graph condensation methods often employ an entangled condensation strategy that involves condensing nodes and edges simultaneously, leading to substantial GPU memory demands. This entangled strategy has considerably impeded the scalability of graph condensation, impairing its capability to condense extremely large-scale graphs and produce condensed graphs with high fidelity. Therefore, this paper presents Disentangled Condensation for large-scale graphs, abbreviated as DisCo, to provide scalable graph condensation for graphs of varying sizes. At the heart of DisCo are two complementary components, namely node and edge condensation modules, that realize the condensation of nodes and edges in a disentangled manner. In the node condensation module, we focus on synthesizing condensed nodes that exhibit a similar node feature distribution to original nodes using a pre-trained node classification model while incorporating class centroid alignment and anchor attachment regularizers. After node condensation, in the edge condensation module, we preserve the topology structure by transferring the link prediction model of the original graph to the condensed nodes, generating the corresponding condensed edges. Based on the disentangled strategy, the proposed DisCo can successfully scale up to the ogbn-papers100M graph with over 100 million nodes and 1 billion edges with flexible reduction rates. Extensive experiments on five common datasets further demonstrate that the proposed DisCo yields results superior to state-of-the-art counterparts by a significant margin. The source code is available at https://github.com/BangHonor/DisCo. | 翻訳日:2024-01-28 15:42:26 公開日:2024-01-18 |
# 臨床ノートの自然言語処理と診断コードによるオピオイド使用の問題のある退役軍人の比較 A Comparison of Veterans with Problematic Opioid Use Identified through Natural Language Processing of Clinical Notes versus Using Diagnostic Codes ( http://arxiv.org/abs/2401.12996v1 ) ライセンス: Link先を確認 | Terri Elizabeth Workman, Joel Kupersmith, Phillip Ma, Christopher Spevak, Friedhelm Sandbrink, Yan Cheng Qing Zeng-Treitler | (参考訳) 背景:電子健康記録(EHR)はオピオイド研究のためのデータソースである。
オピオイド使用障害は診断としてアンダーコードされることが知られているが、問題のあるオピオイドの使用は臨床記録に記載されている。
目的:私たちの目標は
1) 臨床ノートの全範囲から問題のあるオピオイドの使用を特定すること、及び
2) 臨床ノートにのみ記載されたオピオイド使用が問題視されている患者とicdオピオイド使用障害診断コードを有する患者の特徴を比較する。
対象と方法:2つの獣医サービス領域の患者コホート(n=222,371)の臨床ノートに自然言語処理(NLP)ツールを応用し,問題のあるオピオイド使用患者を同定した。
また,オピオイド使用障害患者を同一コホートから同定するために,icd診断符号のセットを用いた。
nlpでのみ同定された患者の年齢と臨床的特徴をicdコードで同定した患者と比較した。
結果: NLPは57,331例, 6,997例に陽性のICD符号を認めた。
NLPで特定された患者は女性であることが多かった。
icdコードによって同定された患者は、男性、若年者、同時にベンゾジアゼピン処方薬、より共用性、よりケアの出会いがあり、結婚する可能性が低かった。
NLP群とICD群の患者は,オピオイドの異常使用を経験していない患者に比べ,有意にコンコービデンスレベルが上昇した。
結論: NLPは、ICDコードで記録されていない問題オピオイドの使用を識別するための実現可能なアプローチである。
臨床医はオピオイド使用障害のコーディングに消極的かもしれない。
したがって、医療チームには、臨床ノートの中のオピオイドの関心事の文書を探す義務がある。 Background: Electronic health records (EHRs) are a data source for opioid research. Opioid use disorder is known to be under-coded as a diagnosis, yet problematic opioid use can be documented in clinical notes. Objectives: Our goals were 1) to identify problematic opioid use from a full range of clinical notes; and 2) to compare the characteristics of patients identified as having problematic opioid use, exclusively documented in clinical notes, to those having documented ICD opioid use disorder diagnostic codes. Materials and Methods: We developed and applied a natural language processing (NLP) tool to the clinical notes of a patient cohort (n=222,371) from two Veteran Affairs service regions to identify patients with problematic opioid use. We also used a set of ICD diagnostic codes to identify patients with opioid use disorder from the same cohort. We compared the demographic and clinical characteristics of patients identified only through NLP, to those of patients identified through ICD codes. Results: NLP exclusively identified 57,331 patients; 6,997 patients had positive ICD code identifications. Patients exclusively identified through NLP were more likely to be women. Those identified through ICD codes were more likely to be male, younger, have concurrent benzodiazepine prescriptions, more comorbidities, more care encounters, and less likely to be married. Patients in the NLP and ICD groups had substantially elevated comorbidity levels compared to patients not documented as experiencing problematic opioid use. Conclusions: NLP is a feasible approach for identifying problematic opioid use not otherwise recorded by ICD codes. Clinicians may be reluctant to code for opioid use disorder. It is therefore incumbent on the healthcare team to search for documentation of opioid concerns within clinical notes. | 翻訳日:2024-01-28 15:32:06 公開日:2024-01-18 |
# 符号混合会話の調和:対話におけるパーソナリティ支援符号混合応答生成 Harmonizing Code-mixed Conversations: Personality-assisted Code-mixed Response Generation in Dialogues ( http://arxiv.org/abs/2401.12995v1 ) ライセンス: Link先を確認 | Shivani Kumar, Tanmoy Chakraborty | (参考訳) コードミキシング(Code-mixing)は、1つの会話で複数の言語をブレンドしたもので、特に応答生成の文脈において顕著な課題をもたらす。
コード混合の複雑さを捉えることは、個人の話し方や文化的な背景に影響された幅広いバリエーションを考えると、恐ろしい仕事である。
本研究では,コード混合会話における応答生成について検討する。
本稿では,会話から教師なしの方法で獲得した5つの人格特性を活用し,応答生成の性能を高めることを目的とした新しいアプローチを提案する。
これらの推定されたパーソナリティ属性は、新しい融合機構pa3を用いて対話コンテキストの生地にシームレスに織り込まれる。
効果的な2段階の注意定式化を用いて対話とパーソナリティ情報を融合する。
この融合は、生成された応答の文脈的関連性を高めるだけでなく、モデル全体のパフォーマンスを高める。
実験の結果は,多人数のヒンズー・イングリッシュ・コード混合会話からなるデータセットに基礎を置き,パーソナリティを融合したモデルが従来のモデルよりも有意なアドバンテージを浮き彫りにした。
これは、識別されたパーソナリティが対話コンテキストにシームレスに統合された場合の応答生成タスクにおけるROUGEとBLUEスコアの上昇に顕著である。
人格識別と応答生成の質的評価は定量的な結果とよく一致している。 Code-mixing, the blending of multiple languages within a single conversation, introduces a distinctive challenge, particularly in the context of response generation. Capturing the intricacies of code-mixing proves to be a formidable task, given the wide-ranging variations influenced by individual speaking styles and cultural backgrounds. In this study, we explore response generation within code-mixed conversations. We introduce a novel approach centered on harnessing the Big Five personality traits acquired in an unsupervised manner from the conversations to bolster the performance of response generation. These inferred personality attributes are seamlessly woven into the fabric of the dialogue context, using a novel fusion mechanism, PA3. It uses an effective two-step attention formulation to fuse the dialogue and personality information. This fusion not only enhances the contextual relevance of generated responses but also elevates the overall performance of the model. Our experimental results, grounded in a dataset comprising of multi-party Hindi-English code-mix conversations, highlight the substantial advantages offered by personality-infused models over their conventional counterparts. This is evident in the increase observed in ROUGE and BLUE scores for the response generation task when the identified personality is seamlessly integrated into the dialogue context. Qualitative assessment for personality identification and response generation aligns well with our quantitative results. | 翻訳日:2024-01-28 15:31:35 公開日:2024-01-18 |
# advanced nlp と pseudo labeling を用いた臨床患者ノートの自動スコアリング Automated Scoring of Clinical Patient Notes using Advanced NLP and Pseudo Labeling ( http://arxiv.org/abs/2401.12994v1 ) ライセンス: Link先を確認 | Jingyu Xu, Yifeng Jiang, Bin Yuan, Shulin Li, Tianbo Song | (参考訳) 臨床患者ノートは、医療における患者の相互作用、診断、治療計画の文書化に重要である。
これらのノートの正確な評価は医学教育や認定に欠かせない。
しかし、手動による評価は複雑で時間を要するため、しばしば変動性やリソース集約的な評価をもたらす。
これらの課題に対処するために,本研究では,最先端自然言語処理(NLP)技術,特にマスケッド言語モデリング(MLM)事前学習と擬似ラベリングを活用するアプローチを導入する。
提案手法は効率と有効性を向上し,性能を損なうことなくトレーニング時間を著しく短縮する。
実験の結果, モデル性能が向上し, 臨床評価における変化の可能性が示唆された。 Clinical patient notes are critical for documenting patient interactions, diagnoses, and treatment plans in medical practice. Ensuring accurate evaluation of these notes is essential for medical education and certification. However, manual evaluation is complex and time-consuming, often resulting in variability and resource-intensive assessments. To tackle these challenges, this research introduces an approach leveraging state-of-the-art Natural Language Processing (NLP) techniques, specifically Masked Language Modeling (MLM) pretraining, and pseudo labeling. Our methodology enhances efficiency and effectiveness, significantly reducing training time without compromising performance. Experimental results showcase improved model performance, indicating a potential transformation in clinical note assessment. | 翻訳日:2024-01-28 15:31:12 公開日:2024-01-18 |
# 最適輸送理論とマルチエージェント強化学習の相乗効果 The Synergy Between Optimal Transport Theory and Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2401.10949v1 ) ライセンス: Link先を確認 | Ali Baheri and and Mykel J. Kochenderfer | (参考訳) 本稿では,最適輸送(ot)理論とマルチエージェント強化学習(marl)の統合について検討する。
この統合はOTを用いて分散と輸送の問題に対処し、MARLの効率性、調整性、適応性を向上させる。
There are five key areas where OT can impact MARL: (1) policy alignment, where OT's Wasserstein metric is used to align divergent agent strategies towards unified goals; (2) distributed resource management, employing OT to optimize resource allocation among agents; (3) addressing non-stationarity, using OT to adapt to dynamic environmental shifts; (4) scalable multi-agent learning, harnessing OT for decomposing large-scale learning objectives into manageable tasks; and (5) enhancing energy efficiency, applying OT principles to develop sustainable MARL systems.
本稿では, OTとMARLの相乗効果がスケーラビリティ問題にどう対処するか, 資源分布の最適化, 協調環境におけるエージェントポリシーの整合, 動的に変化する条件下での適応性確保について述べる。 This paper explores the integration of optimal transport (OT) theory with multi-agent reinforcement learning (MARL). This integration uses OT to handle distributions and transportation problems to enhance the efficiency, coordination, and adaptability of MARL. There are five key areas where OT can impact MARL: (1) policy alignment, where OT's Wasserstein metric is used to align divergent agent strategies towards unified goals; (2) distributed resource management, employing OT to optimize resource allocation among agents; (3) addressing non-stationarity, using OT to adapt to dynamic environmental shifts; (4) scalable multi-agent learning, harnessing OT for decomposing large-scale learning objectives into manageable tasks; and (5) enhancing energy efficiency, applying OT principles to develop sustainable MARL systems. This paper articulates how the synergy between OT and MARL can address scalability issues, optimize resource distribution, align agent policies in cooperative environments, and ensure adaptability in dynamically changing conditions. | 翻訳日:2024-01-23 18:56:20 公開日:2024-01-18 |
# 人間とロボットの相互作用における自己文脈認識 Self context-aware emotion perception on human-robot interaction ( http://arxiv.org/abs/2401.10946v1 ) ライセンス: Link先を確認 | Zihan Lin, Francisco Cruz, and Eduardo Benitez Sandoval | (参考訳) 感情認識は、人間とロボットの相互作用の様々な領域において重要な役割を果たす。
人間との長期的な対話では、ロボットは継続的に正確に反応する必要があるが、主流の感情認識手法は主に、感情が知覚される文脈を無視して、短期的な感情認識に焦点を当てている。
人間は文脈情報と異なる文脈が全く異なる感情表現をもたらすと考える。
本稿では,異なる感情を固定・再ラベルする2次元感情座標系を用いた自己文脈認識モデル(scam)を提案する。
同時に、その特有の情報保持構造とコンテキスト損失を取り入れている。
このアプローチは、オーディオ、ビデオ、マルチモーダルに大幅な改善をもたらした。
聴覚のモダリティでは、精度が63.10%から72.46%に向上した。
同様に、視覚モダリティは77.03%から80.82%に向上し、精度が向上した。
マルチモーダルでは、精度は77.48%から78.93%に上昇した。
将来、心理学実験を通じて、ロボットにおけるSCAMの信頼性とユーザビリティを検証する。 Emotion recognition plays a crucial role in various domains of human-robot interaction. In long-term interactions with humans, robots need to respond continuously and accurately, however, the mainstream emotion recognition methods mostly focus on short-term emotion recognition, disregarding the context in which emotions are perceived. Humans consider that contextual information and different contexts can lead to completely different emotional expressions. In this paper, we introduce self context-aware model (SCAM) that employs a two-dimensional emotion coordinate system for anchoring and re-labeling distinct emotions. Simultaneously, it incorporates its distinctive information retention structure and contextual loss. This approach has yielded significant improvements across audio, video, and multimodal. In the auditory modality, there has been a notable enhancement in accuracy, rising from 63.10% to 72.46%. Similarly, the visual modality has demonstrated improved accuracy, increasing from 77.03% to 80.82%. In the multimodal, accuracy has experienced an elevation from 77.48% to 78.93%. In the future, we will validate the reliability and usability of SCAM on robots through psychology experiments. | 翻訳日:2024-01-23 18:41:29 公開日:2024-01-18 |
# ツインイン・イン・ザ・ループオブザーバの自動次元低減 Automatic dimensionality reduction of Twin-in-the-Loop Observers ( http://arxiv.org/abs/2401.10945v1 ) ライセンス: Link先を確認 | Giacomo Delcaro, Federico Dett\`u, Simone Formentin, Sergio Matteo Savaresi | (参考訳) 最先端の車両力学推定手法は一般的に1つの共通の欠点を共有している: 推定する各変数は独立して単純化されたフィルタリングモジュールで計算される。
これらのモジュールは並列に動作し、個別にキャリブレーションする必要がある。
この問題を解決するために、Twin-in-the-Loop (TiL) Observerアーキテクチャが最近提案されている。
dtの状態は線形時間不変出力誤差則によりリアルタイムで補正される。
シミュレータはブラックボックスであるため、明確な解析的定式化はできないため、古典的なフィルタチューニング技術は使用できない。
このため、フィルタをチューニングするためのデータ駆動最適化問題を解決するためにベイズ最適化が使用される。
DTの複雑さのため、最適化問題は高次元である。
本稿では,その次元を小さくすることで,高複雑性オブザーバをチューニングする手法を提案する。
特に、この研究では教師なしと教師なしの両方の学習アプローチを分析します。
これらの戦略は、実世界のデータにおける速度とヨーレートの推定に検証されている。 State-of-the-art vehicle dynamics estimation techniques usually share one common drawback: each variable to estimate is computed with an independent, simplified filtering module. These modules run in parallel and need to be calibrated separately. To solve this issue, a unified Twin-in-the-Loop (TiL) Observer architecture has recently been proposed: the classical simplified control-oriented vehicle model in the estimators is replaced by a full-fledged vehicle simulator, or digital twin (DT). The states of the DT are corrected in real time with a linear time invariant output error law. Since the simulator is a black-box, no explicit analytical formulation is available, hence classical filter tuning techniques cannot be used. Due to this reason, Bayesian Optimization will be used to solve a data-driven optimization problem to tune the filter. Due to the complexity of the DT, the optimization problem is high-dimensional. This paper aims to find a procedure to tune the high-complexity observer by lowering its dimensionality. In particular, in this work we will analyze both a supervised and an unsupervised learning approach. The strategies have been validated for speed and yaw-rate estimation on real-world data. | 翻訳日:2024-01-23 18:41:15 公開日:2024-01-18 |
# 芸術の深み:シングルタスク・シングルモーダルニューラルネットワークにおける芸術的理解の限界に関する実験的研究 How Deep is Your Art: An Experimental Study on the Limits of Artistic Understanding in a Single-Task, Single-Modality Neural Network ( http://arxiv.org/abs/2203.16031v3 ) ライセンス: Link先を確認 | Mahan Agha Zahedi, Niloofar Gholamrezaei, Alex Doboli | (参考訳) アートワークの意味の計算モデリングは複雑で難しい。
これは、芸術解釈が多次元であり、非常に主観的であるからである。
本稿では,現在最先端のDeep Convolutional Neural Network (DCNN) が,最新の概念的アートワークを,アートキュレーターが考案したギャラリーに正確に識別できる程度を実験的に検討した。
2つの仮説が提案され、DCNNモデルは、形や色などの分類にExhibited Propertiesを使用しているが、歴史的文脈やアーティストの意図のような非Exhibited Propertiesは使用していない。
2つの仮説は、この目的のために設計された方法論を用いて実験的に検証された。
VGG-11 DCNNはImageNetデータセットで事前訓練され、実世界のコンセプト写真ギャラリーから設計された手作りのデータセットで識別的に微調整された。
実験結果は,DCNNモデルが非展示性を無視していることを示す2つの仮説を支持した。
この作業は、将来のDNNモデルで対処すべきDCNNの現在の制限を示している。 Computational modeling of artwork meaning is complex and difficult. This is because art interpretation is multidimensional and highly subjective. This paper experimentally investigated the degree to which a state-of-the-art Deep Convolutional Neural Network (DCNN), a popular Machine Learning approach, can correctly distinguish modern conceptual art work into the galleries devised by art curators. Two hypotheses were proposed to state that the DCNN model uses Exhibited Properties for classification, like shape and color, but not Non-Exhibited Properties, such as historical context and artist intention. The two hypotheses were experimentally validated using a methodology designed for this purpose. VGG-11 DCNN pre-trained on ImageNet dataset and discriminatively fine-tuned was trained on handcrafted datasets designed from real-world conceptual photography galleries. Experimental results supported the two hypotheses showing that the DCNN model ignores Non-Exhibited Properties and uses only Exhibited Properties for artwork classification. This work points to current DCNN limitations, which should be addressed by future DNN models. | 翻訳日:2024-01-22 19:53:06 公開日:2024-01-18 |
# アインシュタインの等価原理の量子一般化は、量子参照フレームとして絡み合った時計で検証できる Quantum generalisation of Einstein's Equivalence Principle can be verified with entangled clocks as quantum reference frames ( http://arxiv.org/abs/2112.03303v4 ) ライセンス: Link先を確認 | Carlo Cepollaro, Flaminia Giacomini | (参考訳) アインシュタイン同値原理(EEP)は一般相対性理論の基礎をテストする上で重要である。
テストに関わる粒子が量子的性質を示すとき、この原理がまだ成立するかどうかは不明である。
eepの破れは物理学に大きな影響を与えるだろう。
より保守的な可能性は、EEPが非局在化量子粒子の一般化形式を持つことである。
ここでは、そのような一般化されたeepを、そのパラダイムテストの1つを、位置と速度の量子重ね合わせにある量子時計に拡張することで定式化する。
このような一般化されたEEPの妥当性は、任意の量子参照フレーム(QRF)、すなわちクロックの量子状態に関連する参照フレームの観点に変換される可能性と同値であることを示す。
さらに、この一般化されたEEPは、地球の重力場における位置の量子重ね合わせにおいて、絡み合った時計の適切な時刻を測定することで検証できることを示す。
一般化されたEEPの違反は、各クロックのフレームにおける動的進化を定義することの不可能性に対応し、その結果、実験室のフレームで計算された測定の確率を変化させる結果となる。
したがって、例えば原子干渉計で実験的に検証することができる。 The Einstein Equivalence Principle (EEP) is of crucial importance to test the foundations of general relativity. When the particles involved in the test exhibit quantum properties, it is unknown whether this principle still holds. A violation of the EEP would have drastic consequences for physics. A more conservative possibility is that the EEP holds in a generalised form for delocalised quantum particles. Here we formulate such a generalised EEP by extending one of its paradigmatic tests with clocks to quantum clocks that are in a quantum superposition of positions and velocities. We show that the validity of such a generalised version of the EEP is equivalent to the possibility of transforming to the perspective of an arbitrary Quantum Reference Frame (QRF), namely a reference frame associated to the quantum state of the clock. We further show that this generalised EEP can be verified by measuring the proper time of entangled clocks in a quantum superposition of positions in the Earth gravitational field. The violation of the generalised EEP corresponds to the impossibility of defining dynamical evolution in the frame of each clock, and results in a modification to the probabilities of measurements calculated in the laboratory frame. Hence, it can be verified experimentally, for instance in an atom interferometer. | 翻訳日:2024-01-22 19:51:34 公開日:2024-01-18 |
# 機械学習と潜時情報を用いた損失音声信号のアクティブ復元 Active Restoration of Lost Audio Signals Using Machine Learning and Latent Information ( http://arxiv.org/abs/2111.10891v4 ) ライセンス: Link先を確認 | Zohra Adila Cheddad, Abbas Cheddad | (参考訳) 近年,ディープラーニングアルゴリズムを用いた失われたセグメントのディジタル音声信号再構成が盛んに研究されている。
それでも、線形補間、位相符号化、トーン挿入といった従来の手法はまだ流行している。
しかし, ディザリング, ステガノグラフィ, 機械学習回帰器の融合による音声信号の再構成に関する研究は行われなかった。
そこで本稿では,ステガノグラフィ,ハーフトニング(ディザリング),最先端の浅層深層学習法の組み合わせを提案する。
結果(スペイン、自己回帰型、ディープラーニングベース、グラフベース、その他の方法の比較を含む)は、3つの異なる指標で評価される。
その結果,提案手法は有効であり,側情報(例えば潜在表現)ステガノグラフィが提供する音声信号の再構成が促進されることがわかった。
さらに,HCR (halftone-based compression and reconstruction) と呼ぶハーフトニング(ディザリング)と機械学習を用いて,強圧縮された組込み音声データから再構成する新しい枠組みを提案する。
この作業はこのアプローチの最適化や異なるドメイン(つまり画像再構成)への転送に関心を惹きつけるかもしれない。
従来の手法と比較して,信号対雑音比 (SNR) や目標差度 (ODG) , ハンセンの音質測定値などを用いて, 塗装性能の向上を示す。
特に,提案手法は,学習に基づく手法(D2WGAN,SG)と従来の統計アルゴリズム(SPAIN,TDC,WCP)より優れていた。 Digital audio signal reconstruction of a lost or corrupt segment using deep learning algorithms has been explored intensively in recent years. Nevertheless, prior traditional methods with linear interpolation, phase coding and tone insertion techniques are still in vogue. However, we found no research work on reconstructing audio signals with the fusion of dithering, steganography, and machine learning regressors. Therefore, this paper proposes the combination of steganography, halftoning (dithering), and state-of-the-art shallow and deep learning methods. The results (including comparing the SPAIN, Autoregressive, deep learning-based, graph-based, and other methods) are evaluated with three different metrics. The observations from the results show that the proposed solution is effective and can enhance the reconstruction of audio signals performed by the side information (e.g., Latent representation) steganography provides. Moreover, this paper proposes a novel framework for reconstruction from heavily compressed embedded audio data using halftoning (i.e., dithering) and machine learning, which we termed the HCR (halftone-based compression and reconstruction). This work may trigger interest in optimising this approach and/or transferring it to different domains (i.e., image reconstruction). Compared to existing methods, we show improvement in the inpainting performance in terms of signal-to-noise ratio (SNR), the objective difference grade (ODG) and Hansen's audio quality metric. In particular, our proposed framework outperformed the learning-based methods (D2WGAN and SG) and the traditional statistical algorithms (e.g., SPAIN, TDC, WCP). | 翻訳日:2024-01-22 19:51:12 公開日:2024-01-18 |
# 画質・多様性最適化 Few-shot Quality-Diversity Optimization ( http://arxiv.org/abs/2109.06826v3 ) ライセンス: Link先を確認 | Achkan Salehi, Alexandre Coninx, Stephane Doncieux | (参考訳) 近年,コンピュータビジョンから強化学習に基づく制御に至るまでの課題領域において,過去の学習経験の活用とFew-shotおよびMeta Learningアプローチの設計に多大な研究が注がれている。
注目すべき例外は、私たちの知る限り、この方向への努力はほとんど、あるいはまったく行われていない、品質多様性(QD)の最適化です。
強化学習において,QD法は知覚的最小値とスパース報酬を扱う効果的なツールであることが示されている。
しかし、それらは本質的に非効率的な進化過程のサンプルに依存するため、コストがかかるままである。
タスク分布の例を考えると、パラメータ空間の最適化によって得られる経路に関する情報を、事前の人口構成に活用し、未発見の環境でqdメソッドを初期化する場合は、わずかなショット適応が可能となる。
提案手法はバックプロパゲーションを必要としない。
実装とスケールは簡単であり、さらに、トレーニング中の基盤となるモデルに非依存である。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。 In the past few years, a considerable amount of research has been dedicated to the exploitation of previous learning experiences and the design of Few-shot and Meta Learning approaches, in problem domains ranging from Computer Vision to Reinforcement Learning based control. A notable exception, where to the best of our knowledge, little to no effort has been made in this direction is Quality-Diversity (QD) optimization. QD methods have been shown to be effective tools in dealing with deceptive minima and sparse rewards in Reinforcement Learning. However, they remain costly due to their reliance on inherently sample inefficient evolutionary processes. We show that, given examples from a task distribution, information about the paths taken by optimization in parameter space can be leveraged to build a prior population, which when used to initialize QD methods in unseen environments, allows for few-shot adaptation. Our proposed method does not require backpropagation. It is simple to implement and scale, and furthermore, it is agnostic to the underlying models that are being trained. Experiments carried in both sparse and dense reward settings using robotic manipulation and navigation benchmarks show that it considerably reduces the number of generations that are required for QD optimization in these environments. | 翻訳日:2024-01-22 19:50:25 公開日:2024-01-18 |
# prismer: マルチタスクエキスパートによるビジョン言語モデル Prismer: A Vision-Language Model with Multi-Task Experts ( http://arxiv.org/abs/2303.02506v3 ) ライセンス: Link先を確認 | Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar | (参考訳) 最近の視覚言語モデルは印象的なマルチモーダル生成能力を示している。
しかし、通常、巨大なデータセットで巨大なモデルをトレーニングする必要がある。
よりスケーラブルな代替手段として、タスク固有の専門家の集まりを活用するデータおよびパラメータ効率の高い視覚言語モデルであるPrismerを紹介します。
Prismerは少数のコンポーネントのトレーニングしか必要とせず、ネットワークの重量の大部分は、容易に利用できる複数の専門家から受け継がれ、トレーニング中に凍結したままである。
幅広い分野の専門家を活用することで、Prismerはこの専門家の知識を効率的にプールし、様々な視覚言語推論タスクに適応できることを示す。
実験では,最大2桁のトレーニングデータを必要とする一方で,現在の最先端技術に匹敵する微調整と少数ショットの学習性能を実現することを実証した。
コードはhttps://github.com/NVlabs/prismer.comで入手できる。 Recent vision-language models have shown impressive multi-modal generation capabilities. However, typically they require training huge models on massive datasets. As a more scalable alternative, we introduce Prismer, a data- and parameter-efficient vision-language model that leverages an ensemble of task-specific experts. Prismer only requires training of a small number of components, with the majority of network weights inherited from multiple readily-available, pre-trained experts, and kept frozen during training. By leveraging experts from a wide range of domains, we show Prismer can efficiently pool this expert knowledge and adapt it to various vision-language reasoning tasks. In our experiments, we show that Prismer achieves fine-tuned and few-shot learning performance which is competitive with current state-of-the-arts, whilst requiring up to two orders of magnitude less training data. Code is available at https://github.com/NVlabs/prismer. | 翻訳日:2024-01-22 19:42:54 公開日:2024-01-18 |
# キャビティ超放射による暗黒状態における多レベル原子のスクイーズ Squeezing multilevel atoms in dark states via cavity superradiance ( http://arxiv.org/abs/2302.10828v2 ) ライセンス: Link先を確認 | Bhuvanesh Sundar, Diego Barberena, Ana Maria Rey, Asier Pi\~neiro Orioli | (参考訳) 本稿では,多体キャビティダーク状態の多様体内に,光学キャビティ内の多レベル原子からの光集団放出を用いて,スケーラブルで長寿命の絡み合ったスピン配列状態を作成し,保存する方法について述べる。
このシステムは、超放射能に免疫する暗黒状態のスクイーズを発生させるよう調整できることを示す。
また,超輝度とコヒーレント駆動の組み合わせにより,より汎用的にスクイージングが生成できることを示し,その後,スクイージングを格納可能な暗黒状態へ単一粒子回転により移動させることを示した。
本研究は, アルカリ土様原子を用いた現在の光学キャビティ実験で容易に検証可能であり, 光学遷移におけるメトロロジー上有用な状態の散逸生成と保存の道を開くことができる。 We describe a method to create and store scalable and long-lived entangled spin-squeezed states within a manifold of many-body cavity dark states using collective emission of light from multilevel atoms inside an optical cavity. We show that the system can be tuned to generate squeezing in a dark state where it will be immune to superradiance. We also show more generically that squeezing can be generated using a combination of superradiance and coherent driving in a bright state, and subsequently be transferred via single-particle rotations to a dark state where squeezing can be stored. Our findings, readily testable in current optical cavity experiments with alkaline-earth-like atoms, can open a path for dissipative generation and storage of metrologically useful states in optical transitions. | 翻訳日:2024-01-22 19:41:48 公開日:2024-01-18 |
# 非関連文の共起効果制御による抽象要約の忠実度向上 Improving Faithfulness of Abstractive Summarization by Controlling Confounding Effect of Irrelevant Sentences ( http://arxiv.org/abs/2212.09726v2 ) ライセンス: Link先を確認 | Asish Ghoshal, Arash Einolghozati, Ankit Arun, Haoran Li, Lili Yu, Vera Gor, Yashar Mehdad, Scott Wen-tau Yih, Asli Celikyilmaz | (参考訳) 事実の正確さの欠如は、一見流麗な要約を生成するという印象的な進歩にもかかわらず、未だに最先端の要約システムを悩ませている問題である。
本稿では,共同創設者として機能する入力テキストの無関係な部分によって,事実整合性が引き起こされることを示す。
そこで我々は,因果効果の情報理論的尺度を利用して,共起の量を定量化し,それらが要約性能に与える影響を正確に定量化する。
理論的な結果から得られた知見に基づいて,人間が記述した関連文を利用可能にすることで,そのような共起を制御できるシンプルなマルチタスクモデルを設計する。
重要な点として,このようなコンバウンディングが大きくなりうるデータ分布の原理的特徴付けを,人間の注釈付き関連文を用いて事実要約を生成する必要がある。
本手法は,タスクの主観的な性質から,信頼の欠如が重要な問題となる会話要約データセットであるAnswerSumm{fabbri2021answersumm}上で,強いベースラインに対する忠実度スコアを20 %向上させる。
本手法は,ROUGE や METEOR などの標準指標を用いて,高い忠実度を達成しつつ,最先端の成果を達成できる。
我々はこの改善を人間による評価によって裏付ける。 Lack of factual correctness is an issue that still plagues state-of-the-art summarization systems despite their impressive progress on generating seemingly fluent summaries. In this paper, we show that factual inconsistency can be caused by irrelevant parts of the input text, which act as confounders. To that end, we leverage information-theoretic measures of causal effects to quantify the amount of confounding and precisely quantify how they affect the summarization performance. Based on insights derived from our theoretical results, we design a simple multi-task model to control such confounding by leveraging human-annotated relevant sentences when available. Crucially, we give a principled characterization of data distributions where such confounding can be large thereby necessitating the use of human annotated relevant sentences to generate factual summaries. Our approach improves faithfulness scores by 20\% over strong baselines on AnswerSumm \citep{fabbri2021answersumm}, a conversation summarization dataset where lack of faithfulness is a significant issue due to the subjective nature of the task. Our best method achieves the highest faithfulness score while also achieving state-of-the-art results on standard metrics like ROUGE and METEOR. We corroborate these improvements through human evaluation. | 翻訳日:2024-01-22 19:39:07 公開日:2024-01-18 |
# テストログライクティフィケーションを正しく使用していますか? Are you using test log-likelihood correctly? ( http://arxiv.org/abs/2212.00219v4 ) ライセンス: Link先を確認 | Sameer K. Deshpande and Soumya Ghosh and Tin D. Nguyen and Tamara Broderick | (参考訳) テストログは、同じデータの異なるモデルや、同じ確率モデルに適合するための異なる近似推論アルゴリズムを比較するために一般的に使用される。
本稿では,テストログ類似度に基づく比較が,他の目的による比較と矛盾することを示す単純な例を示す。
特に我々の例では
(i)より高い試験対数となるベイズ近似アルゴリズムは、より正確な後部近似をもたらさなくてもよい。
(ii)試験ログ類似比較に基づく予測精度に関する結論は,根平均二乗誤差に基づく結論と一致しない可能性がある。 Test log-likelihood is commonly used to compare different models of the same data or different approximate inference algorithms for fitting the same probabilistic model. We present simple examples demonstrating how comparisons based on test log-likelihood can contradict comparisons according to other objectives. Specifically, our examples show that (i) approximate Bayesian inference algorithms that attain higher test log-likelihoods need not also yield more accurate posterior approximations and (ii) conclusions about forecast accuracy based on test log-likelihood comparisons may not agree with conclusions based on root mean squared error. | 翻訳日:2024-01-22 19:38:29 公開日:2024-01-18 |
# 流れ駆動型空間ネットワークのリンク予測 Link Prediction for Flow-Driven Spatial Networks ( http://arxiv.org/abs/2303.14501v2 ) ライセンス: Link先を確認 | Bastian Wittmann, Johannes C. Paetzold, Chinmay Prabhakar, Daniel Rueckert, Bjoern Menze | (参考訳) リンク予測アルゴリズムは、ネットワーク構造データ内のノード間の接続(またはリンク)の存在を推測することを目的としており、一般にノード間の接続を洗練するために適用される。
本研究では, ユークリッド空間に埋め込まれた流れ駆動型空間ネットワークのリンク予測に焦点をあて, 物理的交換・輸送プロセス(船舶内の血流, 道路ネットワーク内の交通流など)と関連付ける。
そこで我々は,グラフ注意ベクトル(GAV)リンク予測フレームワークを提案する。
GAVモデルは、空間ネットワークにおける物理フローのダイナミクスを、注意深い近隣認識メッセージパッシングパラダイムによって単純化し、ベクトル埋め込みを制約された方法で更新する。
全脳血管グラフと道路網から与えられた8つのフロー駆動型空間ネットワーク上でgavを評価する。
GAVはすべてのデータセットとメトリクスで優れたパフォーマンスを示し、12%(98.38 vs. 87.98 AUC)でogbl-vesselベンチマークの最先端性能を上回った。
すべてのコードはGitHubで公開されている。 Link prediction algorithms aim to infer the existence of connections (or links) between nodes in network-structured data and are typically applied to refine the connectivity among nodes. In this work, we focus on link prediction for flow-driven spatial networks, which are embedded in a Euclidean space and relate to physical exchange and transportation processes (e.g., blood flow in vessels or traffic flow in road networks). To this end, we propose the Graph Attentive Vectors (GAV) link prediction framework. GAV models simplified dynamics of physical flow in spatial networks via an attentive, neighborhood-aware message-passing paradigm, updating vector embeddings in a constrained manner. We evaluate GAV on eight flow-driven spatial networks given by whole-brain vessel graphs and road networks. GAV demonstrates superior performances across all datasets and metrics and outperformed the state-of-the-art on the ogbl-vessel benchmark at the time of submission by 12% (98.38 vs. 87.98 AUC). All code is publicly available on GitHub. | 翻訳日:2024-01-22 19:27:17 公開日:2024-01-18 |
# パッケージinnsightを用いた深層ニューラルネットワークの解釈 Interpreting Deep Neural Networks with the Package innsight ( http://arxiv.org/abs/2306.10822v2 ) ライセンス: Link先を確認 | Niklas Koenen, Marvin N. Wright | (参考訳) RパッケージInnsightは、ディープニューラルネットワークの予測を、いわゆるフィーチャー属性メソッドで可変的に解釈する一般的なツールボックスを提供する。
統一的でユーザフレンドリなフレームワークとは別に、このパッケージは3つの点で際立っている。 一般的に、ニューラルネットワークのための機能属性メソッドを実装する最初のRパッケージである。
第二に、ディープラーニングライブラリとは独立して、keras、torch、Neuralnet、さらにはカスタムモデルを含む、任意のRパッケージからモデルの解釈を可能にする。
その柔軟性にもかかわらず、innsightはtorchパッケージの高速かつ効率的な配列計算から内部的に恩恵を受け、libtorch $-$ pytorchのc++バックエンド$-$をpython依存なしで構築する。
最後に、表、信号、画像データ、あるいはこれらの組み合わせのための様々な視覚化ツールを提供する。
さらにプロットをプロットパッケージを使ってインタラクティブにレンダリングすることもできる。 The R package innsight offers a general toolbox for revealing variable-wise interpretations of deep neural networks' predictions with so-called feature attribution methods. Aside from the unified and user-friendly framework, the package stands out in three ways: It is generally the first R package implementing feature attribution methods for neural networks. Secondly, it operates independently of the deep learning library allowing the interpretation of models from any R package, including keras, torch, neuralnet, and even custom models. Despite its flexibility, innsight benefits internally from the torch package's fast and efficient array calculations, which builds on LibTorch $-$ PyTorch's C++ backend $-$ without a Python dependency. Finally, it offers a variety of visualization tools for tabular, signal, image data or a combination of these. Additionally, the plots can be rendered interactively using the plotly package. | 翻訳日:2024-01-22 19:18:39 公開日:2024-01-18 |
# 置換不変ニューラルネットワークを用いたアンサンブル気象予報の事後処理 Postprocessing of Ensemble Weather Forecasts Using Permutation-invariant Neural Networks ( http://arxiv.org/abs/2309.04452v2 ) ライセンス: Link先を確認 | Kevin H\"ohlein, Benedikt Schulz, R\"udiger Westermann and Sebastian Lerch | (参考訳) 統計後処理は、生の気象予報のアンサンブルを信頼できる確率的予測分布に変換するのに使用される。
本研究では,この課題に対する置換不変ニューラルネットワークの利用について検討する。
本研究は,アンサンブル要約統計をしばしば操作し,アンサンブル分布の詳細を無視する従来のアプローチとは対照的に,予測アンサンブルを非順序メンバ予測の集合として扱い,構成順序の置換に不変なリンク関数を学習するネットワークを提案する。
得られた予測分布の品質をキャリブレーションとシャープネスの観点から評価し,古典的およびニューラルネットワークに基づくベンチマーク手法と比較した。
表面温度と風向予測の処理を課題としたケーススタディにおいて,最先端の予測品質を示す。
さらに,学習した推論プロセスの理解を深めるために,学習後処理モデルで重要と考えられるアンサンブル予測の特定の側面を強調する,アンサンブル値予測器の置換に基づく重要度分析を提案する。
以上より,関連する情報のほとんどはいくつかのアンサンブル・内部自由度に含まれており,今後のアンサンブル予測システムや後処理システムの設計に影響を及ぼす可能性がある。 Statistical postprocessing is used to translate ensembles of raw numerical weather forecasts into reliable probabilistic forecast distributions. In this study, we examine the use of permutation-invariant neural networks for this task. In contrast to previous approaches, which often operate on ensemble summary statistics and dismiss details of the ensemble distribution, we propose networks that treat forecast ensembles as a set of unordered member forecasts and learn link functions that are by design invariant to permutations of the member ordering. We evaluate the quality of the obtained forecast distributions in terms of calibration and sharpness and compare the models against classical and neural network-based benchmark methods. In case studies addressing the postprocessing of surface temperature and wind gust forecasts, we demonstrate state-of-the-art prediction quality. To deepen the understanding of the learned inference process, we further propose a permutation-based importance analysis for ensemble-valued predictors, which highlights specific aspects of the ensemble forecast that are considered important by the trained postprocessing models. Our results suggest that most of the relevant information is contained in a few ensemble-internal degrees of freedom, which may impact the design of future ensemble forecasting and postprocessing systems. | 翻訳日:2024-01-22 19:07:30 公開日:2024-01-18 |
# IPA: 高精度かつコスト効率を実現するための推論パイプライン適応 IPA: Inference Pipeline Adaptation to Achieve High Accuracy and Cost-Efficiency ( http://arxiv.org/abs/2308.12871v2 ) ライセンス: Link先を確認 | Saeid Ghafouri, Kamran Razavi, Mehran Salmani, Alireza Sanaee, Tania Lorido-Botran, Lin Wang, Joseph Doyle, Pooyan Jamshidi | (参考訳) 高速で正確で費用効果の高い推論のために効率的なマルチモデル推論パイプラインを最適化することは、エンドツーエンドのレイテンシ要件が厳しいことを考えると、機械学習生産システムにおいて重要な課題である。
推論パイプラインのレイテンシ、正確性、コストという巨大で複雑なトレードオフ空間の探索を単純化するため、プロバイダは、その1つをよく検討する。
しかし、課題はレイテンシ、正確性、コストトレードオフの調整にある。
この課題に対処し、推論パイプラインにおけるモデル変種を効率的に管理するソリューションを提案するため、深層学習タスク毎にモデル変種を効率的に活用するオンライン深層学習推論パイプライン適応システムであるIPAを提案する。
モデル変種は、リソース要求、レイテンシ、精度の異なる同じディープラーニングタスクのために、トレーニング済みモデルの異なるバージョンである。
IPAはバッチサイズ、レプリケーション、モデル変異を動的に設定し、精度を最適化し、コストを最小化し、Integer Programmingを使ってユーザ定義のレイテンシーサービスレベルアグリーメント(SLA)を満たす。
さまざまなワークロードや動的トラフィックパターンに適応しながら、精度とコスト目標の異なるトレードオフを達成するための、多目的設定をサポートする。
より広範なさまざまな構成をナビゲートすることで,既存の方法と比較して,コストと精度の目標とのトレードオフが向上する。
実世界の5つの推論パイプラインを備えたKubernetes実装の大規模な実験は、IPAが最小コストの増加でエンドツーエンドの精度を最大21%向上することを示した。
レプリケーションのためのコードとデータはhttps://github.com/reconfigurable-ml-pipeline/ipaで入手できる。 Efficiently optimizing multi-model inference pipelines for fast, accurate, and cost-effective inference is a crucial challenge in machine learning production systems, given their tight end-to-end latency requirements. To simplify the exploration of the vast and intricate trade-off space of latency, accuracy, and cost in inference pipelines, providers frequently opt to consider one of them. However, the challenge lies in reconciling latency, accuracy, and cost trade-offs. To address this challenge and propose a solution to efficiently manage model variants in inference pipelines, we present IPA, an online deep learning Inference Pipeline Adaptation system that efficiently leverages model variants for each deep learning task. Model variants are different versions of pre-trained models for the same deep learning task with variations in resource requirements, latency, and accuracy. IPA dynamically configures batch size, replication, and model variants to optimize accuracy, minimize costs, and meet user-defined latency Service Level Agreements (SLAs) using Integer Programming. It supports multi-objective settings for achieving different trade-offs between accuracy and cost objectives while remaining adaptable to varying workloads and dynamic traffic patterns. Navigating a wider variety of configurations allows \namex{} to achieve better trade-offs between cost and accuracy objectives compared to existing methods. Extensive experiments in a Kubernetes implementation with five real-world inference pipelines demonstrate that IPA improves end-to-end accuracy by up to 21% with a minimal cost increase. The code and data for replications are available at https://github.com/reconfigurable-ml-pipeline/ipa. | 翻訳日:2024-01-22 19:06:36 公開日:2024-01-18 |
# multiscript: オープンドメインの日常タスクをサポートするマルチモーダルスクリプト学習 MULTISCRIPT: Multimodal Script Learning for Supporting Open Domain Everyday Tasks ( http://arxiv.org/abs/2310.04965v2 ) ライセンス: Link先を確認 | Jingyuan Qi, Minqian Liu, Ying Shen, Zhiyang Xu, Lifu Huang | (参考訳) ビデオデモからスクリプト(つまり、テキストで記述された重要なステップのシーケンス)を自動的に生成し、その後のステップを推論することは、現代のAI仮想アシスタントにとって重要であり、人間の日常のタスク、特に馴染みのないタスクの完了を導く。
しかし、現在の生成スクリプト学習の方法は、テキストや画像に記述された、あるいは特定の領域に限定された、十分に構造化された前のステップに大きく依存しているため、現実のユーザシナリオとの相違が生じている。
タスク指向のマルチモーダルスクリプト学習では,(1)マルチモーダルスクリプトの生成,(2)ステップ予測という2つの新しいタスクが導入された。
両方のタスクに対して、入力は、目標タスク名と、目標タスクを完了するために実行されたことをイラストしたビデオで構成され、期待出力は、(1)デモビデオに基づくテキスト中の構造化されたステップ記述のシーケンス、(2)次のステップのための単一のテキスト記述である。
wikihowから構築されたmultiscriptは、19のさまざまなドメインにわたる6655以上の人間の日常タスクの、ビデオやテキスト記述のマルチモーダルスクリプトをカバーする。
マルチスクリプトのベースライン性能を確立するために、vicunaのような大規模言語モデルから引き起こされたタスク関連の知識を組み込んだ2つの知識誘導型マルチモーダル生成フレームワークを提案する。
実験の結果,提案手法は競争ベースラインよりも大幅に改善した。 Automatically generating scripts (i.e. sequences of key steps described in text) from video demonstrations and reasoning about the subsequent steps are crucial to the modern AI virtual assistants to guide humans to complete everyday tasks, especially unfamiliar ones. However, current methods for generative script learning rely heavily on well-structured preceding steps described in text and/or images or are limited to a certain domain, resulting in a disparity with real-world user scenarios. To address these limitations, we present a new benchmark challenge -- MultiScript, with two new tasks on task-oriented multimodal script learning: (1) multimodal script generation, and (2) subsequent step prediction. For both tasks, the input consists of a target task name and a video illustrating what has been done to complete the target task, and the expected output is (1) a sequence of structured step descriptions in text based on the demonstration video, and (2) a single text description for the subsequent step, respectively. Built from WikiHow, MultiScript covers multimodal scripts in videos and text descriptions for over 6,655 human everyday tasks across 19 diverse domains. To establish baseline performance on MultiScript, we propose two knowledge-guided multimodal generative frameworks that incorporate the task-related knowledge prompted from large language models such as Vicuna. Experimental results show that our proposed approaches significantly improve over the competitive baselines. | 翻訳日:2024-01-22 18:55:18 公開日:2024-01-18 |
# 非階層的マルチフィデリティ適応サンプリングのための潜在変数アプローチ A Latent Variable Approach for Non-Hierarchical Multi-Fidelity Adaptive Sampling ( http://arxiv.org/abs/2310.03298v2 ) ライセンス: Link先を確認 | Yi-Ping Chen, Liwei Wang, Yigitcan Comlek, Wei Chen | (参考訳) MF(Multi-fidelity)法は、様々な低忠実度(LF)モデルのデータを組み込むことで、サロゲートモデリングと設計最適化の強化で人気を集めている。
既存のmf法は固定データセットを想定しているが、フィデリティモデル間で動的にリソースを割り当てる適応サンプリング手法は、設計空間の探索と活用において高い効率を達成することができる。
しかし、既存のMF法の多くは、階層的なフィデリティレベルの仮定に依存するか、複数のフィデリティレベルの相互相関を捉えず、将来のサンプル値の定量化と適応サンプリングのナビゲートに利用している。
このハードルに対処するために、異なる忠実度モデルに対する潜伏埋め込みとそれに関連する事前解析に基づくフレームワークを提案し、それらの相関関係を適応サンプリングに明示的に活用する。
このフレームワークでは、まず、高忠実度モデル(HF)モデルを用いて、興味のある場所を最大化し、次に、次のサンプルを全ての忠実度レベルにわたって探索し、第1ステップで特定した位置におけるユニットコスト当たりの改善を最大化する。
これは、異なる忠実度モデルを解釈可能な潜在空間にマッピングし、階層的忠実度レベルを仮定することなくそれらの相関を捕捉する単一の潜在可変ガウス過程(LVGP)モデルによって実現される。
lvgpにより,lfサンプリング候補がhf応答にどのように影響するかを事前分析により評価し,次のサンプルを最善の利得対コスト比で決定できる。
実験事例を通して,提案手法がmfグローバルフィッティング(gf)とベイズ最適化(bo)の収束率とロバスト性において,ベンチマーク手法よりも優れていることを示す。
さらに、この方法は、取得関数を単に変更するだけでGFとBOを切り替える柔軟性を提供する。 Multi-fidelity (MF) methods are gaining popularity for enhancing surrogate modeling and design optimization by incorporating data from various low-fidelity (LF) models. While most existing MF methods assume a fixed dataset, adaptive sampling methods that dynamically allocate resources among fidelity models can achieve higher efficiency in the exploring and exploiting the design space. However, most existing MF methods rely on the hierarchical assumption of fidelity levels or fail to capture the intercorrelation between multiple fidelity levels and utilize it to quantify the value of the future samples and navigate the adaptive sampling. To address this hurdle, we propose a framework hinged on a latent embedding for different fidelity models and the associated pre-posterior analysis to explicitly utilize their correlation for adaptive sampling. In this framework, each infill sampling iteration includes two steps: We first identify the location of interest with the greatest potential improvement using the high-fidelity (HF) model, then we search for the next sample across all fidelity levels that maximize the improvement per unit cost at the location identified in the first step. This is made possible by a single Latent Variable Gaussian Process (LVGP) model that maps different fidelity models into an interpretable latent space to capture their correlations without assuming hierarchical fidelity levels. The LVGP enables us to assess how LF sampling candidates will affect HF response with pre-posterior analysis and determine the next sample with the best benefit-to-cost ratio. Through test cases, we demonstrate that the proposed method outperforms the benchmark methods in both MF global fitting (GF) and Bayesian Optimization (BO) problems in convergence rate and robustness. Moreover, the method offers the flexibility to switch between GF and BO by simply changing the acquisition function. | 翻訳日:2024-01-22 18:54:28 公開日:2024-01-18 |
# 統一不確実性校正 Unified Uncertainty Calibration ( http://arxiv.org/abs/2310.01202v2 ) ライセンス: Link先を確認 | Kamalika Chaudhuri and David Lopez-Paz | (参考訳) To build robust, fair, and safe AI systems, we would like our classifiers to say ``I don't know'' when facing test examples that are difficult or fall outside of the training classes.The ubiquitous strategy to predict under uncertainty is the simplistic \emph{reject-or-classify} rule: abstain from prediction if epistemic uncertainty is high, classify otherwise.Unfortunately, this recipe does not allow different sources of uncertainty to communicate with each other, produces miscalibrated predictions, and it does not allow to correct for misspecifications in our uncertainty estimates.
これら3つの問題に対処するために,アレエータ的不確実性と認識的不確実性を組み合わせた包括的枠組みである \emph{unified uncertainty calibration (u2c)" を導入する。
U2Cは、不確実性推定のクリーンな学習理論分析を可能にし、さまざまなImageNetベンチマークでリジェクションや分類よりも優れている。
私たちのコードは、https://github.com/facebookresearch/UnifiedUncertaintyCalibrationで利用可能です。 To build robust, fair, and safe AI systems, we would like our classifiers to say ``I don't know'' when facing test examples that are difficult or fall outside of the training classes.The ubiquitous strategy to predict under uncertainty is the simplistic \emph{reject-or-classify} rule: abstain from prediction if epistemic uncertainty is high, classify otherwise.Unfortunately, this recipe does not allow different sources of uncertainty to communicate with each other, produces miscalibrated predictions, and it does not allow to correct for misspecifications in our uncertainty estimates. To address these three issues, we introduce \emph{unified uncertainty calibration (U2C)}, a holistic framework to combine aleatoric and epistemic uncertainties. U2C enables a clean learning-theoretical analysis of uncertainty estimation, and outperforms reject-or-classify across a variety of ImageNet benchmarks. Our code is available at: https://github.com/facebookresearch/UnifiedUncertaintyCalibration | 翻訳日:2024-01-22 18:53:55 公開日:2024-01-18 |
# 逐次音楽レコメンデーションのための自己注意による負信号の活用 Leveraging Negative Signals with Self-Attention for Sequential Music Recommendation ( http://arxiv.org/abs/2309.11623v2 ) ライセンス: Link先を確認 | Pavan Seshadri, Peter Knees | (参考訳) 音楽ストリーミングサービスは、消費者にコンテンツを継続的に提供するためのレコメンデーションエンジンに大きく依存している。
その結果, 長期的・短期的ユーザ履歴や項目的特徴といった文脈情報を活用する自己意図的モデルに焦点が当てられている現在の文献では, それらの研究の多くは, ショートフォームではなく, ロングフォームなコンテンツドメイン(小売, 映画など)に焦点が当てられている。
さらに、トレーニング中にネガティブなセッションレベルのフィードバックを取り入れようとはしない人も多い。
本研究では,変圧器をベースとした自己注意型アーキテクチャを用いて,楽譜レコメンデーションのための暗黙的なセッションレベル情報を学習する。
また、ネガティブなフィードバック(例えば、スキップトラック)を取り入れ、ポジティブなヒットを促進し、ネガティブなヒットを罰する対照的な学習タスクを提案する。
このタスクは単純な損失項として定式化され、シーケンシャルなレコメンデーションのために様々なディープラーニングアーキテクチャに組み込むことができる。
実験の結果,これはユーザからのネガティブなフィードバックを無視したベースラインアーキテクチャよりも一貫したパフォーマンス向上をもたらすことがわかった。 Music streaming services heavily rely on their recommendation engines to continuously provide content to their consumers. Sequential recommendation consequently has seen considerable attention in current literature, where state of the art approaches focus on self-attentive models leveraging contextual information such as long and short-term user history and item features; however, most of these studies focus on long-form content domains (retail, movie, etc.) rather than short-form, such as music. Additionally, many do not explore incorporating negative session-level feedback during training. In this study, we investigate the use of transformer-based self-attentive architectures to learn implicit session-level information for sequential music recommendation. We additionally propose a contrastive learning task to incorporate negative feedback (e.g skipped tracks) to promote positive hits and penalize negative hits. This task is formulated as a simple loss term that can be incorporated into a variety of deep learning architectures for sequential recommendation. Our experiments show that this results in consistent performance gains over the baseline architectures ignoring negative user feedback. | 翻訳日:2024-01-22 18:52:54 公開日:2024-01-18 |
# 光キャビティにおける多レベル原子の駆動散逸4モードスクイーズ Driven-dissipative four-mode squeezing of multilevel atoms in an optical cavity ( http://arxiv.org/abs/2309.10717v3 ) ライセンス: Link先を確認 | Bhuvanesh Sundar and Diego Barbarena and Ana Maria Rey and Asier Pi\~neiro Orioli | (参考訳) 我々は、駆動共振光学キャビティに閉じ込められたマルチレベル原子を用いて、量子センシングとメトロジーのためのスケーラブルなマルチモード圧縮状態を生成する。
超放射能または集合散逸放出は、通常光学キャビティにおける絡み合い発生の有害な効果であるが、追加の駆動が存在する場合は絡み合い資源としても使用できる。
最近の研究 (Phys. Rev. Lett. 132, 033601 (2024)] では、関連する分極が1つしか持たない6レベル系の暗黒状態における2モードスクイーズを散逸的に生成するためのプロトコルを記述した。
そこで、最大2つの四角形を絞ることができることを示した。
そこで本研究では,キャビティ内の2つの偏光モードに光を照射することで原子が集合的に崩壊する多層系におけるスクイージングを計算するための一般化解析法を開発した。
このより一般的なシステムでは、最大4つのスピンスクリュード・クオーチュアが得られることを示す。
有限サイズ効果が到達可能なスクイーズをいかに制限するかを研究し、$N$で解析的に計算する。
本研究はアルカリ土様原子を用いた現在の光学キャビティ実験で容易に検証できる。 We utilize multilevel atoms trapped in a driven resonant optical cavity to produce scalable multi-mode squeezed states for quantum sensing and metrology. While superradiance or collective dissipative emission by itself has been typically a detrimental effect for entanglement generation in optical cavities, in the presence of additional drives it can also be used as an entanglement resource. In a recent work [Phys. Rev. Lett. 132, 033601 (2024)], we described a protocol for the dissipative generation of two-mode squeezing in the dark state of a six-level system with only one relevant polarization. There we showed that up to two quadratures can be squeezed. Here, we develop a generalized analytic treatment to calculate the squeezing in any multilevel system where atoms can collectively decay by emitting light into two polarization modes in a cavity. We show that in this more general system up to four spin squeezed quadratures can be obtained. We study how finite-size effects constrain the reachable squeezing, and analytically compute the scaling with $N$. Our findings are readily testable in current optical cavity experiments with alkaline-earth-like atoms. | 翻訳日:2024-01-22 18:52:32 公開日:2024-01-18 |
# リスク調整mriスクリーニングと早期発見のためのaiによる乳癌予測 Predicting breast cancer with AI for individual risk-adjusted MRI screening and early detection ( http://arxiv.org/abs/2312.00067v2 ) ライセンス: Link先を確認 | Lukas Hirsch, Yu Huang, Hernan A. Makse, Danny F. Martinez, Mary Hughes, Sarah Eskreis-Winkler, Katja Pinker, Elizabeth Morris, Lucas C. Parra, Elizabeth J. Sutton | (参考訳) 乳がんのリスクが高まる女性は、年次スクリーニングmriを補助的に行う。
検診の負担軽減と早期発見の促進を目的として,現在のmriを用いて1年以内に乳癌を発症するリスクを予測することを提案する。
スクリーニングまたは診断を12年以上行った12,694人の乳がん患者から53,858人の乳がん患者にaiアルゴリズムが開発され、2331人のがんが確認された。
最初のU-Netは病変を分断し、関心のある領域を特定するために訓練された。
u-netで抽出された特徴を用いて,第2の畳み込みネットワークを用いて悪性腫瘍の検出を訓練した。
このネットワークは、放射線科医が正常または良性と見なす場合、がんの発生リスクを1年以内に見積もるために微調整された。
このAIによるリスク予測は、トレーニングに使用されなかったハイリスクスクリーニングコホートから9,183個の乳房の振り返り分析によって評価された。
統計的分析では、省略された試験数と負の予測値、潜在的な早期検出数と正の予測値とのトレードオフに注目した。
AIアルゴリズムは、スクリーン検出がんの52%で将来の腫瘍と一致する領域を特定した。
放射線科医によると、診断前のmriでは71.3%のがんが可視的相関を示し、その65%がaiモデルによって同定された。
高いAI予測リスクを持つ全ての症例の10%でこれらの領域を再評価すると、放射線学者が早期に検出した確率は最大33%となった。
また, 再発率を低下させることなく, 術後経過観察を推奨することで, リスクリスクの16%でスクリーニング負担を軽減できた。
データセットの増加と画質の向上により、このAI支援で適応的なスクリーニングにより、スクリーニングの負担を大幅に削減し、早期検出を改善することが期待されます。 Women with an increased life-time risk of breast cancer undergo supplemental annual screening MRI. We propose to predict the risk of developing breast cancer within one year based on the current MRI, with the objective of reducing screening burden and facilitating early detection. An AI algorithm was developed on 53,858 breasts from 12,694 patients who underwent screening or diagnostic MRI and accrued over 12 years, with 2,331 confirmed cancers. A first U-Net was trained to segment lesions and identify regions of concern. A second convolutional network was trained to detect malignant cancer using features extracted by the U-Net. This network was then fine-tuned to estimate the risk of developing cancer within a year in cases that radiologists considered normal or likely benign. Risk predictions from this AI were evaluated with a retrospective analysis of 9,183 breasts from a high-risk screening cohort, which were not used for training. Statistical analysis focused on the tradeoff between number of omitted exams versus negative predictive value, and number of potential early detections versus positive predictive value. The AI algorithm identified regions of concern that coincided with future tumors in 52% of screen-detected cancers. Upon directed review, a radiologist found that 71.3% of cancers had a visible correlate on the MRI prior to diagnosis, 65% of these correlates were identified by the AI model. Reevaluating these regions in 10% of all cases with higher AI-predicted risk could have resulted in up to 33% early detections by a radiologist. Additionally, screening burden could have been reduced in 16% of lower-risk cases by recommending a later follow-up without compromising current interval cancer rate. With increasing datasets and improving image quality we expect this new AI-aided, adaptive screening to meaningfully reduce screening burden and improve early detection. | 翻訳日:2024-01-22 18:44:17 公開日:2024-01-18 |
# ミラー降下を用いた高速適応のための汎用的損失ジオメトリを用いたメタラーニング Meta-Learning with Versatile Loss Geometries for Fast Adaptation Using Mirror Descent ( http://arxiv.org/abs/2312.13486v2 ) ライセンス: Link先を確認 | Yilang Zhang, Bingcong Li, Georgios B. Giannakis | (参考訳) メタラーニングは、関連するタスクから抽出されたタスク不変の事前知識を利用して、特にデータレコードが制限された場合に新しいタスクの学習を促進する原則付きフレームワークである。
メタラーニングにおける基本的な課題は、いくつかの最適化ステップでタスク固有のモデルをトレーニングするために、抽出された事前を迅速に"適応"する方法である。
既存のアプローチは、タスク毎のトレーニングプロセスの収束性を高めるプリコンディショナーを使用して、この課題に対処する。
局所的に二次的な訓練損失を表すのに効果的であるが、これらの単純な線形プレコンディショナーは複雑な損失測度をほとんど捉えない。
本研究は,多角的距離測定を誘導する非線形ミラーマップを学習し,広帯域の損失測度を捕捉・最適化し,タスクごとのトレーニングを容易にすることにより,この制限に対処する。
数ショットの学習データセットの数値実験は、提唱されたアプローチの優れた表現性と収束性を示す。 Utilizing task-invariant prior knowledge extracted from related tasks, meta-learning is a principled framework that empowers learning a new task especially when data records are limited. A fundamental challenge in meta-learning is how to quickly "adapt" the extracted prior in order to train a task-specific model within a few optimization steps. Existing approaches deal with this challenge using a preconditioner that enhances convergence of the per-task training process. Though effective in representing locally a quadratic training loss, these simple linear preconditioners can hardly capture complex loss geometries. The present contribution addresses this limitation by learning a nonlinear mirror map, which induces a versatile distance metric to enable capturing and optimizing a wide range of loss geometries, hence facilitating the per-task training. Numerical tests on few-shot learning datasets demonstrate the superior expressiveness and convergence of the advocated approach. | 翻訳日:2024-01-22 18:15:50 公開日:2024-01-18 |
# 条件付きボルツマン発生器による分子GNNの事前学習 Pre-training of Molecular GNNs via Conditional Boltzmann Generator ( http://arxiv.org/abs/2312.13110v3 ) ライセンス: Link先を確認 | Daiki Koge, Naoaki Ono, Shigehiko Kanaya | (参考訳) 深層学習を用いた分子構造表現の学習は分子特性予測タスクの基本的な問題である。
分子は本質的に3次元構造として現実世界に存在するが、3次元ユークリッド空間では静的ではないが連続運動であり、ポテンシャルエネルギー面を形成する。
したがって、事前に複数のコンフォメーションを生成し、複数のコンフォメーションを組み込んだ4D-QSARモデルを用いて分子表現を抽出することが望ましい。
しかし、このアプローチは、複数のコンフォメーションを得るための計算コストのため、薬物や物質発見タスクには実用的ではない。
そこで本研究では,既存の分子コンホメーションデータセットを用いた分子GNNの事前学習手法を提案し,複数のコンホメーションに共通な潜在ベクトルを2次元分子グラフから生成する。
我々の手法はボルツマンGNNと呼ばれ、コンフォメーション生成のための条件生成モデルの条件境界確率を最大化することによって定式化される。
本モデルでは,分子グラフと3次元分子構造を用いた既存の事前学習法よりも分子特性の予測性能が向上することを示す。 Learning representations of molecular structures using deep learning is a fundamental problem in molecular property prediction tasks. Molecules inherently exist in the real world as three-dimensional structures; furthermore, they are not static but in continuous motion in the 3D Euclidean space, forming a potential energy surface. Therefore, it is desirable to generate multiple conformations in advance and extract molecular representations using a 4D-QSAR model that incorporates multiple conformations. However, this approach is impractical for drug and material discovery tasks because of the computational cost of obtaining multiple conformations. To address this issue, we propose a pre-training method for molecular GNNs using an existing dataset of molecular conformations to generate a latent vector universal to multiple conformations from a 2D molecular graph. Our method, called Boltzmann GNN, is formulated by maximizing the conditional marginal likelihood of a conditional generative model for conformations generation. We show that our model has a better prediction performance for molecular properties than existing pre-training methods using molecular graphs and three-dimensional molecular structures. | 翻訳日:2024-01-22 18:15:33 公開日:2024-01-18 |
# 制約シナリオにおける非明視的パワーアロケーションの学習 Learning Non-myopic Power Allocation in Constrained Scenarios ( http://arxiv.org/abs/2401.10297v1 ) ライセンス: Link先を確認 | Arindam Chowdhury, Santiago Paternain, Gunjan Verma, Ananthram Swami, and Santiago Segarra | (参考訳) エピソード制約下でのアドホック干渉ネットワークにおける効率的な電力配分のための学習ベースフレームワークを提案する。
与えられたネットワークユーティリティメトリックを最大化するための最適電力割り当ての問題は、最近大きな人気を集めている。
いくつかの学習可能なアルゴリズムが提案され、高速で効果的で、ほぼ最適性能が得られる。
しかし、時間的制約の下でエピソード全体に対してユーティリティメトリックを最適化する必要がある場合に、より現実的なシナリオが発生する。
この場合、常に制約を満たすことなく、無線ネットワーク実現の全シーケンスにわたって、所定のユーティリティを最適化できるように、瞬時に電力を調整する必要がある。
それぞれのインスタンスを独立に解くことは、長期の制約がそのような解を変調できないため、ミオピックとなる。
代わりに、我々はこれを制約付きかつシーケンシャルな意思決定問題とみなし、アクタークリティカルなアルゴリズムを用いて各ステップで制約対応のパワーアロケーションを得る。
本手法は,ネットワーク利用性が優れているという観点からの有効性と,時間と計算の複雑さの観点からの効率性を示すために,実験的検討を行った。 We propose a learning-based framework for efficient power allocation in ad hoc interference networks under episodic constraints. The problem of optimal power allocation -- for maximizing a given network utility metric -- under instantaneous constraints has recently gained significant popularity. Several learnable algorithms have been proposed to obtain fast, effective, and near-optimal performance. However, a more realistic scenario arises when the utility metric has to be optimized for an entire episode under time-coupled constraints. In this case, the instantaneous power needs to be regulated so that the given utility can be optimized over an entire sequence of wireless network realizations while satisfying the constraint at all times. Solving each instance independently will be myopic as the long-term constraint cannot modulate such a solution. Instead, we frame this as a constrained and sequential decision-making problem, and employ an actor-critic algorithm to obtain the constraint-aware power allocation at each step. We present experimental analyses to illustrate the effectiveness of our method in terms of superior episodic network-utility performance and its efficiency in terms of time and computational complexity. | 翻訳日:2024-01-22 18:08:00 公開日:2024-01-18 |
# 薄膜ニオブ酸リチウムドープ希土類イオンを用いたキャビティ増幅狭帯域スペクトルフィルタ Cavity-enhanced narrowband spectral filters using rare-earth ions doped in thin-film lithium niobate ( http://arxiv.org/abs/2401.09655v1 ) ライセンス: Link先を確認 | Yuqi Zhao, Dylan Renaud, Demitry Farfurnik, Subhojit Dutta, Neil Sinclair, Marko Loncar, Edo Waks | (参考訳) オンチップ光フィルタは光信号処理の基本コンポーネントである。
希土類イオンドープ結晶はスペクトルホールバーニングによる超狭光フィルタリングを提供するが、その用途は主にバルク結晶の使用に限られており、実用性は制限されている。
本研究では,非線形光学プラットフォームにおける希土類イオンに基づくキャビティエンハンスドスペクトルフィルタリングを実証する。
希土類イオンを薄膜ニオブ酸リチウムでパターニングした高品位リング共振器に導入する。
臨界結合共鳴モードでのスペクトルホールバーニングにより、7MHzの線幅、13.0dBの13.0dBの帯域通過フィルタから、20.4dBの24MHzまでの帯域通過フィルタを実現する。
これらのフィルタは、ニオブ酸リチウム薄膜集積プラットフォームで実証された最も高品質なリング共振器よりも優れていた。
また、キャビティ結合率を変化させて再構成可能なフィルタリングを可能にする。
例えば、帯域通過フィルタとは対照的に、アンダーカップリングリング共振器を用いた帯域通過フィルタを実演する。
このような高い消滅率と狭い線幅を有する多彩な統合スペクトルフィルタは、光信号処理およびaチップ上の光メモリの基本成分として機能する。 On-chip optical filters are fundamental components in optical signal processing. While rare-earth ion-doped crystals offer ultra-narrow optical filtering via spectral hole burning, their applications have primarily been limited to those using bulk crystals, restricting their utility. In this work, we demonstrate cavity-enhanced spectral filtering based on rare-earth ions in an integrated nonlinear optical platform. We incorporate rare-earth ions into high quality-factor ring resonators patterned in thin-film lithium niobate. By spectral hole burning in a critically-coupled resonance mode, we achieve bandpass filters ranging from 7 MHz linewidth, with 13.0 dB of extinction, to 24 MHz linewidth, with 20.4 dB of extinction. These filters outperform those of the highest quality factor ring resonators demonstrated in the thin-film lithium niobate integrated platform. Moreover, the cavity enables reconfigurable filtering by varying the cavity coupling rate. For instance, as opposed to the bandpass filter, we demonstrate a bandstop filter utilizing an under-coupled ring resonator. Such versatile integrated spectral filters with high extinction ratio and narrow linewidth could serve as fundamental components for optical signal processing and optical memories on-a-chip. | 翻訳日:2024-01-22 18:06:27 公開日:2024-01-18 |
# 線形光回路の分化 Differentiation of Linear Optical Circuits ( http://arxiv.org/abs/2401.07997v2 ) ライセンス: Link先を確認 | Giovanni de Felice and Christopher Cortlett | (参考訳) 線形光回路と単一光子源に基づく実験的なセットアップは、短期量子機械学習のための有望なプラットフォームを提供する。
しかし、現在のアプリケーションはすべてサポートベクターマシンとグラデーションフリー最適化手法に基づいている。
位相パラメータ上の光回路の微分は、一元的でないフォック空間上の作用素を生じさせるため困難である。
本稿では, 線形光回路の期待値の導出を, 1つの追加光子を用いて, より大きな回路からサンプリングすることで計算可能であることを示す。
期待値の観点から導関数を表現するため,一元的拡張に基づく回路抽出手法を開発した。
最後に,汎用プログラマブル干渉計の全勾配を,ボソンサンプリング装置への多項式数クエリを用いて推定できることを示す。
これは、ユニタリの空間をカバーするために指数関数的に多くのパラメータを必要とするキュービット設定とは対照的である。
このアルゴリズムは、グラデーション降下を利用した機械学習、量子化学、最適化へのフォトニック技術の応用を可能にする。 Experimental setups based on linear optical circuits and single photon sources offer a promising platform for near-term quantum machine learning. However, current applications are all based on support vector machines and gradient-free optimization methods. Differentiating an optical circuit over a phase parameter poses difficulty because it results in an operator on the Fock space which is not unitary. In this paper, we show that the derivative of the expectation values of a linear optical circuit can be computed by sampling from a larger circuit, using one additional photon. In order to express the derivative in terms of expectation values, we develop a circuit extraction procedure based on unitary dilation. We end by showing that the full gradient of a universal programmable interferometer can be estimated using polynomially many queries to a boson sampling device. This is in contrast to the qubit setting, where exponentially many parameters are needed to cover the space of unitaries. Our algorithm enables applications of photonic technologies to machine learning, quantum chemistry and optimization, powered by gradient descent. | 翻訳日:2024-01-22 18:05:02 公開日:2024-01-18 |
# 有向正規言語と文脈自由言語 Directed Regular and Context-Free Languages ( http://arxiv.org/abs/2401.07106v2 ) ライセンス: Link先を確認 | Moses Ganardi, Irmak Saglam, Georg Zetzsche | (参考訳) 我々は、ある言語が指示されているかどうかを決定する問題について研究する。
言語 $L$ が \emph{directed} であるとき、$L$ のすべての単語が$L$ の共通(散在)スーパーワードを持つ。
有向性の決定は、下向き閉集合の理想的な分解に関する根本的な問題である。
もう一つの動機は、2つの \emph{directed} 文脈自由言語が同じ下向き閉包を持つかどうかを多項式時間で決定できることである。
nfas として与えられる正規言語の有向性問題は$ac^1$ であり、したがって多項式時間である。
さらに、固定されたアルファベットサイズに対してNL完全である。
さらに、文脈自由言語では、有向性問題はPSPACE完全であることを示す。 We study the problem of deciding whether a given language is directed. A language $L$ is \emph{directed} if every pair of words in $L$ have a common (scattered) superword in $L$. Deciding directedness is a fundamental problem in connection with ideal decompositions of downward closed sets. Another motivation is that deciding whether two \emph{directed} context-free languages have the same downward closures can be decided in polynomial time, whereas for general context-free languages, this problem is known to be coNEXP-complete. We show that the directedness problem for regular languages, given as NFAs, belongs to $AC^1$, and thus polynomial time. Moreover, it is NL-complete for fixed alphabet sizes. Furthermore, we show that for context-free languages, the directedness problem is PSPACE-complete. | 翻訳日:2024-01-22 18:03:38 公開日:2024-01-18 |
# 二重種Rydberg配列 A dual-species Rydberg array ( http://arxiv.org/abs/2401.10325v1 ) ライセンス: Link先を確認 | Shraddha Anand, Conor E. Bradley, Ryan White, Vikram Ramesh, Kevin Singh, Hannes Bernien | (参考訳) Rydberg原子配列は量子情報科学の先駆的なプラットフォームとして登場した。
何百もの長寿命量子ビットのシステムサイズに到達したこれらの配列は、高度にコヒーレントなアナログ量子シミュレーションやデジタル量子計算に使用される。
しかし、量子誤り訂正のような高度な量子プロトコルは、量子ビットのサブセットの補充、リセット、読み出しを含む中間回路量子ビット演算を必要とする。
これらの能力を達成するための説得力のある戦略は、クロストークなしで第2の原子種を制御でき、ライドバーグ相互作用を介して第1種と絡み合うデュアル種アーキテクチャである。
ここでは,ルビジウム (Rb) とセシウム (Cs) 原子からなる二重種Rydberg配列が実現され,単一種アーキテクチャではアクセスできない相互作用と力学の新しい状態を探究する。
我々は,フォスター共鳴に近いライドバーグ状態の電気的チューニングにより,種間相互作用の強化を実現する。
この方法では、種間封鎖を実証し、ある種から別の種への量子状態遷移を実装する。
次に、種間制御相ゲートを介してrbとcs超微細量子ビット間のベル状態を生成する。
最後に、補助的なCs量子ビットを用いたRb量子ビットの量子的非劣化測定を実現するために、種間絡み合いとネイティブな中間回路の読み出しを組み合わせる。
ここで実証された技術は、大規模量子システムにおけるスケーラブルな計測ベースのプロトコルとリアルタイムフィードバック制御への道を開いた。 Rydberg atom arrays have emerged as a leading platform for quantum information science. Reaching system sizes of hundreds of long-lived qubits, these arrays are used for highly coherent analog quantum simulation, as well as digital quantum computation. Advanced quantum protocols such as quantum error correction, however, require midcircuit qubit operations, including the replenishment, reset, and readout of a subset of qubits. A compelling strategy to achieve these capabilities is a dual-species architecture in which a second atomic species can be controlled without crosstalk, and entangled with the first via Rydberg interactions. Here, we realize a dual-species Rydberg array consisting of rubidium (Rb) and cesium (Cs) atoms, and explore new regimes of interactions and dynamics not accessible in single-species architectures. We achieve enhanced interspecies interactions by electrically tuning the Rydberg states close to a Forster resonance. In this regime, we demonstrate interspecies Rydberg blockade and implement quantum state transfer from one species to another. We then generate a Bell state between Rb and Cs hyperfine qubits via an interspecies controlled-phase gate. Finally, we combine interspecies entanglement with native midcircuit readout to achieve quantum non-demolition measurement of a Rb qubit using an auxiliary Cs qubit. The techniques demonstrated here pave the way toward scalable measurement-based protocols and real-time feedback control in large-scale quantum systems. | 翻訳日:2024-01-22 17:56:44 公開日:2024-01-18 |
# 一般化量子信号処理によるハミルトンシミュレーションの倍効率 Doubling Efficiency of Hamiltonian Simulation via Generalized Quantum Signal Processing ( http://arxiv.org/abs/2401.10321v1 ) ライセンス: Link先を確認 | Dominic W. Berry, Danial Motlagh, Giacomo Pantaleoni, Nathan Wiebe | (参考訳) 量子信号処理は、ハミルトニアンのブロック符号化を呼び出すことで、量子コンピュータ上でのハミルトニアン進化をシミュレートするための最適な手順を提供する。
多くの状況では、単純な制御操作とほぼ同じコストで前方と逆のステップを制御できる。
その結果、一般化された量子信号処理の最近の結果を用いて、ハミルトンシミュレーションのコストを2倍に削減できることが示されている。 Quantum signal processing provides an optimal procedure for simulating Hamiltonian evolution on a quantum computer using calls to a block encoding of the Hamiltonian. In many situations it is possible to control between forward and reverse steps with almost identical cost to a simple controlled operation. We show that it is then possible to reduce the cost of Hamiltonian simulation by a factor of 2 using the recent results of generalised quantum signal processing. | 翻訳日:2024-01-22 17:56:19 公開日:2024-01-18 |
# 1次元光学格子における双極子ボソンの超トンク・ジラルドークエンチ Super-Tonks-Girardeau quench of dipolar bosons in a one-dimensional optical lattice ( http://arxiv.org/abs/2401.10317v1 ) ライセンス: Link先を確認 | Paolo Molignini and Barnali Chakrabarti | (参考訳) 超トンク・ギラドー気体(super-tonks-giradeau gas)は、1次元に制限された強引なボソンの高励起で安定な量子状態である。
この状態は、強く反発するトンクス・ジラルドー気体の基底状態から強い誘引状態へ粒子間相互作用を焼成することで得られる。
接触相互作用を持つ超トンク・ギラルドーのクエンチは徹底的に研究されているが、長距離相互作用が作用する過程の安定性についてはあまり知られていない。
これは、双極子-双極子相互作用による超低温原子の制御の最近の進歩に照らして、特に重要な問題である。
本研究では,1次元光学格子における双極子ボソンの超トンク・ギラルド・クエンチをシミュレートし,そのダイナミクスを様々な初期状態と充填状態について検討する。
粒子密度,相関,エントロピー測度,自然占領を計算することにより,双極性相互作用強度の関数として安定状態を確立する。
初期単位充填モット状態では、弱い双極子相互作用では安定性が保たれる。
クラスター状態と二重充填モット状態の場合、双極子相互作用は最終的に初期状態の完全な蒸発と、ランダム行列理論の予測と一致する熱化をもたらす。
ただし、双極子相互作用は最終的に熱化される前に長寿命の予熱状態を達成するように調整することができる。
我々の研究は、物質の励起量子状態の制御と安定化のための新しいメカニズムを探求する長距離相互作用の可能性を強調した。 A super-Tonks-Giradeau gas is a highly excited yet stable quantum state of strongly attractive bosons confined to one dimension. This state can be obtained by quenching the interparticle interactions from the ground state of a strongly repulsive Tonks-Girardeau gas to the strongly attractive regime. While the super-Tonks-Girardeau quench with contact interactions has been thoroughly studied, less is known about the stability of such a procedure when long-range interactions come into play. This is a particularly important question in light of recent advances in controlling ultracold atoms with dipole-dipole interactions. In this study, we thus simulate a super-Tonks-Girardeau quench on dipolar bosons in a one-dimensional optical lattice and investigate their dynamics for many different initial states and fillings. By calculating particle density, correlations, entropy measures, and natural occupations, we establish the regimes of stability as a function of dipolar interaction strength. For an initial unit-filled Mott state, stability is retained at weak dipolar interactions. For cluster states and doubly-filled Mott states, instead, dipolar interactions eventually lead to complete evaporation of the initial state and thermalization consistent with predictions from random matrix theory. Remarkably, though, dipolar interactions can be tuned to achieve longer-lived prethermal states before the eventual thermalization. Our study highlights the potential of long-range interactions to explore new mechanisms to steer and stabilize excited quantum states of matter. | 翻訳日:2024-01-22 17:56:10 公開日:2024-01-18 |
# 多様な嗜好性を考慮したマルチタスクによるワンクラスレコメンデーションの改善 Improving One-class Recommendation with Multi-tasking on Various Preference Intensities ( http://arxiv.org/abs/2401.10316v1 ) ライセンス: Link先を確認 | Chu-Jen Shao, Hao-Ming Fu, Pu-Jen Cheng | (参考訳) 一級レコメンデーション問題では、ユーザの行動や非行動から推測される、暗黙的なフィードバックに基づくレコメンデーションを行う必要があります。
既存の作品は、トレーニングデータから観察されるポジティブな相互作用とネガティブな相互作用をエンコードすることで、ユーザとアイテムの表現を得る。
しかし、これらの努力は暗黙のフィードバックからの全てのポジティブな信号が一定の好みの強さを反映していると仮定しており、現実的ではない。
したがって、これらの方法で学んだ表現は通常、様々な好みの強度を反映した情報的実体の特徴を捉えない。
本稿では,暗黙のフィードバックから各信号の様々な嗜好強度を考慮したマルチタスクフレームワークを提案する。
実体の表現は各サブタスクの目的を同時に満たすために必要であり、より堅牢で一般化可能である。
さらに,注意グラフ畳み込み層を組み込んで,ユーザ項目の2部グラフにおける高次関係を探索し,対話対象に対するユーザの潜在傾向を動的に把握する。
実験結果から,本手法は3つの大規模実世界のベンチマークデータセットにおいて,最先端の手法よりも高い性能を示した。 In the one-class recommendation problem, it's required to make recommendations basing on users' implicit feedback, which is inferred from their action and inaction. Existing works obtain representations of users and items by encoding positive and negative interactions observed from training data. However, these efforts assume that all positive signals from implicit feedback reflect a fixed preference intensity, which is not realistic. Consequently, representations learned with these methods usually fail to capture informative entity features that reflect various preference intensities. In this paper, we propose a multi-tasking framework taking various preference intensities of each signal from implicit feedback into consideration. Representations of entities are required to satisfy the objective of each subtask simultaneously, making them more robust and generalizable. Furthermore, we incorporate attentive graph convolutional layers to explore high-order relationships in the user-item bipartite graph and dynamically capture the latent tendencies of users toward the items they interact with. Experimental results show that our method performs better than state-of-the-art methods by a large margin on three large-scale real-world benchmark datasets. | 翻訳日:2024-01-22 17:55:44 公開日:2024-01-18 |
# LangProp: 運転に適用される言語モデルを用いたコード最適化フレームワーク LangProp: A code optimization framework using Language Models applied to driving ( http://arxiv.org/abs/2401.10314v1 ) ライセンス: Link先を確認 | Shu Ishida, Gianluca Corrado, George Fedoseev, Hudson Yeo, Lloyd Russell, Jamie Shotton, Jo\~ao F. Henriques, Anthony Hu | (参考訳) LangPropは、大規模言語モデル(LLM)によって生成されたコードを、教師付き/強化学習環境で反復的に最適化するフレームワークである。
LLMはゼロショットで知覚可能な解を生成することができるが、解はしばしば準最適である。
特にコード生成タスクの場合、初期コードは特定のエッジケースで失敗する可能性が高い。
langpropは、入出力ペアのデータセット上でのコードパフォーマンスを自動的に評価し、例外をキャッチし、トレーニングループで結果をllmに返して、llmが生成するコードを反復的に改善できるようにします。
このコード最適化手順にメトリックとデータ駆動のトレーニングパラダイムを採用することで、模倣学習、DAgger、強化学習といった従来の機械学習技術からの発見を容易に適応できる。
我々は、CARLAにおける自動運転のための自動コード最適化の概念の最初の証明を示し、LangPropは、メートル法およびデータ駆動方式で検証および改善可能な解釈可能かつ透明な運転ポリシーを生成することができることを示した。
私たちのコードはオープンソースで、https://github.com/shuishida/LangProp.orgから入手可能です。 LangProp is a framework for iteratively optimizing code generated by large language models (LLMs) in a supervised/reinforcement learning setting. While LLMs can generate sensible solutions zero-shot, the solutions are often sub-optimal. Especially for code generation tasks, it is likely that the initial code will fail on certain edge cases. LangProp automatically evaluates the code performance on a dataset of input-output pairs, as well as catches any exceptions, and feeds the results back to the LLM in the training loop, so that the LLM can iteratively improve the code it generates. By adopting a metric- and data-driven training paradigm for this code optimization procedure, one could easily adapt findings from traditional machine learning techniques such as imitation learning, DAgger, and reinforcement learning. We demonstrate the first proof of concept of automated code optimization for autonomous driving in CARLA, showing that LangProp can generate interpretable and transparent driving policies that can be verified and improved in a metric- and data-driven way. Our code will be open-sourced and is available at https://github.com/shuishida/LangProp. | 翻訳日:2024-01-22 17:55:25 公開日:2024-01-18 |
# ハッキング予測器は車をハッキングする: 感度分析を使って自動運転セキュリティの軌道予測脆弱性を同定する Hacking Predictors Means Hacking Cars: Using Sensitivity Analysis to Identify Trajectory Prediction Vulnerabilities for Autonomous Driving Security ( http://arxiv.org/abs/2401.10313v1 ) ライセンス: Link先を確認 | Marsalis Gibson, David Babazadeh, Claire Tomlin, Shankar Sastry | (参考訳) 学習に基づく軌道予測に対する逆攻撃はすでに実証されている。
しかし、状態履歴以外の軌道予測器入力に対する摂動の影響や、これらの攻撃が下流の計画と制御にどう影響するかについては、未解決の疑問がある。
本稿では,2つの軌道予測モデルである Trajectron++ と AgentFormer の感度解析を行う。
我々はすべての入力の間に、Trajectron++の摂動感は最新の状態履歴時点にしかなく、AgentFormerの摂動感は時間とともに状態履歴に分散していることを観察する。
さらに, 状態履歴の摂動に支配的な感度があるにもかかわらず, 高速勾配符号法による検出不能な画像マップ摂動は, 両モデルとも大きな予測誤差を生じさせる可能性があることを示した。
画像マップは両モデルの予測出力にわずかに寄与する可能性があるが、この結果は、逆画像摂動に頑健である代わりに、軌跡予測器は画像攻撃の影響を受けやすいことを示している。
感度結果から得られた最適化に基づくプランナーと例摂動を用いて、この脆弱性が車両を適度な運転速度から突然停止させる可能性があることを示す。 Adversarial attacks on learning-based trajectory predictors have already been demonstrated. However, there are still open questions about the effects of perturbations on trajectory predictor inputs other than state histories, and how these attacks impact downstream planning and control. In this paper, we conduct a sensitivity analysis on two trajectory prediction models, Trajectron++ and AgentFormer. We observe that between all inputs, almost all of the perturbation sensitivities for Trajectron++ lie only within the most recent state history time point, while perturbation sensitivities for AgentFormer are spread across state histories over time. We additionally demonstrate that, despite dominant sensitivity on state history perturbations, an undetectable image map perturbation made with the Fast Gradient Sign Method can induce large prediction error increases in both models. Even though image maps may contribute slightly to the prediction output of both models, this result reveals that rather than being robust to adversarial image perturbations, trajectory predictors are susceptible to image attacks. Using an optimization-based planner and example perturbations crafted from sensitivity results, we show how this vulnerability can cause a vehicle to come to a sudden stop from moderate driving speeds. | 翻訳日:2024-01-22 17:55:07 公開日:2024-01-18 |
# 社会・司法制約下における深層学習のための数学的アルゴリズム設計:アルゴリズムの透明性要件 Mathematical Algorithm Design for Deep Learning under Societal and Judicial Constraints: The Algorithmic Transparency Requirement ( http://arxiv.org/abs/2401.10310v1 ) ライセンス: Link先を確認 | Holger Boche, Adalbert Fono, Gitta Kutyniok | (参考訳) 深層学習には、理解しやすく、公平で、安全で、信頼性の高い方法を記述する信頼度という面での欠点がある。
AIの潜在的なリスクを軽減するため、例えば欧州AI法において、信頼性に関する明確な義務が規制ガイドラインを通じて提案されている。
したがって、どの程度信頼に値する深層学習が実現できるかが中心的な疑問である。
信頼性を構成する特性の確立には、アルゴリズム計算に影響を与える要因、すなわちアルゴリズムの実装が透明であることが必要となる。
ディープラーニングモデルの現在の進化がコンピューティング技術の変化を必要とするという観測に動機づけられ、コンピューティングモデルにおける透明な実装が実現可能かどうかを解析できる数学的枠組みを導出する。
本稿では,Turing と Blum-Shub-Smale Machines で表されるデジタル・アナログ・コンピューティング・モデルにおける逆問題に対するディープラーニングのアプローチを実証的に分析する。
以上の結果から,Blum-Shub-Smale Machines は,比較的一般的な条件下での逆問題に対する信頼性の高い解法を確立できる可能性が示唆された。 Deep learning still has drawbacks in terms of trustworthiness, which describes a comprehensible, fair, safe, and reliable method. To mitigate the potential risk of AI, clear obligations associated to trustworthiness have been proposed via regulatory guidelines, e.g., in the European AI Act. Therefore, a central question is to what extent trustworthy deep learning can be realized. Establishing the described properties constituting trustworthiness requires that the factors influencing an algorithmic computation can be retraced, i.e., the algorithmic implementation is transparent. Motivated by the observation that the current evolution of deep learning models necessitates a change in computing technology, we derive a mathematical framework which enables us to analyze whether a transparent implementation in a computing model is feasible. We exemplarily apply our trustworthiness framework to analyze deep learning approaches for inverse problems in digital and analog computing models represented by Turing and Blum-Shub-Smale Machines, respectively. Based on previous results, we find that Blum-Shub-Smale Machines have the potential to establish trustworthy solvers for inverse problems under fairly general conditions, whereas Turing machines cannot guarantee trustworthiness to the same degree. | 翻訳日:2024-01-22 17:54:44 公開日:2024-01-18 |
# 貯留層計算によるスカーレッド波動関数の構成 Using reservoir computing to construct scarred wavefunctions ( http://arxiv.org/abs/2401.10307v1 ) ライセンス: Link先を確認 | L. Domingo, J. Borondo and F. Borondo | (参考訳) スカー理論は量子カオスの分野における基本的な柱の1つであり、スカーレッド関数はその研究を行うためのスーパーブツールである。
いくつかの方法(通常は半古典的)はこれら2つの現象に対処するために説明されてきた。
そこで本論文では,本システムの固有状態とともに,このような傷ついた波動関数を計算するための新しい機械学習アルゴリズムであるreservation computingに基づく代替手法を提案する。
その結果、実行時間を10倍に短縮しながら、優れた精度が得られる。
本手法の有効性の図示として,広汎なカオス2次元結合クォート発振器に適用する。 Scar theory is one of the fundamental pillars in the field of quantum chaos, and scarred functions a superb tool to carry out studies in it. Several methods, usually semiclassical, have been described to cope with these two phenomena. In this paper, we present an alternative method, based on the novel machine learning algorithm known as Reservoir Computing, to calculate such scarred wavefunctions together with the associated eigenstates of the system. The resulting methodology achieves outstanding accuracy while reducing execution times by a factor of ten. As an illustration of the effectiveness of this method, we apply it to the widespread chaotic two-dimensional coupled quartic oscillator. | 翻訳日:2024-01-22 17:54:23 公開日:2024-01-18 |
# 時空間偏微分方程式の逆問題に対する物理制約畳み込みニューラルネットワーク Physics-constrained convolutional neural networks for inverse problems in spatiotemporal partial differential equations ( http://arxiv.org/abs/2401.10306v1 ) ライセンス: Link先を確認 | Daniel Kelshaw, Luca Magri | (参考訳) 物理制約付き畳み込みニューラルネットワーク(PC-CNN)を用いて,空間と時間の両方で非線形かつ異なる偏微分方程式(PDE)の2種類の逆問題の解法を提案する。
第1の逆問題では、空間的に変化する系統的誤差(バイアス、認識的不確実性)によって相殺されるデータが得られる。
タスクは、偏りのあるデータから真の状態を明らかにすることであり、これはPDEの解である。
第2の逆問題では、PDEの解についてスパース情報を与えられる。
課題は高解像度で解を宇宙空間で再構築することである。
まず,PC-CNNを提案する。PC-CNNは,シーケンシャルデータを扱うための単純な時間ウィンドウ方式でPDEを制約する。
第2に,pc-cnnの性能をバイアスデータから解き出すために分析する。
乱流の時空間的カオス力学を支配する線形および非線形対流拡散方程式とナビエ・ストークス方程式を解析した。
pc-cnnは、非凸関数としてパラメータ化される様々なバイアスの真の解を正しく回復する。
第3に, 乱流のバイアスデータから解を再構成するためのPC-CNNの性能解析を行った。
高分解能グリッド上の時空間カオス解を,その情報のうち2\%のみから再構成する。
どちらのタスクでも、navier-stokesソリューションをさらに分析します。
推定された解は物理的スペクトルエネルギーを持つが、補間のような従来の方法ではそうではない。
この研究は偏微分方程式による逆問題を解く機会を開く。 We propose a physics-constrained convolutional neural network (PC-CNN) to solve two types of inverse problems in partial differential equations (PDEs), which are nonlinear and vary both in space and time. In the first inverse problem, we are given data that is offset by spatially varying systematic error (i.e., the bias, also known the epistemic uncertainty). The task is to uncover from the biased data the true state, which is the solution of the PDE. In the second inverse problem, we are given sparse information on the solution of a PDE. The task is to reconstruct the solution in space with high-resolution. First, we present the PC-CNN, which constrains the PDE with a simple time-windowing scheme to handle sequential data. Second, we analyse the performance of the PC-CNN for uncovering solutions from biased data. We analyse both linear and nonlinear convection-diffusion equations, and the Navier-Stokes equations, which govern the spatiotemporally chaotic dynamics of turbulent flows. We find that the PC-CNN correctly recovers the true solution for a variety of biases, which are parameterised as non-convex functions. Third, we analyse the performance of the PC-CNN for reconstructing solutions from biased data for the turbulent flow. We reconstruct the spatiotemporal chaotic solution on a high-resolution grid from only 2\% of the information contained in it. For both tasks, we further analyse the Navier-Stokes solutions. We find that the inferred solutions have a physical spectral energy content, whereas traditional methods, such as interpolation, do not. This work opens opportunities for solving inverse problems with partial differential equations. | 翻訳日:2024-01-22 17:54:15 公開日:2024-01-18 |
# 携帯電話センサを用いたパーソナリティトラスト推定 : 機械学習によるアプローチ Personality Trait Inference Via Mobile Phone Sensors: A Machine Learning Approach ( http://arxiv.org/abs/2401.10305v1 ) ライセンス: Link先を確認 | Wun Yung Shaney Sze, Maryglen Pearl Herrero, Roger Garriga | (参考訳) 本研究は,携帯電話センサから収集した行動データから,パーソナリティが確実に予測できることを示す。
加速度計記録と運動パターンから計算可能な,十分なインジケータのセットを用いて,2クラス問題におけるユーザの性格を最大0.78F1まで予測することができた。
携帯電話から収集されるデータ数の増加を考えると、私たちの新しいパーソナリティ指標は、未来の社会科学研究のためのエキサイティングな道を開く。
以上の結果から,大きな五人格の特徴を差分的に予測できる行動パターンが明らかとなった。
これは、前例のない規模のパーソナリティ関連質問に対して、費用対効果とアンケートフリーで調査を可能にする可能性がある。
全体として,スマートフォンセンシングで得られたリッチな行動データと機械学習技術の組み合わせが,パーソナリティ研究の進展にどのように役立つかを示し,実践者と研究者にパーソナリティの異なる行動パターンを知らせる。
これらの知見は,将来,より正確かつ効率的な予測モデルの改良をめざして,人格評価にモバイルセンサデータを活用する組織にとって,実践的な意味を持つ。 This study provides evidence that personality can be reliably predicted from activity data collected through mobile phone sensors. Employing a set of well informed indicators calculable from accelerometer records and movement patterns, we were able to predict users' personality up to a 0.78 F1 score on a two class problem. Given the fast growing number of data collected from mobile phones, our novel personality indicators open the door to exciting avenues for future research in social sciences. Our results reveal distinct behavioral patterns that proved to be differentially predictive of big five personality traits. They potentially enable cost effective, questionnaire free investigation of personality related questions at an unprecedented scale. Overall, this paper shows how a combination of rich behavioral data obtained with smartphone sensing and the use of machine learning techniques can help to advance personality research and can inform both practitioners and researchers about the different behavioral patterns of personality. These findings have practical implications for organizations harnessing mobile sensor data for personality assessment, guiding the refinement of more precise and efficient prediction models in the future. | 翻訳日:2024-01-22 17:53:50 公開日:2024-01-18 |
# 機械学習における公正かつ透明な科学データの準備性について On the Readiness of Scientific Data for a Fair and Transparent Use in Machine Learning ( http://arxiv.org/abs/2401.10304v1 ) ライセンス: Link先を確認 | Joan Giner-Miguelez, Abel G\'omez, Jordi Cabot | (参考訳) 機械学習(ML)システムの公正性と信頼性を確保するため、近年の立法活動とMLコミュニティにおける関連する研究は、MLモデルのトレーニングに使用されるデータの文書化の必要性を指摘している。
さらに、多くの科学分野におけるデータ共有の実践は、再現性のために近年進化している。
この意味では、学術機関によるこれらの実践の採用により、研究者はデータ論文などの査読された出版物にデータと技術文書を公開することを奨励している。
本研究では,この科学的データドキュメンテーションが,ML技術におけるMLコミュニティと規制機関のニーズにどのように合致するかを分析する。
異なるドメインの4041のデータ論文のサンプルを調べ,要求された次元の完全性とカバレッジ,近年の動向を評価し,最も最も文書化されていない次元に注目した。
その結果、データ作成者や科学データ発行者に対して、ML技術における透明性と公正な使用に対するデータの準備性を高めるための一連の勧告ガイドラインを提案する。 To ensure the fairness and trustworthiness of machine learning (ML) systems, recent legislative initiatives and relevant research in the ML community have pointed out the need to document the data used to train ML models. Besides, data-sharing practices in many scientific domains have evolved in recent years for reproducibility purposes. In this sense, the adoption of these practices by academic institutions has encouraged researchers to publish their data and technical documentation in peer-reviewed publications such as data papers. In this study, we analyze how this scientific data documentation meets the needs of the ML community and regulatory bodies for its use in ML technologies. We examine a sample of 4041 data papers of different domains, assessing their completeness and coverage of the requested dimensions, and trends in recent years, putting special emphasis on the most and least documented dimensions. As a result, we propose a set of recommendation guidelines for data creators and scientific data publishers to increase their data's preparedness for its transparent and fairer use in ML technologies. | 翻訳日:2024-01-22 17:53:30 公開日:2024-01-18 |
# 生産におけるハイブリッド量子ソルバー : NISQ時代をどう成功させるか Hybrid Quantum Solvers in Production: how to succeed in the NISQ era? ( http://arxiv.org/abs/2401.10302v1 ) ライセンス: Link先を確認 | Eneko Osaba, Esther Villar-Rodriguez, Aitor Gomez-Tejedor and Izaskun Oregi | (参考訳) ハイブリッド量子コンピューティングは、量子コンピューティングの分野における現在と未来と考えられている。
NISQ時代のデバイスの限界に対処するためには、この傾向は単なるストップギャップとは考えられない。
両コンピューティングパラダイムを結びつける基盤は、時間とともに堅牢になるでしょう。
膨大な研究活動にもかかわらず、ハイブリッドコンピューティングの課題は、現在の解法の適切な評価から、ハイブリッドアルゴリズムの設計と公正な評価のための適切な方法論の確立まで、まだ数え切れないほどである。
この研究の貢献は2つある: まず、文献で最近発表された2つの異なる分類体系に頼って、最も頻繁に使用されるハイブリッド・ソルバについて記述し分類する。
第2に,現在実運用環境にデプロイされている2つのソルバに特に注目して,実業界に近いことを実証しました。
これらの解法は、D-WaveのHybridBQMSamplerとQuantagoniaのHybrid Solverに含まれるLeapHybridBQMSamplerである。
本稿では,2つのハイブリッド手法の性能をベンチマークとして,トラベリングセールスマン問題,車両ルーティング問題,ビンパッケージ問題,最大カット問題という4つのよく知られた組合せ最適化問題を用いて解析する。
この論文で提示された貢献のおかげで、読者は産業市場に近い生産におけるハイブリダイゼーション戦略のパフォーマンスについて洞察を得ることができる。 Hybrid quantum computing is considered the present and the future within the field of quantum computing. Far from being a passing fad, this trend cannot be considered just a stopgap to address the limitations of NISQ-era devices. The foundations linking both computing paradigms will remain robust over time. Despite buoyant research activity, the challenges in hybrid computing are still countless, ranging from the proper characterization of current solvers to the establishment of appropriate methodologies for the design and fair evaluation of hybrid algorithms. The contribution of this work is twofold: first, we describe and categorize some of the most frequently used hybrid solvers, resorting to two different taxonomies recently published in the literature. Secondly, we put a special focus on two solvers that are currently deployed in real production and that have demonstrated to be near the real industry. These solvers are the LeapHybridBQMSampler contained in D-Wave's Hybrid Solver Service and Quantagonia's Hybrid Solver. We analyze the performance of both hybrid methods using as benchmarks four well-known combinatorial optimization problems: the Traveling Salesman Problem, Vehicle Routing Problem, Bin Packing Problem, and Maximum Cut Problem. Thanks to the contributions presented in this paper, the reader gains insight into the performance of those hybridization strategies nowadays in production and close to the industrial markets. | 翻訳日:2024-01-22 17:53:16 公開日:2024-01-18 |
# 複素適応系における創発検出のための時空間整合学習を用いた階層型フレームワーク A Hierarchical Framework with Spatio-Temporal Consistency Learning for Emergence Detection in Complex Adaptive Systems ( http://arxiv.org/abs/2401.10300v1 ) ライセンス: Link先を確認 | Siyuan Chen, Xin Du, Jiahai Wang | (参考訳) インタラクティブエージェントによって構成される複雑な適応システム(CAS)のグローバルな特性である創発は、例えばネットワークレベルのトラフィック混雑など、現実世界の動的システムで広く利用されている。
その形成と蒸発を検出することは、システムの状態をモニターし、有害な緊急事象の警告信号を発行するのに役立つ。
CASの集中制御器がないため、各エージェントの局部観測に基づいて出現を検出することは望ましいが困難である。
既存の作品は出現に関連する空間パターンを捉えることができず、エージェント間の非線形関係をモデル化できない。
本稿では,システム表現とエージェント表現を学習することで,これら2つの問題を解決するために,時空間整合性学習を用いた階層型フレームワークを提案する。
特に時空間エンコーダはエージェントの非線形関係とシステムの複雑な進化を捉えるように調整されている。
エージェントとシステムの表現は、固有の時空間一貫性を自己管理的に保持することにより学習される。
本手法は, 3つのデータセットにおける従来手法や深層学習法よりも高精度な検出を実現する。
特に,我々の階層型フレームワークは汎用的であり,エージェントレベルおよびシステムレベルの検出に他のディープラーニング手法を用いることができる。 Emergence, a global property of complex adaptive systems (CASs) constituted by interactive agents, is prevalent in real-world dynamic systems, e.g., network-level traffic congestions. Detecting its formation and evaporation helps to monitor the state of a system, allowing to issue a warning signal for harmful emergent phenomena. Since there is no centralized controller of CAS, detecting emergence based on each agent's local observation is desirable but challenging. Existing works are unable to capture emergence-related spatial patterns, and fail to model the nonlinear relationships among agents. This paper proposes a hierarchical framework with spatio-temporal consistency learning to solve these two problems by learning the system representation and agent representations, respectively. Especially, spatio-temporal encoders are tailored to capture agents' nonlinear relationships and the system's complex evolution. Representations of the agents and the system are learned by preserving the intrinsic spatio-temporal consistency in a self-supervised manner. Our method achieves more accurate detection than traditional methods and deep learning methods on three datasets with well-known yet hard-to-detect emergent behaviors. Notably, our hierarchical framework is generic, which can employ other deep learning methods for agent-level and system-level detection. | 翻訳日:2024-01-22 17:52:53 公開日:2024-01-18 |
# 生成流の潜在空間からの新しい橋梁型の生成の試み An attempt to generate new bridge types from latent space of generative flow ( http://arxiv.org/abs/2401.10299v1 ) ライセンス: Link先を確認 | Hongjun Zhang | (参考訳) 異なる分布間の座標と確率変換の例を通して、フローの正規化の基本原理は単純かつ簡潔に導入された。
確率変数関数の分布の観点からは、確率変換の本質を説明し、確率変換のスケーリング因子ヤコビアン行列式を導入する。
人口からのサンプルとしてデータセットを扱い, 正規化フローを得るには, 人口の数値的特徴を統計的に推定するサンプリングサーベイを要し, 最大推定法を用いて損失関数を定式化する。
本稿では,高次元行列行列計算とニューラルネットワーク可逆変換の2つの主要な応用課題を,フローの正規化がいかに巧みに解決するかを紹介する。
3スパンビームブリッジ、アーチブリッジ、ケーブルスタイトブリッジ、サスペンションブリッジの対称構造画像データセットを使用して、tensorflow確率ライブラリのglow apiに基づく正規化フローの構築とトレーニングを行う。
このモデルは、ブリッジデータセットの複雑な分布を標準正規分布にスムーズに変換することができ、得られた潜在空間サンプリングから、トレーニングデータセットとは異なる新しいブリッジタイプを生成することができる。 Through examples of coordinate and probability transformation between different distributions, the basic principle of normalizing flow is introduced in a simple and concise manner. From the perspective of the distribution of random variable function, the essence of probability transformation is explained, and the scaling factor Jacobian determinant of probability transformation is introduced. Treating the dataset as a sample from the population, obtaining normalizing flow is essentially through sampling surveys to statistically infer the numerical features of the population, and then the loss function is established by using the maximum likelihood estimation method. This article introduces how normalizing flow cleverly solves the two major application challenges of high-dimensional matrix determinant calculation and neural network reversible transformation. Using symmetric structured image dataset of three-span beam bridge, arch bridge, cable-stayed bridge and suspension bridge, constructing and training normalizing flow based on the Glow API in the TensorFlow Probability library. The model can smoothly transform the complex distribution of the bridge dataset into a standard normal distribution, and from the obtained latent space sampling, it can generate new bridge types that are different from the training dataset. | 翻訳日:2024-01-22 17:52:31 公開日:2024-01-18 |
# 機械学習による反復測度からの動的状態の検出 Machine learning approach to detect dynamical states from recurrence measures ( http://arxiv.org/abs/2401.10298v1 ) ライセンス: Link先を確認 | Dheeraja Thakur, Athul Mohan, G. Ambika, Chandrakala Meena | (参考訳) 機械学習の手法を非線形時系列解析と統合し,時系列から出現する様々な動的状態の分類に再帰的手法を応用した。
本研究では,ロジスティック回帰,ランダムフォレスト,サポートベクターマシンの3つの機械学習アルゴリズムを実装した。
入力特徴は、非線形時系列の繰り返し定量化と対応する再帰ネットワークの特性尺度から導かれる。
トレーニングとテストのために、標準非線形力学システムから合成データを生成し、時系列を周期的、カオス的、超カオス的、または騒がしいカテゴリに分類する機械学習アルゴリズムの効率と性能を評価する。
さらに,分類手法における入力特徴の意義を考察し,再帰点の密度を定量化する特徴が最も関連していることを見いだした。
さらに、トレーニングされたアルゴリズムは、光曲線のデータから2つの変光星 SX Her と AC Her の動的状態を予測することに成功した。 We integrate machine learning approaches with nonlinear time series analysis, specifically utilizing recurrence measures to classify various dynamical states emerging from time series. We implement three machine learning algorithms Logistic Regression, Random Forest, and Support Vector Machine for this study. The input features are derived from the recurrence quantification of nonlinear time series and characteristic measures of the corresponding recurrence networks. For training and testing we generate synthetic data from standard nonlinear dynamical systems and evaluate the efficiency and performance of the machine learning algorithms in classifying time series into periodic, chaotic, hyper-chaotic, or noisy categories. Additionally, we explore the significance of input features in the classification scheme and find that the features quantifying the density of recurrence points are the most relevant. Furthermore, we illustrate how the trained algorithms can successfully predict the dynamical states of two variable stars, SX Her and AC Her from the data of their light curves. | 翻訳日:2024-01-22 17:52:12 公開日:2024-01-18 |
# プログラマブル量子シミュレータによるトポロジカル絶縁体相の観測 Observing Topological Insulator Phases with a Programmable Quantum Simulator ( http://arxiv.org/abs/2401.10362v1 ) ライセンス: Link先を確認 | Or Katz, Lei Feng, Diego Porras, Christopher Monroe | (参考訳) 位相絶縁体は対称性によって保護される端状態の出現のような興味深い性質を示す。
Su-Schrieffer-Heeger(SSH)モデルは1次元量子トポロジカル絶縁体の標準記述である。
2ドルのスピンを持つ1次元閉じ込めイオン結晶において、長距離相互作用スピン系を持つ修正sshモデルを実験的に実装した。
密集されたレーザービームの配列は、スピンの結合二量化を制御するサイト固有のフロケ場を生成し、反射対称性の下で位相的に保護されたエッジ状態のシグネチャを示す。
スピンスピン相互作用の様々な範囲の高励起配置の進化を研究し、結果として生じるダイナミクスに対する多体フェルミオン相互作用項の非自明な役割を明らかにした。
これらの結果は、エキゾチックな物質で期待されるトポロジカル量子自由度の直接量子シミュレーションを可能にするが、ここでは個々のスピンとその相互作用範囲を高制御する。 Topological insulators exhibit fascinating properties such as the appearance of edge states protected by symmetries. The Su-Schrieffer-Heeger (SSH) model is a canonical description of a one-dimensional quantum topological insulator. We experimentally implement a modified SSH model with long-range interacting spin systems in one-dimensional trapped ion crystals of up to $22$ spins. An array of tightly focused laser beams generates site-specific Floquet fields that control the bond dimerization of the spins, which when subject to reflection symmetry, exhibit signatures of topologically-protected edge states. We study the evolution of highly excited configurations with various ranges of the spin-spin interaction, revealing the nontrivial role of many-body fermionic-interaction terms on the resulting dynamics. These results allow direct quantum simulations of topological quantum degrees of freedom expected in exotic materials, but here with high control of individual spins and their interaction range. | 翻訳日:2024-01-22 17:44:44 公開日:2024-01-18 |
# マルチホップクラスタベースベネットにおける階層型フェデレート学習 Hierarchical Federated Learning in Multi-hop Cluster-Based VANETs ( http://arxiv.org/abs/2401.10361v1 ) ライセンス: Link先を確認 | M. Saeid HaghighiFard and Sinem Coleri | (参考訳) Vehicular Adhoc Networks (VANET) におけるフェデレートラーニング (FL) の利用は、送信オーバーヘッドを減らし、生データの代わりにローカルなデータセット勾配を通信することでユーザのプライバシーを保護するという利点から、研究において大きな関心を集めている。
しかし、VANETにおけるFLの実装は、限られた通信資源、高い車両移動性、データ分布の統計的多様性といった課題に直面している。
これらの課題に対処するために,マルチホップクラスタリングに基づくVANET上での階層的フェデレーション学習(HFL)のための新しいフレームワークを提案する。
提案手法は,FLモデルパラメータの平均相対速度とコサイン類似性の重み付け組合せをクラスタリング指標として用いて,データの多様性と車両の移動性の両方を考慮する。
このメトリックは、非独立かつ同一分散(非iid)データシナリオに関連する複雑さに取り組む一方で、クラスタヘッドの最小変更による収束を保証する。
さらに、このフレームワークはクラスタヘッド(CH)のシームレスな遷移を管理する新しいメカニズムを含み、次いで最新のFLモデルパラメータを指定されたCHに転送する。
さらに、提案手法はCHsをマージするオプションを考慮し、CHsの数を削減し、その結果、関連するオーバーヘッドを軽減する。
クラスタ化VANET上での階層型フェデレーション学習は、クラスタ化アルゴリズムや非クラスタ化VANETに比べてパケットオーバーヘッドの許容レベルを維持しつつ、精度と収束時間を大幅に向上することを示した。 The usage of federated learning (FL) in Vehicular Ad hoc Networks (VANET) has garnered significant interest in research due to the advantages of reducing transmission overhead and protecting user privacy by communicating local dataset gradients instead of raw data. However, implementing FL in VANETs faces challenges, including limited communication resources, high vehicle mobility, and the statistical diversity of data distributions. In order to tackle these issues, this paper introduces a novel framework for hierarchical federated learning (HFL) over multi-hop clustering-based VANET. The proposed method utilizes a weighted combination of the average relative speed and cosine similarity of FL model parameters as a clustering metric to consider both data diversity and high vehicle mobility. This metric ensures convergence with minimum changes in cluster heads while tackling the complexities associated with non-independent and identically distributed (non-IID) data scenarios. Additionally, the framework includes a novel mechanism to manage seamless transitions of cluster heads (CHs), followed by transferring the most recent FL model parameter to the designated CH. Furthermore, the proposed approach considers the option of merging CHs, aiming to reduce their count and, consequently, mitigate associated overhead. Through extensive simulations, the proposed hierarchical federated learning over clustered VANET has been demonstrated to improve accuracy and convergence time significantly while maintaining an acceptable level of packet overhead compared to previously proposed clustering algorithms and non-clustered VANET. | 翻訳日:2024-01-22 17:44:29 公開日:2024-01-18 |
# 失礼します。
あなたの言語モデルは漏れている(情報) Excuse me, sir? Your language model is leaking (information) ( http://arxiv.org/abs/2401.10360v1 ) ライセンス: Link先を確認 | Or Zamir | (参考訳) 本稿では,Large Language Model (LLM) に対して,任意の秘密ペイロードを隠蔽する暗号手法を提案する。
秘密鍵は、モデルの応答からペイロードを抽出するために必要であり、鍵がなければ、元の llm の応答とペイロードを隠す llm とを区別することは、確実に不可能である。
特に、生成されたテキストの品質はペイロードに影響されない。
我々のアプローチは、LLMに検出不能な透かしを導入したChrist, Gunn, Zamir(2023年)の最近の結果を拡張している。 We introduce a cryptographic method to hide an arbitrary secret payload in the response of a Large Language Model (LLM). A secret key is required to extract the payload from the model's response, and without the key it is provably impossible to distinguish between the responses of the original LLM and the LLM that hides a payload. In particular, the quality of generated text is not affected by the payload. Our approach extends a recent result of Christ, Gunn and Zamir (2023) who introduced an undetectable watermarking scheme for LLMs. | 翻訳日:2024-01-22 17:44:01 公開日:2024-01-18 |
# ディープラーニングモデルをチェックする - 過剰フィッティングを軽減するための履歴ベースのアプローチ Keeping Deep Learning Models in Check: A History-Based Approach to Mitigate Overfitting ( http://arxiv.org/abs/2401.10359v1 ) ライセンス: Link先を確認 | Hao Li, Gopi Krishnan Rajbahadur, Dayi Lin, Cor-Paul Bezemer, and Zhen Ming (Jack) Jiang | (参考訳) ソフトウェアエンジニアリングでは、バグ検出やコードレビューといった重要なタスクに対して、ディープラーニングモデルがますます多くデプロイされている。
しかし、過剰適合はディープラーニングモデルを利用するソフトウェアシステムの品質、信頼性、信頼性に影響を与える課題である。
オーバーフィッティングは(1)(例えば、ドロップアウトまたは早期停止)または(2)訓練されたモデル(例えば相関ベースのアプローチ)で検出される。
現在使用されている過剰な検出と防止のアプローチには制約がある(例えば、モデル構造の変更や高いコンピューティングリソース)。
本稿では,トレーニング履歴に基づくオーバーフィッティング(すなわち,検証損失)の検出と防止を両立可能な,シンプルかつ強力なアプローチを提案する。
提案手法は,まず,オーバーフィットモデルのトレーニング履歴に基づいて時系列分類器を訓練する。
この分類器は、トレーニングされたモデルが過剰かどうかを検出するために使用される。
さらに,モデルのトレーニングを停止するための最適なポイントを特定することで,オーバーフィッティングを防止するためにトレーニングした分類器を使用することができる。
本手法は,実世界のサンプルの過剰フィットを識別し防止する能力について評価する。
相関に基づく検出手法と最も一般的な予防手法(早期停止法)との比較を行った。
提案手法はF1スコアが0.91であり, 現行の非侵襲オーバーフィッティング検出法よりも5%以上高い。
さらに,本手法では,早期停止時よりも32%早い時間にオーバーフィットしないようにトレーニングを中止し,最善のモデルを返却する速度を向上できる。 In software engineering, deep learning models are increasingly deployed for critical tasks such as bug detection and code review. However, overfitting remains a challenge that affects the quality, reliability, and trustworthiness of software systems that utilize deep learning models. Overfitting can be (1) prevented (e.g., using dropout or early stopping) or (2) detected in a trained model (e.g., using correlation-based approaches). Both overfitting detection and prevention approaches that are currently used have constraints (e.g., requiring modification of the model structure, and high computing resources). In this paper, we propose a simple, yet powerful approach that can both detect and prevent overfitting based on the training history (i.e., validation losses). Our approach first trains a time series classifier on training histories of overfit models. This classifier is then used to detect if a trained model is overfit. In addition, our trained classifier can be used to prevent overfitting by identifying the optimal point to stop a model's training. We evaluate our approach on its ability to identify and prevent overfitting in real-world samples. We compare our approach against correlation-based detection approaches and the most commonly used prevention approach (i.e., early stopping). Our approach achieves an F1 score of 0.91 which is at least 5% higher than the current best-performing non-intrusive overfitting detection approach. Furthermore, our approach can stop training to avoid overfitting at least 32% of the times earlier than early stopping and has the same or a better rate of returning the best model. | 翻訳日:2024-01-22 17:43:52 公開日:2024-01-18 |
# 地震信号を用いた構造異常検出のためのインテリジェント最適化と機械学習アルゴリズム Intelligent Optimization and Machine Learning Algorithms for Structural Anomaly Detection using Seismic Signals ( http://arxiv.org/abs/2401.10355v1 ) ライセンス: Link先を確認 | Maximilian Trapp and Can Bogoclu and Tamara Nestorovi\'c and Dirk Roos | (参考訳) メカニカルトンネリング中の異常検出方法の欠如は、掘削時間に金銭的損失と損失をもたらす可能性がある。
現場掘削ではトンネル掘削機の損傷を回避し, 伝播速度を調節するため, 掘削前にハード障害物を認識する必要がある。
構造異常検出の効率は、インテリジェントな最適化技術と機械学習によって向上することができる。
本研究では, 構造振動の実験的測定とパラメータ推定法による数値シミュレーションを比較することで, 簡単な構造の異常を検出する。 The lack of anomaly detection methods during mechanized tunnelling can cause financial loss and deficits in drilling time. On-site excavation requires hard obstacles to be recognized prior to drilling in order to avoid damaging the tunnel boring machine and to adjust the propagation velocity. The efficiency of the structural anomaly detection can be increased with intelligent optimization techniques and machine learning. In this research, the anomaly in a simple structure is detected by comparing the experimental measurements of the structural vibrations with numerical simulations using parameter estimation methods. | 翻訳日:2024-01-22 17:43:28 公開日:2024-01-18 |
# PCSを用いた信頼性のある作業完了時間予測の実現に向けて Towards providing reliable job completion time predictions using PCS ( http://arxiv.org/abs/2401.10354v1 ) ライセンス: Link先を確認 | Abdullah Bin Faisal and Noah Martin and Hafiz Mohsin Bashir and Swaminathan Lamelas and Fahad R. Dogar | (参考訳) 本稿では,荷物の配送日や予約乗車の到着日時と同様に,クラウドユーザに対してジョブ完了時刻の予測を行うケースを構築する。
分析の結果,予測可能性の提供は性能と公平性を犠牲にできることがわかった。
既存のクラウドスケジューリングシステムはトレードオフ空間の極端なポイントを最適化し、非常に予測不可能か非現実的になる。
この課題に対処するために,従来の目標をバランスしながら予測可能性を提供することを目的とした,新しいスケジューリングフレームワークpcsを提案する。
PCSの背景にある重要な考え方は、重み付きFair-Queueing (WFQ)を使い、予測可能性の特定の目標を満たす異なるWFQパラメータ(例えばクラスウェイト)の適切な構成を見つけることである。
シミュレーション支援された検索戦略を用いて、これらの目的間のトレードオフ空間のPareto前面にあるWFQ構成を効率的に発見する。
我々はGPU上でのDNNジョブスケジューリングにおけるPCSの実装と評価を行う。
小型GPUテストベッドと大規模シミュレーションを用いて評価した結果,PCSは性能と公平性を極端に妥協しながら,正確な完了時間推定を行うことができた。 In this paper we build a case for providing job completion time predictions to cloud users, similar to the delivery date of a package or arrival time of a booked ride. Our analysis reveals that providing predictability can come at the expense of performance and fairness. Existing cloud scheduling systems optimize for extreme points in the trade-off space, making them either extremely unpredictable or impractical. To address this challenge, we present PCS, a new scheduling framework that aims to provide predictability while balancing other traditional objectives. The key idea behind PCS is to use Weighted-Fair-Queueing (WFQ) and find a suitable configuration of different WFQ parameters (e.g., class weights) that meets specific goals for predictability. It uses a simulation-aided search strategy, to efficiently discover WFQ configurations that lie on the Pareto front of the trade-off space between these objectives. We implement and evaluate PCS in the context of DNN job scheduling on GPUs. Our evaluation, on a small scale GPU testbed and larger-scale simulations, shows that PCS can provide accurate completion time estimates while marginally compromising on performance and fairness. | 翻訳日:2024-01-22 17:43:21 公開日:2024-01-18 |
# 一貫性のない対話応答とその回復方法 Inconsistent dialogue responses and how to recover from them ( http://arxiv.org/abs/2401.10353v1 ) ライセンス: Link先を確認 | Mian Zhang, Lifeng Jin, Linfeng Song, Haitao Mi and Dong Yu | (参考訳) チャットシステムにとって重要な問題のひとつは、自分自身の好み、意見、信念、事実に一貫性を持ち続けることだ。
本研究では,チャットシステムの発話整合性を評価する手法について検討する。
データセットは、一貫性のない対話応答、不整合の説明、および回復発話をアノテーションによって作成する不整合の研究のために最初に開発された。
これは、不整合、すなわち導入、理解、解決の寿命をカバーする。
そこで本研究では,対話の一貫性,特にその検出と解決に焦点をあてたタスクセットを提案する。
実験結果から,我々のデータセットは,会話的不整合の同定と解決の進展に大きく寄与すると同時に,現在普及しているchatgptなどの大規模言語モデルにおいても,不一致の解消に長けているが,検出に支障をきたすことが判明した。 One critical issue for chat systems is to stay consistent about preferences, opinions, beliefs and facts of itself, which has been shown a difficult problem. In this work, we study methods to assess and bolster utterance consistency of chat systems. A dataset is first developed for studying the inconsistencies, where inconsistent dialogue responses, explanations of the inconsistencies, and recovery utterances are authored by annotators. This covers the life span of inconsistencies, namely introduction, understanding, and resolution. Building on this, we introduce a set of tasks centered on dialogue consistency, specifically focused on its detection and resolution. Our experimental findings indicate that our dataset significantly helps the progress in identifying and resolving conversational inconsistencies, and current popular large language models like ChatGPT which are good at resolving inconsistencies however still struggle with detection. | 翻訳日:2024-01-22 17:43:01 公開日:2024-01-18 |
# 文化価値調査による対話エージェントの文化的栄養 Bridging Cultural Nuances in Dialogue Agents through Cultural Value Surveys ( http://arxiv.org/abs/2401.10352v1 ) ライセンス: Link先を確認 | Yong Cao, Min Chen, Daniel Hershcovich | (参考訳) 対話エージェントとの交流の文化的景観は説得力があり、比較的未開拓な領域である。
コミュニケーションのスタイルや信念からメタファーや知識の共有に至るまで、様々な社会文化的側面がこれらの相互作用に大きな影響を与えていることは明らかです。
このダイナミクスを深く掘り下げるために,文化レンズを用いた対話生成のための初歩的なベンチマークであるcudialogを紹介する。
また,対話エージェントの予測精度と品質を向上させることを目的として,対話交換から文化的属性を抽出できるベースラインモデルを開発した。
文化的理解と多面的対話予測を効果的に学習するために,文化次元を対話符号化機能に組み込むことを提案する。
実験の結果,文化価値調査を取り入れることで,文献や文化指標との整合性が向上し,パーソナライゼーションや対話品質にかなりの影響を与えていることが明らかとなった。
このエキサイティングなドメインのさらなる調査を容易にするために、ベンチマークをhttps://github.com/yongcaoplus/cudialog.comで公開しています。 The cultural landscape of interactions with dialogue agents is a compelling yet relatively unexplored territory. It's clear that various sociocultural aspects -- from communication styles and beliefs to shared metaphors and knowledge -- profoundly impact these interactions. To delve deeper into this dynamic, we introduce cuDialog, a first-of-its-kind benchmark for dialogue generation with a cultural lens. We also develop baseline models capable of extracting cultural attributes from dialogue exchanges, with the goal of enhancing the predictive accuracy and quality of dialogue agents. To effectively co-learn cultural understanding and multi-turn dialogue predictions, we propose to incorporate cultural dimensions with dialogue encoding features. Our experimental findings highlight that incorporating cultural value surveys boosts alignment with references and cultural markers, demonstrating its considerable influence on personalization and dialogue quality. To facilitate further exploration in this exciting domain, we publish our benchmark publicly accessible at https://github.com/yongcaoplus/cuDialog. | 翻訳日:2024-01-22 17:42:47 公開日:2024-01-18 |
# 機能接続研究におけるゲートグラフトランスフォーマによる汎用知性の検討 Exploring General Intelligence via Gated Graph Transformer in Functional Connectivity Studies ( http://arxiv.org/abs/2401.10348v1 ) ライセンス: Link先を確認 | Gang Qu, Anton Orlichenko, Junqi Wang, Gemeng Zhang, Li Xiao, Aiying Zhang, Zhengming Ding, Yu-Ping Wang | (参考訳) fMRIから派生した機能的接続(FC)は、様々な精神疾患の複雑さを解明し、人間の脳に固有の認知と行動のダイナミクスの基盤となる神経経路を規定する重要なツールとして登場した。
グラフニューラルネットワーク(gnns)は、神経画像データを表現するための構造化アプローチを提供するが、それらは、fcsのみが提供する詳細ではなく、脳領域間の関連を記述する事前定義されたグラフ構造の必要性によって制限される。
このギャップを埋めるために、FCに基づいて認知メトリクスを予測するように設計されたGated Graph Transformer(GGT)フレームワークを導入する。
フィラデルフィア神経発達コホート(pnc)の実証的検証は、我々のモデルの優れた予測能力を強調し、人間の認知過程と相関する重要な神経結合性を特定する可能性をさらに強調する。 Functional connectivity (FC) as derived from fMRI has emerged as a pivotal tool in elucidating the intricacies of various psychiatric disorders and delineating the neural pathways that underpin cognitive and behavioral dynamics inherent to the human brain. While Graph Neural Networks (GNNs) offer a structured approach to represent neuroimaging data, they are limited by their need for a predefined graph structure to depict associations between brain regions, a detail not solely provided by FCs. To bridge this gap, we introduce the Gated Graph Transformer (GGT) framework, designed to predict cognitive metrics based on FCs. Empirical validation on the Philadelphia Neurodevelopmental Cohort (PNC) underscores the superior predictive prowess of our model, further accentuating its potential in identifying pivotal neural connectivities that correlate with human cognitive processes. | 翻訳日:2024-01-22 17:42:27 公開日:2024-01-18 |
# 熱状態からのハミルトンパラメータの推定 Estimation of Hamiltonian parameters from thermal states ( http://arxiv.org/abs/2401.10343v1 ) ライセンス: Link先を確認 | Luis Pedro Garc\'ia-Pintos, Kishor Bharti, Jacob Bringewatt, Hossein Dehghani, Adam Ehrenberg, Nicole Yunger Halpern, Alexey V. Gorshkov | (参考訳) 我々は、ギブスの熱状態と既知の温度を測定することで、未知のハミルトンパラメータを推定できる最適精度を上下に設定する。
境界は、パラメータを含むハミルトニアン項の不確実性と、フルハミルトニアンとの非可換性の項の次数に依存する: 高い不確実性と可換作用素は、より良い精度をもたらす。
この境界を適用して、パラメータが1/\sqrt{n}$より早く減少する誤差で推定でき、標準量子極限を上回るような、絡み合った熱状態が存在することを示す。
この結果は、未知のスカラーパラメータ(例えば磁場の成分)が局所的に、n$ qubit センサーと同一に結合されるハミルトニアンを制御している。
高温の状態では、最適推定誤差を一定プレファクタまでピンポイントできる。
境界は複数のパラメータの合同推定に一般化する。
この設定では、量子状態の識別と符号化理論に基づく手法により以前に導かれた高温試料のスケーリングを復元する。
本研究では,非可換保存量が化学ポテンシャルの推定を阻害することを示す。 We upper- and lower-bound the optimal precision with which one can estimate an unknown Hamiltonian parameter via measurements of Gibbs thermal states with a known temperature. The bounds depend on the uncertainty in the Hamiltonian term that contains the parameter and on the term's degree of noncommutativity with the full Hamiltonian: higher uncertainty and commuting operators lead to better precision. We apply the bounds to show that there exist entangled thermal states such that the parameter can be estimated with an error that decreases faster than $1/\sqrt{n}$, beating the standard quantum limit. This result governs Hamiltonians where an unknown scalar parameter (e.g. a component of a magnetic field) is coupled locally and identically to $n$ qubit sensors. In the high-temperature regime, our bounds allow for pinpointing the optimal estimation error, up to a constant prefactor. Our bounds generalize to joint estimations of multiple parameters. In this setting, we recover the high-temperature sample scaling derived previously via techniques based on quantum state discrimination and coding theory. In an application, we show that noncommuting conserved quantities hinder the estimation of chemical potentials. | 翻訳日:2024-01-22 17:42:09 公開日:2024-01-18 |
# ELRT:小型畳み込みニューラルネットワークのための効率的な低ランクトレーニング ELRT: Efficient Low-Rank Training for Compact Convolutional Neural Networks ( http://arxiv.org/abs/2401.10341v1 ) ライセンス: Link先を確認 | Yang Sui, Miao Yin, Yu Gong, Jinqi Xiao, Huy Phan, Bo Yuan | (参考訳) 低ランク圧縮は、コンパクト畳み込みニューラルネットワーク(CNN)を低ランクで生成する一般的なモデル圧縮技術であり、文献でよく研究されている。
一方、低ランクのCNNをゼロから訓練する代替手段として、低ランクのトレーニングはほとんど利用されていない。
低ランク圧縮とは異なり、低ランクトレーニングは事前訓練されたフルランクモデルを必要としない。
しかし、既存の低ランクトレーニングソリューションは、相当な精度の低下や、トレーニング中にフルサイズのモデルを更新する必要性など、いくつかの課題に直面している。
本稿では,低ランクCNNトレーニングの系統的研究を行う。
適切な低ランク形式と性能改善戦略を同定し,高い精度,高パフォーマンス,低ランクCNNモデルのための効率的な低ランクトレーニングソリューションELRTを提案する。
異なるデータセット上で各種CNNを訓練するための広範囲な評価結果は,ELRTの有効性を示す。 Low-rank compression, a popular model compression technique that produces compact convolutional neural networks (CNNs) with low rankness, has been well-studied in the literature. On the other hand, low-rank training, as an alternative way to train low-rank CNNs from scratch, has been exploited little yet. Unlike low-rank compression, low-rank training does not need pre-trained full-rank models, and the entire training phase is always performed on the low-rank structure, bringing attractive benefits for practical applications. However, the existing low-rank training solutions still face several challenges, such as a considerable accuracy drop and/or still needing to update full-size models during the training. In this paper, we perform a systematic investigation on low-rank CNN training. By identifying the proper low-rank format and performance-improving strategy, we propose ELRT, an efficient low-rank training solution for high-accuracy, high-compactness, low-rank CNN models. Our extensive evaluation results for training various CNNs on different datasets demonstrate the effectiveness of ELRT. | 翻訳日:2024-01-22 17:41:50 公開日:2024-01-18 |
# MELODY:多変量時系列によるエンティティレベルオンライン異常検出のためのロバスト半スーパービジョンハイブリッドモデル MELODY: Robust Semi-Supervised Hybrid Model for Entity-Level Online Anomaly Detection with Multivariate Time Series ( http://arxiv.org/abs/2401.10338v1 ) ライセンス: Link先を確認 | Jingchao Ni, Gauthier Guinet, Peihong Jiang, Laurent Callot, Andrey Kan | (参考訳) 大規模なITシステムでは、コードが定期的に更新されるため、ソフトウェアデプロイメントはオンラインサービスにおいて重要なプロセスである。
しかし、欠陥のあるコード変更は、ターゲットサービスのパフォーマンスを低下させ、下流サービスのカスケード障害を引き起こす可能性がある。
したがって、ソフトウェアデプロイメントを包括的に監視し、異常をタイムリに検出する必要がある。
本稿では,デプロイメントにおける異常検出の問題点について検討する。
マルチ変数時系列(MTS)における異常検出のより典型的な問題に対して、エンティティレベル(たとえばデプロイメント)であるこの異常検出問題に特有の課題を特定することから始める。
ユニークな課題は、デプロイメントの多様性、低レイテンシ耐性、曖昧な異常定義、限定的な監督などだ。
そこで本研究では,エンティティレベルオンラインアノミクス検出のための半教師付きハイブリッドモデル(MELODY)を提案する。
MELODYはまず、オンライン特徴抽出器によって異なるエンティティのMSSを同じ特徴空間に変換し、新たに提案された半教師付き深層一クラスモデルを用いて異常なエンティティを検出する。
我々は, 1.2M以上の時系列で, クラウドサービスの実データ上でMELODYを評価した。
MELODYの最先端手法に対する相対的なF1スコアの改善は7.6%から56.5%である。
ユーザ評価から,MELODYは大規模オンラインシステムにおけるデプロイメントの監視に適していることが示唆された。 In large IT systems, software deployment is a crucial process in online services as their code is regularly updated. However, a faulty code change may degrade the target service's performance and cause cascading outages in downstream services. Thus, software deployments should be comprehensively monitored, and their anomalies should be detected timely. In this paper, we study the problem of anomaly detection for deployments. We begin by identifying the challenges unique to this anomaly detection problem, which is at entity-level (e.g., deployments), relative to the more typical problem of anomaly detection in multivariate time series (MTS). The unique challenges include the heterogeneity of deployments, the low latency tolerance, the ambiguous anomaly definition, and the limited supervision. To address them, we propose a novel framework, semi-supervised hybrid Model for Entity-Level Online Detection of anomalY (MELODY). MELODY first transforms the MTS of different entities to the same feature space by an online feature extractor, then uses a newly proposed semi-supervised deep one-class model for detecting anomalous entities. We evaluated MELODY on real data of cloud services with 1.2M+ time series. The relative F1 score improvement of MELODY over the state-of-the-art methods ranges from 7.6% to 56.5%. The user evaluation suggests MELODY is suitable for monitoring deployments in large online systems. | 翻訳日:2024-01-22 17:41:33 公開日:2024-01-18 |
# 低リソースセキュリティ攻撃パターン認識のためのノイズコントラスト推定に基づくマッチングフレームワーク Noise Contrastive Estimation-based Matching Framework for Low-resource Security Attack Pattern Recognition ( http://arxiv.org/abs/2401.10337v1 ) ライセンス: Link先を確認 | Tu Nguyen, Nedim Srndic, Alexander Neth | (参考訳) TTP(Tactics, Techniques and Procedures)は、テキストの知識ベースで包括的に記述されたサイバーセキュリティドメインの高度な攻撃パターンを表す。
サイバーセキュリティの書き込みにおいてTTPを識別することは、しばしばTTPマッピングと呼ばれ、重要かつ困難なタスクである。
従来の学習アプローチでは、古典的なマルチクラスやマルチラベルの分類設定で問題に対処することが多い。
この設定は、多数のクラス(TTP)、ラベル分布の避けられない歪み、ラベル空間の複雑な階層構造によるモデルの学習能力を妨げている。
そこで,TTPラベルへのテキストの割り当ては,両者の直接的な意味的類似性によって決定されるため,大きなラベル空間にのみ競合することの難しさが軽減される。
そこで本研究では,資源制約に拘わらず,マッチングモデルの学習プロセスを容易にする,効果的なサンプリングベース学習機構を備えたニューラルマッチングアーキテクチャを提案する。 Tactics, Techniques and Procedures (TTPs) represent sophisticated attack patterns in the cybersecurity domain, described encyclopedically in textual knowledge bases. Identifying TTPs in cybersecurity writing, often called TTP mapping, is an important and challenging task. Conventional learning approaches often target the problem in the classical multi-class or multilabel classification setting. This setting hinders the learning ability of the model due to a large number of classes (i.e., TTPs), the inevitable skewness of the label distribution and the complex hierarchical structure of the label space. We formulate the problem in a different learning paradigm, where the assignment of a text to a TTP label is decided by the direct semantic similarity between the two, thus reducing the complexity of competing solely over the large labeling space. To that end, we propose a neural matching architecture with an effective sampling-based learn-to-compare mechanism, facilitating the learning process of the matching model despite constrained resources. | 翻訳日:2024-01-22 17:41:12 公開日:2024-01-18 |
# スカラー量子電磁力学における絡み合いエントロピー Entanglement Entropy in Scalar Quantum Electrodynamics ( http://arxiv.org/abs/2401.10332v1 ) ライセンス: Link先を確認 | Samuel Fedida, Anupam Mazumdar, Sougato Bose and Alessio Serafini | (参考訳) スカラー量子電磁力学における真空状態の部分領域の絡み合いエントロピーは、2ループ準位に摂動的に作用する。
そうすることで、円錐ユークリッド空間におけるマクスウェル・プロカプロパゲーターを導出する。
絡み合いエントロピーの領域法則は、予想通り、この理論の質量と質量の限界の両方において回復される。
これらの結果から, エンタングルメントエントロピーの正規化群フローが得られ, ループ寄与はエンタングルメントエントロピーを抑制することがわかった。
これらの結果は、スカラー量子力学において増加するカップリングとコレレータの正規化群フローの光において強調され、時空の2点間の相関の増大と時空とエネルギーの2つの領域間の絡み合いエントロピーの減少の間の潜在的な緊張関係が議論される。
実際、時空の部分領域の真空はスカラー量子電磁力学においてエネルギーを純化しており、これはスクリーニングの概念に関連している。 We find the entanglement entropy of a subregion of the vacuum state in scalar quantum electrodynamics, working perturbatively to the 2-loops level. Doing so leads us to derive the Maxwell-Proca propagator in conical Euclidean space. The area law of entanglement entropy is recovered in both the massive and massless limits of the theory, as is expected. These results yield the renormalisation group flow of entanglement entropy, and we find that loop contributions suppress entanglement entropy. We highlight these results in the light of the renormalization group flow of couplings and correlators, which are increased in scalar quantum electrodynamics, so that the potential tension between the increase in correlations between two points of spacetime and the decrease in entanglement entropy between two regions of spacetime with energy is discussed. We indeed show that the vacuum of a subregion of spacetime purifies with energy in scalar quantum electrodynamics, which is related to the concept of screening. | 翻訳日:2024-01-22 17:40:55 公開日:2024-01-18 |
# 波動関数の高速減衰テールをターゲットとしたテンソルネットワークの最適サンプリング Optimal sampling of tensor networks targeting wave function's fast decaying tails ( http://arxiv.org/abs/2401.10330v1 ) ライセンス: Link先を確認 | Marco Ballarin, Pietro Silvi, Simone Montangero and Daniel Jaschke | (参考訳) 等尺テンソルネットワーク状態に対する局所測定文字列の量子結果のサンプリングに最適戦略を導入する。
提案手法は,事前知識のない正確な累積有界関数に基づいて,最小のテンソルネットワーク収縮量でサンプルを生成する。
このアルゴリズムはサンプルの反復を避けるため、指数関数的に崩壊する尾を持つサンプリング分布を効率的に行う。
本稿では, 凝縮物, 最適化問題, 量子回路シナリオを含む様々な数値例を通して, 最適サンプリング法によって得られる計算上の利点を説明する。
理論は、蓄積された未知の確率まで空間をサンプリングするスケーリングを、$\mathcal{O}(\epsilon^{-1})$から$\mathcal{O}(\log(\epsilon^{-1}))$から$\mathcal{O}(\epsilon^{-1})$へと減少させる指数的なスピードアップを予測している。
実際にこれを、アプリケーションによって1桁以上のスピードアップまたは複数桁のエラー改善で確認する。
我々のサンプリング戦略は、例えば、局所観測可能なものから量子魔法まで拡張される。 We introduce an optimal strategy to sample quantum outcomes of local measurement strings for isometric tensor network states. Our method generates samples based on an exact cumulative bounding function, without prior knowledge, in the minimal amount of tensor network contractions. The algorithm avoids sample repetition and, thus, is efficient at sampling distribution with exponentially decaying tails. We illustrate the computational advantage provided by our optimal sampling method through various numerical examples, involving condensed matter, optimization problems, and quantum circuit scenarios. Theory predicts up to an exponential speedup reducing the scaling for sampling the space up to an accumulated unknown probability $\epsilon$ from $\mathcal{O}(\epsilon^{-1})$ to $\mathcal{O}(\log(\epsilon^{-1}))$ for a decaying probability distribution. We confirm this in practice with over one order of magnitude speedup or multiple orders improvement in the error depending on the application. Our sampling strategy extends beyond local observables, e.g., to quantum magic. | 翻訳日:2024-01-22 17:40:36 公開日:2024-01-18 |
# DataViz3D: 大規模データセット前処理と可視化のためのオンラインホログラフィモデリングを活用した新しい手法 DataViz3D: An Novel Method Leveraging Online Holographic Modeling for Extensive Dataset Preprocessing and Visualization ( http://arxiv.org/abs/2401.10416v1 ) ライセンス: Link先を確認 | Jinli Duan | (参考訳) DataViz3Dは、複雑なデータセットをホログラフィック技術を使ってインタラクティブな3D空間モデルに変換する革新的なオンラインソフトウェアである。
このツールは、データセットのXYZ座標に正確にマッピングされた3D空間内で散乱プロットを生成し、データ固有の空間関係を鮮明で直感的な理解を提供する。
DataViz3Dのユーザフレンドリーなインターフェースは、高度な3Dモデリングとホログラフィック視覚化を広範囲のユーザからアクセス可能とし、さまざまな分野にわたる共同研究と教育の新たな機会を育む。 DataViz3D is an innovative online software that transforms complex datasets into interactive 3D spatial models using holographic technology. This tool enables users to generate scatter plot within a 3D space, accurately mapped to the XYZ coordinates of the dataset, providing a vivid and intuitive understanding of the spatial relationships inherent in the data. DataViz3D's user friendly interface makes advanced 3D modeling and holographic visualization accessible to a wide range of users, fostering new opportunities for collaborative research and education across various disciplines. | 翻訳日:2024-01-22 17:35:41 公開日:2024-01-18 |
# 分散一貫性に基づくスパースラベル付きグラフニューラルネットワークの自己学習 Distribution Consistency based Self-Training for Graph Neural Networks with Sparse Labels ( http://arxiv.org/abs/2401.10394v1 ) ライセンス: Link先を確認 | Fali Wang, Tianxiang Zhao, Suhang Wang | (参考訳) 数少ないノード分類は、ラベル付きノードとラベル付きノードの間の潜在的分布シフトが不十分なため、グラフニューラルネットワーク(gnn)にとって大きな課題となる。
自己学習は、ラベルなしノードに擬似ラベルを割り当てることでトレーニングセットを拡大する、ラベルなしデータの豊富さを活用するためのフレームワークとして広く普及している。
信頼や情報獲得などに基づく様々な選択戦略を開発する努力がなされている。
しかしながら、これらの手法はトレーニングとテストノードセット間の分散シフトを考慮していない。
擬似ラベルのステップは、このシフトを増幅し、新しいものを導入することで、自己学習の有効性を妨げます。
そこで本研究では,自己学習中の拡張トレーニングセットとテストセットの分布変化を明示的に橋渡しする可能性について検討する。
そこで本研究では,情報的かつ分散不一致を認識可能な疑似ラベル付きノードを識別し,識別可能な最適化タスクとして定式化する,分散一貫性グラフ自己学習(DC-GST)フレームワークを提案する。
さらに、分布シフト対応エッジ予測器を用いてグラフを拡大し、擬似ラベルを割り当てる際のモデルの一般化性を高める。
提案手法を4つの公開ベンチマークデータセットで評価し,フレームワークが常に最先端のベースラインより優れていることを示す。 Few-shot node classification poses a significant challenge for Graph Neural Networks (GNNs) due to insufficient supervision and potential distribution shifts between labeled and unlabeled nodes. Self-training has emerged as a widely popular framework to leverage the abundance of unlabeled data, which expands the training set by assigning pseudo-labels to selected unlabeled nodes. Efforts have been made to develop various selection strategies based on confidence, information gain, etc. However, none of these methods takes into account the distribution shift between the training and testing node sets. The pseudo-labeling step may amplify this shift and even introduce new ones, hindering the effectiveness of self-training. Therefore, in this work, we explore the potential of explicitly bridging the distribution shift between the expanded training set and test set during self-training. To this end, we propose a novel Distribution-Consistent Graph Self-Training (DC-GST) framework to identify pseudo-labeled nodes that are both informative and capable of redeeming the distribution discrepancy and formulate it as a differentiable optimization task. A distribution-shift-aware edge predictor is further adopted to augment the graph and increase the model's generalizability in assigning pseudo labels. We evaluate our proposed method on four publicly available benchmark datasets and extensive experiments demonstrate that our framework consistently outperforms state-of-the-art baselines. | 翻訳日:2024-01-22 17:35:30 公開日:2024-01-18 |
# 自然力学習環境におけるカタストロフィック干渉の緩和 Catastrophic Interference is Mitigated in Naturalistic Power-Law Learning Environments ( http://arxiv.org/abs/2401.10393v1 ) ライセンス: Link先を確認 | Atith Gandhi, Raj Sanjay Shah, Vijay Marupudi, Sashank Varma | (参考訳) ニューラルネットワークは、しばしば破滅的な干渉(ci:catastrophic interference)に苦しむ。
これは、従来のタスクを忘れずに順次新しいタスクを学習できる人間と強く対照的である。
以前の研究は、正規化、リハーサル、生成的リプレイ、蒸留方法など、CIを緩和する様々な手法を探求してきた。
現在の研究は、自然環境において、タスクが最後に実行されてから当時のパワーローとして遭遇する確率が減少することを示す認知科学研究によって導かれる、異なるアプローチを取る。
シミュレーション自然主義学習環境では,CIの緩和のための技術の評価を現実的に行うべきである。
そこで本研究では,人間の顔に類似したパワーロー環境における単純なリハーサルベース手法の訓練において,ciの緩和度を評価する。
本研究は,MNISTタスクにおける順列学習という,ドメイン増分タスクに対する新たなリハーサルベースのアプローチを探求する。
リハーサル環境を他のベースラインと比較し,継続学習の促進に有効性を示す。
さらに,この環境が進行促進,すなわち,後のタスクの学習を高速化するかどうかを検討する。
次に,タスク数,モデルサイズ,各タスク後にリハーサルされたデータ量に対する学習環境の堅牢性について検討する。
特に,本研究の結果は,一般的な正規化手法を用いて訓練したモデルと同等か,あるいは同等であることを示す。
このトレーニングパラダイムの利点は、単純さと追加の神経回路の必要性の欠如である。
また,本手法は他の手法と直交するので,今後の研究は,パワーロー環境におけるトレーニングと他の連続学習機構を組み合わせることができる。 Neural networks often suffer from catastrophic interference (CI): performance on previously learned tasks drops off significantly when learning a new task. This contrasts strongly with humans, who can sequentially learn new tasks without appreciably forgetting previous tasks. Prior work has explored various techniques for mitigating CI such as regularization, rehearsal, generative replay, and distillation methods. The current work takes a different approach, one guided by cognitive science research showing that in naturalistic environments, the probability of encountering a task decreases as a power-law of the time since it was last performed. We argue that a realistic evaluation of techniques for the mitigation of CI should be performed in simulated naturalistic learning environments. Thus, we evaluate the extent of mitigation of CI when training simple rehearsal-based methods in power-law environments similar to the ones humans face. Our work explores this novel rehearsal-based approach for a domain-incremental task: learning permutations in the MNIST task. We compare our rehearsal environment with other baselines to show its efficacy in promoting continual learning. Additionally, we investigate whether this environment shows forward facilitation, i.e., faster learning of later tasks. Next, we explore the robustness of our learning environment to the number of tasks, model size, and amount of data rehearsed after each task. Notably, our results show that the performance is comparable or superior to that of models trained using popular regularization methods and also to rehearsals in non-power-law environments. The benefits of this training paradigm include simplicity and the lack of a need for extra neural circuitry. In addition, because our method is orthogonal to other methods, future research can combine training in power-law environments with other continual learning mechanisms. | 翻訳日:2024-01-22 17:35:05 公開日:2024-01-18 |
# ランダムフォレスト機械学習を用いた非侵襲的急性比較症候群診断 Noninvasive Acute Compartment Syndrome Diagnosis Using Random Forest Machine Learning ( http://arxiv.org/abs/2401.10386v1 ) ライセンス: Link先を確認 | Zaina Abu Hweij, Florence Liang, Sophie Zhang | (参考訳) 急性コンパートメント症候群 (acs) は、筋肉のコンパートメント内の圧力上昇によって引き起こされる整形外科的な緊急事態であり、永久的な組織損傷と最終的には死に至る。
acsの診断は、臨床的に信頼性が低く、しばしば侵襲的な内圧測定で補足される患者の症状に大きく依存する。
本研究は,acsの連続的,客観的,非侵襲的診断を提案する。
このデバイスは、皮膚に置かれた力感受性抵抗(FSR)から圧力を読み取るランダムフォレスト機械学習モデルを通じてACSを検出する。
最後の診断はBluetooth経由でWebアプリケーションにリアルタイムでエクスポートされる。
診断を検証するため、FSR測定とそれに対応する模擬部分圧を含むデータセットを作成した。
この診断は、侵襲的な金標準と同等の精度を97%の精度で達成した。
このデバイスは精度、感度、F1スコアなどの重要なパフォーマンス指標に優れていた。
73USDで製造されたこのデバイスは、針ベースの診断の経済的代替品かもしれない。
これらの結果は,非侵襲的ACS診断が臨床基準を満たし,患者のケアを高める可能性を示している。 Acute compartment syndrome (ACS) is an orthopedic emergency, caused by elevated pressure within a muscle compartment, that leads to permanent tissue damage and eventually death. Diagnosis of ACS relies heavily on patient-reported symptoms, a method that is clinically unreliable and often supplemented with invasive intracompartmental pressure measurements. This study proposes a continuous, objective, noninvasive diagnostic for ACS. The device detects ACS through a random forest machine learning model that uses pressure readings from force-sensitive resistors (FSRs) placed on the skin. The final diagnosis is exported real-time to a web application via Bluetooth. To validate the diagnostic, a data set containing FSR measurements and the corresponding simulated intracompartmental pressure was created. The diagnostic achieved an accuracy, on par to the invasive gold standard, of 97%. The device excelled in key performance metrics including precision, sensitivity, and F1 score. Manufactured for 73 USD, our device may be an economic alternative to needle-based diagnostics. These results demonstrate the potential of noninvasive ACS diagnostics to meet clinical standards and enhance patient care. | 翻訳日:2024-01-22 17:34:33 公開日:2024-01-18 |
# 高次元PDEにおける解演算子の近似 Approximation of Solution Operators for High-dimensional PDEs ( http://arxiv.org/abs/2401.10385v1 ) ライセンス: Link先を確認 | Nathan Gaby and Xiaojing Ye | (参考訳) 進化的偏微分方程式(PDE)の解演算子を近似する有限次元制御法を提案する。
ディープニューラルネットワークなどの一般的な還元次モデルを用いることで、モデルパラメータの進化を対応する関数空間における軌跡と結びつける。
ニューラル常微分方程式の計算手法を用いて、任意の初期出発点から制御された軌道がPDEの解を近似するようにパラメータ空間の制御を学習する。
近似精度は2階非線形PDEの一般クラスに対して正当化される。
ハミルトン・ヤコビ・ベルマン方程式を解くための実世界の応用を含む、いくつかの高次元PDEに対して数値的な結果が提示される。
これらの結果は,提案手法の精度と効率を示す。 We propose a finite-dimensional control-based method to approximate solution operators for evolutional partial differential equations (PDEs), particularly in high-dimensions. By employing a general reduced-order model, such as a deep neural network, we connect the evolution of the model parameters with trajectories in a corresponding function space. Using the computational technique of neural ordinary differential equation, we learn the control over the parameter space such that from any initial starting point, the controlled trajectories closely approximate the solutions to the PDE. Approximation accuracy is justified for a general class of second-order nonlinear PDEs. Numerical results are presented for several high-dimensional PDEs, including real-world applications to solving Hamilton-Jacobi-Bellman equations. These are demonstrated to show the accuracy and efficiency of the proposed method. | 翻訳日:2024-01-22 17:34:15 公開日:2024-01-18 |
# 高励起振動状態からの精密フランクコンドン分光 Precision Franck-Condon spectroscopy from highly-excited vibrational states ( http://arxiv.org/abs/2401.10384v1 ) ライセンス: Link先を確認 | Sindhana Pannir-Sivajothi and Joel Yuen-Zhou | (参考訳) フランク=コンドンの原理によれば、吸収分光は電子励起による分子や固体の核構造の変化を明らかにする。
これらの変化は、基底振動波動関数幅(\sqrt{\hbar/m\omega}$)を超えては解決できないとしばしば仮定される。
ここで、この分解能は高励起振動初期状態(占有数$\langle n\rangle$)で劇的に向上することを示す。
これらの状態は2\langle n\rangle +1$で幾何学の変化を拡大するが、フォック状態の空間的不確かさが n$ で大きくなると、直観に反する結果となる。
また、この結果のマルチモードシステムへの一般化についても論じる。
我々の結果は、光学分光、偏光子凝縮、および量子シミュレータ(\textit{e.g.}$, boson samplers)に関係している。 As per the Franck-Condon principle, absorption spectroscopy reveals changes in nuclear geometry in molecules or solids upon electronic excitation. It is often assumed these changes cannot be resolved beyond the ground vibrational wavefunction width ($\sqrt{\hbar/m\omega}$). Here, we show this resolution dramatically improves with highly-excited vibrational initial states (with occupation number $\langle n\rangle$). These states magnify changes in geometry by $2\langle n\rangle +1$, a possibly counterintuitive result given the spatial uncertainty of Fock states grows with $n$. We also discuss generalizations of this result to multimode systems. Our result is relevant to optical spectroscopy, polariton condensates, and quantum simulators ($\textit{e.g.}$, boson samplers). | 翻訳日:2024-01-22 17:34:02 公開日:2024-01-18 |
# 協調型多エージェントグラフバンディット:ucbアルゴリズムと後悔分析 Cooperative Multi-Agent Graph Bandits: UCB Algorithm and Regret Analysis ( http://arxiv.org/abs/2401.10383v1 ) ライセンス: Link先を確認 | Phevos Paschalidis, Runyu Zhang, and Na Li | (参考訳) 本稿では,Zhang, Johansson, Li [CISS 57, 1-6 (2023)] が導入したグラフバンディット問題のマルチエージェント拡張として,マルチエージェントグラフバンディット問題を定式化する。
我々の定式化では、$n$の協力エージェントは$k$ノードで接続されたグラフを旅します。
各ノードに着くと、エージェントはノード依存確率分布から引き出されたランダムな報酬を観察する。
システムの報酬は、エージェントが観察する報酬の重み付けされた合計としてモデル化され、重み付けは複数のエージェントが同時に同じノードをサンプリングする際の限界報酬の減少を捉える。
上信頼境界(UCB)に基づく学習アルゴリズムであるMulti-G-UCBを提案し、T$のステップに対する期待された後悔は$O(N\log(T)[\sqrt{KT} + DK])$で、D$はグラフ$G$の直径であることを示す。
最後に,このアルゴリズムを代替手法と比較して数値的に検証する。 In this paper, we formulate the multi-agent graph bandit problem as a multi-agent extension of the graph bandit problem introduced by Zhang, Johansson, and Li [CISS 57, 1-6 (2023)]. In our formulation, $N$ cooperative agents travel on a connected graph $G$ with $K$ nodes. Upon arrival at each node, agents observe a random reward drawn from a node-dependent probability distribution. The reward of the system is modeled as a weighted sum of the rewards the agents observe, where the weights capture the decreasing marginal reward associated with multiple agents sampling the same node at the same time. We propose an Upper Confidence Bound (UCB)-based learning algorithm, Multi-G-UCB, and prove that its expected regret over $T$ steps is bounded by $O(N\log(T)[\sqrt{KT} + DK])$, where $D$ is the diameter of graph $G$. Lastly, we numerically test our algorithm by comparing it to alternative methods. | 翻訳日:2024-01-22 17:33:38 公開日:2024-01-18 |
# you look only once (yolo)アルゴリズムを用いた農業物体検出--書誌学的・体系的文献レビュー Agricultural Object Detection with You Look Only Once (YOLO) Algorithm: A Bibliometric and Systematic Literature Review ( http://arxiv.org/abs/2401.10379v1 ) ライセンス: Link先を確認 | Chetan M Badgujar, Alwin Poulose and Hao Gan | (参考訳) ビジョンは農業で使用されるいくつかのデジタル技術やツールの主要な構成要素である。
オブジェクト検出器であるYou Look Only Once (YOLO)は、最先端のパフォーマンスのために比較的短い期間で農業で人気を博している。
YOLOはリアルタイム検出を精度良く提供し、監視、監視、センシング、自動化、ロボット工学など、さまざまな農業タスクに実装されている。
農業におけるYOLOの研究と応用は急速に加速しているが、断片化と多分野化が進んでいる。
さらに, 対象検出器の性能特性(精度, 速度, 計算)は, 農業における技術導入率に影響を及ぼす。
そこで本研究では,農業オブジェクト認識におけるYOLOの進歩と応用を文書化し,批判的に評価することを目的とした。
まず,農業分野におけるヨロの学術的景観を理解するため,257件の文献調査を行った。
第2に, 養殖作業における現在の知識, ギャップ, 変化を明らかにするため, 30項目の体系的レビューを行った。
この研究は、データ取得、処理、ネットワーク修正、統合、デプロイメントを含む、YOLOのエンドツーエンド学習アプローチに関する情報を批判的に評価し、要約する。
また,農業目的や環境固有の課題を満たすため,タスク固有のyoloアルゴリズムの修正と統合についても検討した。
一般的に、YOLO統合デジタルツールと技術は、リソース効率を最大化しつつ、労働力、生産コスト、環境への影響を減らし、リアルタイム、自動監視、監視、オブジェクトハンドリングの可能性を示している。
この研究は詳細な資料を提供し、農業におけるYOLOの適用に関する既存の知識を著しく向上させ、科学コミュニティに大きな利益をもたらす可能性がある。 Vision is a major component in several digital technologies and tools used in agriculture. The object detector, You Look Only Once (YOLO), has gained popularity in agriculture in a relatively short span due to its state-of-the-art performance. YOLO offers real-time detection with good accuracy and is implemented in various agricultural tasks, including monitoring, surveillance, sensing, automation, and robotics. The research and application of YOLO in agriculture are accelerating rapidly but are fragmented and multidisciplinary. Moreover, the performance characteristics (i.e., accuracy, speed, computation) of the object detector influence the rate of technology implementation and adoption in agriculture. Thus, the study aims to collect extensive literature to document and critically evaluate the advances and application of YOLO for agricultural object recognition. First, we conducted a bibliometric review of 257 articles to understand the scholarly landscape of YOLO in agricultural domain. Secondly, we conducted a systematic review of 30 articles to identify current knowledge, gaps, and modifications in YOLO for specific agricultural tasks. The study critically assesses and summarizes the information on YOLO's end-to-end learning approach, including data acquisition, processing, network modification, integration, and deployment. We also discussed task-specific YOLO algorithm modification and integration to meet the agricultural object or environment-specific challenges. In general, YOLO-integrated digital tools and technologies show the potential for real-time, automated monitoring, surveillance, and object handling to reduce labor, production cost, and environmental impact while maximizing resource efficiency. The study provides detailed documentation and significantly advances the existing knowledge on applying YOLO in agriculture, which can greatly benefit the scientific community. | 翻訳日:2024-01-22 17:33:05 公開日:2024-01-18 |
# 対人脅威下におけるフェデレーション統合学習の脆弱性 Vulnerabilities of Foundation Model Integrated Federated Learning Under Adversarial Threats ( http://arxiv.org/abs/2401.10375v1 ) ライセンス: Link先を確認 | Chen Wu, Xi Li, Jiaqi Wang | (参考訳) フェデレートラーニング(FL)は、データプライバシとセキュリティに関連する機械学習における重要な問題に対処するが、特定の状況下でのデータ不足と不均衡に悩まされる。
基礎モデル(FM)の出現は、モデル初期化のための合成データを生成するなど、既存のFLフレームワークの制限に対する潜在的な解決策を提供する。
しかし、FMの安全性に関する懸念から、FMをFLに統合することは新たなリスクをもたらす可能性がある。
このギャップに対処するため,FM統合FL(FM-FL)の脆弱性を敵の脅威下で調査した。
fm-flの統一フレームワークに基づき、fmの安全性問題を利用してflクライアントモデルを妥協する新たな攻撃戦略を提案する。
画像領域とテキスト領域の両方でよく知られたモデルとベンチマークデータセットを用いた広範な実験により、様々なFL構成下でのこの新たな脅威に対するFM-FLの高い感受性を明らかにする。
さらに、既存のfl防衛戦略は、この新たな攻撃アプローチに対する限定的な保護を提供する。
本研究は,FM時代のFLにおけるセキュリティ対策の強化の必要性を強調した。 Federated Learning (FL) addresses critical issues in machine learning related to data privacy and security, yet suffering from data insufficiency and imbalance under certain circumstances. The emergence of foundation models (FMs) offers potential solutions to the limitations of existing FL frameworks, e.g., by generating synthetic data for model initialization. However, due to the inherent safety concerns of FMs, integrating FMs into FL could introduce new risks, which remains largely unexplored. To address this gap, we conduct the first investigation on the vulnerability of FM integrated FL (FM-FL) under adversarial threats. Based on a unified framework of FM-FL, we introduce a novel attack strategy that exploits safety issues of FM to compromise FL client models. Through extensive experiments with well-known models and benchmark datasets in both image and text domains, we reveal the high susceptibility of the FM-FL to this new threat under various FL configurations. Furthermore, we find that existing FL defense strategies offer limited protection against this novel attack approach. This research highlights the critical need for enhanced security measures in FL in the era of FMs. | 翻訳日:2024-01-22 17:32:12 公開日:2024-01-18 |
# ロバスト・一般化医用画像分割のための高調波空間とスペクトル学習 Harmonized Spatial and Spectral Learning for Robust and Generalized Medical Image Segmentation ( http://arxiv.org/abs/2401.10373v1 ) ライセンス: Link先を確認 | Vandan Gorade, Sparsh Mittal, Debesh Jha, Rekha Singhal, Ulas Bagci | (参考訳) 深層学習は医用画像のセグメンテーションにおいて顕著な成果を示した。
しかし、一般的なディープラーニングモデルは、一般化の貧弱さに苦しむ。
(i)同じクラスが異なるサンプルに異なる形で現れるクラス内変異、及び
(ii)クラス間の独立性は,異なる対象間の複雑な関係を捉えることが困難となり,偽陰性症例が増加する。
本稿では,領域一般化医療画像のセグメンテーションを強化するために,空間的およびスペクトル的表現を相乗化するための新しいアプローチを提案する。
本稿では,中次特徴と文脈的長距離依存性を捉えるモデルの能力を向上させるために,革新的スペクトル相関係数目標を提案する。
この目的は、貴重なスペクトル情報を取り入れることで、伝統的な空間的目的を補完する。
大規模な実験により、UNetやTransUNetのような既存のアーキテクチャでこの目的を最適化することで、一般化、解釈可能性、ノイズの堅牢性が大幅に向上し、より確実な予測がもたらされることが明らかになった。
例えば、心分画では、unet と transunet に対する dsc の 0.81 pp と 1.63 pp (pp = パーセンテージポイント) の改善が観察された。
我々の解釈可能性調査は、ほとんどのタスクにおいて、UNetで最適化された目的が、局所的な詳細と共にグローバルな文脈情報を導入することで、TransUNetよりも優れていることを示した。
これらの知見は,様々な画像モダリティと医療領域にまたがる提案手法の有効性と有効性を明らかにするものである。 Deep learning has demonstrated remarkable achievements in medical image segmentation. However, prevailing deep learning models struggle with poor generalization due to (i) intra-class variations, where the same class appears differently in different samples, and (ii) inter-class independence, resulting in difficulties capturing intricate relationships between distinct objects, leading to higher false negative cases. This paper presents a novel approach that synergies spatial and spectral representations to enhance domain-generalized medical image segmentation. We introduce the innovative Spectral Correlation Coefficient objective to improve the model's capacity to capture middle-order features and contextual long-range dependencies. This objective complements traditional spatial objectives by incorporating valuable spectral information. Extensive experiments reveal that optimizing this objective with existing architectures like UNet and TransUNet significantly enhances generalization, interpretability, and noise robustness, producing more confident predictions. For instance, in cardiac segmentation, we observe a 0.81 pp and 1.63 pp (pp = percentage point) improvement in DSC over UNet and TransUNet, respectively. Our interpretability study demonstrates that, in most tasks, objectives optimized with UNet outperform even TransUNet by introducing global contextual information alongside local details. These findings underscore the versatility and effectiveness of our proposed method across diverse imaging modalities and medical domains. | 翻訳日:2024-01-22 17:31:03 公開日:2024-01-18 |
# MutaBot: チャットボットの突然変異テストアプローチ MutaBot: A Mutation Testing Approach for Chatbots ( http://arxiv.org/abs/2401.10372v1 ) ライセンス: Link先を確認 | Michael Ferdinando Urrico, Diego Clerissi, Leonardo Mariani | (参考訳) 突然変異テストは、人工欠陥をプログラムにシードすることで、テストスイートの有効性を評価する技術である。
多くのプラットフォームや言語で利用可能だが、現在、自然言語インターフェースを通じてユーザと対話できるデザインシステムに対する、ますますポピュラーなソリューションである会話型チャットボットには、突然変異テストツールが利用できない。
会話は会話チャットボットの開発者によって明示的に設計されなければならないため、これらのシステムは既存の突然変異検査ツールでサポートされていない特定の種類の障害にさらされている。
本稿では,会話チャットボットの突然変異検査ツールであるMutaBotを紹介する。
MutaBotは、会話フロー、インテント、コンテキストを含む複数のレベルでの突然変異に対処する。
複数のプラットフォームをターゲットにしたツールを設計し、Google Dialogflowチャットボットの初期サポートを実装しました。
ツールを3つのDialogflowチャットボットとBotiumで生成されたテストケースで評価し、テストスイートの弱点を明らかにした。 Mutation testing is a technique aimed at assessing the effectiveness of test suites by seeding artificial faults into programs. Although available for many platforms and languages, no mutation testing tool is currently available for conversational chatbots, which represent an increasingly popular solution to design systems that can interact with users through a natural language interface. Note that since conversations must be explicitly engineered by the developers of conversational chatbots, these systems are exposed to specific types of faults not supported by existing mutation testing tools. In this paper, we present MutaBot, a mutation testing tool for conversational chatbots. MutaBot addresses mutations at multiple levels, including conversational flows, intents, and contexts. We designed the tool to potentially target multiple platforms, while we implemented initial support for Google Dialogflow chatbots. We assessed the tool with three Dialogflow chatbots and test cases generated with Botium, revealing weaknesses in the test suites. | 翻訳日:2024-01-22 17:30:11 公開日:2024-01-18 |
# Langevin Unlearning: 機械学習のためのノイズの多い勾配の新たな視点 Langevin Unlearning: A New Perspective of Noisy Gradient Descent for Machine Unlearning ( http://arxiv.org/abs/2401.10371v1 ) ライセンス: Link先を確認 | Eli Chien, Haoyu Wang, Ziang Chen, Pan Li | (参考訳) 機械学習は「忘れられる権利」を保障する法律の採用で大きな関心を集めている。
研究者は、差分プライバシー(DP)という同様の定義の下で、近似的アンラーニングという確率論的概念を提供し、プライバシーはスクラッチから再トレーニングするための統計的不明瞭さとして定義される。
我々は,無学習問題に対するプライバシ保証を伴う騒音勾配降下に基づく無学習フレームワークlangevin unlearningを提案する。
Langevin unlearningは、DP学習プロセスとプライバシ認定未学習プロセスを、多くのアルゴリズム上の利点で統合する。
これには、非凸問題に対する近似認定アンラーニング、再トレーニングに対する複雑さの節約、複数のアンラーニング要求に対するシーケンシャルおよびバッチアンラーニングが含まれる。
ベンチマークデータセットを用いた実験により,Langevin Unlearningのプライバシ・ユーティリティ・複雑さトレードオフを検証し,その実用性を検証した。 Machine unlearning has raised significant interest with the adoption of laws ensuring the ``right to be forgotten''. Researchers have provided a probabilistic notion of approximate unlearning under a similar definition of Differential Privacy (DP), where privacy is defined as statistical indistinguishability to retraining from scratch. We propose Langevin unlearning, an unlearning framework based on noisy gradient descent with privacy guarantees for approximate unlearning problems. Langevin unlearning unifies the DP learning process and the privacy-certified unlearning process with many algorithmic benefits. These include approximate certified unlearning for non-convex problems, complexity saving compared to retraining, sequential and batch unlearning for multiple unlearning requests. We verify the practicality of Langevin unlearning by studying its privacy-utility-complexity trade-off via experiments on benchmark datasets, and also demonstrate its superiority against gradient-decent-plus-output-perturbation based approximate unlearning. | 翻訳日:2024-01-22 17:29:58 公開日:2024-01-18 |
# VaRにおけるファイナンシャル時系列の深部生成モデリング : 比較検討 Deep Generative Modeling for Financial Time Series with Application in VaR: A Comparative Review ( http://arxiv.org/abs/2401.10370v1 ) ライセンス: Link先を確認 | Lars Ericson, Xuejun Zhu, Xusi Han, Rao Fu, Shuang Li, Steve Guo, Ping Hu | (参考訳) 金融サービス業界では、歴史と現在の市場環境に基づいてリスクファクタ分布を予測することが、一般に市場リスクモデリングの鍵であり、特にリスクリスク(VaR)モデルである。
商業銀行において最も広く採用されているVaRモデルの1つとして、ヒストリカル・シミュレーション(HS)は、翌日にリスクファクターの予測分布が戻ると、過去の窓口で毎日のリターンの実証的な分布を利用する。
金融時系列生成の目標は、元の履歴データとよく似た分布とダイナミクスを持つ、多様な合成データパスを生成することである。
本稿では,複数の既存深層生成手法(CGAN, CWGAN, Diffusion, Signature WGAN)を条件付き時系列生成に適用し,Encoder-Decoder CGAN と Conditional TimeVAE の2つの条件付きマルチステップ時系列生成手法を提案する。
さらに,金融モデリングのために生成した時系列の品質を測定するために,一連のkpiを用いた包括的フレームワークを提案する。
KPIは分布距離、自己相関、バックテストをカバーする。
すべてのモデル(HS、パラメトリック、ニューラルネットワーク)は、歴史的USD収差曲線データと、GARCHおよびCIRプロセスからシミュレーションされた追加データの両方でテストされる。
研究によると、トップパフォーマンスモデルはHS、GARCH、CWGANモデルである。
今後の研究の方向性についても論じる。 In the financial services industry, forecasting the risk factor distribution conditional on the history and the current market environment is the key to market risk modeling in general and value at risk (VaR) model in particular. As one of the most widely adopted VaR models in commercial banks, Historical simulation (HS) uses the empirical distribution of daily returns in a historical window as the forecast distribution of risk factor returns in the next day. The objectives for financial time series generation are to generate synthetic data paths with good variety, and similar distribution and dynamics to the original historical data. In this paper, we apply multiple existing deep generative methods (e.g., CGAN, CWGAN, Diffusion, and Signature WGAN) for conditional time series generation, and propose and test two new methods for conditional multi-step time series generation, namely Encoder-Decoder CGAN and Conditional TimeVAE. Furthermore, we introduce a comprehensive framework with a set of KPIs to measure the quality of the generated time series for financial modeling. The KPIs cover distribution distance, autocorrelation and backtesting. All models (HS, parametric and neural networks) are tested on both historical USD yield curve data and additional data simulated from GARCH and CIR processes. The study shows that top performing models are HS, GARCH and CWGAN models. Future research directions in this area are also discussed. | 翻訳日:2024-01-22 17:29:39 公開日:2024-01-18 |
# gFaaS: サーバレスコンピューティングにおけるジェネリック関数の実行 gFaaS: Enabling Generic Functions in Serverless Computing ( http://arxiv.org/abs/2401.10367v1 ) ライセンス: Link先を確認 | Mohak Chadha, Paul Wieland, Michael Gerndt | (参考訳) 2014年のAWS Lambdaの出現により、サーバレスコンピューティング、特にFaaS(Function-as-a-Service)は、さまざまなアプリケーションドメインで人気が高まっている。
FaaSは、アプリケーションをFaaSプラットフォーム上で実行されるきめ細かい関数に分解することを可能にする。
インフラストラクチャ管理の不要,有償課金ポリシ,オンデマンドの詳細な自動スケーリングなど,いくつかのメリットがある。
しかし、その利点にもかかわらず、今日の開発者は生産性を低下させるfaasソリューションを採用しながら、様々な課題に直面する。
これには、FaaSプラットフォームロックイン、さまざまな関数展開パラメータのサポート、FaaSプラットフォームとのインタラクションのための多様なインターフェースが含まれる。
これらの課題に対処するため、さまざまなFaaSプラットフォームにわたる関数の全体的開発と管理を容易にする新しいフレームワークであるgFaaSを紹介します。
我々のフレームワークは、異なるプラットフォームにシームレスにデプロイできる複数のプログラミング言語における汎用関数の開発を可能にする。
実験の結果,gFaaS関数は,さまざまなシナリオにわたるネイティブプラットフォーム固有の関数と同様の機能を示す。
gFaaSの機能を示すビデオはhttps://youtu.be/STbb6ykJFf0.comから入手できる。 With the advent of AWS Lambda in 2014, Serverless Computing, particularly Function-as-a-Service (FaaS), has witnessed growing popularity across various application domains. FaaS enables an application to be decomposed into fine-grained functions that are executed on a FaaS platform. It offers several advantages such as no infrastructure management, a pay-per-use billing policy, and on-demand fine-grained autoscaling. However, despite its advantages, developers today encounter various challenges while adopting FaaS solutions that reduce productivity. These include FaaS platform lock-in, support for diverse function deployment parameters, and diverse interfaces for interacting with FaaS platforms. To address these challenges, we present gFaaS, a novel framework that facilitates the holistic development and management of functions across diverse FaaS platforms. Our framework enables the development of generic functions in multiple programming languages that can be seamlessly deployed across different platforms without modifications. Results from our experiments demonstrate that gFaaS functions perform similarly to native platform-specific functions across various scenarios. A video demonstrating the functioning of gFaaS is available from https://youtu.be/STbb6ykJFf0. | 翻訳日:2024-01-22 17:29:10 公開日:2024-01-18 |
# RISCプロセッサの設計と実装にChatGPTなどのLCMを使う:実行、カオス、限界 Using LLM such as ChatGPT for Designing and Implementing a RISC Processor: Execution,Challenges and Limitations ( http://arxiv.org/abs/2401.10364v1 ) ライセンス: Link先を確認 | Shadeeb Hossain, Aayush Gohil, Yizhou Wang | (参考訳) 本稿では、RISCの設計において、コード生成にLarge Language Models LLMを使用することの可能性について論じる。
また,解析,トークン化,エンコーディング,注意機構,トークンのサンプリング,コード生成中のイテレーションといった,関連するステップもレビューする。
RISCコンポーネントの生成されたコードは、FPGA基板上でテストベンチとハードウェア実装によって検証される。
最初のイテレーションでの4つのパラメータの正確な出力、コードに埋め込まれたエラーの数、コードを達成するのに必要な試行数、3回のイテレーション後にコードを生成する失敗回数は、プログラミングでLLMを使用する効率を比較するために使用される。
すべてのケースにおいて、生成されたコードは重大なエラーがあり、バグを修正するためには常に人間の介入が必要でした。
したがって、LLMはプログラマのコード設計を補完するのに使うことができる。 This paper discusses the feasibility of using Large Language Models LLM for code generation with a particular application in designing an RISC. The paper also reviews the associated steps such as parsing, tokenization, encoding, attention mechanism, sampling the tokens and iterations during code generation. The generated code for the RISC components is verified through testbenches and hardware implementation on a FPGA board. Four metric parameters Correct output on the first iteration, Number of errors embedded in the code, Number of trials required to achieve the code and Failure to generate the code after three iterations, are used to compare the efficiency of using LLM in programming. In all the cases, the generated code had significant errors and human intervention was always required to fix the bugs. LLM can therefore be used to complement a programmer code design. | 翻訳日:2024-01-22 17:28:51 公開日:2024-01-18 |
# ポータビリティのためのマクロ使用のセマンティック分析 Semantic Analysis of Macro Usage for Portability ( http://arxiv.org/abs/2401.10422v1 ) ライセンス: Link先を確認 | Brent Pappas and Paul Gazzillo | (参考訳) cは安全でない言語です。
研究者は、Rust、Checked C、Goといったより安全な言語にCを移植するツールを開発している。
しかし、既存のツールは、まずソースファイルを前処理し、その結果のコードを移植し、マクロ抽象化を失うほとんど認識できないコードを残す。
マクロ使用率を維持するために、移植ツールは等価な構成物への移植のためのマクロ動作を理解する分析を必要とする。
しかし、マクロセマンティクスは典型的な機能と異なり、移植するために単純な構文変換を先取りする。
マクロ使用の可搬性を分析するための最初の包括的なフレームワークを紹介する。
マクロな振る舞いを26個の微粒なプロパティに分解し,94%の精度で実世界のコードで識別するプログラム解析ツールMakiを実装した。
マキを86,199のマクロ定義を含む21のプログラムに適用する。
実世界のマクロは以前よりもずっとポータブルであることが分かりました。
3分の1以上(37%)は移植が容易で、Makiはより複雑なマクロを移植するためのヒントを提供する。
平均すると、移植が容易なマクロが2倍になり、以前の作業よりも最大7倍多いことが分かりました。
実世界の4つのプログラムでマキの成果に導かれ,手持ちのマクロが見つかった。
我々は11のマクロを変換するLinuxメンテナにパッチを提出した。 C is an unsafe language. Researchers have been developing tools to port C to safer languages such as Rust, Checked C, or Go. Existing tools, however, resort to preprocessing the source file first, then porting the resulting code, leaving barely recognizable code that loses macro abstractions. To preserve macro usage, porting tools need analyses that understand macro behavior to port to equivalent constructs. But macro semantics differ from typical functions, precluding simple syntactic transformations to port them. We introduce the first comprehensive framework for analyzing the portability of macro usage. We decompose macro behavior into 26 fine-grained properties and implement a program analysis tool, called Maki, that identifies them in real-world code with 94% accuracy. We apply Maki to 21 programs containing a total of 86,199 macro definitions. We found that real-world macros are much more portable than previously known. More than a third (37%) are easy-to-port, and Maki provides hints for porting more complicated macros. We find, on average, 2x more easy-to-port macros and up to 7x more in the best case compared to prior work. Guided by Maki's output, we found and hand-ported macros in four real-world programs. We submitted patches to Linux maintainers that transform eleven macros, nine of which have been accepted. | 翻訳日:2024-01-22 17:21:05 公開日:2024-01-18 |
# 限定繰り返しによる一般化Nested Rollout Policy Adaptation Generalized Nested Rollout Policy Adaptation with Limited Repetitions ( http://arxiv.org/abs/2401.10420v1 ) ライセンス: Link先を確認 | Tristan Cazenave | (参考訳) 一般化ネステッドロールアウトポリシー適応 (gnrpa) はモンテカルロ探索アルゴリズムであり、選択のシーケンスを最適化する。
我々は,選択の順序が同じであるような決定論的政策を避けることで,GNRPAの改善を提案する。
与えられたレベルにある最良のシーケンスの繰り返し回数を制限することで、そうします。
Inverse RNA Folding, Traveling Salesman Problem with Time Windows, and the Weak Schur problemの3つの異なる組み合わせ問題に対するアルゴリズムの改善が示されている。 Generalized Nested Rollout Policy Adaptation (GNRPA) is a Monte Carlo search algorithm for optimizing a sequence of choices. We propose to improve on GNRPA by avoiding too deterministic policies that find again and again the same sequence of choices. We do so by limiting the number of repetitions of the best sequence found at a given level. Experiments show that it improves the algorithm for three different combinatorial problems: Inverse RNA Folding, the Traveling Salesman Problem with Time Windows and the Weak Schur problem. | 翻訳日:2024-01-22 17:20:45 公開日:2024-01-18 |
# M3BUNet:CTスキャンにおける膵分画のためのモバイル平均最大UNet M3BUNet: Mobile Mean Max UNet for Pancreas Segmentation on CT-Scans ( http://arxiv.org/abs/2401.10419v1 ) ライセンス: Link先を確認 | Juwita juwita, Ghulam Mubashar Hassan, Naveed Akhtar, Amitava Datta | (参考訳) ctスキャン画像のセグメンテーション臓器は、複数の下流医療画像解析タスクに必要なプロセスである。
現在、放射線科医による手動ctスキャンのセグメンテーションが一般的であり、特に膵臓のような臓器では、小器官サイズ、咬合、形状の変化などの要因により、信頼性の高いセグメンテーションのための高度なドメイン専門知識が必要である。
これらの要因は, 膵の自動分節に頼って, 信頼性の低いラベル付きデータに変換し, 効果的な分節モデルの訓練を行う。
したがって、現代の膵臓分節モデルの性能は、まだ許容範囲にない。
そこで本稿では,モバイルネットとu-netニューラルネットワークの融合であるm3bunetを提案する。このm3bunetは,オブジェクト検出のためのマスクガイダンスにより,膵臓ct画像の粗度から細度まで徐々に分割する2段階の新たな平均max(mm)アテンションを備える。
このアプローチにより、ネットワークは、類似のネットワークアーキテクチャによって達成されたセグメンテーション性能を超え、複雑な最先端メソッドと同等の結果が得られる。
また,画像標準化によるセグメンテーションプロセスを支援するために,粗いステージの前処理ステップとして,外輪郭分割を導入する。
詳細なセグメンテーション段階では,ウェーブレット分解フィルタを多入力画像生成に適用することで膵臓セグメンテーション性能が向上することがわかった。
我々は、広く知られているnih pancreasデータセットとmsd pancreasデータセットに対するアプローチを広範囲に評価した。
提案手法では,平均Dice similarity Coefficient(DSC)値が89.53%,Intersection Over Union(IOU)スコアが81.16,DSCが88.60%,IOUが79.90%に向上した。 Segmenting organs in CT scan images is a necessary process for multiple downstream medical image analysis tasks. Currently, manual CT scan segmentation by radiologists is prevalent, especially for organs like the pancreas, which requires a high level of domain expertise for reliable segmentation due to factors like small organ size, occlusion, and varying shapes. When resorting to automated pancreas segmentation, these factors translate to limited reliable labeled data to train effective segmentation models. Consequently, the performance of contemporary pancreas segmentation models is still not within acceptable ranges. To improve that, we propose M3BUNet, a fusion of MobileNet and U-Net neural networks, equipped with a novel Mean-Max (MM) attention that operates in two stages to gradually segment pancreas CT images from coarse to fine with mask guidance for object detection. This approach empowers the network to surpass segmentation performance achieved by similar network architectures and achieve results that are on par with complex state-of-the-art methods, all while maintaining a low parameter count. Additionally, we introduce external contour segmentation as a preprocessing step for the coarse stage to assist in the segmentation process through image standardization. For the fine segmentation stage, we found that applying a wavelet decomposition filter to create multi-input images enhances pancreas segmentation performance. We extensively evaluate our approach on the widely known NIH pancreas dataset and MSD pancreas dataset. Our approach demonstrates a considerable performance improvement, achieving an average Dice Similarity Coefficient (DSC) value of up to 89.53% and an Intersection Over Union (IOU) score of up to 81.16 for the NIH pancreas dataset, and 88.60% DSC and 79.90% IOU for the MSD Pancreas dataset. | 翻訳日:2024-01-22 17:20:36 公開日:2024-01-18 |
# 大規模言語モデル要約器は科学的コミュニケーション目標に適応できるか? Can Large Language Model Summarizers Adapt to Diverse Scientific Communication Goals? ( http://arxiv.org/abs/2401.10415v1 ) ライセンス: Link先を確認 | Marcio Fonseca, Shay B. Cohen | (参考訳) 本研究では,大規模言語モデル(LLM)の科学的要約タスクにおける制御可能性について検討する。
論文レビュー,要約,要約,要約など,さまざまな要約を特徴付ける重要なスタイル的およびコンテンツカバレッジ要因を明らかにする。
構造的特徴を制御することにより,非微調整LDMは,参照要約と人間の嗜好の両方において,MuPレビュー生成タスクにおいて人間よりも優れることがわかった。
また,キーワードベースの分類器フリーガイダンス (CFG) を用いて, arXiv および PubMed 上での強い微調整ベースラインに匹敵する語彙オーバーラップを実現しつつ, LLM の制御性を向上させることができることを示す。
しかし, この結果から, LLMは8文以上の長文を連続的に生成できないことが明らかとなった。
さらに、これらのモデルは非常に抽象的なレイサマリーを生成する能力に限界がある。
LLMは強力な汎用的な要約能力を示すが、コストのかかる微調整のない高度なコンテンツ制御はドメイン固有のアプリケーションには未解決の問題である。 In this work, we investigate the controllability of large language models (LLMs) on scientific summarization tasks. We identify key stylistic and content coverage factors that characterize different types of summaries such as paper reviews, abstracts, and lay summaries. By controlling stylistic features, we find that non-fine-tuned LLMs outperform humans in the MuP review generation task, both in terms of similarity to reference summaries and human preferences. Also, we show that we can improve the controllability of LLMs with keyword-based classifier-free guidance (CFG) while achieving lexical overlap comparable to strong fine-tuned baselines on arXiv and PubMed. However, our results also indicate that LLMs cannot consistently generate long summaries with more than 8 sentences. Furthermore, these models exhibit limited capacity to produce highly abstractive lay summaries. Although LLMs demonstrate strong generic summarization competency, sophisticated content control without costly fine-tuning remains an open problem for domain-specific applications. | 翻訳日:2024-01-22 17:19:53 公開日:2024-01-18 |
# 粒子の質量を運動量から分離する Separating a particle's mass from its momentum ( http://arxiv.org/abs/2401.10408v1 ) ライセンス: Link先を確認 | Mordecai Waegell, Jeff Tollaksen, Yakir Aharonov | (参考訳) クァンタム・チェシャー・キャット実験(Quantum Cheshire Cat experiment)は、前・後系の弱い測定を行うと、中性子をスピンなしで一箇所に、そのスピンを中性子なしで別の場所で測定するという直感的な結果が得られることを示した。
この効果の一般化は、質量が運動量のない1つの場所にあると測定された質量粒子と、運動量が質量のない別の場所にあると測定された質量粒子とで示される。
新たな結果は、スピンや電荷に依存しない任意の質量の粒子に適用される。
この効果を示すゲダンケン実験は、ネストしたマッハ・ツェンダー干渉計を用いて示されるが、鏡やビームスプリッターの一部が実験室のフレームに対して移動している。
aharonovらによる対数オントロジーを用いた実験の解析も行った。 The Quantum Cheshire Cat experiment showed that when weak measurements are performed on pre- and post-selected system, the counterintuitive result has been obtained that a neutron is measured to be in one place without its spin, and its spin is measured to be in another place without the neutron. A generalization of this effect is presented with a massive particle whose mass is measured to be in one place with no momentum, while the momentum is measured to be in another place without the mass. The new result applies to any massive particle, independent of its spin or charge. A gedanken experiment which illustrates this effect is presented using a nested pair of Mach-Zehnder interferometers, but with some of the mirrors and beam splitters moving relative to the laboratory frame. The analysis of this experiment using the counterparticle ontology of Aharonov et al. is also given. | 翻訳日:2024-01-22 17:19:35 公開日:2024-01-18 |
# 高品質・汎用句表現の学習 Learning High-Quality and General-Purpose Phrase Representations ( http://arxiv.org/abs/2401.10407v1 ) ライセンス: Link先を確認 | Lihu Chen and Ga\"el Varoquaux and Fabian M. Suchanek | (参考訳) フレーズ表現はデータサイエンスと自然言語処理において重要な役割を果たし、Entity Alignment、Record Linkage、Fuzzy Joins、Paraphrase Classificationといったさまざまなタスクの恩恵を受ける。
現在の最先端の手法では、コントラスト学習を用いたフレーズ埋め込みのための訓練済み言語モデルを微調整する。
しかし、我々は改善すべき領域を特定した。
まず、これらの事前訓練されたモデルは、必要以上に複雑であり、文脈文を持つコーパスで事前訓練する必要がある。
第2に、フレーズタイプとモルフォロジーを活用することで、より正確で柔軟なフレーズ表現が可能になる。
文脈のない方法で句表現を学ぶための改良フレームワークを提案する。
このフレームワークは、フレーズタイプ分類を補助タスクとして使用し、文字レベル情報をフレーズ表現に効果的に組み込む。
さらに,トレーニングサンプルの多様性を高めるために,データ拡張の3つの粒度を設計する。
幅広いタスクにわたる実験の結果,従来の手法と比較して,モデルサイズを小さくしながら,より優れたフレーズ埋め込みを生成できることがわかった。
コードは \faGithub~ \url{https://github.com/tigerchen52/PEARL} \end{abstract} で入手できる。 Phrase representations play an important role in data science and natural language processing, benefiting various tasks like Entity Alignment, Record Linkage, Fuzzy Joins, and Paraphrase Classification. The current state-of-the-art method involves fine-tuning pre-trained language models for phrasal embeddings using contrastive learning. However, we have identified areas for improvement. First, these pre-trained models tend to be unnecessarily complex and require to be pre-trained on a corpus with context sentences. Second, leveraging the phrase type and morphology gives phrase representations that are both more precise and more flexible. We propose an improved framework to learn phrase representations in a context-free fashion. The framework employs phrase type classification as an auxiliary task and incorporates character-level information more effectively into the phrase representation. Furthermore, we design three granularities of data augmentation to increase the diversity of training samples. Our experiments across a wide range of tasks show that our approach generates superior phrase embeddings compared to previous methods while requiring a smaller model size. The code is available at \faGithub~ \url{https://github.com/tigerchen52/PEARL} \end{abstract} | 翻訳日:2024-01-22 17:19:19 公開日:2024-01-18 |
# 異なるプライベートと敵対的ロバストな機械学習:経験的評価 Differentially Private and Adversarially Robust Machine Learning: An Empirical Evaluation ( http://arxiv.org/abs/2401.10405v1 ) ライセンス: Link先を確認 | Janvi Thakkar, Giulio Zizzo, Sergio Maffeis | (参考訳) 悪意のある敵は、機械学習モデルを攻撃して機密情報を推測したり、一連の回避攻撃を起動することでシステムを傷つけたりすることができる。
様々な作業はプライバシーとセキュリティの懸念に対処するが、個々の防御に焦点を当てるが、実際にはモデルが同時攻撃を受ける可能性がある。
本研究は,同時攻撃から守るために,敵対的訓練と異なる個人的訓練の組み合わせを検討する。
dp-advで示されているように、異なるプライベートな敵のトレーニングは、パフォーマンスにおいて他の最先端の方法よりも優れているが、正式なプライバシー保証や実証的な検証が欠けている。
そこで本研究では,この手法の性能をメンバシップ推論攻撃を用いてベンチマークし,その手法が非ロバストプライベートモデルと同じくらいプライベートであることを実証的に示す。
この作業は、動的トレーニングパラダイムにおけるプライバシー保証の探求の必要性も強調している。 Malicious adversaries can attack machine learning models to infer sensitive information or damage the system by launching a series of evasion attacks. Although various work addresses privacy and security concerns, they focus on individual defenses, but in practice, models may undergo simultaneous attacks. This study explores the combination of adversarial training and differentially private training to defend against simultaneous attacks. While differentially-private adversarial training, as presented in DP-Adv, outperforms the other state-of-the-art methods in performance, it lacks formal privacy guarantees and empirical validation. Thus, in this work, we benchmark the performance of this technique using a membership inference attack and empirically show that the resulting approach is as private as non-robust private models. This work also highlights the need to explore privacy guarantees in dynamic training paradigms. | 翻訳日:2024-01-22 17:19:01 公開日:2024-01-18 |
# 拡散によるインフレ : テキスト・ビデオ・スーパーリゾリューションの時間適応 Inflation with Diffusion: Efficient Temporal Adaptation for Text-to-Video Super-Resolution ( http://arxiv.org/abs/2401.10404v1 ) ライセンス: Link先を確認 | Xin Yuan, Jinoo Baek, Keyang Xu, Omer Tov, Hongliang Fei | (参考訳) 本稿では,画像拡散モデルの学習能力を活用し,映像生成のための空間情報を抽出する,効率的な拡散に基づくテキスト・ビデオ・スーパーレゾリューション(SR)チューニング手法を提案する。
この目的を達成するために,テキストから画像へのSRモデルの重み付けをビデオ生成フレームワークに拡張することで,効率的なアーキテクチャを設計する。
さらに,ビデオフレーム間の時間的コヒーレンスを確保するために,テンポラリアダプタを組み込んだ。
拡張アーキテクチャに基づく異なるチューニング手法について検討し,計算コストと超解像品質のトレードオフを報告する。
shutterstockビデオデータセットにおける定量的・質的評価は,映像品質と時間的一貫性を両立させたテキスト対ビデオsr生成が可能であることを実証する。
時間的コヒーレンスを評価するために、https://drive.google.com/drive/folders/1YVc-KMSJqOrEUdQWVaI-Yfu8Vsfu_1aO?
usp=共有。 We propose an efficient diffusion-based text-to-video super-resolution (SR) tuning approach that leverages the readily learned capacity of pixel level image diffusion model to capture spatial information for video generation. To accomplish this goal, we design an efficient architecture by inflating the weightings of the text-to-image SR model into our video generation framework. Additionally, we incorporate a temporal adapter to ensure temporal coherence across video frames. We investigate different tuning approaches based on our inflated architecture and report trade-offs between computational costs and super-resolution quality. Empirical evaluation, both quantitative and qualitative, on the Shutterstock video dataset, demonstrates that our approach is able to perform text-to-video SR generation with good visual quality and temporal consistency. To evaluate temporal coherence, we also present visualizations in video format in https://drive.google.com/drive/folders/1YVc-KMSJqOrEUdQWVaI-Yfu8Vsfu_1aO?usp=sharing . | 翻訳日:2024-01-22 17:18:46 公開日:2024-01-18 |
# siamese masked conditional variational autoencoderによる目に見えないビデオフレームの復元 Reconstructing the Invisible: Video Frame Restoration through Siamese Masked Conditional Variational Autoencoder ( http://arxiv.org/abs/2401.10402v1 ) ライセンス: Link先を確認 | Yongchen Zhou and Richard Jiang | (参考訳) コンピュータビジョンの分野では、特に自律運転や監視システムのようなアプリケーションにおいて、ビデオフレームに欠落した情報の復元は重要な課題である。
本稿では,視覚トランスフォーマに基づいて2つのエンコーダを持つシアムアーキテクチャを活用して,シアムのマスキング条件変分オートエンコーダ(siammcvae)を提案する。
この革新的な設計は、ペアフレーム間の内在的な類似性を捉えることによって、失われたコンテンツを理解できるモデルの能力を高める。
siammcvaeはマスクフレームの欠落した要素を巧みに再構築し、変動推論によってカメラの故障から生じる問題を効果的に解決する。
実験結果から,失った情報を復元する際のモデルの有効性が強く示され,コンピュータビジョンシステムのレジリエンスが向上した。
SiamMCVAEのSiamese Vision Transformer(SiamViT)エンコーダの導入は、コンピュータビジョンにおける現実の課題に対処し、動的環境における自律システムの適応性を強化するための有望な可能性を実証している。 In the domain of computer vision, the restoration of missing information in video frames is a critical challenge, particularly in applications such as autonomous driving and surveillance systems. This paper introduces the Siamese Masked Conditional Variational Autoencoder (SiamMCVAE), leveraging a siamese architecture with twin encoders based on vision transformers. This innovative design enhances the model's ability to comprehend lost content by capturing intrinsic similarities between paired frames. SiamMCVAE proficiently reconstructs missing elements in masked frames, effectively addressing issues arising from camera malfunctions through variational inferences. Experimental results robustly demonstrate the model's effectiveness in restoring missing information, thus enhancing the resilience of computer vision systems. The incorporation of Siamese Vision Transformer (SiamViT) encoders in SiamMCVAE exemplifies promising potential for addressing real-world challenges in computer vision, reinforcing the adaptability of autonomous systems in dynamic environments. | 翻訳日:2024-01-22 17:18:29 公開日:2024-01-18 |
# 脆弱性クラスに対するバイアスの分析と緩和:データセットのバランス表現に向けて Analyzing and Mitigating Bias for Vulnerable Classes: Towards Balanced Representation in Dataset ( http://arxiv.org/abs/2401.10397v1 ) ライセンス: Link先を確認 | Dewant Katare, David Solans Noguero, Souneil Park, Nicolas Kourtellis, Marijn Janssen, Aaron Yi Ding | (参考訳) 自動運転における認識システムの正確性と公平性は、特に脆弱な道路利用者にとって重要である。
主流研究は、分類精度向上のためのパフォーマンス指標の改善を検討した。
しかし、AIモデルにおけるバイアス継承の隠れた特徴、クラス不均衡、データセットにおける格差はしばしば見過ごされている。
本研究では,クラス分布分析,性能評価,バイアス影響評価に着目し,脆弱な道路利用者のクラス不均衡について検討する。
クラス表現における不均衡の懸念を認識し、検出精度の潜在的なバイアスをもたらす。
一般的なCNNモデルとヴィジュアルトランスフォーマー(ViT)をnuScenesデータセットで利用することにより,表現不足のクラスに対する検出の相違を明らかにする。
本稿では,データ拡張,再サンプリング,計量特化学習を含むモデル最適化とバイアス軽減手法を提案する。
提案手法を用いることで、CNNモデルでは、71.3から75.6までのIoU(%)とNDS(%)のメトリクスが改善され、80.6から83.7となる。
同様に、ViTでは、IoUとNDSのメトリクスがそれぞれ74.9から79.2に改善され、83.8から87.1に改善された。
この研究は、より信頼性の高いモデルとデータセットの開発に寄与し、マイノリティクラスの包括性を高めている。 The accuracy and fairness of perception systems in autonomous driving are crucial, particularly for vulnerable road users. Mainstream research has looked into improving the performance metrics for classification accuracy. However, the hidden traits of bias inheritance in the AI models, class imbalances and disparities in the datasets are often overlooked. In this context, our study examines the class imbalances for vulnerable road users by focusing on class distribution analysis, performance evaluation, and bias impact assessment. We identify the concern of imbalances in class representation, leading to potential biases in detection accuracy. Utilizing popular CNN models and Vision Transformers (ViTs) with the nuScenes dataset, our performance evaluation reveals detection disparities for underrepresented classes. We propose a methodology for model optimization and bias mitigation, which includes data augmentation, resampling, and metric-specific learning. Using the proposed mitigation approaches, we see improvement in IoU(%) and NDS(%) metrics from 71.3 to 75.6 and 80.6 to 83.7 respectively, for the CNN model. Similarly, for ViT, we observe improvement in IoU and NDS metrics from 74.9 to 79.2 and 83.8 to 87.1 respectively. This research contributes to developing more reliable models and datasets, enhancing inclusiveness for minority classes. | 翻訳日:2024-01-22 17:18:09 公開日:2024-01-18 |
# deep dict: ディープラーニングベースのiotデータ用時系列圧縮機 Deep Dict: Deep Learning-based Lossy Time Series Compressor for IoT Data ( http://arxiv.org/abs/2401.10396v1 ) ライセンス: Link先を確認 | Jinxin Liu, Petar Djukic, Michel Kulhandjian, Burak Kantarci | (参考訳) 本研究では,事前定義された範囲内で圧縮誤差を維持しつつ,高い圧縮率を達成するために設計された,ディープラーニングベースのロスリー時系列圧縮機であるdeep dictを提案する。
Deep DictにはBernolli Transformer Autoencoder(BTAE)と歪み制約という2つの重要なコンポーネントが含まれている。
btaeは時系列データからベルヌーイ表現を抽出し、従来のオートエンコーダに比べて表現のサイズを小さくする。
歪み制約は、BTAEの予測誤差を所望の範囲に制限する。
さらに,L1/L2のような共通回帰損失の限界に対処するために,量子エントロピー損失(QEL)と呼ばれる新しい損失関数を導入する。
QELは問題の特徴を考慮し、アウトレーヤへの堅牢性を強化し、最適化の課題を軽減する。
各種ドメインの10種類の時系列データセットを対象としたDeep Dictの評価では、Deep Dictは圧縮比で最先端の損失圧縮機よりも53.66%の差があることがわかった。 We propose Deep Dict, a deep learning-based lossy time series compressor designed to achieve a high compression ratio while maintaining decompression error within a predefined range. Deep Dict incorporates two essential components: the Bernoulli transformer autoencoder (BTAE) and a distortion constraint. BTAE extracts Bernoulli representations from time series data, reducing the size of the representations compared to conventional autoencoders. The distortion constraint limits the prediction error of BTAE to the desired range. Moreover, in order to address the limitations of common regression losses such as L1/L2, we introduce a novel loss function called quantized entropy loss (QEL). QEL takes into account the specific characteristics of the problem, enhancing robustness to outliers and alleviating optimization challenges. Our evaluation of Deep Dict across ten diverse time series datasets from various domains reveals that Deep Dict outperforms state-of-the-art lossy compressors in terms of compression ratio by a significant margin by up to 53.66%. | 翻訳日:2024-01-22 17:17:45 公開日:2024-01-18 |
# ケミカルモチベートされたシミュレーション問題は量子コンピュータで効率的に解ける Chemically Motivated Simulation Problems are Efficiently Solvable by a Quantum Computer ( http://arxiv.org/abs/2401.09268v2 ) ライセンス: Link先を確認 | Philipp Schleich, Lasse Bj{\o}rn Kristensen, Jorge A. Campos Gonzalez Angulo, Davide Avagliano, Mohsen Bagherimehrab, Abdulrahman Aldossary, Christoph Gorgulla, Joe Fitzsimons, and Al\'an Aspuru-Guzik | (参考訳) シミュレーションコストはシステムサイズとともに指数関数的に増加するため、化学系のシミュレーションは非常に困難である。
量子コンピュータはこのボトルネックを克服する計算方法として提案されている。
近年、ほとんどの研究は化学系の基底状態の決定に費やされている。
ハードネスの結果と、初期状態生成のための効率的なヒューリスティックの欠如は、実現可能性に疑問を呈する。
本稿では,化学シミュレーションの問題を解くための本質的に効率的な手法を提案する。
もし一連の仮定が満たされるならば、このアプローチは散乱木における力学シミュレーションのために初期状態を組み立てることで良い初期状態を見つける。
本稿では, 反応などの量子シミュレーションにより, 初期状態の合成後, 様々な化学物質の興味を評価できることについて議論する。 Simulating chemical systems is highly sought after and computationally challenging, as the simulation cost exponentially increases with the system size. Quantum computers have been proposed as a computational means to overcome this bottleneck. Most efforts recently have been spent on determining the ground states of chemical systems. Hardness results and the lack of efficient heuristics for initial-state generation sheds doubt on the feasibility. Here we propose an inherently efficient approach for solving chemical simulation problems, meaning it requires quantum circuits of size scaling polynomially in relevant system parameters. If a set of assumptions can be satisfied, our approach finds good initial states by assembling initial states for dynamical simulation in a scattering tree. We discuss a variety of quantities of chemical interest that can be measured based on quantum simulation, e.g. of a reaction, succeeding the initial state preparation. | 翻訳日:2024-01-22 12:30:08 公開日:2024-01-18 |
# hagrid - ハンドジェスチャ認識画像データセット HaGRID - HAnd Gesture Recognition Image Dataset ( http://arxiv.org/abs/2206.08219v2 ) ライセンス: Link先を確認 | Alexander Kapitanov, Karina Kvanchiani, Alexander Nagaev, Roman Kraynov, Andrei Makhliarchuk | (参考訳) 本稿では,HGRID(HAnd Gesture Recognition Image Dataset)という膨大なデータセットを導入し,ハンドジェスチャー認識(HGR)システムを構築する。
そのため、選ばれた18のジェスチャはすべて、セミオティックな機能を持ち、特定のアクションとして解釈できる。
ジェスチャーは静的だが、特にいくつかの動的ジェスチャーを設計する能力のために拾われた。
トレーニングされたモデルでは、"like"や"stop"といった静的なジェスチャーだけでなく、"swipes"や"drag and drop"といった動的ジェスチャーも認識できる。
HaGRIDには54,800の画像とジェスチャーラベル付きバウンディングボックスアノテーションが含まれている。
文脈および他のデータセットの主題における低変数は、そのような制限なしにデータセットを作成する理由である。
クラウドソーシングプラットフォームを利用することで,さまざまな自然光環境において,被写体からカメラまでの距離0.5mから4mのシーンで,37,583名の被験者が記録したサンプルを収集できる。
アブレーション実験では,多様性特性の影響について検討した。
また,HGRタスクの事前学習に使用するHaGRID機能を示す。
HaGRIDと事前訓練されたモデルは一般公開されている。 This paper introduces an enormous dataset, HaGRID (HAnd Gesture Recognition Image Dataset), to build a hand gesture recognition (HGR) system concentrating on interaction with devices to manage them. That is why all 18 chosen gestures are endowed with the semiotic function and can be interpreted as a specific action. Although the gestures are static, they were picked up, especially for the ability to design several dynamic gestures. It allows the trained model to recognize not only static gestures such as "like" and "stop" but also "swipes" and "drag and drop" dynamic gestures. The HaGRID contains 554,800 images and bounding box annotations with gesture labels to solve hand detection and gesture classification tasks. The low variability in context and subjects of other datasets was the reason for creating the dataset without such limitations. Utilizing crowdsourcing platforms allowed us to collect samples recorded by 37,583 subjects in at least as many scenes with subject-to-camera distances from 0.5 to 4 meters in various natural light conditions. The influence of the diversity characteristics was assessed in ablation study experiments. Also, we demonstrate the HaGRID ability to be used for pretraining models in HGR tasks. The HaGRID and pretrained models are publicly available. | 翻訳日:2024-01-19 21:15:50 公開日:2024-01-18 |
# プロシージャ、オブジェクト、アクター、コンポーネント、サービス、エージェントからエージェントへ -- プログラミング抽象化の歴史と進化の比較分析 From Procedures, Objects, Actors, Components, Services, to Agents -- A Comparative Analysis of the History and Evolution of Programming Abstractions ( http://arxiv.org/abs/2112.12508v4 ) ライセンス: Link先を確認 | Jean-Pierre Briot | (参考訳) この章の目的は、プログラミング抽象化の進化の振り返り分析を、 {\em procedure}, {\em actors}, {\em components}, {\em service} から {\em agent} まで、 % ソフトウェアコンポーネントとエージェント(およびマルチエージェントシステム)の概念を比較し、 % 選択した方法は、一般的な歴史的観点でそれらを置き換えることである。
3つの軸/次元を持つ一般的な参照式が選択される: 1つの実体のレベルでのアクション選択式、エンティティ間の結合柔軟性式、および、抽象レベル式。
実際に、より高い柔軟性を求める連続的な探求(例えば {\em late binding} や {\em connection} の {\em reification} など)とより高いレベルの {\em abstract} を観察することができる。
コンポーネント、サービス、エージェントの概念には共通の目的(特に、ソフトウェアモジュラリティと再構成可能性)があり、マルチエージェントシステムは、さらなる概念である「自動化」と「協調」を提起する。
特に「自己組織」の概念と「知識」の使用を通して。
この分析は、プログラミング抽象化の進歩を動機づける基本的な力のいくつかを強調し、将来のプログラミング抽象化の反映にいくつかの種を提供することを願っている。 The objective of this chapter is to propose some retrospective analysis of the evolution of programming abstractions, from {\em procedures}, {\em objects}, {\em actors}, {\em components}, {\em services}, up to {\em agents}, %have some compare concepts of software component and of agent (and multi-agent system), %The method chosen is to by replacing them within a general historical perspective. Some common referential with three axes/dimensions is chosen: {\em action selection} at the level of one entity, {\em coupling flexibility} between entities, and {\em abstraction level}. We indeed may observe some continuous quest for higher flexibility (through notions such as {\em late binding}, or {\em reification} of {\em connections}) and higher level of {\em abstraction}. Concepts of components, services and agents have some common objectives (notably, {\em software modularity and reconfigurability}), with multi-agent systems raising further concepts of {\em autonomy} and {\em coordination}. notably through the notion of {\em auto-organization} and the use of {\em knowledge}. We hope that this analysis helps at highlighting some of the basic forces motivating the progress of programming abstractions and therefore that it may provide some seeds for the reflection about future programming abstractions. | 翻訳日:2024-01-19 21:15:27 公開日:2024-01-18 |
# ベイズ階層回帰モデルに対する近似交叉平均推定 Approximate Cross-validated Mean Estimates for Bayesian Hierarchical Regression Models ( http://arxiv.org/abs/2011.14238v3 ) ライセンス: Link先を確認 | Amy X. Zhang, Le Bao, Changcheng Li, Michael J. Daniels | (参考訳) 本稿では,ベイズ階層回帰モデル(BHRM)のクロスバリデーション予測手法を提案する。
ベイズ階層モデルは、複雑な依存構造をモデル化し確率論的不確実性推定を提供する能力で人気があるが、実行には計算コストがかかる。
したがって、BHRMの予測性能を評価するためのクロスバリデーション(CV)は一般的ではない。
提案手法は,各クロスバリデーション・フォールドに対する計算コスト推定手法の再実行を回避し,大規模BHRMに対してCVをより実現可能にする。
差分共分散パラメータを条件に、CV問題を確率に基づくサンプリングから、単純で親しみやすい最適化問題にシフトする。
多くの場合、これは完全なCVに相当する見積もりを生成する。
理論的な結果を提供し,公開データやシミュレーションでの有効性を実証する。 We introduce a novel procedure for obtaining cross-validated predictive estimates for Bayesian hierarchical regression models (BHRMs). Bayesian hierarchical models are popular for their ability to model complex dependence structures and provide probabilistic uncertainty estimates, but can be computationally expensive to run. Cross-validation (CV) is therefore not a common practice to evaluate the predictive performance of BHRMs. Our method circumvents the need to re-run computationally costly estimation methods for each cross-validation fold and makes CV more feasible for large BHRMs. By conditioning on the variance-covariance parameters, we shift the CV problem from probability-based sampling to a simple and familiar optimization problem. In many cases, this produces estimates which are equivalent to full CV. We provide theoretical results and demonstrate its efficacy on publicly available data and in simulations. | 翻訳日:2024-01-19 21:14:43 公開日:2024-01-18 |
# 有効外乱スーパービジョン生成のためのフリーランチ Free Lunch for Generating Effective Outlier Supervision ( http://arxiv.org/abs/2301.06657v2 ) ライセンス: Link先を確認 | Sen Pei, Jiaxi Sun, Richard Yi Da Xu, Bin Fan, Shiming Xiang, and Gaofeng Meng | (参考訳) 実用的なアプリケーションでデプロイされると、コンピュータビジョンシステムは多数の予期せぬイメージに遭遇する("\emph{{i.e.}}, out-of-distribution data")。
安全性のリスクが高まる可能性があるため、前述の未確認データは慎重に識別され、処理されるべきである。
一般に、OODの特徴と分類器が抽出したIDデータとの統計的差異に主に焦点をあてて、OODのアウト・オブ・ディストリビューション(OOD)検出に対処する既存のアプローチである。
これらのスキームの多くは、オープンセット画像を処理する際の偽陽性率(FPR)を減少させるなど、大幅な性能向上をもたらしたが、信頼性のある理論的解析や一般化保証は欠如している。
そこで,本研究では,ベイズ則に基づくood検出問題を調査し,従来の分類器が遭遇する故障の原因について説得力のある説明を行う。
具体的には,バニラニューラルネットワークが生み出す確率分布の精製がOOD検出に必要であり,OODデータに高い信頼度を割り当てるという問題を緩和する。
これを実現するために, ほぼ現実的な外部監視を実現するための超効率的な手法を提案する。
大規模なベンチマーク実験により,提案した「texttt{BayesAug}」は,従来の手法に比べてFPR95を12.50倍以上削減し,機械学習システムの信頼性を高めた。
コードは公開される予定だ。 When deployed in practical applications, computer vision systems will encounter numerous unexpected images (\emph{{i.e.}}, out-of-distribution data). Due to the potentially raised safety risks, these aforementioned unseen data should be carefully identified and handled. Generally, existing approaches in dealing with out-of-distribution (OOD) detection mainly focus on the statistical difference between the features of OOD and in-distribution (ID) data extracted by the classifiers. Although many of these schemes have brought considerable performance improvements, reducing the false positive rate (FPR) when processing open-set images, they necessarily lack reliable theoretical analysis and generalization guarantees. Unlike the observed ways, in this paper, we investigate the OOD detection problem based on the Bayes rule and present a convincing description of the reason for failures encountered by conventional classifiers. Concretely, our analysis reveals that refining the probability distribution yielded by the vanilla neural networks is necessary for OOD detection, alleviating the issues of assigning high confidence to OOD data. To achieve this effortlessly, we propose an ultra-effective method to generate near-realistic outlier supervision. Extensive experiments on large-scale benchmarks reveal that our proposed \texttt{BayesAug} significantly reduces the FPR95 over 12.50\% compared with the previous schemes, boosting the reliability of machine learning systems. The code will be made publicly available. | 翻訳日:2024-01-19 21:11:02 公開日:2024-01-18 |
# 偏見の増大は重量の増加よりも効率的である Increasing biases can be more efficient than increasing weights ( http://arxiv.org/abs/2301.00924v3 ) ライセンス: Link先を確認 | Carlo Metta, Marco Fantozzi, Andrea Papini, Gianluca Amato, Matteo Bergamaschi, Silvia Giulia Galfr\`e, Alessandro Marchetti, Michelangelo Vegli\`o, Maurizio Parton, Francesco Morandin | (参考訳) 複数のバイアスを特徴とするニューラルネットワークのための新しい計算ユニットを導入し、従来のパーセプトロン構造に挑戦する。
このユニットは、あるユニットから次のユニットに渡されるときに、非破壊的な情報を保存することの重要性を強調し、各ユニットに特別なバイアスがあるプロセスにおいて、活性化関数を適用する。
実験的および理論的分析により,重みよりもバイアスの増加に注目することで,ニューラルネットワークモデルの性能が著しく向上する可能性が示唆された。
このアプローチは、ニューラルネットワーク内の情報フローを最適化する別の視点を提供する。
ソースコードはhttps://github.com/curiosai/dac-devを参照。 We introduce a novel computational unit for neural networks that features multiple biases, challenging the traditional perceptron structure. This unit emphasizes the importance of preserving uncorrupted information as it is passed from one unit to the next, applying activation functions later in the process with specialized biases for each unit. Through both empirical and theoretical analyses, we show that by focusing on increasing biases rather than weights, there is potential for significant enhancement in a neural network model's performance. This approach offers an alternative perspective on optimizing information flow within neural networks. See source code at https://github.com/CuriosAI/dac-dev. | 翻訳日:2024-01-19 21:09:56 公開日:2024-01-18 |
# ディープラーニングを用いた骨格ビデオ異常検出:調査,課題,今後の方向性 Skeletal Video Anomaly Detection using Deep Learning: Survey, Challenges and Future Directions ( http://arxiv.org/abs/2301.00114v4 ) ライセンス: Link先を確認 | Pratik K. Mishra, Alex Mihailidis, Shehroz S. Khan | (参考訳) 既存のビデオ異常検出法では、顔の特徴と外見に基づく特徴を識別するビデオがほとんどである。
顔が特定可能なビデオを使うことは、特に病院やコミュニティベースの環境で使用される場合、プライバシーの懸念を生じさせる。
外観に基づく機能はピクセルベースのノイズにも敏感であり、背景の変化をモデル化するために異常検出手法を歪め、前景での人間の行動に焦点を合わせることが困難になる。
ビデオの中の人間の動きを記述する骨格の構造情報はプライバシー保護であり、外見に基づく特徴によって引き起こされる問題を克服することができる。
本稿では,ビデオから抽出したスケルトンを用いたプライバシー保護型ディープラーニング異常検出手法について検討する。
様々な学習手法に基づくアルゴリズムの新しい分類法を提案する。
我々は,異常検出のためのスケルトンベースのアプローチは,ビデオ異常検出のプライバシ保護の選択肢になり得ると結論づける。
最後に、主要なオープンな研究課題を特定し、それらに取り組むためのガイドラインを提供する。 The existing methods for video anomaly detection mostly utilize videos containing identifiable facial and appearance-based features. The use of videos with identifiable faces raises privacy concerns, especially when used in a hospital or community-based setting. Appearance-based features can also be sensitive to pixel-based noise, straining the anomaly detection methods to model the changes in the background and making it difficult to focus on the actions of humans in the foreground. Structural information in the form of skeletons describing the human motion in the videos is privacy-protecting and can overcome some of the problems posed by appearance-based features. In this paper, we present a survey of privacy-protecting deep learning anomaly detection methods using skeletons extracted from videos. We present a novel taxonomy of algorithms based on the various learning approaches. We conclude that skeleton-based approaches for anomaly detection can be a plausible privacy-protecting alternative for video anomaly detection. Lastly, we identify major open research questions and provide guidelines to address them. | 翻訳日:2024-01-19 21:09:46 公開日:2024-01-18 |
# 分散カーネルによる変化区間の検出 Detecting Change Intervals with Isolation Distributional Kernel ( http://arxiv.org/abs/2212.14630v3 ) ライセンス: Link先を確認 | Yang Cao, Ye Zhu, Kai Ming Ting, Flora D. Salim, Hong Xian Li, Luxing Yang, Gang Li | (参考訳) データ分散の急激な変化を検出することは、ストリーミングデータ分析において最も重要なタスクの1つです。
多くの教師なし変更点検出(CPD)手法が近年提案されているが、それでも微妙な変更の欠如、スケーラビリティの低下、および/または異常値に対する感受性に悩まされている。
これらの課題を克服するため,我々はcpd問題をcid(change-interval detection)問題の特別な場合として一般化した。
次に,最近のアイソレーション分散カーネル(IDK)に基づいて,iCIDと呼ばれるCID手法を提案する。
iCIDは、2つの非同次時間隣接間隔の間に高い相同性スコアがある場合、変化間隔を識別する。
データ依存特性とIDKの有限特徴マップにより、iCIDはデータストリーム内の様々なタイプの変更点を、アウトリージの許容範囲で効率的に識別できる。
さらに、提案されているオンラインおよびオフラインバージョンのicidには、キーパラメータの設定を最適化する機能がある。
iCIDの有効性と効率は、合成データセットと実世界のデータセットの両方で体系的に検証されている。 Detecting abrupt changes in data distribution is one of the most significant tasks in streaming data analysis. Although many unsupervised Change-Point Detection (CPD) methods have been proposed recently to identify those changes, they still suffer from missing subtle changes, poor scalability, or/and sensitivity to outliers. To meet these challenges, we are the first to generalise the CPD problem as a special case of the Change-Interval Detection (CID) problem. Then we propose a CID method, named iCID, based on a recent Isolation Distributional Kernel (IDK). iCID identifies the change interval if there is a high dissimilarity score between two non-homogeneous temporal adjacent intervals. The data-dependent property and finite feature map of IDK enabled iCID to efficiently identify various types of change-points in data streams with the tolerance of outliers. Moreover, the proposed online and offline versions of iCID have the ability to optimise key parameter settings. The effectiveness and efficiency of iCID have been systematically verified on both synthetic and real-world datasets. | 翻訳日:2024-01-19 21:09:06 公開日:2024-01-18 |
# データ中心人工知能 Data-Centric Artificial Intelligence ( http://arxiv.org/abs/2212.11854v4 ) ライセンス: Link先を確認 | Johannes Jakubik, Michael V\"ossing, Niklas K\"uhl, Jannis Walk, Gerhard Satzger | (参考訳) データ中心の人工知能(データ中心のAI)は、効率的で効率的なAIベースのシステムを構築する上で、データの体系的な設計とエンジニアリングが不可欠であることを強調する新しいパラダイムである。
本論文の目的は,情報システム(IS)分野の実践者や研究者をデータ中心型AIに導入することである。
関連する用語を定義し、データ中心のパラダイムとモデル中心のパラダイムを対比するための重要な特徴を提供し、データ中心のAIのためのフレームワークを導入します。
我々は、データ中心AIと関連する概念を区別し、ISコミュニティへの長期的な影響について議論する。 Data-centric artificial intelligence (data-centric AI) represents an emerging paradigm emphasizing that the systematic design and engineering of data is essential for building effective and efficient AI-based systems. The objective of this article is to introduce practitioners and researchers from the field of Information Systems (IS) to data-centric AI. We define relevant terms, provide key characteristics to contrast the data-centric paradigm to the model-centric one, and introduce a framework for data-centric AI. We distinguish data-centric AI from related concepts and discuss its longer-term implications for the IS community. | 翻訳日:2024-01-19 21:08:43 公開日:2024-01-18 |
# SUCRe:水中色復元のためのレバレッジなシーン構造 SUCRe: Leveraging Scene Structure for Underwater Color Restoration ( http://arxiv.org/abs/2212.09129v3 ) ライセンス: Link先を確認 | Cl\'ementin Boittiaux, Ricard Marxer, Claire Dune, Aur\'elien Arnaubec, Maxime Ferrera, Vincent Hugel | (参考訳) 光センサに到達する前に光が通過する媒体の物理的特性によって水中画像が変化する。
散乱と波長依存吸収は、観測された元素と画像平面の距離によって、捕獲された色を大きく変化させる。
本稿では,水が光伝搬に影響を与えないようなシーンのイメージを復元することを目的としている。
本研究では,シーンの3次元構造を利用した水中色復元手法であるSUCReを紹介する。
複数の画像の点を追従し、センサと異なる距離でその強度を追跡することにより、水中画像形成モデルにおけるパラメータの最適化を制約し、無減衰画素強度を取得する。
実際のシナリオから得られた3つの水中データセットと1つの合成データセットを用いて,自然光から深海環境まで,様々なシナリオにおいて,我々のアプローチを広範囲に定量的・定性的に分析する。
また,提案手法の性能と既存手法との比較を行った。
結果は、客観的な指標の範囲で複数のビューを利用するという一貫した利点を示している。
私たちのコードはhttps://github.com/clementinboittiaux/sucre.comで公開されています。 Underwater images are altered by the physical characteristics of the medium through which light rays pass before reaching the optical sensor. Scattering and wavelength-dependent absorption significantly modify the captured colors depending on the distance of observed elements to the image plane. In this paper, we aim to recover an image of the scene as if the water had no effect on light propagation. We introduce SUCRe, a novel method that exploits the scene's 3D structure for underwater color restoration. By following points in multiple images and tracking their intensities at different distances to the sensor, we constrain the optimization of the parameters in an underwater image formation model and retrieve unattenuated pixel intensities. We conduct extensive quantitative and qualitative analyses of our approach in a variety of scenarios ranging from natural light to deep-sea environments using three underwater datasets acquired from real-world scenarios and one synthetic dataset. We also compare the performance of the proposed approach with that of a wide range of existing state-of-the-art methods. The results demonstrate a consistent benefit of exploiting multiple views across a spectrum of objective metrics. Our code is publicly available at https://github.com/clementinboittiaux/sucre. | 翻訳日:2024-01-19 21:08:24 公開日:2024-01-18 |
# 分布シフト下におけるマルチモーダル画像テキストモデルのベンチマークロバスト性 Benchmarking Robustness of Multimodal Image-Text Models under Distribution Shift ( http://arxiv.org/abs/2212.08044v2 ) ライセンス: Link先を確認 | Jielin Qiu, Yi Zhu, Xingjian Shi, Florian Wenzel, Zhiqiang Tang, Ding Zhao, Bo Li, Mu Li | (参考訳) マルチモーダル画像テキストモデルはここ数年で顕著な性能を示した。
しかし、現実のアプリケーションでそれを採用する前に、分散シフトに対する堅牢性を評価することが重要である。
本研究では,5つのタスク(画像-テキスト検索,視覚推論,視覚関連,画像キャプション,テキスト-画像生成)の共通摂動下で,人気のある12種類の画像テキストモデルのロバスト性について検討する。
特に,既存のデータセット上に17のイメージ摂動と16のテキスト摂動技術を適用し,新しいマルチモーダルロバストネスベンチマークを提案する。
マルチモーダルモデルは,画像やテキストの摂動,特に画像の摂動に対して頑健ではない。
検討した摂動法のうち,文字レベルの摂動はテキストの分布変化の最も重く,ズームボケは画像データに対する最も重度なシフトである。
また、マルチモーダルモデルの適切な評価のための2つの新しいロバストネス指標(マルチモーダルインパクトスコアは\textbf{MMI}、ミスオブジェクトレートは \textbf{MOR})も導入する。
広範な研究により、ロバストなマルチモーダルモデルの開発に向けた新しい方向が明らかになることを願っています。
詳細はプロジェクトのwebページにある。 Multimodal image-text models have shown remarkable performance in the past few years. However, evaluating robustness against distribution shifts is crucial before adopting them in real-world applications. In this work, we investigate the robustness of 12 popular open-sourced image-text models under common perturbations on five tasks (image-text retrieval, visual reasoning, visual entailment, image captioning, and text-to-image generation). In particular, we propose several new multimodal robustness benchmarks by applying 17 image perturbation and 16 text perturbation techniques on top of existing datasets. We observe that multimodal models are not robust to image and text perturbations, especially to image perturbations. Among the tested perturbation methods, character-level perturbations constitute the most severe distribution shift for text, and zoom blur is the most severe shift for image data. We also introduce two new robustness metrics (\textbf{MMI} for MultiModal Impact score and \textbf{MOR} for Missing Object Rate) for proper evaluations of multimodal models. We hope our extensive study sheds light on new directions for the development of robust multimodal models. More details can be found on the project webpage: \url{https://MMRobustness.github.io}. | 翻訳日:2024-01-19 21:07:31 公開日:2024-01-18 |
# 不均衡半教師付き学習のための恥ずかしいほど単純なベースライン An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2211.11086v2 ) ライセンス: Link先を確認 | Hao Chen, Yue Fan, Yidong Wang, Jindong Wang, Bernt Schiele, Xing Xie, Marios Savvides, Bhiksha Raj | (参考訳) 半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
標準SSLは均一なデータ分散を前提としていますが、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定を考えます。
この課題に取り組むための取り組みは存在するが、クラスの不均衡を十分に効果的に減らすことができないため、深刻な不均衡に直面した際にパフォーマンスが低下する。
本稿では,ラベル付きデータを擬似ラベルで単純に補足することで,データ不均衡に対処する単純なベースラインであるSimiSについて,最も頻繁なクラスからのクラス分布の違いに応じて検討する。
このような単純なベースラインは、クラス不均衡を減らすのに非常に効果的であることが判明した。
CIFAR100-LT、FOOD101-LT、ImageNet127では、従来のSOTAよりも12.8%、13.6%、16.7%の差で、既存の手法よりも優れている。
不均衡の低減は、SimiSのより高速な収束と擬似ラベル精度の向上をもたらす。
また,本手法の単純さにより,他の再分散手法と組み合わせることで,さらなる性能向上を図ることができる。
さらに,本手法は,実際に大きな可能性を秘めている幅広いデータ分布に対して,非常に堅牢性を示す。
コードは公開されます。 Semi-supervised learning (SSL) has shown great promise in leveraging unlabeled data to improve model performance. While standard SSL assumes uniform data distribution, we consider a more realistic and challenging setting called imbalanced SSL, where imbalanced class distributions occur in both labeled and unlabeled data. Although there are existing endeavors to tackle this challenge, their performance degenerates when facing severe imbalance since they can not reduce the class imbalance sufficiently and effectively. In this paper, we study a simple yet overlooked baseline -- SimiS -- which tackles data imbalance by simply supplementing labeled data with pseudo-labels, according to the difference in class distribution from the most frequent class. Such a simple baseline turns out to be highly effective in reducing class imbalance. It outperforms existing methods by a significant margin, e.g., 12.8%, 13.6%, and 16.7% over previous SOTA on CIFAR100-LT, FOOD101-LT, and ImageNet127 respectively. The reduced imbalance results in faster convergence and better pseudo-label accuracy of SimiS. The simplicity of our method also makes it possible to be combined with other re-balancing techniques to improve the performance further. Moreover, our method shows great robustness to a wide range of data distributions, which holds enormous potential in practice. Code will be publicly available. | 翻訳日:2024-01-19 21:07:08 公開日:2024-01-18 |
# 言語制御の拡散:空間、時間、タスクを効率的にスケーリングする Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks ( http://arxiv.org/abs/2210.15629v3 ) ライセンス: Link先を確認 | Edwin Zhang, Yujie Lu, William Wang, Amy Zhang | (参考訳) 一般エージェントの訓練は、高次元入力(空間)、長い地平線(時間)、新しいタスクへの一般化を必要とする複数の軸で困難である。
アーキテクチャの最近の進歩により、これらの軸の1つまたは2つに沿ってスケーリングが改善されたが、それでも計算上は使用が禁止されている。
本稿では,言語条件付き階層型プランナー (lcd) として \textbf{l}anguage から \textbf{c}ontrol \textbf{d}iffusion モデルを用いることにより,これら3つの軸すべてに対処することを提案する。
我々は,自然言語命令に基づく長方形制御問題に取り組むために,時間的,状態的,タスク的次元の計画のための拡散モデルを効果的かつ効率的に拡張する。
CALVIN言語ロボティクスベンチマークの他の最先端モデルと比較すると、LCDは他のSOTA法をマルチタスクの成功率で上回り、他の同等の拡散モデルよりも3.3x~15倍の推論速度が向上している。
低レベルの細部や制御の弱点に対処しながら, 拡散モデルの独特な強度を利用してコヒーレントな長距離計画を作成することができることを示す。 Training generalist agents is difficult across several axes, requiring us to deal with high-dimensional inputs (space), long horizons (time), and generalization to novel tasks. Recent advances with architectures have allowed for improved scaling along one or two of these axes, but are still computationally prohibitive to use. In this paper, we propose to address all three axes by leveraging \textbf{L}anguage to \textbf{C}ontrol \textbf{D}iffusion models as a hierarchical planner conditioned on language (LCD). We effectively and efficiently scale diffusion models for planning in extended temporal, state, and task dimensions to tackle long horizon control problems conditioned on natural language instructions, as a step towards generalist agents. Comparing LCD with other state-of-the-art models on the CALVIN language robotics benchmark finds that LCD outperforms other SOTA methods in multi-task success rates, whilst improving inference speed over other comparable diffusion models by 3.3x~15x. We show that LCD can successfully leverage the unique strength of diffusion models to produce coherent long range plans while addressing their weakness in generating low-level details and control. | 翻訳日:2024-01-19 21:06:44 公開日:2024-01-18 |
# Kirkwood-Dirac 古典的な純粋状態 Kirkwood-Dirac classical pure states ( http://arxiv.org/abs/2210.02876v2 ) ライセンス: Link先を確認 | Jianwei Xu | (参考訳) kirkwood-dirac (kd) 分布は量子状態の表現である。
近年、KD分布は量子力学、量子カオス、量子理論の基礎など多くのシナリオで採用されている。
KD分布は準確率分布であり、負または非実の要素は特定のタスクにおける量子上の利点を示す。
量子状態は kd 分布が確率分布であるときに kd 古典 (kd classical) と呼ばれる。
ほとんどの量子情報処理は純粋状態を理想的な資源として使用するため、量子純粋状態がkd古典であるかどうかを決定することが鍵となる。
本稿では,kd古典的純粋状態の一般構造に関するいくつかの特徴について述べる。
この結果の応用として、De Bi\`{e}vre [Phys. Rev. Lett. 127, 190404 (2021)] によって提起された予想を証明し、離散フーリエ変換のためのすべてのKD古典的純粋状態を求める。 Kirkwood-Dirac (KD) distribution is a representation of quantum states. Recently, KD distribution has been employed in many scenarios such as quantum metrology, quantum chaos and foundations of quantum theory. KD distribution is a quasiprobability distribution, and negative or nonreal elements may signify quantum advantages in certain tasks. A quantum state is called KD classical if its KD distribution is a probability distribution. Since most quantum information processings use pure states as ideal resources, then a key problem is to determine whether a quantum pure state is KD classical. In this paper, we provide some characterizations for the general structure of KD classical pure states. As an application of our results, we prove a conjecture raised by De Bi\`{e}vre [Phys. Rev. Lett. 127, 190404 (2021)] which finds out all KD classical pure states for discrete Fourier transformation. | 翻訳日:2024-01-19 21:06:21 公開日:2024-01-18 |
# 入力のない量子非局所性の最小例に向けて Towards a minimal example of quantum nonlocality without inputs ( http://arxiv.org/abs/2207.08532v2 ) ライセンス: Link先を確認 | Sadra Boreiri, Antoine Girardin, Bora Ulu, Patryk Lypka-Bartosik, Nicolas Brunner, Pavel Sekatski | (参考訳) ネットワークシナリオは、量子非局所性現象に関する興味深い新しい視点を提供する。
特に、独立したソースを持つネットワークを考えると、測定入力を必要とせずに量子非局所性を示すことが可能である。
ここでは、この効果の最小限の例を見つけることを目的とする。
トライアングルネットワークの最小の場合に焦点を当て,出力基数3-3-3$および3-3-2$の例を示す。
最後に、二項出力を持つ三角形ネットワークにおける量子非局所性の例を見つける可能性について議論し、ロバスツ局所補題への接続を指摘する。 The network scenario offers interesting new perspectives on the phenomenon of quantum nonlocality. Notably, when considering networks with independent sources, it is possible to demonstrate quantum nonlocality without the need for measurements inputs, i.e. with all parties performing a fixed quantum measurement. Here we aim to find minimal examples of this effect. Focusing on the minimal case of the triangle network, we present examples involving output cardinalities of $3-3-3$ and $3-3-2$. Finally, we discuss the prospects of finding an example of quantum nonlocality in the triangle network with binary outputs, and point out a connection to the Lovasz local lemma. | 翻訳日:2024-01-19 21:05:43 公開日:2024-01-18 |
# 重回帰学習による軽量超解法を目指して Towards Lightweight Super-Resolution with Dual Regression Learning ( http://arxiv.org/abs/2207.07929v4 ) ライセンス: Link先を確認 | Yong Guo, Jingdong Wang, Qi Chen, Jiezhang Cao, Zeshuai Deng, Yanwu Xu, Jian Chen, Mingkui Tan | (参考訳) ディープニューラルネットワークは、低解像度(LR)画像から高解像度(HR)画像へのマッピングを学習することで、画像超解像(SR)タスクにおいて顕著なパフォーマンスを示した。
しかし、sr問題は通常不適切な問題であり、既存の方法にはいくつかの制限がある。
第一に、SRのマッピング空間は、同じLR画像から超解ける多くの異なるHR画像が存在するため、非常に大きい可能性がある。
その結果、このような大きな空間から有望なsrマッピングを直接学習することは困難である。
第二に、非常に高い計算コストで非常に大きなモデルを開発することは、しばしば避けられない。
実際、モデルの冗長性を減らしてコンパクトなモデルを得るためにモデル圧縮技術を用いることができる。
しかし、既存のモデル圧縮手法では、非常に大きなSRマッピング空間のため、冗長なコンポーネントを正確に識別することは困難である。
最初の課題を解決するために、SRマッピングの可能な空間を減らすための二重回帰学習方式を提案する。
具体的には、LR画像からHR画像へのマッピングに加えて、ダウンサンプリングカーネルを推定し、LR画像を再構成するための2重回帰マッピングについても学習する。
このように、双対写像は可能な写像の空間を減らすための制約として作用する。
第2の課題に対処すべく,チャネルプルーニングに基づく層レベルとチャネルレベルでのモデル冗長性を低減する2重回帰圧縮(drc)手法を提案する。
具体的には,まず2重回帰損失を最小化し,各層の冗長性を決定するチャネル数探索法を開発した。
探索されたチャネル数を考えると、さらに2重回帰法を利用してチャネルの重要性を評価し、冗長なチャネルをプルーンする。
広範な実験により,本手法がsrモデルの有効性を示す。 Deep neural networks have exhibited remarkable performance in image super-resolution (SR) tasks by learning a mapping from low-resolution (LR) images to high-resolution (HR) images. However, the SR problem is typically an ill-posed problem and existing methods would come with several limitations. First, the possible mapping space of SR can be extremely large since there may exist many different HR images that can be super-resolved from the same LR image. As a result, it is hard to directly learn a promising SR mapping from such a large space. Second, it is often inevitable to develop very large models with extremely high computational cost to yield promising SR performance. In practice, one can use model compression techniques to obtain compact models by reducing model redundancy. Nevertheless, it is hard for existing model compression methods to accurately identify the redundant components due to the extremely large SR mapping space. To alleviate the first challenge, we propose a dual regression learning scheme to reduce the space of possible SR mappings. Specifically, in addition to the mapping from LR to HR images, we learn an additional dual regression mapping to estimate the downsampling kernel and reconstruct LR images. In this way, the dual mapping acts as a constraint to reduce the space of possible mappings. To address the second challenge, we propose a dual regression compression (DRC) method to reduce model redundancy in both layer-level and channel-level based on channel pruning. Specifically, we first develop a channel number search method that minimizes the dual regression loss to determine the redundancy of each layer. Given the searched channel numbers, we further exploit the dual regression manner to evaluate the importance of channels and prune the redundant ones. Extensive experiments show the effectiveness of our method in obtaining accurate and efficient SR models. | 翻訳日:2024-01-19 21:05:24 公開日:2024-01-18 |
# 幾何学的視覚における総合的最適コンセンサス最大化の促進 Accelerating Globally Optimal Consensus Maximization in Geometric Vision ( http://arxiv.org/abs/2304.05156v3 ) ライセンス: Link先を確認 | Xinyue Zhang, Liangzu Peng, Wanting Xu, Laurent Kneip | (参考訳) ブランチ・アンド・バウンドベースのコンセンサス最大化は、異常な幾何学的問題に対するグローバル最適解を検索する重要な能力のために際立っている。
しかし、そのような解の発見は科学的価値を損なうが、実際のシナリオにおけるその応用は、目の前の問題の次元の関数として指数関数的に増加する計算複雑性によってしばしば禁止される。
本研究では,n次元問題に対してn-1次元空間上の分岐を可能にする,新しい一般手法を提案する。
残余自由度は、効率的な間隔スタビング手法を適用して、各境界計算内でグローバルに解くことができる。
個々の境界導出は、ソート問題を解決する追加の必要により計算が困難であるが、実際の間隔の削減とより厳密な境界は、必要なイテレーションの総数を大幅に減少させる。
このアプローチの抽象的導入の他に,4つの基本的な幾何学的コンピュータビジョン問題(カメラの切除,相対カメラのポーズ推定,ポイントセットの登録,回転と焦点距離推定)に適用する。
網羅的なテストを通じて、2桁を超える場合の大幅なスピードアップを実証し、オンラインアプリケーションシナリオにおけるグローバルな最適コンセンサス最大化の実現可能性を高める。 Branch-and-bound-based consensus maximization stands out due to its important ability of retrieving the globally optimal solution to outlier-affected geometric problems. However, while the discovery of such solutions caries high scientific value, its application in practical scenarios is often prohibited by its computational complexity growing exponentially as a function of the dimensionality of the problem at hand. In this work, we convey a novel, general technique that allows us to branch over an n-1 dimensional space for an n-dimensional problem. The remaining degree of freedom can be solved globally optimally within each bound calculation by applying the efficient interval stabbing technique. While each individual bound derivation is harder to compute owing to the additional need for solving a sorting problem, the reduced number of intervals and tighter bounds in practice lead to a significant reduction in the overall number of required iterations. Besides an abstract introduction of the approach, we present applications to four fundamental geometric computer vision problems: camera resectioning, relative camera pose estimation, point set registration, and rotation and focal length estimation. Through our exhaustive tests, we demonstrate significant speed-up factors at times exceeding two orders of magnitude, thereby increasing the viability of globally optimal consensus maximizers in online application scenarios. | 翻訳日:2024-01-19 20:58:22 公開日:2024-01-18 |
# 個人差分学習におけるユーティリティ損失の軽減について:幾何学的カーネルアプローチによる新しい視点 On Mitigating the Utility-Loss in Differentially Private Learning: A new Perspective by a Geometrically Inspired Kernel Approach ( http://arxiv.org/abs/2304.01300v3 ) ライセンス: Link先を確認 | Mohit Kumar, Bernhard A. Moser, Lukas Fischer | (参考訳) プライバシとユーティリティのトレードオフは、差分プライベート機械学習の基本的な問題のひとつとして残っている。
本稿では,幾何学的インスパイアされたカーネルに基づく分類の精度低下を緩和する手法を提案する。
このアプローチでは、与えられたデータポイントのアフィン殻の表現が、Reproduction Kernel Hilbert Spaces (RKHS) で学習される。
これにより、個々のデータポイントに関するプライバシーに敏感な情報を隠蔽し、メンバシップ推論攻撃のリスクを大幅に低減することで、プライバシとユーティリティのトレードオフを改善する新しい距離尺度が導かれる。
このアプローチの有効性は、MNISTデータセット、フライブルク食料品データセット、本物のバイオメディカルデータセットの実験を通じて実証される。
このアプローチが計算上実用的であることは確認されている。
フェデレーション学習へのアプローチの適用を考察し,分散データによる精度損失は限界値か,あるいはそれほど高くないことが観察された。 Privacy-utility tradeoff remains as one of the fundamental issues of differentially private machine learning. This paper introduces a geometrically inspired kernel-based approach to mitigate the accuracy-loss issue in classification. In this approach, a representation of the affine hull of given data points is learned in Reproducing Kernel Hilbert Spaces (RKHS). This leads to a novel distance measure that hides privacy-sensitive information about individual data points and improves the privacy-utility tradeoff via significantly reducing the risk of membership inference attacks. The effectiveness of the approach is demonstrated through experiments on MNIST dataset, Freiburg groceries dataset, and a real biomedical dataset. It is verified that the approach remains computationally practical. The application of the approach to federated learning is considered and it is observed that the accuracy-loss due to data being distributed is either marginal or not significantly high. | 翻訳日:2024-01-19 20:57:33 公開日:2024-01-18 |
# 情報回復駆動型深層不完全なマルチビュークラスタリングネットワーク Information Recovery-Driven Deep Incomplete Multiview Clustering Network ( http://arxiv.org/abs/2304.00429v5 ) ライセンス: Link先を確認 | Chengliang Liu, Jie Wen, Zhihao Wu, Xiaoling Luo, Chao Huang, Yong Xu | (参考訳) 不完全なマルチビュークラスタリングはホットで新興のトピックである。
避けられないデータ不完全性が多視点データの有効情報を著しく弱めることはよく知られている。
これまで、既存の不完全なマルチビュークラスタリング手法は、通常、未使用のビューを、事前の欠落情報に従ってバイパスする。
不足した情報を回復しようとする他の方法は、主に特定の2ビューデータセットに適用できる。
本稿では,これらの問題に対処するために,recformerと呼ばれる,情報回復駆動型ディープ不完全マルチビュークラスタリングネットワークを提案する。
具体的には、複数のビューの高レベルなセマンティック表現を同期的に抽出し、欠落したデータを復元するために、自己アテンション構造を持つ2段階のオートエンコーダネットワークを構築する。
さらに,復元されたビューを巧みに活用し,表現学習とさらなるデータ再構成を促進するリカレントグラフ再構成機構を開発した。
回復結果の可視化を行い、十分な実験結果から、RecFormerは他のトップメソッドよりも明らかな利点があることが確認されます。 Incomplete multi-view clustering is a hot and emerging topic. It is well known that unavoidable data incompleteness greatly weakens the effective information of multi-view data. To date, existing incomplete multi-view clustering methods usually bypass unavailable views according to prior missing information, which is considered as a second-best scheme based on evasion. Other methods that attempt to recover missing information are mostly applicable to specific two-view datasets. To handle these problems, in this paper, we propose an information recovery-driven deep incomplete multi-view clustering network, termed as RecFormer. Concretely, a two-stage autoencoder network with the self-attention structure is built to synchronously extract high-level semantic representations of multiple views and recover the missing data. Besides, we develop a recurrent graph reconstruction mechanism that cleverly leverages the restored views to promote the representation learning and the further data reconstruction. Visualization of recovery results are given and sufficient experimental results confirm that our RecFormer has obvious advantages over other top methods. | 翻訳日:2024-01-19 20:57:17 公開日:2024-01-18 |
# ニューラルネットワークのトレーニングは固定次元におけるNPハードである Training Neural Networks is NP-Hard in Fixed Dimension ( http://arxiv.org/abs/2303.17045v2 ) ライセンス: Link先を確認 | Vincent Froese, Christoph Hertrich | (参考訳) 本稿では,ReLUと線形しきい値活性化関数を考慮し,入力データの次元と隠れニューロン数に関する2層ニューラルネットワークのトレーニングのパラメータ化複雑性について検討する。
これらの問題の計算複雑性は近年何度も研究されているが、いくつかの疑問がまだ残っている。
Aroraらによる質問に答える。
[ICLR '18] と Khalife と Basu [IPCO '22] は、どちらの問題も2次元のNPハードであることを示し、定数次元の多項式時間アルゴリズムを除外している。
また、Froeseらによる質問にも答える。
[jair '22] 4つのrelus(または2つの線形しきい値ニューロン)のw[1]硬さをトレーニングエラーゼロで証明する。
最後に、ReLUの場合、ネットワークが凸写像を計算すると仮定された場合、ReLUの次元と次元の合計パラメータ数に対する固定パラメータのトラクタビリティを示す。
以上より,これらのパラメータの複雑さをほぼ完全に解決した。 We study the parameterized complexity of training two-layer neural networks with respect to the dimension of the input data and the number of hidden neurons, considering ReLU and linear threshold activation functions. Albeit the computational complexity of these problems has been studied numerous times in recent years, several questions are still open. We answer questions by Arora et al. [ICLR '18] and Khalife and Basu [IPCO '22] showing that both problems are NP-hard for two dimensions, which excludes any polynomial-time algorithm for constant dimension. We also answer a question by Froese et al. [JAIR '22] proving W[1]-hardness for four ReLUs (or two linear threshold neurons) with zero training error. Finally, in the ReLU case, we show fixed-parameter tractability for the combined parameter number of dimensions and number of ReLUs if the network is assumed to compute a convex map. Our results settle the complexity status regarding these parameters almost completely. | 翻訳日:2024-01-19 20:56:57 公開日:2024-01-18 |
# 長尾分類のための曲率バランス特徴多様体学習 Curvature-Balanced Feature Manifold Learning for Long-Tailed Classification ( http://arxiv.org/abs/2303.12307v2 ) ライセンス: Link先を確認 | Yanbiao Ma, Licheng Jiao, Fang Liu, Shuyuan Yang, Xu Liu and Lingling Li | (参考訳) 長い尾の分類の課題に対処するために、研究者はモデルバイアスを減らすいくつかのアプローチを提案しており、そのほとんどはサンプルが少ないクラスが弱いクラスであると仮定している。
しかし、最近の研究では、テールクラスは必ずしも学習が困難ではないことが示されており、サンプルバランスデータセットではモデルバイアスが観察されており、モデルバイアスに影響を与える他の要因の存在が示唆されている。
本研究では,深層ニューラルネットワークにおける知覚多様体の幾何的測定を体系的に提案し,また,知覚多様体の幾何学的特性が分類難易度および学習形態の知覚多様体の幾何学的特性に与える影響について検討する。
予期せぬ発見は、授業中はクラス精度と知覚多様体の分離度との相関が徐々に減少し、一方曲率との負の相関は徐々に増大し、曲率の不均衡がモデルバイアスにつながることを示唆している。
そこで本研究では, 曲率バランスと平らな知覚多様体の学習を容易にするために, 曲率正規化を提案する。
複数の長い尾のデータセットと非長い尾のデータセットの評価は、我々のアプローチの優れたパフォーマンスとエキサイティングな一般性を示している。
我々の研究は、モデルバイアスに関する幾何学的分析の視点を開き、非長い尾とサンプルバランスのデータセットのモデルバイアスに注意を払うよう研究者に促す。
コードとモデルは公開される予定だ。 To address the challenges of long-tailed classification, researchers have proposed several approaches to reduce model bias, most of which assume that classes with few samples are weak classes. However, recent studies have shown that tail classes are not always hard to learn, and model bias has been observed on sample-balanced datasets, suggesting the existence of other factors that affect model bias. In this work, we systematically propose a series of geometric measurements for perceptual manifolds in deep neural networks, and then explore the effect of the geometric characteristics of perceptual manifolds on classification difficulty and how learning shapes the geometric characteristics of perceptual manifolds. An unanticipated finding is that the correlation between the class accuracy and the separation degree of perceptual manifolds gradually decreases during training, while the negative correlation with the curvature gradually increases, implying that curvature imbalance leads to model bias. Therefore, we propose curvature regularization to facilitate the model to learn curvature-balanced and flatter perceptual manifolds. Evaluations on multiple long-tailed and non-long-tailed datasets show the excellent performance and exciting generality of our approach, especially in achieving significant performance improvements based on current state-of-the-art techniques. Our work opens up a geometric analysis perspective on model bias and reminds researchers to pay attention to model bias on non-long-tailed and even sample-balanced datasets. The code and model will be made public. | 翻訳日:2024-01-19 20:56:26 公開日:2024-01-18 |
# 神経確率モデルによる集団運動のメゾスコピック表現の発見 Discovering mesoscopic descriptions of collective movement with neural stochastic modelling ( http://arxiv.org/abs/2303.09906v2 ) ライセンス: Link先を確認 | Utkarsh Pratiush, Arshed Nabeel, Vishwesha Guttal, Prathosh AP | (参考訳) 集団運動は自然界においてユビキタスな現象であり、工学者、物理学者、数学者に数学的モデルや生物にインスパイアされたデザインの開発を促す。
小中小のグループサイズでの集団運動("mesoscale"とも呼ばれる)は、確率性に起因する非自明な特徴を示すことができる。
したがって、力学の決定論的側面と確率論的側面の両方を特徴付けることは、メソスケール集団現象の研究において重要である。
ここでは、物理学に着想を得たニューラルネットワークに基づくアプローチを用いて、相互作用する個人の確率群力学を、そのグループの集合力学を支配する確率微分方程式(SDE)を通して特徴づける。
本研究では,この手法を合成と実世界の両方のデータセットに適用し,ドリフトと拡散場を用いた力学の決定論的・確率的側面を同定し,これらのシステムにおける秩序の性質に関する新しい推論を可能にする。 Collective motion is an ubiquitous phenomenon in nature, inspiring engineers, physicists and mathematicians to develop mathematical models and bio-inspired designs. Collective motion at small to medium group sizes ($\sim$10-1000 individuals, also called the `mesoscale'), can show nontrivial features due to stochasticity. Therefore, characterizing both the deterministic and stochastic aspects of the dynamics is crucial in the study of mesoscale collective phenomena. Here, we use a physics-inspired, neural-network based approach to characterize the stochastic group dynamics of interacting individuals, through a stochastic differential equation (SDE) that governs the collective dynamics of the group. We apply this technique on both synthetic and real-world datasets, and identify the deterministic and stochastic aspects of the dynamics using drift and diffusion fields, enabling us to make novel inferences about the nature of order in these systems. | 翻訳日:2024-01-19 20:55:45 公開日:2024-01-18 |
# 測定シャープネスの完全かつ運用的資源理論 A complete and operational resource theory of measurement sharpness ( http://arxiv.org/abs/2303.07737v2 ) ライセンス: Link先を確認 | Francesco Buscemi, Kodai Kobayashi, Shintaro Minagawa | (参考訳) 有限次元正の演算子値測度(POVM)に対するシャープネスの資源理論を構築し、そのシャープネス非増加演算は、量子前処理チャネルと、全ての要素が恒等演算子に比例するPOVMとの凸混合によって与えられる。
シャープネスの音響資源理論に要求されるように、我々の理論は最大(すなわち、シャープ)要素を持ち、すべて等価であり、繰り返し可能な測度を持つPOVMの集合と一致することを示す。
極大元素のうち、従来の非退化可観測性元素は正準元素として特徴づけられる。
より一般的には、与えられた povm と任意の参照 povm の間の epr-ozawa 相関として表される単調のクラスの観点からシャープネスを定量化する。
一方のPOVMは,すべてのモノトーンに対して前者が後者よりも鋭い場合に限り,シャープネス非増加操作により別のPOVMに変換可能であることを示す。
したがって、全てのモノトンの比較は、2つのPOVM間のシャープネス非増加操作の存在に必要かつ十分な条件を与え、全てのモノトンが原理的に実験的にアクセス可能であるという意味で、我々のシャープネスの資源理論は完全である。 We construct a resource theory of sharpness for finite-dimensional positive operator-valued measures (POVMs), where the sharpness-non-increasing operations are given by quantum preprocessing channels and convex mixtures with POVMs whose elements are all proportional to the identity operator. As required for a sound resource theory of sharpness, we show that our theory has maximal (i.e., sharp) elements, which are all equivalent, and coincide with the set of POVMs that admit a repeatable measurement. Among the maximal elements, conventional non-degenerate observables are characterized as the canonical ones. More generally, we quantify sharpness in terms of a class of monotones, expressed as the EPR--Ozawa correlations between the given POVM and an arbitrary reference POVM. We show that one POVM can be transformed into another by means of a sharpness-non-increasing operation if and only if the former is sharper than the latter with respect to all monotones. Thus, our resource theory of sharpness is complete, in the sense that the comparison of all monotones provides a necessary and sufficient condition for the existence of a sharpness-non-increasing operation between two POVMs, and operational, in the sense that all monotones are in principle experimentally accessible. | 翻訳日:2024-01-19 20:55:27 公開日:2024-01-18 |
# デコヒーレンス下における制御量子状態とターゲット状態との距離のバウンド Bound on the distance between controlled quantum state and target state under decoherence ( http://arxiv.org/abs/2303.06466v3 ) ライセンス: Link先を確認 | Kohei Kobayashi | (参考訳) 量子情報技術を実現するために、望ましい状態を作成するための注意深く設計された制御が重要な役割を果たす。
しかし、現実の状況では、それらの方法論の実際の性能はデコヒーレンスによって著しく制限される。
したがって、制御状態がデコヒーレンスの下で所望の目標状態にどの程度近いかを評価することが重要である。
本稿では,2つの制御量子系間の距離の上限について,デコヒーレンスの存在と欠如について述べる。
境界は、与えられた目標状態に対する制御の達成度をデコヒーレンスの下で定量化し、方程式を解くことなく簡単に計算できる。
さらに、上限を適用して、デコヒーレンスの下で目標状態を得る確率の理論的限界を導出する。 To implement quantum information technologies, carefully designed control for preparing a desired state plays a key role. However, in realistic situation, the actual performance of those methodologies is severely limited by decoherence. Therefore, it is important to evaluate how close we can steer the controlled state to a desired target state under decoherence. In this paper, we provide an upper bound of the distance between the two controlled quantum systems in the presence and absence of decoherence. The bound quantifies the degree of achievement of the control for a given target state under decoherence, and can be straightforwardly calculated without solving any equation. Moreover, the upper bound is applied to derive a theoretical limit of the probability for obtaining the target state under decoherence. | 翻訳日:2024-01-19 20:55:02 公開日:2024-01-18 |
# 古典的なOracleの下での古典的対量子的アドバイスと証明 Classical vs Quantum Advice and Proofs under Classically-Accessible Oracle ( http://arxiv.org/abs/2303.04298v4 ) ライセンス: Link先を確認 | Xingjian Li, Qipeng Liu, Angelos Pelecanos, Takashi Yamakawa | (参考訳) BQP/qpoly $\neq$ BQP/poly あるいは QMA $\neq$ QCMA が関係する古典的なオラクルを構築することは、長い間公然とされてきた問題である。
本稿では,BQP/qpoly $\neq$ BQP/poly と QMA $\neq$ QCMA に比較して古典的アクセス可能な古典的オラクルを構築する。
ここでは、古典的アクセス可能な古典的オラクルは、量子アルゴリズムでも古典的にのみアクセス可能なオラクルである。
同様の手法に基づき、最近ナタラジャンとニルケによって示された分散量子アクセス可能な古典オラクルに対して、QMAとQCMAの分離の代替的証明を示す。 It is a long-standing open question to construct a classical oracle relative to which BQP/qpoly $\neq$ BQP/poly or QMA $\neq$ QCMA. In this paper, we construct classically-accessible classical oracles relative to which BQP/qpoly $\neq$ BQP/poly and QMA $\neq$ QCMA. Here, classically-accessible classical oracles are oracles that can be accessed only classically even for quantum algorithms. Based on a similar technique, we also show an alternative proof for the separation of QMA and QCMA relative to a distributional quantumly-accessible classical oracle, which was recently shown by Natarajan and Nirkhe. | 翻訳日:2024-01-19 20:54:50 公開日:2024-01-18 |
# ESD: チューニング不要なトレーニング可能な校正尺度としての正方形差を期待 ESD: Expected Squared Difference as a Tuning-Free Trainable Calibration Measure ( http://arxiv.org/abs/2303.02472v2 ) ライセンス: Link先を確認 | Hee Suk Yoon, Joshua Tian Jin Tee, Eunseop Yoon, Sunjae Yoon, Gwangsu Kim, Yingzhen Li, Chang D. Yoo | (参考訳) 研究によると、現代のニューラルネットワークは過信の予測のために校正が不十分である傾向がある。
伝統的に、後処理法は訓練後のモデルの校正に使われてきた。
近年、トレーニングプロセスに直接組み込むための様々なトレーニング可能な校正策が提案されている。
しかし、これらの手法はすべて内部のハイパーパラメータを取り入れており、これらのキャリブレーション目標の性能はこれらのハイパーパラメータのチューニングに依存しており、ニューラルネットワークやデータセットのサイズが大きくなるにつれて計算コストが増大する。
そこで我々は,2つの期待値の2乗差の観点からキャリブレーション誤差を考慮し,チューニング不要な(ハイパーパラメータフリー)トレーニング可能なキャリブレーション目標損失である期待正方形差(ESD)を提示する。
複数のアーキテクチャ(CNN, Transformer)とデータセットの広範な実験により,(1)内部ハイパーパラメータチューニングを必要とせずに,トレーニングにESDを組み込むことで,各種バッチサイズ設定におけるモデルキャリブレーションが向上すること,(2)ESDが従来の手法と比較して最高のキャリブレーション結果が得られること,(3)内部ハイパーパラメータの欠如によるトレーニング中のキャリブレーションに要する計算コストが劇的に向上すること,などが示されている。
コードはhttps://github.com/hee-suk-yoon/esdで公開されている。 Studies have shown that modern neural networks tend to be poorly calibrated due to over-confident predictions. Traditionally, post-processing methods have been used to calibrate the model after training. In recent years, various trainable calibration measures have been proposed to incorporate them directly into the training process. However, these methods all incorporate internal hyperparameters, and the performance of these calibration objectives relies on tuning these hyperparameters, incurring more computational costs as the size of neural networks and datasets become larger. As such, we present Expected Squared Difference (ESD), a tuning-free (i.e., hyperparameter-free) trainable calibration objective loss, where we view the calibration error from the perspective of the squared difference between the two expectations. With extensive experiments on several architectures (CNNs, Transformers) and datasets, we demonstrate that (1) incorporating ESD into the training improves model calibration in various batch size settings without the need for internal hyperparameter tuning, (2) ESD yields the best-calibrated results compared with previous approaches, and (3) ESD drastically improves the computational costs required for calibration during training due to the absence of internal hyperparameter. The code is publicly accessible at https://github.com/hee-suk-yoon/ESD. | 翻訳日:2024-01-19 20:54:34 公開日:2024-01-18 |
# 解釈可能性のためのアンボックス木アンサンブル:階層的可視化ツールと多変量最適再構築木 Unboxing Tree Ensembles for interpretability: a hierarchical visualization tool and a multivariate optimal re-built tree ( http://arxiv.org/abs/2302.07580v2 ) ライセンス: Link先を確認 | Giulia Di Teodoro, Marta Monaci, Laura Palagi | (参考訳) アルゴリズムによる決定が現実世界のアプリケーションに与える影響が増しているため、モデルの解釈性は機械学習において重要な問題となっている。
Random ForestsやXgBoostのようなツリーアンサンブル手法は、分類タスクのための強力な学習ツールである。
しかし、複数の木を組み合わせることで、単一の木よりも高い予測品質が得られるが、「ブラックボックス」モデルをもたらす解釈性は犠牲になる。
そこで我々は,木組モデルの解釈可能な表現を開発することを目指しており,その振る舞いに関する貴重な洞察を提供する。
まず,対象樹木群集モデルを用いて,その特徴の頻度と重要度を指標として,森林の特徴量の熱マップ表現に基づく階層的可視化ツールを開発する。
次に、ターゲットモデル予測を正確に模倣する単一の最適多変量木を構築するための混合整数線形計画法(milp)を提案する。
目標は、斜め超平面分割に基づく解釈可能なサロゲートモデルを提供することである。
milpモデルは、スプリットのスパース性をさらに引き起こすために、森林における頻度に基づく特徴選択のペナルティを含む。
自然定式化は、『mixed-integer』ソフトウェアの計算性能を向上させるために強化された。
UCIリポジトリのベンチマークデータセット上で、最先端のオフザシェルフソルバを使用して計算経験を実行する。
提案手法は,木組決定関数を近似した浅い解釈可能な木を得るのに有効であることを示す。 The interpretability of models has become a crucial issue in Machine Learning because of algorithmic decisions' growing impact on real-world applications. Tree ensemble methods, such as Random Forests or XgBoost, are powerful learning tools for classification tasks. However, while combining multiple trees may provide higher prediction quality than a single one, it sacrifices the interpretability property resulting in "black-box" models. In light of this, we aim to develop an interpretable representation of a tree-ensemble model that can provide valuable insights into its behavior. First, given a target tree-ensemble model, we develop a hierarchical visualization tool based on a heatmap representation of the forest's feature use, considering the frequency of a feature and the level at which it is selected as an indicator of importance. Next, we propose a mixed-integer linear programming (MILP) formulation for constructing a single optimal multivariate tree that accurately mimics the target model predictions. The goal is to provide an interpretable surrogate model based on oblique hyperplane splits, which uses only the most relevant features according to the defined forest's importance indicators. The MILP model includes a penalty on feature selection based on their frequency in the forest to further induce sparsity of the splits. The natural formulation has been strengthened to improve the computational performance of {mixed-integer} software. Computational experience is carried out on benchmark datasets from the UCI repository using a state-of-the-art off-the-shelf solver. Results show that the proposed model is effective in yielding a shallow interpretable tree approximating the tree-ensemble decision function. | 翻訳日:2024-01-19 20:54:07 公開日:2024-01-18 |
# 画像分類のための拡散モデルを用いた意味誘導生成画像拡張法 Semantic-Guided Generative Image Augmentation Method with Diffusion Models for Image Classification ( http://arxiv.org/abs/2302.02070v3 ) ライセンス: Link先を確認 | Bohan Li, Xiao Xu, Xinghao Wang, Yutai Hou, Yunlong Feng, Feng Wang, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che | (参考訳) 既存の画像拡張法は摂動法と生成法という2つのカテゴリからなる。
摂動に基づく手法は、元の画像を強調するために予め定義された摂動を適用するが、局所的にしか変化せず、画像の多様性を欠く。
対照的に、生成法は画像の多様性を高めるが、意味的一貫性を保たない可能性があるため、元の画像の本質的意味を誤って変更する。
画像の多様性とセマンティック一貫性のバランスをとるために,画像分類のための拡散モデルを用いた意味誘導生成画像拡張法であるSGIDを提案する。
具体的には、SGIDは拡散モデルを用いて、画像の多様性に優れた拡張画像を生成する。
さらに重要なことは、SGIDは画像ラベルとキャプションを、拡張画像とオリジナル画像間のセマンティック一貫性を維持するためのガイダンスとして用いている。
実験の結果、SGIDはResNet-50で1.72%、ViTで0.33%、CLIP-ViT(LAION-2B)で0.14%向上した。
さらに、SGIDを他の画像拡張ベースラインと組み合わせることで、全体的なパフォーマンスが向上する。
定量的な人・自動評価と定性ケーススタディにより,SGIDのセマンティック一貫性と画像の多様性を実証する。 Existing image augmentation methods consist of two categories: perturbation-based methods and generative methods. Perturbation-based methods apply pre-defined perturbations to augment an original image, but only locally vary the image, thus lacking image diversity. In contrast, generative methods bring more image diversity in the augmented images but may not preserve semantic consistency, thus incorrectly changing the essential semantics of the original image. To balance image diversity and semantic consistency in augmented images, we propose SGID, a Semantic-guided Generative Image augmentation method with Diffusion models for image classification. Specifically, SGID employs diffusion models to generate augmented images with good image diversity. More importantly, SGID takes image labels and captions as guidance to maintain semantic consistency between the augmented and original images. Experimental results show that SGID outperforms the best augmentation baseline by 1.72% on ResNet-50 (from scratch), 0.33% on ViT (ImageNet-21k), and 0.14% on CLIP-ViT (LAION-2B). Moreover, SGID can be combined with other image augmentation baselines and further improves the overall performance. We demonstrate the semantic consistency and image diversity of SGID through quantitative human and automated evaluations, as well as qualitative case studies. | 翻訳日:2024-01-19 20:53:42 公開日:2024-01-18 |
# 高エネルギー物理のための可逆エネルギーベース確率モデル Versatile Energy-Based Probabilistic Models for High Energy Physics ( http://arxiv.org/abs/2302.00695v5 ) ライセンス: Link先を確認 | Taoli Cheng, Aaron Courville | (参考訳) 古典的な生成的モデリングアプローチとして、エネルギーベースのモデルはエネルギー関数の形での柔軟性の自然な利点を持つ。
近年,コンピュータビジョンや自然言語処理における高次元データモデリングにおいて,エネルギーモデルが大きな成功を収めている。
これらの進歩に伴い,大型ハドロン衝突型加速器における高エネルギー物理現象の多目的エネルギーベース確率モデルを構築した。
このフレームワークは強力な生成モデルに基づいており、高次の粒子間相互作用を記述する。
異なるエンコーディングアーキテクチャに適合し、暗黙的な生成に基づいている。
応用面では、物理シミュレーションのための強力なパラメータ化イベントジェネレータ、スプリアス相関のない一般的な異常信号検出器、粒子識別のための拡張イベント分類器として機能する。 As a classical generative modeling approach, energy-based models have the natural advantage of flexibility in the form of the energy function. Recently, energy-based models have achieved great success in modeling high-dimensional data in computer vision and natural language processing. In line with these advancements, we build a multi-purpose energy-based probabilistic model for High Energy Physics events at the Large Hadron Collider. This framework builds on a powerful generative model and describes higher-order inter-particle interactions. It suits different encoding architectures and builds on implicit generation. As for applicative aspects, it can serve as a powerful parameterized event generator for physics simulation, a generic anomalous signal detector free from spurious correlations, and an augmented event classifier for particle identification. | 翻訳日:2024-01-19 20:53:17 公開日:2024-01-18 |
# 配電系統の一般化を支援する格子セルコードに対する決定点プロセスの注意 Determinantal Point Process Attention Over Grid Cell Code Supports Out of Distribution Generalization ( http://arxiv.org/abs/2305.18417v2 ) ライセンス: Link先を確認 | Shanka Subhra Mondal, Steven Frankland, Taylor Webb, and Jonathan D. Cohen | (参考訳) ディープニューラルネットワークは、人間のような知性をエミュレートする上で大きな進歩を遂げており、脳がそれに依存する複雑な計算問題をどう解決するかを理解する方法として、ますます使われている。
しかし、これらはまだ不足しているため、脳が人間の能力の強い一般化をサポートする方法についての洞察を得られていない。
そのようなケースの1つは、トレーニングセットの配布外にあるテスト例の一般化成功(ood)パフォーマンスである。
ここでは、この能力に寄与する可能性のある脳内処理の特性を同定する。
本稿では,ood一般化を実現するために,神経計算の具体的特徴を浮き彫りにした2部アルゴリズムについて述べるとともに,二つの難解な認知タスクにおける性能評価による概念実証を提供する。
まず、哺乳類の脳が格子細胞コード(例えば角膜皮質)を用いて距離空間を表現しているという事実から、関係構造を抽象的に表現し、表現空間をカバーしている繰り返しモチーフで整理する。
第二に、DPPアテンション(DPP-A)と呼ばれる、DPP(Determinantal Point Process)を用いたグリッドセルコード上での注意機構を提案する。
標準タスク最適化エラーとdpp-aを組み合わせた損失関数は、グリッドセルコードの繰り返しモチーフを活用でき、共通アーキテクチャと統合でき、アナログや算術タスクにおいて強力なood一般化性能を達成することができる。
これは、哺乳類の脳の格子細胞コードが一般化性能にどのように寄与するかの解釈と、ニューラルネットワークにおけるそのような能力を改善する潜在的な手段の両方を提供する。 Deep neural networks have made tremendous gains in emulating human-like intelligence, and have been used increasingly as ways of understanding how the brain may solve the complex computational problems on which this relies. However, these still fall short of, and therefore fail to provide insight into how the brain supports strong forms of generalization of which humans are capable. One such case is out-of-distribution (OOD) generalization-successful performance on test examples that lie outside the distribution of the training set. Here, we identify properties of processing in the brain that may contribute to this ability. We describe a two-part algorithm that draws on specific features of neural computation to achieve OOD generalization, and provide a proof of concept by evaluating performance on two challenging cognitive tasks. First we draw on the fact that the mammalian brain represents metric spaces using grid cell code (e.g., in entorhinal cortex): abstract representations of relational structure, organized in recurring motifs that cover the representational space. Second, we propose an attentional mechanism that operates over the grid cell code using Determinantal Point Process (DPP), that we call DPP attention (DPP-A) -- a transformation that ensures maximum sparseness in the coverage of that space. We show that a loss function that combines standard task-optimized error with DPP-A can exploit the recurring motifs in the grid cell code, and can be integrated with common architectures to achieve strong OOD generalization performance on analogy and arithmetic tasks. This provides both an interpretation of how the grid cell code in the mammalian brain may contribute to generalization performance, and at the same time a potential means for improving such capabilities in artificial neural networks. | 翻訳日:2024-01-19 20:47:35 公開日:2024-01-18 |
# オフラインマルチエージェント強化学習コーディネーション問題に対するモデルに基づく解法 A Model-Based Solution to the Offline Multi-Agent Reinforcement Learning Coordination Problem ( http://arxiv.org/abs/2305.17198v2 ) ライセンス: Link先を確認 | Paul Barde, Jakob Foerster, Derek Nowrouzezahrai, Amy Zhang | (参考訳) 複数のエージェントを協調させる訓練は、ロボット工学、ゲーム理論、経済学、社会科学の応用において重要な問題である。
しかしながら、既存のマルチエージェント強化学習(marl)手法のほとんどはオンラインであり、新しいインタラクションの収集がコストか危険である現実のアプリケーションでは実用的ではない。
これらのアルゴリズムは、利用可能であればオフラインデータを活用するべきだが、そうすることで、オフラインコーディネーション問題と呼ばれる問題が発生する。
具体的には、現在のオフラインMARLアルゴリズムが失敗する2つの問題である戦略合意(SA)と戦略微調整(SFT)調整課題を特定し、形式化する。
具体的には,一般的なモデルフリー手法では,玩具やMuJoCoドメインにおいて,協調集約型オフラインマルチエージェントタスクを処理できないことを明らかにする。
この問題を解決するために,エージェント間相互作用の重要性を強調し,モデルベースオフラインMARL法を提案する。
その結果,モデルベースオフライン・マルチエージェント・ポリシ最適化(moma-ppo)が合成インタラクションデータを生成し,エージェントがポリシーを微調整しながら戦略に収束することを可能にした。
この単純なモデルベースのソリューションは、コーディネーション集約的なオフラインタスクを解決し、厳しい部分的可観測性と学習された世界モデルの下でも、一般的なモデルフリーメソッドを著しく上回っている。 Training multiple agents to coordinate is an essential problem with applications in robotics, game theory, economics, and social sciences. However, most existing Multi-Agent Reinforcement Learning (MARL) methods are online and thus impractical for real-world applications in which collecting new interactions is costly or dangerous. While these algorithms should leverage offline data when available, doing so gives rise to what we call the offline coordination problem. Specifically, we identify and formalize the strategy agreement (SA) and the strategy fine-tuning (SFT) coordination challenges, two issues at which current offline MARL algorithms fail. Concretely, we reveal that the prevalent model-free methods are severely deficient and cannot handle coordination-intensive offline multi-agent tasks in either toy or MuJoCo domains. To address this setback, we emphasize the importance of inter-agent interactions and propose the very first model-based offline MARL method. Our resulting algorithm, Model-based Offline Multi-Agent Proximal Policy Optimization (MOMA-PPO) generates synthetic interaction data and enables agents to converge on a strategy while fine-tuning their policies accordingly. This simple model-based solution solves the coordination-intensive offline tasks, significantly outperforming the prevalent model-free methods even under severe partial observability and with learned world models. | 翻訳日:2024-01-19 20:47:06 公開日:2024-01-18 |
# 微細化を伴わない構造化NLPタスクの文法制約デコーディング Grammar-Constrained Decoding for Structured NLP Tasks without Finetuning ( http://arxiv.org/abs/2305.13971v6 ) ライセンス: Link先を確認 | Saibo Geng, Martin Josifoski, Maxime Peyrard, Robert West | (参考訳) 印象的なパフォーマンスにもかかわらず、大きな言語モデル(lms)は、必要な出力形式に正確に従わない場合にも、複雑な出力構造を確実に生成するのに苦労している。
この問題に対処するために、文法制約付き復号 (gcd) は lms の生成を制御するために用いられ、出力が所定の構造に従うことを保証している。
しかし、既存のgcdメソッドの多くはパースやコード生成といった特定のタスクに限定されている。
本研究では,より広い範囲のタスクに対して,形式文法が出力空間を記述できることを示し,GCDが一般に構造化NLPタスクの統一フレームワークとして機能できることを論じる。
柔軟性を高めるために, 文法が入力に依存することを許容し, 異なる入力に対する異なる出力構造の生成を可能にする, 入力依存文法を導入する。
そして,(1)情報抽出,(2)エンティティの曖昧さ,(3)選挙区解析におけるGCD強化LMのパワーと柔軟性を実証的に実証した。
その結果,文法制約のLMは非制約のLMよりもかなり優れており,タスク固有の微調整モデルよりも優れていた。
文法制約は、特にトレーニングデータが少ない場合や微調整が高価である場合など、幅広い構造化されたNLPタスクに対して、既製のLMを利用することを大いに約束する。
コードとデータ:https://github.com/epfl-dlab/GCD。 Despite their impressive performance, large language models (LMs) still struggle with reliably generating complex output structures when not finetuned to follow the required output format exactly. To address this issue, grammar-constrained decoding (GCD) can be used to control the generation of LMs, guaranteeing that the output follows a given structure. Most existing GCD methods are, however, limited to specific tasks, such as parsing or code generation. In this work, we demonstrate that formal grammars can describe the output space for a much wider range of tasks and argue that GCD can serve as a unified framework for structured NLP tasks in general. For increased flexibility, we introduce input-dependent grammars, which allow the grammar to depend on the input and thus enable the generation of different output structures for different inputs. We then empirically demonstrate the power and flexibility of GCD-enhanced LMs on (1) information extraction, (2) entity disambiguation, and (3) constituency parsing. Our results indicate that grammar-constrained LMs substantially outperform unconstrained LMs or even beat task-specific finetuned models. Grammar constraints thus hold great promise for harnessing off-the-shelf LMs for a wide range of structured NLP tasks, especially where training data is scarce or finetuning is expensive. Code and data: https://github.com/epfl-dlab/GCD. | 翻訳日:2024-01-19 20:46:40 公開日:2024-01-18 |
# GSB:限られたトレーニングサンプルを用いたビジョントランスのためのグループ重ね合わせ二元化 GSB: Group Superposition Binarization for Vision Transformer with Limited Training Samples ( http://arxiv.org/abs/2305.07931v4 ) ライセンス: Link先を確認 | Tian Gao, Cheng-Zhong Xu, Le Zhang, Hui Kong | (参考訳) Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて顕著に機能している。
それでも、大量のパラメータの影響を受けながら、ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィッティングの問題に悩まされる。
さらに、ViTは通常、リソース制限されたデバイスへのデプロイメントを制限する重いコンピューティングリソースを必要とする。
モデル圧縮法の一種として、モデル双対化は上記の問題を解決する良い選択である可能性がある。
完全な倍数化法と比較すると、複雑なテンソル乗算を単純なビット単位の2進演算に置き換え、全倍数モデルのパラメータとアクティベーションを1ビットのみで表現し、モデルサイズと計算複雑性の問題をそれぞれ解決する。
本稿では,二元化vitモデルについて検討する。
経験的に、畳み込みニューラルネットワーク(CNN)用に設計された既存のバイナライゼーション技術は、ViTのバイナライゼーションタスクにうまく移行できない。
また、バイナリViTモデルの精度の低下は、主にアテンションモジュールと値ベクトルの情報損失によるものであることが判明した。
そこで本研究では,これらの問題に対処するため,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
さらに,二元化モデルの性能をさらに向上させるために,二元化過程における勾配計算手順を調査し,gsbのより適切な勾配計算式を導出し,勾配ミスマッチの影響を低減した。
次に, モデル2値化による性能劣化を緩和するために, 知識蒸留技術を導入する。
モデルバイナライゼーションは、モデルのトレーニング中にパラメータ更新中にパラメータ検索スペースを制限することができる。 Vision Transformer (ViT) has performed remarkably in various computer vision tasks. Nonetheless, affected by the massive amount of parameters, ViT usually suffers from serious overfitting problems with a relatively limited number of training samples. In addition, ViT generally demands heavy computing resources, which limit its deployment on resource-constrained devices. As a type of model-compression method, model binarization is potentially a good choice to solve the above problems. Compared with the full-precision one, the model with the binarization method replaces complex tensor multiplication with simple bit-wise binary operations and represents full-precision model parameters and activations with only 1-bit ones, which potentially solves the problem of model size and computational complexity, respectively. In this paper, we investigate a binarized ViT model. Empirically, we observe that the existing binarization technology designed for Convolutional Neural Networks (CNN) cannot migrate well to a ViT's binarization task. We also find that the decline of the accuracy of the binary ViT model is mainly due to the information loss of the Attention module and the Value vector. Therefore, we propose a novel model binarization technique, called Group Superposition Binarization (GSB), to deal with these issues. Furthermore, in order to further improve the performance of the binarization model, we have investigated the gradient calculation procedure in the binarization process and derived more proper gradient calculation equations for GSB to reduce the influence of gradient mismatch. Then, the knowledge distillation technique is introduced to alleviate the performance degradation caused by model binarization. Analytically, model binarization can limit the parameters search space during parameter updates while training a model.... | 翻訳日:2024-01-19 20:45:19 公開日:2024-01-18 |
# DAISM:DNNトレーニングと推論のためのデジタル近似In-SRAM乗算器ベースの加速器 DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN Training and Inference ( http://arxiv.org/abs/2305.07376v2 ) ライセンス: Link先を確認 | Lorenzo Sonnino, Shaswot Shresthamali, Yuan He and Masaaki Kondo | (参考訳) DNNは広く使われているが、特にメモリと処理ユニット間のデータ移動による行列乗算による計算コストが著しく高い。
したがって、1つの有望なアプローチは、このオーバーヘッドを大幅に削減するため、Processing-in-Memoryである。
しかし、ほとんどのPIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。
本稿では,従来のメモリを用いてビット並列計算を行い,複数のワードラインのアクティベーションを利用する,SRAM内デジタル乗算器を提案する。
次に、この乗算器を利用したアーキテクチャであるDAISMを導入し、SOTAと比較して最大2桁高い面積効率を実現し、競争エネルギー効率を向上する。 DNNs are widely used but face significant computational costs due to matrix multiplications, especially from data movement between the memory and processing units. One promising approach is therefore Processing-in-Memory as it greatly reduces this overhead. However, most PIM solutions rely either on novel memory technologies that have yet to mature or bit-serial computations that have significant performance overhead and scalability issues. Our work proposes an in-SRAM digital multiplier, that uses a conventional memory to perform bit-parallel computations, leveraging multiple wordlines activation. We then introduce DAISM, an architecture leveraging this multiplier, which achieves up to two orders of magnitude higher area efficiency compared to the SOTA counterparts, with competitive energy efficiency. | 翻訳日:2024-01-19 20:44:53 公開日:2024-01-18 |
# 因果世界モデルによる説明可能な強化学習 Explainable Reinforcement Learning via a Causal World Model ( http://arxiv.org/abs/2305.02749v5 ) ライセンス: Link先を確認 | Zhongwei Yu, Jingqing Ruan, Dengpeng Xing | (参考訳) 強化学習(RL)のための説明を生成することは、行動が未来に長期的な影響をもたらす可能性があるため困難である。
本稿では,環境の因果構造を事前に知ることなく,因果世界モデルを学習し,説明可能なRLのための新しい枠組みを開発する。
このモデルは行動の影響を捉え、因果連鎖による行動の長期的な影響を解釈し、行動が環境変数にどのように影響し、最終的に報酬につながるかを示す。
精度の低いほとんどの説明モデルとは異なり、説明可能性を改善しながら精度を保ち、モデルベース学習に適用できる。
その結果,我々の因果モデルが説明可能性と学習の橋渡しとなることを示した。 Generating explanations for reinforcement learning (RL) is challenging as actions may produce long-term effects on the future. In this paper, we develop a novel framework for explainable RL by learning a causal world model without prior knowledge of the causal structure of the environment. The model captures the influence of actions, allowing us to interpret the long-term effects of actions through causal chains, which present how actions influence environmental variables and finally lead to rewards. Different from most explanatory models which suffer from low accuracy, our model remains accurate while improving explainability, making it applicable in model-based learning. As a result, we demonstrate that our causal model can serve as the bridge between explainability and learning. | 翻訳日:2024-01-19 20:43:55 公開日:2024-01-18 |
# 速度歪みと歪み率関数に対する制約付きBAアルゴリズム A Constrained BA Algorithm for Rate-Distortion and Distortion-Rate Functions ( http://arxiv.org/abs/2305.02650v2 ) ライセンス: Link先を確認 | Lingyi Chen, Shitong Wu, Wenhao Ye, Huihui Wu, Wenyi Zhang, Hao Wu and Bo Bai | (参考訳) Blahut-Arimoto(BA)アルゴリズムは、RD関数の数値計算において基本的な役割を担っている。
このアルゴリズムは、固定乗数でラグランジアンを最小化することで、望ましい単調収束性を持つ。
本稿では,単調な単変量関数を用いて1次元のルートフィニングステップを通じて乗算器を更新し,ニュートン法により各反復で効率よく実装したBAアルゴリズムの新たな改良を提案する。
これにより、修正アルゴリズムは、元のBAアルゴリズムのようにRD曲線全体を探索することなく、所定の対象歪みに対してRD関数を直接計算する。
さらに、この修正は、歪み率(DR)関数の計算を含む幅広い問題に適用可能な、汎用的なフレームワークを提供する。
理論的解析によると、修正アルゴリズムの出力はRD関数とDR関数の解になお収束し、レートは$O(1/n)$で、$n$は反復数である。
さらに、これらのアルゴリズムは$O\left(\frac{MN\log N}{\varepsilon}(1+\log |\log \varepsilon|)\right)$算術演算を伴う$\varepsilon$-approximationソリューションを提供する。
数値実験により、修正されたアルゴリズムは元のbaアルゴリズムと比較して大きな加速を示し、離散ガウス、ラプラシアン、一様ソースのような古典的ソース分布をまたいだ可換性能を示す。 The Blahut-Arimoto (BA) algorithm has played a fundamental role in the numerical computation of rate-distortion (RD) functions. This algorithm possesses a desirable monotonic convergence property by alternatively minimizing its Lagrangian with a fixed multiplier. In this paper, we propose a novel modification of the BA algorithm, wherein the multiplier is updated through a one-dimensional root-finding step using a monotonic univariate function, efficiently implemented by Newton's method in each iteration. Consequently, the modified algorithm directly computes the RD function for a given target distortion, without exploring the entire RD curve as in the original BA algorithm. Moreover, this modification presents a versatile framework, applicable to a wide range of problems, including the computation of distortion-rate (DR) functions. Theoretical analysis shows that the outputs of the modified algorithms still converge to the solutions of the RD and DR functions with rate $O(1/n)$, where $n$ is the number of iterations. Additionally, these algorithms provide $\varepsilon$-approximation solutions with $O\left(\frac{MN\log N}{\varepsilon}(1+\log |\log \varepsilon|)\right)$ arithmetic operations, where $M,N$ are the sizes of source and reproduced alphabets respectively. Numerical experiments demonstrate that the modified algorithms exhibit significant acceleration compared with the original BA algorithms and showcase commendable performance across classical source distributions such as discretized Gaussian, Laplacian and uniform sources. | 翻訳日:2024-01-19 20:43:10 公開日:2024-01-18 |
# インシシット・リサンプリングに基づくアライメントによるビデオ超解像化 Enhancing Video Super-Resolution via Implicit Resampling-based Alignment ( http://arxiv.org/abs/2305.00163v2 ) ライセンス: Link先を確認 | Kai Xu, Ziwei Yu, Xin Wang, Michael Bi Mi, Angela Yao | (参考訳) ビデオ超解像では、時間とともに情報伝達をサポートするためにフレームワイドアライメントを用いるのが一般的である。
アライメントの役割はビデオの低レベルエンハンスメントのためによく研究されているが、既存の作品は重要なステップである再サンプリングを見落としている。
我々は,アライメントを効果的に行うために,空間的歪みを最小にしつつ,参照周波数スペクトルを保存する実験を行った。
しかし、既存の作品の多くは、双線型補間が平滑化効果を持ち超解像を妨げているにもかかわらず、単に再サンプリングに双線型補間のデフォルト選択を用いる。
これらの観測から,暗黙的な再サンプリングに基づくアライメントを提案する。
サンプリング位置は正弦波位置符号化により符号化され、その値は座標ネットワークとウィンドウベースのクロスアテンションで推定される。
両線形補間は本質的に高周波情報を減衰させるが,MLPに基づく座標ネットワークはより多くの周波数を近似できることを示す。
合成および実世界のデータセットに関する実験では、提案する暗黙的な再サンプリングにより、計算とパラメータの両方に最小限の影響で最先端のフレームワークのパフォーマンスが向上することが示された。 In video super-resolution, it is common to use a frame-wise alignment to support the propagation of information over time. The role of alignment is well-studied for low-level enhancement in video, but existing works overlook a critical step -- resampling. We show through extensive experiments that for alignment to be effective, the resampling should preserve the reference frequency spectrum while minimizing spatial distortions. However, most existing works simply use a default choice of bilinear interpolation for resampling even though bilinear interpolation has a smoothing effect and hinders super-resolution. From these observations, we propose an implicit resampling-based alignment. The sampling positions are encoded by a sinusoidal positional encoding, while the value is estimated with a coordinate network and a window-based cross-attention. We show that bilinear interpolation inherently attenuates high-frequency information while an MLP-based coordinate network can approximate more frequencies. Experiments on synthetic and real-world datasets show that alignment with our proposed implicit resampling enhances the performance of state-of-the-art frameworks with minimal impact on both compute and parameters. | 翻訳日:2024-01-19 20:42:40 公開日:2024-01-18 |
# 会話型プロセスモデリング: 生成型AIは、プロセスモデルの作成と再設計にドメインエキスパートを活用できるか? Conversational Process Modeling: Can Generative AI Empower Domain Experts in Creating and Redesigning Process Models? ( http://arxiv.org/abs/2304.11065v2 ) ライセンス: Link先を確認 | Nataliia Klievtsova, Janik-Vasily Benzin, Timotheus Kampik, Juergen Mangler, Stefanie Rinderle-Ma | (参考訳) 最近、ChatGPTのようなAI駆動のチャットボットは大きな誇大広告を引き起こしている。
BPMアプリケーションでは、プロセスマイニングの結果の説明や入力データの準備など、AI駆動のチャットボットのためのいくつかのアプリケーションがビジネス価値を生み出すことを約束していると認識されている。
しかし,対話型プロセスモデリングをプロセス指向能力としてサポートするチャットボットの体系的分析は欠落している。
この研究は、既存のチャットボットを体系的に分析することで、このギャップを埋めることを目的としている。
アプリケーションのシナリオはプロセスライフサイクルに沿って特定されます。
次に、会話的プロセスモデリングに関する体系的文献レビューを行い、パラフラージングやプロセス記述の改善を含む会話的プロセスモデリングのためのアプリケーションシナリオの分類を行う。
さらに,プロセスモデルの完全性と正確性に関して,AI駆動型チャットボットの出力評価手法を提案する。
本手法は、テストセット上の一連のKPIと、タスクと制御フロー抽出のための一連のプロンプトと、ユーザによるサーベイから構成される。
文献と評価に基づいて、会話プロセスモデリングの用法(実践的含意)とさらなる開発(研究方向)の勧告を導出する。 AI-driven chatbots such as ChatGPT have caused a tremendous hype lately. For BPM applications, several applications for AI-driven chatbots have been identified to be promising to generate business value, including explanation of process mining outcomes and preparation of input data. However, a systematic analysis of chatbots for their support of conversational process modeling as a process-oriented capability is missing. This work aims at closing this gap by providing a systematic analysis of existing chatbots. Application scenarios are identified along the process life cycle. Then a systematic literature review on conversational process modeling is performed, resulting in a taxonomy of application scenarios for conversational process modeling, including paraphrasing and improvement of process descriptions. In addition, this work suggests and applies an evaluation method for the output of AI-driven chatbots with respect to completeness and correctness of the process models. This method consists of a set of KPIs on a test set, a set of prompts for task and control flow extraction, as well as a survey with users. Based on the literature and the evaluation, recommendations for the usage (practical implications) and further development (research directions) of conversational process modeling are derived. | 翻訳日:2024-01-19 20:42:21 公開日:2024-01-18 |
# 双曲的画像テキスト表現 Hyperbolic Image-Text Representations ( http://arxiv.org/abs/2304.09172v3 ) ライセンス: Link先を確認 | Karan Desai, Maximilian Nickel, Tanmay Rajpurohit, Justin Johnson, Ramakrishna Vedantam | (参考訳) 視覚的・言語的概念は自然に階層構造に組織化され、そこでは「ドッグ」というテキストの概念が犬を含むすべてのイメージを包含する。
直感的であるにもかかわらず、CLIPのような現在の大規模ビジョンや言語モデルは、そのような階層を明示的に捉えていない。
本稿では,画像とテキストの双曲表現を生成するコントラストモデルMERUを提案する。
双曲空間は木のようなデータを埋め込むのに適した幾何学的性質を持つので、meruは画像テキストデータセットの下位階層をよりよく捉えることができる。
画像分類や画像テキスト検索といった標準的なマルチモーダルタスクにおいて,MERUはCLIPの性能と競合しながら,高度に解釈可能で構造化された表現空間を学習することを示す。
私たちのコードとモデルはhttps://www.github.com/facebookresearch/meruで利用可能です。 Visual and linguistic concepts naturally organize themselves in a hierarchy, where a textual concept "dog" entails all images that contain dogs. Despite being intuitive, current large-scale vision and language models such as CLIP do not explicitly capture such hierarchy. We propose MERU, a contrastive model that yields hyperbolic representations of images and text. Hyperbolic spaces have suitable geometric properties to embed tree-like data, so MERU can better capture the underlying hierarchy in image-text datasets. Our results show that MERU learns a highly interpretable and structured representation space while being competitive with CLIP's performance on standard multi-modal tasks like image classification and image-text retrieval. Our code and models are available at https://www.github.com/facebookresearch/meru | 翻訳日:2024-01-19 20:42:02 公開日:2024-01-18 |
# CodeKGC: 生成知識グラフ構築のためのコード言語モデル CodeKGC: Code Language Model for Generative Knowledge Graph Construction ( http://arxiv.org/abs/2304.09048v2 ) ライセンス: Link先を確認 | Zhen Bi, Jing Chen, Yinuo Jiang, Feiyu Xiong, Wei Guo, Huajun Chen, Ningyu Zhang | (参考訳) 現在の生成的知識グラフ構築アプローチは、自然言語をシリアライズされたテキストや仕様言語に平らにすることで、構造的知識を捉えるのに失敗する。
しかし、コードのような構造化データに基づいてトレーニングされた大きな生成言語モデルは、構造的予測や推論タスクのための自然言語を理解する素晴らしい能力を示している。
直感的には、コード言語モデルによる生成的知識グラフ構築のタスクに対処する: コード形式自然言語入力が与えられたとき、目標は、コード補完タスクとして表現できるトリプルを生成することである。
具体的には,知識グラフ内の意味構造を効果的に活用するスキーマ認識プロンプトを開発した。
コードは本質的にクラスや関数の定義のような構造を持っているため、以前の意味構造知識の有用なモデルとして機能する。
さらに,性能向上のために合理的な生成手法を用いる。
合理化は中間段階を提供し、知識抽出能力を向上させる。
実験結果から,提案手法はベースラインと比較してベンチマークデータセットの性能が向上することが示唆された。
コードとデータセットはhttps://github.com/zjunlp/DeepKE/tree/main/example/llmで入手できる。 Current generative knowledge graph construction approaches usually fail to capture structural knowledge by simply flattening natural language into serialized texts or a specification language. However, large generative language model trained on structured data such as code has demonstrated impressive capability in understanding natural language for structural prediction and reasoning tasks. Intuitively, we address the task of generative knowledge graph construction with code language model: given a code-format natural language input, the target is to generate triples which can be represented as code completion tasks. Specifically, we develop schema-aware prompts that effectively utilize the semantic structure within the knowledge graph. As code inherently possesses structure, such as class and function definitions, it serves as a useful model for prior semantic structural knowledge. Furthermore, we employ a rationale-enhanced generation method to boost the performance. Rationales provide intermediate steps, thereby improving knowledge extraction abilities. Experimental results indicate that the proposed approach can obtain better performance on benchmark datasets compared with baselines. Code and datasets are available in https://github.com/zjunlp/DeepKE/tree/main/example/llm. | 翻訳日:2024-01-19 20:41:50 公開日:2024-01-18 |
# オープンフェデレーション学習プラットフォームに向けて:技術と法の観点からの調査と展望 Towards Open Federated Learning Platforms: Survey and Vision from Technical and Legal Perspectives ( http://arxiv.org/abs/2307.02140v2 ) ライセンス: Link先を確認 | Moming Duan | (参考訳) 従来のフェデレートラーニング(FL)は、FLのアプリケーションシナリオを狭め、データ保有者の熱意を減らし、サーバが支配する協調パラダイムに従っています。
FLの可能性を完全に解き放つために、私たちは現在のFLフレームワークの設計を再考し、より一般化された概念であるOpen Federated Learning Platformsに拡張することを提唱します。
本稿では,FLの相互協調フレームワークとして,クエリベースFLとコントラクトベースFLの2つを提案する。
本稿では,技術面と法的面の両方から,オープンなflプラットフォームの構築可能性について総合的なレビューを行う。
まず、flの定義を見直し、サーバ-クライアント結合、低モデル再利用性、非パブリックなど、固有の制限をまとめます。
モデルマイニングコミュニティが権限を持つオープンモデル共有および再利用プラットフォームであるクエリベースのflプラットフォームでは、モデルクエリのための最新モデルリポジトリの可用性、異なるモデルライセンス間の法的コンプライアンス分析、モデル再利用における著作権問題、知的財産保護など、幅広い価値のあるトピックを探求する。
特に,コンビネーション,アマルガメーション,蒸留,生成を含むバッチモデル再利用法を含むfl研究において,モデルライセンス互換性の分析を合理化する新しい分類法を提案する。
この分類法は、ライセンスの対応する条項を識別するための体系的な枠組みを提供し、モデルの再使用時に潜在的な法的意味と制限の識別を容易にする。
この調査を通じて、FLが直面する現在のジレンマを明らかにし、持続可能なオープンFLプラットフォームの開発を提唱する。
私たちは、将来的にそのようなプラットフォームを確立するためのガイダンスを提供し、対処すべき潜在的な問題と課題を特定します。 Traditional Federated Learning (FL) follows a server-domincated cooperation paradigm which narrows the application scenarios of FL and decreases the enthusiasm of data holders to participate. To fully unleash the potential of FL, we advocate rethinking the design of current FL frameworks and extending it to a more generalized concept: Open Federated Learning Platforms. We propose two reciprocal cooperation frameworks for FL to achieve this: query-based FL and contract-based FL. In this survey, we conduct a comprehensive review of the feasibility of constructing an open FL platform from both technical and legal perspectives. We begin by reviewing the definition of FL and summarizing its inherent limitations, including server-client coupling, low model reusability, and non-public. In the query-based FL platform, which is an open model sharing and reusing platform empowered by the community for model mining, we explore a wide range of valuable topics, including the availability of up-to-date model repositories for model querying, legal compliance analysis between different model licenses, and copyright issues and intellectual property protection in model reusing. In particular, we introduce a novel taxonomy to streamline the analysis of model license compatibility in FL studies that involve batch model reusing methods, including combination, amalgamation, distillation, and generation. This taxonomy provides a systematic framework for identifying the corresponding clauses of licenses and facilitates the identification of potential legal implications and restrictions when reusing models. Through this survey, we uncover the the current dilemmas faced by FL and advocate for the development of sustainable open FL platforms. We aim to provide guidance for establishing such platforms in the future, while identifying potential problems and challenges that need to be addressed. | 翻訳日:2024-01-19 20:35:10 公開日:2024-01-18 |
# ソフトウェアサプライチェーンの信頼 - ブロックチェーンで実現可能なSBOMとAIBOMの将来 Trust in Software Supply Chains: Blockchain-Enabled SBOM and the AIBOM Future ( http://arxiv.org/abs/2307.02088v4 ) ライセンス: Link先を確認 | Boming Xia, Dawen Zhang, Yue Liu, Qinghua Lu, Zhenchang Xing, Liming Zhu | (参考訳) 重要なインフラストラクチャシステムの堅牢性は、ソフトウェアサプライチェーンの完全性と透明性に起因している。
この点において、SBOM(Software Bill of Materials)は、ソフトウェア開発に不可欠なコンポーネントと依存関係の完全な在庫を提供する。
しかし、データ改ざんリスクやベンダーが機密情報を完全に開示できないといったSBOM共有の課題は、その効果的な実装を著しく妨げている。
これらの課題は、透明性と信頼が最優先される重要なインフラストラクチャとシステムのセキュリティに重大な脅威をもたらし、sbom共有のためのより安全で柔軟なメカニズムの必要性を強調する。
このギャップを埋めるために、SBOM共有のためのブロックチェーンを活用したアーキテクチャを導入し、検証済みの認証情報を活用して、選択的な開示を可能にする。
この戦略はセキュリティを高めるだけでなく、柔軟性も提供する。
さらに、本論文は、AIシステムを含むSBOMの限界を広げ、AI Bill of Materials(AIBOM)という用語を生み出した。
AIの出現とその重要なインフラストラクチャへの応用は、その起源や相互依存を含む、AIソフトウェアコンポーネントの微妙な理解を必要とする。
本ソリューションの評価は,提案するsbom共有機構の実現可能性と柔軟性を示し,現代の重要なインフラシステムのレジリエンスと信頼性に不可欠な(ai)ソフトウェアサプライチェーンの保護ソリューションを提案する。 The robustness of critical infrastructure systems is contingent upon the integrity and transparency of their software supply chains. A Software Bill of Materials (SBOM) is pivotal in this regard, offering an exhaustive inventory of components and dependencies crucial to software development. However, prevalent challenges in SBOM sharing, such as data tampering risks and vendors' reluctance to fully disclose sensitive information, significantly hinder its effective implementation. These challenges pose a notable threat to the security of critical infrastructure and systems where transparency and trust are paramount, underscoring the need for a more secure and flexible mechanism for SBOM sharing. To bridge the gap, this study introduces a blockchain-empowered architecture for SBOM sharing, leveraging verifiable credentials to allow for selective disclosure. This strategy not only heightens security but also offers flexibility. Furthermore, this paper broadens the remit of SBOM to encompass AI systems, thereby coining the term AI Bill of Materials (AIBOM). The advent of AI and its application in critical infrastructure necessitates a nuanced understanding of AI software components, including their origins and interdependencies. The evaluation of our solution indicates the feasibility and flexibility of the proposed SBOM sharing mechanism, positing a solution for safeguarding (AI) software supply chains, which is essential for the resilience and reliability of modern critical infrastructure systems. | 翻訳日:2024-01-19 20:34:40 公開日:2024-01-18 |
# 音声駆動モデルの再プログラムによる音声音声合成 Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models ( http://arxiv.org/abs/2306.16003v2 ) ライセンス: Link先を確認 | Jeongsoo Choi, Minsu Kim, Se Jin Park, Yong Man Ro | (参考訳) 本稿では,事前学習した音声駆動対話顔合成モデルを再プログラムし,テキスト駆動で動作させる手法を提案する。
これにより、音声駆動モデルで必要となる各推論のための音声記録の必要性を解消し、提供されたテキスト文を記述した顔ビデオを容易に生成できる。
そこで本研究では,事前学習された音声駆動モデルの学習音声潜在空間に入力テキストを埋め込むとともに,元の事前学習されたモデルの顔合成機能を保持することを提案する。
具体的には,与えられたテキスト入力を発音と持続時間特性をモデル化して音声潜在空間にマッピングするtext-to-audio embedded module(taem)を考案する。
さらに、テキスト入力を用いて音声の話者特性を考察するため、TAEMは視覚的話者埋め込みを受け入れるように設計されている。
視覚話者埋め込みは、単一の対象の顔画像から導出され、音声に固有の話者特性を組み込むことにより、入力テキストの学習音声潜在空間へのマッピングを改善することができる。
提案されたフレームワークの主な利点は、
1)多種多様な音声駆動対話顔合成モデルに適用できる。
2)テキスト入力と音声入力のどちらでも,高い柔軟性で会話面ビデオを生成することができる。 In this paper, we present a method for reprogramming pre-trained audio-driven talking face synthesis models to operate in a text-driven manner. Consequently, we can easily generate face videos that articulate the provided textual sentences, eliminating the necessity of recording speech for each inference, as required in the audio-driven model. To this end, we propose to embed the input text into the learned audio latent space of the pre-trained audio-driven model, while preserving the face synthesis capability of the original pre-trained model. Specifically, we devise a Text-to-Audio Embedding Module (TAEM) which maps a given text input into the audio latent space by modeling pronunciation and duration characteristics. Furthermore, to consider the speaker characteristics in audio while using text inputs, TAEM is designed to accept a visual speaker embedding. The visual speaker embedding is derived from a single target face image and enables improved mapping of input text to the learned audio latent space by incorporating the speaker characteristics inherent in the audio. The main advantages of the proposed framework are that 1) it can be applied to diverse audio-driven talking face synthesis models and 2) we can generate talking face videos with either text inputs or audio inputs with high flexibility. | 翻訳日:2024-01-19 20:34:18 公開日:2024-01-18 |
# 非古典的ネットワーク相関の階層的認証 Hierarchical certification of non-classical network correlations ( http://arxiv.org/abs/2306.15717v3 ) ライセンス: Link先を確認 | Ming-Xing Luo, Xue Yang, Alejandro Pozas-Kerstjens | (参考訳) 量子技術デバイスが利用可能になるにつれて、その正しい非古典的動作を保証するためのツールが基本となる。
これは、マルチパートの暗号プロトコルが実装されるプラットフォームを構成する量子ネットワークにおいて特に重要であり、非古典性の保証がセキュリティ証明に変換される。
我々は、ネットワークに対する線形および非線形ベル的不等式を導出し、その違反は、それらの最小数の古典的情報源が存在しないことを証明している。
まず、自然は最終的に量子力学によって支配され、ネットワーク非局所性と完全なネットワーク非局所性との間を補間する階層を提供する。
第2に,この仮定を挿入することで,実験における認証に適する結果が得られます。 With the increased availability of quantum technological devices, it becomes fundamental to have tools to guarantee their correct non-classical behavior. This is especially important for quantum networks, which constitute the platforms where multipartite cryptographic protocols will be implemented, and where guarantees of non-classicality translate into security proofs. We derive linear and non-linear Bell-like inequalities for networks, whose violation certifies the absence of a minimum number of classical sources in them. We do so, firstly, without assuming that nature is ultimately governed by quantum mechanics, providing a hierarchy interpolating between network nonlocality and full network nonlocality. Secondly we insert this assumption, which leads to results more amenable to certification in experiments. | 翻訳日:2024-01-19 20:33:58 公開日:2024-01-18 |
# 正三元モデルにおける位相的に保護された例外点とreentrant $\mathcal{pt}$ phase Topologically Protected Exceptional Points and Reentrant $\mathcal{PT}$ Phase in an Exact Ternary Model ( http://arxiv.org/abs/2306.14065v2 ) ライセンス: Link先を確認 | Chulwon Lee, Kai Zhang, Jinyan Miao, Kai Sun, and Hui Deng | (参考訳) パリティ時対称性が保存されるオープンな駆動系では、従来の知恵を損なう現象が例外点付近に現れ、フォトニクスの進歩が期待できる。
ほとんどの研究は、従来の例外点の2レベルシステムに焦点をあてるが、高次元位相空間の別の研究で、伝統的な例外点と再帰的な位相が発見されている。
本報告では,レエントラントなpt相,高次例外点,異方性例外点など,高次元位相空間におけるいくつかの重要な現象を包含する最小解析モデルを提案する。
正確な解析解を用いて,新しい位相指標を,これら異なる現象の統一原点として同定した。
モデルの単純さは、さらに高感度で効率的な偏光子デバイスのための実験的実装を促進する可能性がある。 In open, driven systems where parity-time symmetry is preserved, phenomena that defy conventional wisdom emerge near exceptional points, promising advances in photonics. While most studies focus on two-level systems of a conventional exceptional point, unconventional exceptional points as well as reentrant phases have been discovered in separate studies of higher-dimensional phase spaces. In this Letter, we present a minimal, analytical model that encompasses several key phenomena in higher-dimensional phase spaces, including reentrant PT phases, higher-order exceptional points, and anisotropic exceptional points. Using the exact analytical solution, we identify a new topological index as the unifying origin of these different phenomena. The simplicity of the model may furthermore facilitate experimental implementations for enhanced sensing and efficient polariton devices. | 翻訳日:2024-01-19 20:33:45 公開日:2024-01-18 |
# 一貫性のない記述論理を問合せするための不確かさの抽出 Exploiting Uncertainty for Querying Inconsistent Description Logics Knowledge Bases ( http://arxiv.org/abs/2306.09138v2 ) ライセンス: Link先を確認 | Riccardo Zese, Evelina Lamma, Fabrizio Riguzzi | (参考訳) 説明論理学の知識ベース~(kbs)における一貫性の欠如を管理する必要性は、セマンティックウェブによってもたらされる重要性の最前線にある。
古典的推論アルゴリズムは一貫性のないKBを処理せず、矛盾を取り除くためにKBのデバッグを強制する。
本稿では,disPONTEと呼ばれる既存の確率論的セマンティクスを利用してこの問題を克服し,不整合KBに対してもクエリを許容する。
提案手法をTRILLとBUNDLEで実装し,提案手法の有効性を実証的に検証した。
さらに,提案手法を,DL推論タスクにおいて最も確立された意味論の一つである修復意味論と比較した。 The necessity to manage inconsistency in Description Logics Knowledge Bases~(KBs) has come to the fore with the increasing importance gained by the Semantic Web, where information comes from different sources that constantly change their content and may contain contradictory descriptions when considered either alone or together. Classical reasoning algorithms do not handle inconsistent KBs, forcing the debugging of the KB in order to remove the inconsistency. In this paper, we exploit an existing probabilistic semantics called DISPONTE to overcome this problem and allow queries also in case of inconsistent KBs. We implemented our approach in the reasoners TRILL and BUNDLE and empirically tested the validity of our proposal. Moreover, we formally compare the presented approach to that of the repair semantics, one of the most established semantics when considering DL reasoning tasks. | 翻訳日:2024-01-19 20:33:13 公開日:2024-01-18 |
# また別のicuベンチマーク:臨床mlのための柔軟なマルチセンターフレームワーク Yet Another ICU Benchmark: A Flexible Multi-Center Framework for Clinical ML ( http://arxiv.org/abs/2306.05109v3 ) ライセンス: Link先を確認 | Robin van de Water, Hendrik Schmidt, Paul Elbers, Patrick Thoral, Bert Arnrich, Patrick Rockenschaub | (参考訳) 近年,機械学習(ML)の医療応用が急増している。
集中治療ユニット(ICU)は、電子健康記録から利用可能なデータが豊富にあることを考えると、MLの自然な生息地である。
合併症の早期検出など、多数のICU予測タスクに対処するモデルが提案されている。
著者は、しばしば最先端のパフォーマンスを報告するが、優越性の主張を検証することは困難である。
データセットとコードは必ずしも公開されておらず、コホート定義、前処理パイプライン、トレーニングセットアップは再現が難しい。
本研究は,再現可能かつ同等な臨床ML実験を研究者が定義可能なモジュラーフレームワークであるEtther Another ICU Benchmark (YAIB)を紹介し,コホート定義からモデル評価まで,エンドツーエンドのソリューションを提供する。
このフレームワークは、ほとんどのオープンアクセスICUデータセット(MIMIC III/IV、eICU、HiRID、AUMCdb)をネイティブにサポートしており、将来のICUデータセットに容易に適応できる。
複数のMLとディープラーニングモデルの透過的な前処理パイプラインと拡張可能なトレーニングコードを組み合わせることで、YAIBは統一されたモデル開発を可能にする。
このベンチマークは臨床医と共同で開発した5つの既定予測タスク(致死性,急性腎障害,敗血症,腎機能,滞在期間)が組み合わされている。
さらなるタスクの追加は設計によって簡単です。
yaibを用いて、データセット、コホート定義、前処理の選択が予測性能(モデルクラスよりも多く)に大きな影響を与えていることが、総合的なベンチマークツールとしてyaibが緊急に必要であることを示している。
本研究は,手法開発を加速し,実際の臨床実践を可能にするための臨床MLコミュニティへの取り組みである。
ソフトウェアリポジトリ: https://github.com/rvandewater/yaib。 Medical applications of machine learning (ML) have experienced a surge in popularity in recent years. The intensive care unit (ICU) is a natural habitat for ML given the abundance of available data from electronic health records. Models have been proposed to address numerous ICU prediction tasks like the early detection of complications. While authors frequently report state-of-the-art performance, it is challenging to verify claims of superiority. Datasets and code are not always published, and cohort definitions, preprocessing pipelines, and training setups are difficult to reproduce. This work introduces Yet Another ICU Benchmark (YAIB), a modular framework that allows researchers to define reproducible and comparable clinical ML experiments; we offer an end-to-end solution from cohort definition to model evaluation. The framework natively supports most open-access ICU datasets (MIMIC III/IV, eICU, HiRID, AUMCdb) and is easily adaptable to future ICU datasets. Combined with a transparent preprocessing pipeline and extensible training code for multiple ML and deep learning models, YAIB enables unified model development. Our benchmark comes with five predefined established prediction tasks (mortality, acute kidney injury, sepsis, kidney function, and length of stay) developed in collaboration with clinicians. Adding further tasks is straightforward by design. Using YAIB, we demonstrate that the choice of dataset, cohort definition, and preprocessing have a major impact on the prediction performance - often more so than model class - indicating an urgent need for YAIB as a holistic benchmarking tool. We provide our work to the clinical ML community to accelerate method development and enable real-world clinical implementations. Software Repository: https://github.com/rvandewater/YAIB. | 翻訳日:2024-01-19 20:32:41 公開日:2024-01-18 |
# 非凸再重み付け最小二乗による同時構造化データの復元 Recovering Simultaneously Structured Data via Non-Convex Iteratively Reweighted Least Squares ( http://arxiv.org/abs/2306.04961v2 ) ライセンス: Link先を確認 | Christian K\"ummerle and Johannes Maly | (参考訳) 線形観測から複数の不均質な低次元構造に付着するデータ復元問題に対する新しいアルゴリズムを提案する。
行スパースかつローランクなデータ行列に着目し,両構造を活用可能な反復再重み付き最小二乗(IRLS)アルゴリズムを提案し,解析する。
特に、行スパーシティとランクのための非凸サーロゲートの組み合わせを最適化し、それらのバランスをアルゴリズムに組み込む。
我々は, 凸代理の組み合わせでは不可能であることが知られている最小のサンプル量(定数と対数係数まで)の条件下で, 反復列の局所的な2次収束を同時に構造化されたデータ行列に証明する。
実験では,irls法が良好な経験的収束を示し,最先端法よりも少ない測定値から,行スパース行列と低ランク行列を同時に同定することを示した。
コードはhttps://github.com/ckuemmerle/simirlsで入手できる。 We propose a new algorithm for the problem of recovering data that adheres to multiple, heterogeneous low-dimensional structures from linear observations. Focusing on data matrices that are simultaneously row-sparse and low-rank, we propose and analyze an iteratively reweighted least squares (IRLS) algorithm that is able to leverage both structures. In particular, it optimizes a combination of non-convex surrogates for row-sparsity and rank, a balancing of which is built into the algorithm. We prove locally quadratic convergence of the iterates to a simultaneously structured data matrix in a regime of minimal sample complexity (up to constants and a logarithmic factor), which is known to be impossible for a combination of convex surrogates. In experiments, we show that the IRLS method exhibits favorable empirical convergence, identifying simultaneously row-sparse and low-rank matrices from fewer measurements than state-of-the-art methods. Code is available at https://github.com/ckuemmerle/simirls. | 翻訳日:2024-01-19 20:32:11 公開日:2024-01-18 |
# AGILE3D: 対話型多目的3Dセグメンテーション AGILE3D: Attention Guided Interactive Multi-object 3D Segmentation ( http://arxiv.org/abs/2306.00977v3 ) ライセンス: Link先を確認 | Yuanwen Yue, Sabarinath Mahadevan, Jonas Schult, Francis Engelmann, Bastian Leibe, Konrad Schindler, Theodora Kontogianni | (参考訳) インタラクティブなセグメンテーションでは、モデルとユーザが協力して、関心のあるオブジェクトを3Dポイントクラウドに記述する。
反復的なプロセスでは、モデルが各データポイントをオブジェクト(または背景)に割り当て、ユーザが結果のセグメンテーションのエラーを修正してモデルにフィードバックする。
現在のベストプラクティスは問題をバイナリ分類として定式化し、オブジェクトを一度に1つずつセグメンテーションする。
モデルは、ユーザが背景に正しく割り当てられた領域を示す正のクリックと、オブジェクトに誤って割り当てられた領域の負のクリックを提供することを期待する。
オブジェクト間のシナジーを無視するので、連続的に訪問するオブジェクトは無駄である: あるオブジェクトに対する正のクリックは、定義上、近くのオブジェクトに対する負のクリックとして機能する。
さらに、隣接するオブジェクト間の直接競合は、それらの共通境界の識別を高速化することができる。
我々は,(1)複数の3Dオブジェクトの同時セグメンテーションをサポートし,(2)ユーザクリックが少ない精度の高いセグメンテーションマスクを出力し,(3)より高速な推論を提供する,効率的で注意に基づくモデルAGILE3Dを紹介する。
ユーザのクリックを空間的-時間的クエリとしてエンコードし、クリッククエリーと3dシーン間の明示的なインタラクションをクリックアテンションモジュールを通じて可能にします。
新しいクリックが追加されるたびに、更新されたセグメンテーションマスクを生成する軽量デコーダを実行するだけです。
4つの異なる3Dポイントクラウドデータセットによる実験では、AGILE3Dは新たな最先端技術を設定している。
さらに,実際のユーザ調査による実環境設定の実用性も検証する。 During interactive segmentation, a model and a user work together to delineate objects of interest in a 3D point cloud. In an iterative process, the model assigns each data point to an object (or the background), while the user corrects errors in the resulting segmentation and feeds them back into the model. The current best practice formulates the problem as binary classification and segments objects one at a time. The model expects the user to provide positive clicks to indicate regions wrongly assigned to the background and negative clicks on regions wrongly assigned to the object. Sequentially visiting objects is wasteful since it disregards synergies between objects: a positive click for a given object can, by definition, serve as a negative click for nearby objects. Moreover, a direct competition between adjacent objects can speed up the identification of their common boundary. We introduce AGILE3D, an efficient, attention-based model that (1) supports simultaneous segmentation of multiple 3D objects, (2) yields more accurate segmentation masks with fewer user clicks, and (3) offers faster inference. Our core idea is to encode user clicks as spatial-temporal queries and enable explicit interactions between click queries as well as between them and the 3D scene through a click attention module. Every time new clicks are added, we only need to run a lightweight decoder that produces updated segmentation masks. In experiments with four different 3D point cloud datasets, AGILE3D sets a new state-of-the-art. Moreover, we also verify its practicality in real-world setups with real user studies. | 翻訳日:2024-01-19 20:31:30 公開日:2024-01-18 |
# RKHS近似と回帰による強化に基づく自己監督表現学習の理解 Understanding Augmentation-based Self-Supervised Representation Learning via RKHS Approximation and Regression ( http://arxiv.org/abs/2306.00788v3 ) ライセンス: Link先を確認 | Runtian Zhai, Bingbin Liu, Andrej Risteski, Zico Kolter, Pradeep Ravikumar | (参考訳) データ拡張は、対照的な学習やマスキング言語モデリングなど、現代の自己指導型表現学習の実証的成功に不可欠である。
しかし、拡張の正確な役割に関する理論的理解は限られている。
最近の研究は、自己教師付き学習とグラフラプラシア作用素の頂点固有空間の近似の関係を構築し、そのような表現上の線形プローブの学習がRKHS回帰に結びつくことを示唆している。
この知見に基づいて、この研究は拡張に基づく事前訓練の統計的分析に発展する。
アイソメトリ特性から、拡張によって与えられる対象関数の幾何学的特徴付けとして、モデルの効果と拡張の影響を解き、モデルの複雑さのない2つの一般化境界を証明する。
最初のバウンドは任意のエンコーダで動作し、予測誤差は、線形プローブをrkhs回帰に適合させることで生じる推定誤差と、rkhs近似による近似誤差の和として分解される。
2つ目の境界線は、エンコーダがほぼ最適である場合、すなわち、増大によって誘導されるRKHSのトップd固有空間を近似する。
私たちの分析で重要な要素は、異なる拡張を定量的に比較し、下流のパフォーマンスに与える影響を分析するために使用される拡張複雑さです。 Data augmentation is critical to the empirical success of modern self-supervised representation learning, such as contrastive learning and masked language modeling. However, a theoretical understanding of the exact role of augmentation remains limited. Recent work has built the connection between self-supervised learning and the approximation of the top eigenspace of a graph Laplacian operator, suggesting that learning a linear probe atop such representation can be connected to RKHS regression. Building on this insight, this work delves into a statistical analysis of augmentation-based pretraining. Starting from the isometry property, a geometric characterization of the target function given by the augmentation, we disentangle the effects of the model and the augmentation, and prove two generalization bounds that are free of model complexity. Our first bound works for an arbitrary encoder, where the prediction error is decomposed as the sum of an estimation error incurred by fitting a linear probe with RKHS regression, and an approximation error entailed by RKHS approximation. Our second bound specifically addresses the case where the encoder is near-optimal, that is it approximates the top-d eigenspace of the RKHS induced by the augmentation. A key ingredient in our analysis is the augmentation complexity, which we use to quantitatively compare different augmentations and analyze their impact on downstream performance. | 翻訳日:2024-01-19 20:31:04 公開日:2024-01-18 |
# 思考クローン:人間の思考を模倣して行動しながら考えることを学ぶ Thought Cloning: Learning to Think while Acting by Imitating Human Thinking ( http://arxiv.org/abs/2306.00323v3 ) ライセンス: Link先を確認 | Shengran Hu and Jeff Clune | (参考訳) 言語はしばしば人間の思考の重要な側面と見なされ、新しい状況への一般化、探索、計画、計画、適応の特別な能力を与えてくれる。
しかしながら、強化学習(rl)エージェントは、これらの能力の人間レベルのパフォーマンスとは程遠い。
このような認知的欠陥の1つの理由は、言語における思考の利点が欠けていること、そして人間のように考えるように訓練することでAIエージェントを改善することができることである。
我々は、人間のデモ参加者の行動をクローンするだけでなく、人間がこうした行動を行うときに持つ思考をクローンする、新しいImitation Learning framework、Thought Cloningを導入する。
我々は、行動中に大声で思考する人間のインターネットサイズのデータセット(例えば、書き起こしを含むオンラインビデオ)に、思考クローンが真に光ることを期待しているが、ここでは思考と行動データが合成的に生成される領域で実験を行う。
その結果、Thought Cloningは振舞いクローンよりもはるかに早く学習し、そのパフォーマンス上の優位性は、分散テストタスクの更なるアウトオブアウトを増大させ、新しい状況に対処する能力を強調している。
Thought Cloningはまた、AIの安全性と解釈可能性に重要なメリットを提供し、AIのデバッグと改善を容易にする。
エージェントの思考を観察できるので、(1)物事がなぜうまくいかなかったのかをより容易に診断でき、問題の修正が容易になったり、(2)思考の修正によってエージェントを操ったり、(3)計画している安全でないことをするのを防ぐことができる。
全体として、エージェントの思考と行動の訓練によって、Thought Cloningはより安全で強力なエージェントを生み出します。 Language is often considered a key aspect of human thinking, providing us with exceptional abilities to generalize, explore, plan, replan, and adapt to new situations. However, Reinforcement Learning (RL) agents are far from human-level performance in any of these abilities. We hypothesize one reason for such cognitive deficiencies is that they lack the benefits of thinking in language and that we can improve AI agents by training them to think like humans do. We introduce a novel Imitation Learning framework, Thought Cloning, where the idea is to not just clone the behaviors of human demonstrators, but also the thoughts humans have as they perform these behaviors. While we expect Thought Cloning to truly shine at scale on internet-sized datasets of humans thinking out loud while acting (e.g. online videos with transcripts), here we conduct experiments in a domain where the thinking and action data are synthetically generated. Results reveal that Thought Cloning learns much faster than Behavioral Cloning and its performance advantage grows the further out of distribution test tasks are, highlighting its ability to better handle novel situations. Thought Cloning also provides important benefits for AI Safety and Interpretability, and makes it easier to debug and improve AI. Because we can observe the agent's thoughts, we can (1) more easily diagnose why things are going wrong, making it easier to fix the problem, (2) steer the agent by correcting its thinking, or (3) prevent it from doing unsafe things it plans to do. Overall, by training agents how to think as well as behave, Thought Cloning creates safer, more powerful agents. | 翻訳日:2024-01-19 20:30:39 公開日:2024-01-18 |
# 分散非回帰高次元ベイズ最適化における加法的制約の緩和 Relaxing the Additivity Constraints in Decentralized No-Regret High-Dimensional Bayesian Optimization ( http://arxiv.org/abs/2305.19838v3 ) ライセンス: Link先を確認 | Anthony Bardou, Patrick Thiran and Thomas Begin | (参考訳) ベイズ最適化(BO)は一般に、最適化の各ステップで最大化されなければならない取得関数を利用することで、ノイズの多い未知の関数の$f$を最適化するために使用される。
漸近的に最適なboアルゴリズムが低次元関数の最適化に効率的であるとしても、高次元空間への拡張は未解決の問題であり、しばしば加法構造を$f$と仮定して取り組まれる。
BOアルゴリズムは一般に、適用可能性領域を減少させる付加的構造に関する追加の制限的な仮定を導入する。
本論文の主な貢献は2つある。
(i)取得関数の最大化保証を弱めることなく、$f$の加法構造上の制限的な仮定を緩和する。
(II)分散BOアルゴリズムの過剰探索問題に対処する。
これらの目的のために、DuMBOという漸近的に最適な分散BOアルゴリズムを提案し、特に$f$の加法構造が高次元要素を構成する場合、最先端BOアルゴリズムと非常に競合する性能を実現する。 Bayesian Optimization (BO) is typically used to optimize an unknown function $f$ that is noisy and costly to evaluate, by exploiting an acquisition function that must be maximized at each optimization step. Even if provably asymptotically optimal BO algorithms are efficient at optimizing low-dimensional functions, scaling them to high-dimensional spaces remains an open problem, often tackled by assuming an additive structure for $f$. By doing so, BO algorithms typically introduce additional restrictive assumptions on the additive structure that reduce their applicability domain. This paper contains two main contributions: (i) we relax the restrictive assumptions on the additive structure of $f$ without weakening the maximization guarantees of the acquisition function, and (ii) we address the over-exploration problem for decentralized BO algorithms. To these ends, we propose DuMBO, an asymptotically optimal decentralized BO algorithm that achieves very competitive performance against state-of-the-art BO algorithms, especially when the additive structure of $f$ comprises high-dimensional factors. | 翻訳日:2024-01-19 20:30:09 公開日:2024-01-18 |
# 水中画像強調のための固有スーパービジョンによる相乗的マルチスケールディテール微細化 Synergistic Multiscale Detail Refinement via Intrinsic Supervision for Underwater Image Enhancement ( http://arxiv.org/abs/2308.11932v4 ) ライセンス: Link先を確認 | Dehuan Zhang, Jingchun Zhou, ChunLe Guo, Weishi Zhang, Chongyi Li | (参考訳) 視覚的な水中のシーンは、主に水中メディアからの干渉を緩和する。
既存の手法は水中のシーンに固有のスケール関連特性を無視する。
そこで本研究では,複数ステージを含む水中シーンの細部を拡張すべく,内在的監督(smdr-is)による相乗的多スケール詳細化を提案する。
原画像からの低分解段階は、Adaptive Selective Intrinsic Supervised Feature (ASISF)モジュールを使用して特徴伝搬によって達成された、複数のスケールの詳細を原ステージに付与する。
ASISFモジュールは、内在的な監視を用いることで、多段劣化段階における特徴伝達を正確に制御し、誘導し、マルチスケールの細部改善を強化し、低劣化段階における無関係情報からの干渉を最小限にする。
SMDR-ISのマルチデグレーションエンコーダ・デコーダ・フレームワークにおいて,BICA(Bifocal Intrinsic-Context Attention Module)を導入する。
BICAは、本質的な監督原理に基づいて、画像内のマルチスケールシーン情報を効率的に活用する。
BICAは高解像度空間を低解像度空間の洞察に触発し、水中画像復元における空間的文脈関係の重要な役割を浮き彫りにする。
トレーニングを通じて、多変量損失関数が組み込まれれば、ネットワークが強化され、多様なスケールで情報を取り出すことができる。
最先端の手法に対してベンチマークすると、SMDR-ISは一貫して優れた性能を示す。
コードは、https://github.com/zhoujingchun03/SMDR-ISで公開されている。 Visually restoring underwater scenes primarily involves mitigating interference from underwater media. Existing methods ignore the inherent scale-related characteristics in underwater scenes. Therefore, we present the synergistic multi-scale detail refinement via intrinsic supervision (SMDR-IS) for enhancing underwater scene details, which contain multi-stages. The low-degradation stage from the original images furnishes the original stage with multi-scale details, achieved through feature propagation using the Adaptive Selective Intrinsic Supervised Feature (ASISF) module. By using intrinsic supervision, the ASISF module can precisely control and guide feature transmission across multi-degradation stages, enhancing multi-scale detail refinement and minimizing the interference from irrelevant information in the low-degradation stage. In multi-degradation encoder-decoder framework of SMDR-IS, we introduce the Bifocal Intrinsic-Context Attention Module (BICA). Based on the intrinsic supervision principles, BICA efficiently exploits multi-scale scene information in images. BICA directs higher-resolution spaces by tapping into the insights of lower-resolution ones, underscoring the pivotal role of spatial contextual relationships in underwater image restoration. Throughout training, the inclusion of a multi-degradation loss function can enhance the network, allowing it to adeptly extract information across diverse scales. When benchmarked against state-of-the-art methods, SMDR-IS consistently showcases superior performance. The code is publicly available at: https://github.com/zhoujingchun03/SMDR-IS. | 翻訳日:2024-01-19 20:25:20 公開日:2024-01-18 |
# AMSP-UOD:渦畳み込みと確率摂動と水中物体検出 AMSP-UOD: When Vortex Convolution and Stochastic Perturbation Meet Underwater Object Detection ( http://arxiv.org/abs/2308.11918v3 ) ライセンス: Link先を確認 | Jingchun Zhou, Zongxin He, Kin-Man Lam, Yudong Wang, Weishi Zhang, ChunLe Guo, Chongyi Li | (参考訳) 本稿では,水中物体検出のためのAmplitude-Modulated Stochastic Perturbation and Vortex Convolutional Network, AMSP-UODを提案する。
AMSP-UODは、複雑な水中環境において、非理想的撮像因子が検出精度に与える影響に特に対処する。
AMSP Vortex Convolution (AMSP-VConv) は, 物体検出性能に対するノイズの影響を軽減するため, ノイズ分布の破壊, 特徴抽出能力の向上, パラメータの効果的削減, ネットワークロバスト性の向上を目的としている。
本研究では, 複雑な水中環境下でのネットワーク性能を向上させるとともに, 長期・短距離の特徴の関連性を高めたFAD-CSP (Feature Association Decoupling Cross Stage partial) モジュールを設計する。
さらに,非最大抑圧(NMS)とアスペクト比類似度閾値を基準として,水藻や魚の群れなどの密集した場面における検出を最適化し,物体検出精度を向上させる。
URPCとRUODデータセットの大規模な実験により、我々の手法は精度とノイズ免疫の点で既存の最先端手法よりも優れていることが示された。
AMSP-UODは現実世界の応用の可能性のある革新的なソリューションを提案する。
私たちのコードはhttps://github.com/shujingchun03/AMSP-UOD.comで利用可能です。 In this paper, we present a novel Amplitude-Modulated Stochastic Perturbation and Vortex Convolutional Network, AMSP-UOD, designed for underwater object detection. AMSP-UOD specifically addresses the impact of non-ideal imaging factors on detection accuracy in complex underwater environments. To mitigate the influence of noise on object detection performance, we propose AMSP Vortex Convolution (AMSP-VConv) to disrupt the noise distribution, enhance feature extraction capabilities, effectively reduce parameters, and improve network robustness. We design the Feature Association Decoupling Cross Stage Partial (FAD-CSP) module, which strengthens the association of long and short range features, improving the network performance in complex underwater environments. Additionally, our sophisticated post-processing method, based on Non-Maximum Suppression (NMS) with aspect-ratio similarity thresholds, optimizes detection in dense scenes, such as waterweed and schools of fish, improving object detection accuracy. Extensive experiments on the URPC and RUOD datasets demonstrate that our method outperforms existing state-of-the-art methods in terms of accuracy and noise immunity. AMSP-UOD proposes an innovative solution with the potential for real-world applications. Our code is available at https://github.com/zhoujingchun03/AMSP-UOD. | 翻訳日:2024-01-19 20:24:52 公開日:2024-01-18 |
# 高次ランダムウォークを用いたデカップリング型マルチビュークラスタリング Decoupled Contrastive Multi-View Clustering with High-Order Random Walks ( http://arxiv.org/abs/2308.11164v2 ) ライセンス: Link先を確認 | Yiding Lu, Yijie Lin, Mouxing Yang, Dezhong Peng, Peng Hu, Xi Peng | (参考訳) 近年, クラスタ内サンプルが負のペアとして誤って扱われるなど, 偽陰性の問題を軽減するために, 近隣からのデータペアを構築する, 頑健なマルチビュークラスタリング(MvC)手法が提案されている。
これらの方法では有望な性能が達成されているが、偽陰性問題はまだ解決されておらず、全ての対人および対人関係のサンプルが単に正と負として扱われているため偽陽性問題が発生する。
この問題に対処するために,高次ランダムウォーク(divide)を用いた非結合型コントラストマルチビュークラスタリングという,新しいロバストな手法を提案する。
簡単に言うと、divisionはランダムウォークを利用して、ローカルな方法でではなく、グローバルにデータペアを段階的に識別する。
その結果、DIVIDEは近隣の陰性および外部の陽性を同定することができた。
さらに、DIVIDEは新しいMvCアーキテクチャを採用し、異なる埋め込み空間でビュー内およびビュー内コントラスト学習を行い、クラスタリング性能を高め、欠落したビューに対するロバスト性を受け入れる。
DIVIDEの有効性を検証するため、4つのベンチマークデータセットに対して、完全および不完全両方のMvC設定において、9つの最先端MvC手法と比較して広範な実験を行った。 In recent, some robust contrastive multi-view clustering (MvC) methods have been proposed, which construct data pairs from neighborhoods to alleviate the false negative issue, i.e., some intra-cluster samples are wrongly treated as negative pairs. Although promising performance has been achieved by these methods, the false negative issue is still far from addressed and the false positive issue emerges because all in- and out-of-neighborhood samples are simply treated as positive and negative, respectively. To address the issues, we propose a novel robust method, dubbed decoupled contrastive multi-view clustering with high-order random walks (DIVIDE). In brief, DIVIDE leverages random walks to progressively identify data pairs in a global instead of local manner. As a result, DIVIDE could identify in-neighborhood negatives and out-of-neighborhood positives. Moreover, DIVIDE embraces a novel MvC architecture to perform inter- and intra-view contrastive learning in different embedding spaces, thus boosting clustering performance and embracing the robustness against missing views. To verify the efficacy of DIVIDE, we carry out extensive experiments on four benchmark datasets comparing with nine state-of-the-art MvC methods in both complete and incomplete MvC settings. | 翻訳日:2024-01-19 20:24:27 公開日:2024-01-18 |
# 大規模言語モデルを用いたコード生成のためのパラメータ効率の良い微調整手法の探索 Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models ( http://arxiv.org/abs/2308.10462v2 ) ライセンス: Link先を確認 | Martin Weyssow, Xin Zhou, Kisub Kim, David Lo and Houari Sahraoui | (参考訳) 大型言語モデル(LLM)は、特定の微調整を必要とせずに、ゼロショットで自然言語の意図を与えられた正確なコードスニペットを生成する印象的な能力を示す。
これまでの研究では、微調整LDMの利点を強調していたが、このプロセスは高い計算コストを発生させ、特に数十億のパラメータを持つモデルにおいて資源不足の環境では実用的ではない。
これらの課題に対処するため、過去の研究では、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキスト学習(ICL)を探求した。
しかし、iclはコンテキスト的に関連するプロンプトの設計やタスク固有のパラメータの学習の欠如といった不便さを導入し、ダウンストリームのタスクパフォーマンスを制限している。
この文脈では、適切な資源消費を維持しつつ、LLMをタスク固有のデータに効率的に専門化するための有望なアプローチとしてパラメータ効率の良い細調整(PEFT)技術が期待できる。
本稿では,自動コード生成シナリオにおけるLPMに対するPEFT手法の総合的研究を行う。
LLMのPEFT技術に関する包括的調査により,多種多様なLCMのICLに対する優位性と可能性を明らかにした。
さらに,PEFTの機能拡張を実演し,性能を損なうことなく2つの異なるデータセットから学習できることを示す。
さらに本研究では,PEFTと量子化を組み合わせることで,より大きなLCMをチューニングし,メモリ使用量を大幅に削減する可能性を強調した。
そこで本研究では,peftをソフトウェア工学のシナリオに適用する機会を与える。
私たちのコードはhttps://github.com/martin-wey/peft-llm-code/で利用可能です。 Large Language Models (LLMs) demonstrate impressive capabilities to generate accurate code snippets given natural language intents in zero-shot, i.e., without the need for specific fine-tuning. While prior studies have highlighted the advantages of fine-tuning LLMs, this process incurs high computational costs, making it impractical in resource-scarce environments, particularly for models with billions of parameters. To address these challenges, previous research explored In-Context Learning (ICL) as a strategy to guide the LLM generative process with task-specific prompt examples. However, ICL introduces inconveniences, such as the need for designing contextually relevant prompts and the absence of learning task-specific parameters, thereby limiting downstream task performance. In this context, we foresee Parameter-Efficient Fine-Tuning (PEFT) techniques as a promising approach to efficiently specialize LLMs to task-specific data while maintaining reasonable resource consumption. In this paper, we deliver a comprehensive study of PEFT techniques for LLMs under the automated code generation scenario. Our comprehensive investigation of PEFT techniques for LLMs reveals their superiority and potential over ICL across a diverse set of LLMs. Additionally, we demonstrate the extended capabilities of PEFT, showcasing its ability to learn from two distinct datasets jointly without compromising performance. Furthermore, our study highlights the potential for tuning larger LLMs and significant reductions in memory usage by combining PEFT with quantization. Therefore, this study opens opportunities for broader applications of PEFT in software engineering scenarios. Our code is available at https://github.com/martin-wey/peft-llm-code/. | 翻訳日:2024-01-19 20:23:59 公開日:2024-01-18 |
# LLM4TS:データ効率の良い時系列フォアキャスターとしての事前学習LDMの調整 LLM4TS: Aligning Pre-Trained LLMs as Data-Efficient Time-Series Forecasters ( http://arxiv.org/abs/2308.08469v5 ) ライセンス: Link先を確認 | Ching Chang, Wei-Yao Wang, Wen-Chih Peng, Tien-Fu Chen | (参考訳) 多変量時系列予測は、経済計画や天気予報など、様々な分野において不可欠である。
ディープトレイン・トゥ・スクラッチモデルでは効果的な性能を示したが、大量のデータを必要とするため、現実の応用性が制限されている。
近年,事前学習された大規模言語モデル(LLM)の表現学習伝達性を活用して,限られた非言語データセットを効果的に処理している。
しかし, LLMを時系列データに組み込むことは, 時系列データと言語データとの組成の違いや, マルチスケールの時間情報処理が不可能なため, 適応が困難であることを示す。
これらの課題に対処するために,事前学習したLLMを用いて時系列予測を行うLLM4TSを提案する。
llm4tsは2段階の微調整戦略からなる: \textit{time-series alignment} ステージは時系列データのニュアンスと一致し、 \textit{forecasting fine-tuning} ステージは下流の時系列予測タスクである。
さらに,本フレームワークは,事前学習したLLM内に多段階のテンポラルデータを統合し,時間固有情報を解釈する能力を向上する,新たな2段階集約手法を備えている。
7つの時系列予測データセットに対する実験では、LLM4TSは、フルショットシナリオでのトレーニング済みのスクラッチモデルと比較して、既存の最先端手法よりも優れている。
さらに,予測タスクにおける表現学習によるLLM4TSの有効性を,異なる自己指導型学習手法と比較した評価を行った。 Multivariate time-series forecasting is vital in various domains, e.g., economic planning and weather prediction. Deep train-from-scratch models have exhibited effective performance yet require large amounts of data, which limits real-world applicability. Recently, researchers have leveraged the representation learning transferability of pre-trained Large Language Models (LLMs) to handle limited non-linguistic datasets effectively. However, incorporating LLMs with time-series data presents challenges of limited adaptation due to different compositions between time-series and linguistic data, and the inability to process multi-scale temporal information. To tackle these challenges, we propose LLM4TS, a framework for time-series forecasting with pre-trained LLMs. LLM4TS consists of a two-stage fine-tuning strategy: the \textit{time-series alignment} stage to align LLMs with the nuances of time-series data, and the \textit{forecasting fine-tuning} stage for downstream time-series forecasting tasks. Furthermore, our framework features a novel two-level aggregation method that integrates multi-scale temporal data within pre-trained LLMs, enhancing their ability to interpret time-specific information. In experiments across 7 time-series forecasting datasets, LLM4TS is superior to existing state-of-the-art methods compared with trained-from-scratch models in full-shot scenarios, and also achieves an average improvement of 6.84% in MSE in few-shot scenarios. In addition, evaluations compared with different self-supervised learning approaches highlight LLM4TS's effectiveness with representation learning in forecasting tasks. | 翻訳日:2024-01-19 20:23:33 公開日:2024-01-18 |
# シャフから小麦を分離する:パラメータ効率の良いモジュール操作によるモデル欠陥学習 Separate the Wheat from the Chaff: Model Deficiency Unlearning via Parameter-Efficient Module Operation ( http://arxiv.org/abs/2308.08090v2 ) ライセンス: Link先を確認 | Xinshuo Hu, Dongfang Li, Baotian Hu, Zihao Zheng, Zhenyu Liu, Min Zhang | (参考訳) 大規模言語モデル(LLM)は様々な用途で広く用いられてきたが、非現実性や毒性に関わる問題に悩まされていることが知られている。
パラメータ効率のよいモジュール(pem)は、モデルに新しいスキルを付与する効果を実証しているが、未学習の欠如に対するpemの活用は未検討のままである。
本研究では,<expert'のPEMと<anti-expert'のPEMを統合して,LLMの真正性と解毒性を高めるために,抽出-before-Subtraction(Ext-Sub)というPEM操作手法を提案する。
注目すべきは、アンチエキスパートのPEMでさえ、言語モデリングと論理的物語能力を必要とする製造されたコンテンツを生成する能力のために、価値ある能力を持っていることである。
提案手法では,パラメータを単に否定するのではなく,汎用性を保ちながら,アンチエキスパートPEM内の機能不足だけを抽出,排除する。
本手法の有効性を評価するために,言語モデリングや数学的推論などの付加的能力を包含して,llmに関する広範囲な実験を行った。
実験結果から,本手法はLLMの基本能力を維持しつつ,真理性と解毒性を効果的に向上することを示す。 Large language models (LLMs) have been widely used in various applications but are known to suffer from issues related to untruthfulness and toxicity. While parameter-efficient modules (PEMs) have demonstrated their effectiveness in equipping models with new skills, leveraging PEMs for deficiency unlearning remains underexplored. In this work, we propose a PEMs operation approach, namely Extraction-before-Subtraction (Ext-Sub), to enhance the truthfulness and detoxification of LLMs through the integration of ``expert'' PEM and ``anti-expert'' PEM. Remarkably, even anti-expert PEM possess valuable capabilities due to their proficiency in generating fabricated content, which necessitates language modeling and logical narrative competence. Rather than merely negating the parameters, our approach involves extracting and eliminating solely the deficiency capability within anti-expert PEM while preserving the general capabilities. To evaluate the effectiveness of our approach in terms of truthfulness and detoxification, we conduct extensive experiments on LLMs, encompassing additional abilities such as language modeling and mathematical reasoning. Our empirical results demonstrate that our approach effectively improves truthfulness and detoxification, while largely preserving the fundamental abilities of LLMs. | 翻訳日:2024-01-19 20:23:02 公開日:2024-01-18 |
# 拡散モデルの誤差伝播について On Error Propagation of Diffusion Models ( http://arxiv.org/abs/2308.05021v3 ) ライセンス: Link先を確認 | Yangming Li, Mihaela van der Schaar | (参考訳) 拡散モデル(DM)は様々なタスク(音声合成や画像生成など)において有望な性能を示すが、連続的な構造のためエラーの伝播に悩まされる可能性がある。
しかし、条件ランダム場(CRF)のようないくつかの逐次モデルがこの問題から解放されているため、これは定かではない。
この問題に対処するために,dmsのアーキテクチャにおける誤り伝播を数学的に定式化する理論的枠組みを開発し,そのフレームワークはモジュールエラー,累積誤差,伝播方程式の3つの要素を含む。
モジュラーおよび累積誤差は、DMが実際にエラー伝播に影響を受けていることを解釈する方程式によって関連付けられる。
我々の理論的研究は、累積誤差がDMの生成品質と密接に関連していることも示唆している。
この結果に基づいて累積誤差を正規化項として適用し,誤差伝播を減少させる。
この用語は計算に難解であるため、その上界を導出し、最適化のための境界を効率的に推定するブートストラップアルゴリズムを設計する。
我々は,複数の画像データセットについて広範な実験を行い,提案手法が誤差伝播を減少させ,バニラdmsを著しく改善し,従来のベースラインを上回ることを示した。 Although diffusion models (DMs) have shown promising performances in a number of tasks (e.g., speech synthesis and image generation), they might suffer from error propagation because of their sequential structure. However, this is not certain because some sequential models, such as Conditional Random Field (CRF), are free from this problem. To address this issue, we develop a theoretical framework to mathematically formulate error propagation in the architecture of DMs, The framework contains three elements, including modular error, cumulative error, and propagation equation. The modular and cumulative errors are related by the equation, which interprets that DMs are indeed affected by error propagation. Our theoretical study also suggests that the cumulative error is closely related to the generation quality of DMs. Based on this finding, we apply the cumulative error as a regularization term to reduce error propagation. Because the term is computationally intractable, we derive its upper bound and design a bootstrap algorithm to efficiently estimate the bound for optimization. We have conducted extensive experiments on multiple image datasets, showing that our proposed regularization reduces error propagation, significantly improves vanilla DMs, and outperforms previous baselines. | 翻訳日:2024-01-19 20:22:38 公開日:2024-01-18 |
# 確率的局所化による拡散モデルに対する約$d$線形収束境界 Nearly $d$-Linear Convergence Bounds for Diffusion Models via Stochastic Localization ( http://arxiv.org/abs/2308.03686v2 ) ライセンス: Link先を確認 | Joe Benton, Valentin De Bortoli, Arnaud Doucet, George Deligiannidis | (参考訳) 微分拡散は高次元データ分布から近似サンプルを生成する強力な方法である。
最近の結果は、$L^2$-正確なスコアを仮定して、収束率に多項式境界を与える。
これまで、最も厳密な境界は、データ次元において超線形か、強い滑らかさの仮定が必要であった。
データ分布の有限第二モーメントのみを仮定したデータ次元(対数係数まで)において線形な最初の収束境界を提供する。
拡散モデルには最大で$\tilde o(\frac{d \log^2(1/\delta)}{\varepsilon^2})$ステップが必要であり、klの発散において$\delta$から$\varepsilon^2$以内に分散のガウス雑音で崩壊した$\mathbb{r}^d$上の任意の分布を近似する。
我々の証明は、以前の研究のジルサノフに基づく手法を拡張している。
本稿では,確率的局所化にインスパイアされた逆SDEの離散化による誤差の高精度処理を提案する。 Denoising diffusions are a powerful method to generate approximate samples from high-dimensional data distributions. Recent results provide polynomial bounds on their convergence rate, assuming $L^2$-accurate scores. Until now, the tightest bounds were either superlinear in the data dimension or required strong smoothness assumptions. We provide the first convergence bounds which are linear in the data dimension (up to logarithmic factors) assuming only finite second moments of the data distribution. We show that diffusion models require at most $\tilde O(\frac{d \log^2(1/\delta)}{\varepsilon^2})$ steps to approximate an arbitrary distribution on $\mathbb{R}^d$ corrupted with Gaussian noise of variance $\delta$ to within $\varepsilon^2$ in KL divergence. Our proof extends the Girsanov-based methods of previous works. We introduce a refined treatment of the error from discretizing the reverse SDE inspired by stochastic localization. | 翻訳日:2024-01-19 20:22:16 公開日:2024-01-18 |
# 効率的な深部畳み込みニューラルネットワークを利用したスマートフォン画像を用いた局所集約空気質指数の探索 Uncovering local aggregated air quality index with smartphone captured images leveraging efficient deep convolutional neural network ( http://arxiv.org/abs/2308.03200v3 ) ライセンス: Link先を確認 | Joyanta Jyoti Mondal, Md. Farhadul Islam, Raima Islam, Nowsin Kabir Rhidi, Sarfaraz Newaz, Meem Arafat Manab, A. B. M. Alim Al Islam, Jannatun Noor | (参考訳) スマートフォンの普及と移動性は、これらを環境健康研究に広く利用している。
しかし, PM2.5濃度に基づく大気質指数(AQI)を決定する可能性については, 既存の文献では明らかにされていない。
本稿では,スマートフォンカメラで撮影した画像を用いて,位置特異的PM2.5濃度の予測に関する課題を徹底的に検討する。
私たちの研究はバングラデシュの首都ダッカに焦点をあてています。
我々の研究は、1000以上の屋外画像を撮影、注釈付けしてトレーニングする深層畳み込みニューラルネットワーク(dcnn)の開発に関するものです。
これらの写真はダッカの様々な場所で撮影され、そのラベルは米領事館から得たPM2.5濃度データに基づいて、 NowCastアルゴリズムを用いて計算されている。
教師付き学習を通じて,トレーニング中の相関指標を確立し,PM2.5濃度のイメージベース予測器(PPPC)として機能する能力を高める。
これにより、スマートフォン画像から同等の日平均AQI指数を計算することができる。
一般的なパラメータ化モデルとは異なり、パラメータが少ないため、我々のモデルはリソース効率を示す。
さらに,本モデルがVGG19,ResNet50,MobileNetV2などのCNNベースモデルよりも,位置特異的PM2.5濃度の予測に優れていることを示す。
我々のデータセットは、Dhakaによる大気画像と対応するPM2.5測定を含む、初めて公開されているコレクションである。
私たちのコードとデータセットはhttps://github.com/lepotatoguy/aqiで利用可能です。 The prevalence and mobility of smartphones make these a widely used tool for environmental health research. However, their potential for determining aggregated air quality index (AQI) based on PM2.5 concentration in specific locations remains largely unexplored in the existing literature. In this paper, we thoroughly examine the challenges associated with predicting location-specific PM2.5 concentration using images taken with smartphone cameras. The focus of our study is on Dhaka, the capital of Bangladesh, due to its significant air pollution levels and the large population exposed to it. Our research involves the development of a Deep Convolutional Neural Network (DCNN), which we train using over a thousand outdoor images taken and annotated. These photos are captured at various locations in Dhaka, and their labels are based on PM2.5 concentration data obtained from the local US consulate, calculated using the NowCast algorithm. Through supervised learning, our model establishes a correlation index during training, enhancing its ability to function as a Picture-based Predictor of PM2.5 Concentration (PPPC). This enables the algorithm to calculate an equivalent daily averaged AQI index from a smartphone image. Unlike, popular overly parameterized models, our model shows resource efficiency since it uses fewer parameters. Furthermore, test results indicate that our model outperforms popular models like ViT and INN, as well as popular CNN-based models such as VGG19, ResNet50, and MobileNetV2, in predicting location-specific PM2.5 concentration. Our dataset is the first publicly available collection that includes atmospheric images and corresponding PM2.5 measurements from Dhaka. Our codes and dataset are available at https://github.com/lepotatoguy/aqi. | 翻訳日:2024-01-19 20:22:00 公開日:2024-01-18 |
# 表面強化ラマン散乱(SERS)におけるコヒーレント電子-電子相互作用 Coherent electron-vibron interactions in Surface-Enhanced Raman Scattering (SERS) ( http://arxiv.org/abs/2307.16859v4 ) ライセンス: Link先を確認 | Miguel A. Mart\'inez-Garc\'ia and Diego Mart\'in-Cano | (参考訳) 本研究では、オフ共鳴または共鳴サーの標準光力学モデルを超えて寄与する近共振および非共振電子準位間のコヒーレント電子-ビブロン相互作用を同定する。
第1の分子相互作用原理を用いてオープンシステム量子モデルを開発することにより、共鳴と非共鳴の両方の寄与に対するラマン干渉が、かつての光学的モデルや蛍光背景に関するSERSピークの桁違いの修正をいかに行うかを示す。
この協調光力学機構は、ストークスとアンチストークス光子の間の非古典光子対相関の強化を可能にし、光子計数測定によって検出することができる。
この結果は,SERSスペクトルからの光学的寄与の標準推定と,その量子力学的可観測効果に大きな影響を及ぼすコヒーレントな性質の強化と抑制を示す。 In this work we identify coherent electron-vibron interactions between near-resonant and non-resonant electronic levels that contribute beyond standard optomechanical models for off-resonant or resonance SERS. By developing an open-system quantum model using first molecular interaction principles, we show how the Raman interference of both resonant and non-resonant contributions can provide several orders of magnitude modifications of the SERS peaks with respect to former optomechanical models and over the fluorescence backgrounds. This cooperative optomechanical mechanism allows for generating an enhancement of nonclassical photon pair correlations between Stokes and anti-Stokes photons, which can be detected by photon-counting measurements. Our results demonstrate Raman enhancements and suppressions of coherent nature that significantly impact the standard estimations of the optomechanical contribution from SERS spectra and their quantum mechanical observable effects. | 翻訳日:2024-01-19 20:21:31 公開日:2024-01-18 |
# CTAGE:分子表現学習のための曲面トポロジ対応グラフ埋め込み CTAGE: Curvature-Based Topology-Aware Graph Embedding for Learning Molecular Representations ( http://arxiv.org/abs/2307.13275v2 ) ライセンス: Link先を確認 | Yili Chen, Zhengyu Li, Zheng Wan, Hui Yu, Xian Wei | (参考訳) AI駆動の薬物設計は、複雑なタスクである分子特性の予測に大きく依存している。
現在のアプローチでは、ディープニューラルネットワークモデルをトレーニングするための最も一般的な特徴表現はSMILESと分子グラフに基づいている。
これらの手法は簡潔で効率的であるが、複雑な空間情報の取得には限界がある。
近年,分子構造の三次元情報をモデルに組み込むことの重要性が認識されている。
しかし、空間情報の収集には発電機への追加ユニットの導入が必要であり、追加の設計と計算コストがかかる。
したがって,グラフニューラルネットワークの単純さと効率性を維持しつつ,空間構造情報を効果的に組み合わせた分子特性の予測手法を開発する必要がある。
本研究では,分子グラフデータから構造的洞察を抽出するために,$k$-hop離散リッチ曲率を用いたCTAGEの埋め込み手法を提案する。
これにより、ネットワークのトレーニングの複雑さを保ちながら、空間構造情報を効果的に統合する。
実験の結果,ノード曲率の導入は,現在のグラフニューラルネットワークフレームワークの性能を著しく向上させ,kホップノード曲率からの情報が分子構造と関数の関係を効果的に反映していることが確認された。 AI-driven drug design relies significantly on predicting molecular properties, which is a complex task. In current approaches, the most commonly used feature representations for training deep neural network models are based on SMILES and molecular graphs. While these methods are concise and efficient, they have limitations in capturing complex spatial information. Recently, researchers have recognized the importance of incorporating three-dimensional information of molecular structures into models. However, capturing spatial information requires the introduction of additional units in the generator, bringing additional design and computational costs. Therefore, it is necessary to develop a method for predicting molecular properties that effectively combines spatial structural information while maintaining the simplicity and efficiency of graph neural networks. In this work, we propose an embedding approach CTAGE, utilizing $k$-hop discrete Ricci curvature to extract structural insights from molecular graph data. This effectively integrates spatial structural information while preserving the training complexity of the network. Experimental results indicate that introducing node curvature significantly improves the performance of current graph neural network frameworks, validating that the information from k-hop node curvature effectively reflects the relationship between molecular structure and function. | 翻訳日:2024-01-19 20:21:13 公開日:2024-01-18 |
# LoraHub: 動的LoRA合成によるクロスタスクの効率的な一般化 LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition ( http://arxiv.org/abs/2307.13269v2 ) ライセンス: Link先を確認 | Chengsong Huang, Qian Liu, Bill Yuchen Lin, Tianyu Pang, Chao Du, Min Lin | (参考訳) ローランク適応(LoRA)は、しばしば新しいタスクのために細調整された大きな言語モデル(LLM)に使用される。
本稿では,クロスタスク一般化のためのloraコンポーザビリティを調査し,lorahubを提案する。lorahubは多種多様なタスクで訓練されたloraモジュールの汎用的な組み立てのために考案されたシンプルなフレームワークである。
新しいタスクからいくつか例を挙げると、LoraHubは複数のLoRAモジュールを流動的に結合することができ、人間の専門知識や前提を必要としない。
特に、合成には追加のモデルパラメータや勾配は必要ない。
Big-Bench Hardベンチマークの実証的な結果は、LoraHubはコンテキスト内学習のパフォーマンスを上回りませんが、推論中にサンプルあたりのトークン数を著しく削減することで、少数のシナリオで顕著なパフォーマンス効率のトレードオフを提供します。
特に、LoraHubは、さまざまな実演例と組み合わせて、コンテキスト内学習よりも上層境界を確立し、将来の開発の可能性を示している。
私たちのビジョンは、LoRAモジュールのプラットフォームを確立することで、ユーザがトレーニング済みのLoRAモジュールを共有できるようにすることです。
この協調的なアプローチは、LoRAモジュールを新しいタスクにシームレスに適用し、適応的なエコシステムに寄与する。
私たちのコードはhttps://github.com/sail-sg/lorahubで利用可能です。 Low-rank adaptations (LoRA) are often employed to fine-tune large language models (LLMs) for new tasks. This paper investigates LoRA composability for cross-task generalization and introduces LoraHub, a simple framework devised for the purposive assembly of LoRA modules trained on diverse given tasks, with the objective of achieving adaptable performance on unseen tasks. With just a few examples from a new task, LoraHub can fluidly combine multiple LoRA modules, eliminating the need for human expertise and assumptions. Notably, the composition requires neither additional model parameters nor gradients. Empirical results on the Big-Bench Hard benchmark suggest that LoraHub, while not surpassing the performance of in-context learning, offers a notable performance-efficiency trade-off in few-shot scenarios by employing a significantly reduced number of tokens per example during inference. Notably, LoraHub establishes a better upper bound compared to in-context learning when paired with different demonstration examples, demonstrating its potential for future development. Our vision is to establish a platform for LoRA modules, empowering users to share their trained LoRA modules. This collaborative approach facilitates the seamless application of LoRA modules to novel tasks, contributing to an adaptive ecosystem. Our code is available at https://github.com/sail-sg/lorahub, and all the pre-trained LoRA modules are released at https://huggingface.co/lorahub. | 翻訳日:2024-01-19 20:20:51 公開日:2024-01-18 |
# ZnOの浅ドナー結合励起転移の光学線幅への寄与 Contributions to the optical linewidth of shallow donor-bound excitonic transition in ZnO ( http://arxiv.org/abs/2307.12566v2 ) ライセンス: Link先を確認 | Vasileios Niaouris, Samuel H. D'Ambrosia, Christian Zimmermann, Xingyi Wang, Ethan R. Hansen, Michael Titze, Edward S. Bielejec, Kai-Mei C. Fu | (参考訳) 酸化亜鉛(zno)中性浅層ドナーは、ドナー結合励起子を介して光学的にアクセスするスピン量子ビットである。
このスピン光子インターフェイスは、量子ネットワーク、メモリおよび変換のアプリケーションを可能にする。
スピン-光子界面に影響を及ぼす重要な光学パラメータには、放射寿命、光の不均質および均一な線幅、光深度がある。
単結晶ZnOにおけるAl,Ga,Inのドナー結合光線幅特性について検討した。
アンサンブルのフォトルミネッセンス線幅は4-11GHzで、予想される寿命制限線幅よりも2桁以下である。
アンサンブルの線幅は、光深度が数百と推定される試料を通して吸収され、狭いままである。
一次熱緩和機構を同定し,全線幅に対して2kで無視可能な寄与を見出し,自然znoにおける不均質な等方性環境による不均一な広化が2ghzに寄与することを明らかにした。
しかし、2レーザーのスペクトルホール燃焼測定は、支配的なメカニズムを示している。
この拡張にもかかわらず、高い均一性、大きな光学深度、同位体精製の可能性は、ZnOドナーバウンドエキシトンの光学的性質が幅広い量子技術に期待でき、量子技術に対するZnOの同位体および化学的純度を改善する必要性を動機付けていることを示している。 Neutral shallow donors in zinc oxide (ZnO) are spin qubits with optical access via the donor-bound exciton. This spin-photon interface enables applications in quantum networking, memories and transduction. Essential optical parameters which impact the spin-photon interface include radiative lifetime, optical inhomogeneous and homogeneous linewidth and optical depth. We study the donor-bound exciton optical linewidth properties of Al, Ga, and In donors in single-crystal ZnO. The ensemble photoluminescence linewidth ranges from 4-11 GHz, less than two orders of magnitude larger than the expected lifetime-limited linewidth. The ensemble linewidth remains narrow in absorption through samples with an estimated optical depth up to several hundred. The primary thermal relaxation mechanism is identified and found to have a negligible contribution to the total linewidth at 2 K. We find that inhomogeneous broadening due to the disordered isotopic environment in natural ZnO is significant, contributing 2 GHz. Two-laser spectral hole burning measurements, indicate the dominant mechanism, however, is homogeneous. Despite this broadening, the high homogeneity, large optical depth and potential for isotope purification indicate that the optical properties of the ZnO donor-bound exciton are promising for a wide range of quantum technologies and motivate a need to improve the isotope and chemical purity of ZnO for quantum technologies. | 翻訳日:2024-01-19 20:20:24 公開日:2024-01-18 |
# Knapsack: 接続性、パス、最短パス Knapsack: Connectedness, Path, and Shortest-Path ( http://arxiv.org/abs/2307.12547v3 ) ライセンス: Link先を確認 | Palash Dey, Sudeshna Kolay, and Sipra Singh | (参考訳) グラフ理論の制約によりナップサック問題を研究する。
すなわち、knapsack の項目の集合上にグラフ構造が存在すると仮定し、この解は knapsack の制約の上にあるグラフ理論的性質を満たす必要がある。
特に、コネクテッド・ナップサック問題(connected knapsack problem)において、コネクテッド・ナップサック制約の大きさに対応する最大値を持つ項目の連結部分集合を計算する必要がある。
この問題は、最大次数4のグラフでもNP完全であり、スターグラフでもNP完全であることを示す。
一方、時刻 $o\left(2^{tw\log tw}\cdot\text{poly}(\min\{s^2,d^2\})\right)$ where $tw,s,d$ はそれぞれグラフのツリー幅、サイズ、目標値である。
さらに、$(1-\epsilon)$ factor approximation アルゴリズムを、$o\left(2^{tw\log tw}\cdot\text{poly}(n,1/\epsilon)\right)$ ごとに実行しています。
path-knapsack や shortestpath-knapsack という問題名の下で、グラフ理論上の他のいくつかの性質について同様の結果を示す。
結果は,connected-knapsackが最も計算が難しいことを示し,path-knapsack と shortestpath-knapsack が続いた。 We study the knapsack problem with graph theoretic constraints. That is, we assume that there exists a graph structure on the set of items of knapsack and the solution also needs to satisfy certain graph theoretic properties on top of knapsack constraints. In particular, we need to compute in the connected knapsack problem a connected subset of items which has maximum value subject to the size of knapsack constraint. We show that this problem is strongly NP-complete even for graphs of maximum degree four and NP-complete even for star graphs. On the other hand, we develop an algorithm running in time $O\left(2^{tw\log tw}\cdot\text{poly}(\min\{s^2,d^2\})\right)$ where $tw,s,d$ are respectively treewidth of the graph, size, and target value of the knapsack. We further exhibit a $(1-\epsilon)$ factor approximation algorithm running in time $O\left(2^{tw\log tw}\cdot\text{poly}(n,1/\epsilon)\right)$ for every $\epsilon>0$. We show similar results for several other graph theoretic properties, namely path and shortest-path under the problem names path-knapsack and shortestpath-knapsack. Our results seems to indicate that connected-knapsack is computationally hardest followed by path-knapsack and shortestpath-knapsack. | 翻訳日:2024-01-19 20:19:34 公開日:2024-01-18 |
# 画像から点へのクラウド登録のための量認識粗視対応 Quantity-Aware Coarse-to-Fine Correspondence for Image-to-Point Cloud Registration ( http://arxiv.org/abs/2307.07142v2 ) ライセンス: Link先を確認 | Gongxin Yao, Yixin Xuan, Yiwei Chen and Yu Pan | (参考訳) Image-to-point cloud registrationは、RGBイメージと参照ポイントクラウドの間の相対カメラのポーズを決定することを目的としており、2D観測から3Dオブジェクトを見つけるための一般的なソリューションとして機能している。
個々の点とピクセルのマッチングは、モダリティギャップのために本質的に曖昧である。
この課題に対処するために,局所点集合と画素パッチ間の量認識対応をキャプチャし,各点と画素レベルで結果を洗練するフレームワークを提案する。
このフレームワークは、一致精度を向上させるために、ポイントセットとピクセルパッチの高レベルなセマンティクスを調整する。
粗いスケールでは, 3次元点の量の影響を受け, セット・ツー・パッチ対応が期待できる。
これを実現するために, 相関度を連続値として適応的に定量化する新しい監督戦略を提案する。
より詳細なスケールでは、ポイント・ツー・ピクセル対応は、再サンプリングと量認識の両方を含むよく設計されたスキームによって、より小さな探索空間から洗練される。
特に,最終段階で適切な対応を比例的に選択するための信頼ソート戦略が提案されている。
高品質対応の利点を生かして、ランダムサンプルコンセンサス(ransac)の枠組みの中で効率的な遠近法n点解法を用いて解決する。
KITTIオドメトリとNuScenesデータセットの大規模な実験により,本手法が最先端手法よりも優れていることが示された。 Image-to-point cloud registration aims to determine the relative camera pose between an RGB image and a reference point cloud, serving as a general solution for locating 3D objects from 2D observations. Matching individual points with pixels can be inherently ambiguous due to modality gaps. To address this challenge, we propose a framework to capture quantity-aware correspondences between local point sets and pixel patches and refine the results at both the point and pixel levels. This framework aligns the high-level semantics of point sets and pixel patches to improve the matching accuracy. On a coarse scale, the set-to-patch correspondence is expected to be influenced by the quantity of 3D points. To achieve this, a novel supervision strategy is proposed to adaptively quantify the degrees of correlation as continuous values. On a finer scale, point-to-pixel correspondences are refined from a smaller search space through a well-designed scheme, which incorporates both resampling and quantity-aware priors. Particularly, a confidence sorting strategy is proposed to proportionally select better correspondences at the final stage. Leveraging the advantages of high-quality correspondences, the problem is successfully resolved using an efficient Perspective-n-Point solver within the framework of random sample consensus (RANSAC). Extensive experiments on the KITTI Odometry and NuScenes datasets demonstrate the superiority of our method over the state-of-the-art methods. | 翻訳日:2024-01-19 20:18:39 公開日:2024-01-18 |
# RTFS-Net:効率的な音声・視覚音声分離のための繰り返し時間周波数モデリング RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual speech separation ( http://arxiv.org/abs/2309.17189v2 ) ライセンス: Link先を確認 | Samuel Pegg, Kai Li, Xiaolin Hu | (参考訳) 音声-視覚的音声分離手法は,高品質な分離音声を生成するために,異なるモードを統合することを目的としている。
既存のSOTA(State-of-the-art)モデルは時間領域で動作する。
しかし、音響特性をモデル化するための過度に単純化されたアプローチは、SOTAの性能を達成するために、より大きくより計算集約的なモデルを必要とすることが多い。
本稿では、短時間フーリエ変換によって得られる複雑な時間周波数ビンに対して、そのアルゴリズムを適用したRTFS-Net(Recurrent Time-Frequency Separation Network)を提案する。
我々は、各次元に沿って多層RNNを用いて、オーディオの時間と周波数の次元を独立にモデル化し、キャプチャする。
さらに,音声と視覚情報の効率的な統合のためのユニークな注意に基づく融合手法と,より明瞭な分離のために音響特徴の固有スペクトル特性を利用した新しいマスク分離手法を提案する。
RTFS-Netは、パラメータの10%とMACの18%しか使用せず、以前のSOTA法より優れている。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。 Audio-visual speech separation methods aim to integrate different modalities to generate high-quality separated speech, thereby enhancing the performance of downstream tasks such as speech recognition. Most existing state-of-the-art (SOTA) models operate in the time domain. However, their overly simplistic approach to modeling acoustic features often necessitates larger and more computationally intensive models in order to achieve SOTA performance. In this paper, we present a novel time-frequency domain audio-visual speech separation method: Recurrent Time-Frequency Separation Network (RTFS-Net), which applies its algorithms on the complex time-frequency bins yielded by the Short-Time Fourier Transform. We model and capture the time and frequency dimensions of the audio independently using a multi-layered RNN along each dimension. Furthermore, we introduce a unique attention-based fusion technique for the efficient integration of audio and visual information, and a new mask separation approach that takes advantage of the intrinsic spectral nature of the acoustic features for a clearer separation. RTFS-Net outperforms the previous SOTA method using only 10% of the parameters and 18% of the MACs. This is the first time-frequency domain audio-visual speech separation method to outperform all contemporary time-domain counterparts. | 翻訳日:2024-01-19 20:12:13 公開日:2024-01-18 |
# Few-Shot Systematic Generalizationのための構成プログラム生成 Compositional Program Generation for Few-Shot Systematic Generalization ( http://arxiv.org/abs/2309.16467v2 ) ライセンス: Link先を確認 | Tim Klinger and Luke Liu and Soham Dan and Maxwell Crouse and Parikshit Ram and Alexander Gray | (参考訳) 構成的一般化は、ごく少数の例から新しい概念を学ぶことができる人間の重要な能力である。
現在ユビキタスなトランスフォーマーを含むニューラル機械学習モデルは、このような一般化に苦労し、通常、トレーニング中に意味のある一般化のために概念の数千の例を必要とする。
この人間と人工神経アーキテクチャの能力の違いは、コンポジションプログラムジェネレータ(CPG)と呼ばれるニューロシンボリックアーキテクチャの研究を動機付けている。
CPGには3つの重要な特徴がある: \textit{modularity}, \textit{composition}, \textit{abstraction} は文法規則の形式で、数ショットで体系的に新しい概念に、そして様々なシーケンスからシーケンスまでの言語タスクで生産的に一般化することができる。
それぞれの入力に対して、CPGは入力言語の文法とパーサを使用して、それぞれの文法規則が独自の意味モジュール、確率的コピーまたは置換プログラムに割り当てられるパースを生成する。
同じパースを持つインスタンスは、常に同じ構成のモジュールで処理され、異なるパースを持つインスタンスは異なるモジュールで処理される。
CPGはモジュールのパラメータを学習し、新しいルールや型に対するセマンティクスを段階的に学習することができる。
SCAN と COGS のベンチマークでは,SCAN の14例と COGS の22例を使用して,完全な一般化を実現している。 Compositional generalization is a key ability of humans that enables us to learn new concepts from only a handful examples. Neural machine learning models, including the now ubiquitous Transformers, struggle to generalize in this way, and typically require thousands of examples of a concept during training in order to generalize meaningfully. This difference in ability between humans and artificial neural architectures, motivates this study on a neuro-symbolic architecture called the Compositional Program Generator (CPG). CPG has three key features: \textit{modularity}, \textit{composition}, and \textit{abstraction}, in the form of grammar rules, that enable it to generalize both systematically to new concepts in a few-shot manner, as well as productively by length on various sequence-to-sequence language tasks. For each input, CPG uses a grammar of the input language and a parser to generate a parse in which each grammar rule is assigned its own unique semantic module, a probabilistic copy or substitution program. Instances with the same parse are always processed with the same composed modules, while those with different parses may be processed with different modules. CPG learns parameters for the modules and is able to learn the semantics for new rules and types incrementally, without forgetting or retraining on rules it's already seen. It achieves perfect generalization on both the SCAN and COGS benchmarks using just 14 examples for SCAN and 22 examples for COGS -- state-of-the-art accuracy with a 1000x improvement in sample efficiency. | 翻訳日:2024-01-19 20:11:53 公開日:2024-01-18 |
# astroconformer: トランスフォーマー型深層学習モデルによる恒星光曲線解析の展望 Astroconformer: The Prospects of Analyzing Stellar Light Curves with Transformer-Based Deep Learning Models ( http://arxiv.org/abs/2309.16316v2 ) ライセンス: Link先を確認 | Jia-Shu Pan, Yuan-Sen Ting, Jie Yu | (参考訳) 恒星の光曲線は振動や顆粒に関する貴重な情報を含み、恒星の内部構造や進化状態に関する洞察を与える。
主にパワースペクトル分析に焦点をあてた伝統的なアステローシズム技術は、しばしばこれらの光曲線における重要な位相情報を見落としている。
このギャップに対処するために、最近の機械学習アプリケーション、特に畳み込みニューラルネットワーク(cnns)は、光曲線から恒星の特性を推測する進歩を遂げている。
しかし、cnnは局所的な特徴抽出能力によって制限される。
これに反応して、我々は変圧器ベースのディープラーニングフレームワークである$\textit{astroconformer}$を導入する。
我々の経験分析は、0.2から4.4の値を持つ1/4ケプラー光曲線から得られたデータセットを用いて表面重力を推定することに焦点を当てている。
$\textit{astroconformer}$は優れたパフォーマンスを示し、sparserエリアで$\log g\approx3$、$0.1 dexで0.017 dexのroot-mean-square-error(rmse)を達成する。
この性能はKアレスト近隣モデルと高度なCNNを上回ります。
アブレーション研究は、受容野の大きさがモデルの有効性に与える影響を強調し、より大きなフィールドは改善された結果に関連している。
$\textit{Astroconformer}$も高い精度で$\nu_{\max}$を抽出することに長けている。
90日間の赤色巨光曲線の相対的な絶対誤差は2%未満である。
特に、従来のパイプラインでは30%のケースで振動が検出できない30日間の光曲線では、誤差は3%以下である。
さらに、$\textit{astroconformer}$の注意機構は、光曲線で観察される恒星振動と粒状化の特性と密接に一致している。 Stellar light curves contain valuable information about oscillations and granulation, offering insights into stars' internal structures and evolutionary states. Traditional asteroseismic techniques, primarily focused on power spectral analysis, often overlook the crucial phase information in these light curves. Addressing this gap, recent machine learning applications, particularly those using Convolutional Neural Networks (CNNs), have made strides in inferring stellar properties from light curves. However, CNNs are limited by their localized feature extraction capabilities. In response, we introduce $\textit{Astroconformer}$, a Transformer-based deep learning framework, specifically designed to capture long-range dependencies in stellar light curves. Our empirical analysis centers on estimating surface gravity ($\log g$), using a dataset derived from single-quarter Kepler light curves with $\log g$ values ranging from 0.2 to 4.4. $\textit{Astroconformer}$ demonstrates superior performance, achieving a root-mean-square-error (RMSE) of 0.017 dex at $\log g\approx3$ in data-rich regimes and up to 0.1 dex in sparser areas. This performance surpasses both K-nearest neighbor models and advanced CNNs. Ablation studies highlight the influence of receptive field size on model effectiveness, with larger fields correlating to improved results. $\textit{Astroconformer}$ also excels in extracting $\nu_{\max}$ with high precision. It achieves less than 2% relative median absolute error for 90-day red giant light curves. Notably, the error remains under 3% for 30-day light curves, whose oscillations are undetectable by a conventional pipeline in 30% cases. Furthermore, the attention mechanisms in $\textit{Astroconformer}$ align closely with the characteristics of stellar oscillations and granulation observed in light curves. | 翻訳日:2024-01-19 20:11:24 公開日:2024-01-18 |
# ICML 2023 トポロジカルディープラーニングチャレンジ : 設計と結果 ICML 2023 Topological Deep Learning Challenge : Design and Results ( http://arxiv.org/abs/2309.15188v4 ) ライセンス: Link先を確認 | Mathilde Papillon, Mustafa Hajij, Helen Jenne, Johan Mathe, Audun Myers, Theodore Papamarkou, Tolga Birdal, Tamal Dey, Tim Doster, Tegan Emerson, Gurusankar Gopalakrishnan, Devendra Govil, Aldo Guzm\'an-S\'aenz, Henry Kvinge, Neal Livesay, Soham Mukherjee, Shreyas N. Samaga, Karthikeyan Natesan Ramamurthy, Maneel Reddy Karri, Paul Rosen, Sophia Sanborn, Robin Walters, Jens Agerberg, Sadrodin Barikbin, Claudio Battiloro, Gleb Bazhenov, Guillermo Bernardez, Aiden Brent, Sergio Escalera, Simone Fiorellino, Dmitrii Gavrilev, Mohammed Hassanin, Paul H\"ausner, Odin Hoff Gardaa, Abdelwahed Khamis, Manuel Lecha, German Magai, Tatiana Malygina, Rub\'en Ballester, Kalyan Nadimpalli, Alexander Nikitin, Abraham Rabinowitz, Alessandro Salatiello, Simone Scardapane, Luca Scofano, Suraj Singh, Jens Sj\"olund, Pavel Snopov, Indro Spinelli, Lev Telyatnikov, Lucia Testa, Maosheng Yang, Yixiao Yue, Olga Zaghen, Ali Zia, Nina Miolane | (参考訳) 本稿では、ICML 2023 Workshop on Topology and Geometry in Machine Learningにホストされたトポロジ的深層学習に関する計算課題について述べる。
コンペティションは参加者に対して、PythonパッケージのTopoNetX(データ処理)とTopoModelX(ディープラーニング)にコントリビュートすることで、文献からトポロジカルニューラルネットワークのオープンソース実装を提供するように求めた。
この挑戦は2ヶ月の期間で28の応募を惹きつけた。
本稿では,課題の設計について述べるとともに,その主な知見を概説する。 This paper presents the computational challenge on topological deep learning that was hosted within the ICML 2023 Workshop on Topology and Geometry in Machine Learning. The competition asked participants to provide open-source implementations of topological neural networks from the literature by contributing to the python packages TopoNetX (data processing) and TopoModelX (deep learning). The challenge attracted twenty-eight qualifying submissions in its two-month duration. This paper describes the design of the challenge and summarizes its main findings. | 翻訳日:2024-01-19 20:10:50 公開日:2024-01-18 |
# ソフト混合分別:拡散モデルの表現的ボトルネックを超えて Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion Models ( http://arxiv.org/abs/2309.14068v3 ) ライセンス: Link先を確認 | Yangming Li, Boris van Breugel, Mihaela van der Schaar | (参考訳) 拡散モデルは画像合成などの多くのタスクで印象的な性能を示しているため、これらのモデルが強い近似能力を持っていることを(ある仮定で)証明する最近の研究のトレンドがある。
本稿では,現行の拡散モデルが後方認知における表現的ボトルネックを実際に有しており,既存の理論的保証による仮定が強すぎることを示す。
この結果から,拡散モデルが局所的および大域的認知の双方において非有界誤差を持つことを示す。
理論的研究を踏まえ, 後方復調のための表現的かつ効率的なモデルであるソフトミキシング(SMD)を導入する。
SMDは拡散モデルに理論上の任意のガウス混合分布をうまく近似させるだけでなく、実装にもシンプルで効率的である。
複数の画像データセットを用いた実験により,smdは様々な種類の拡散モデル(ddpmなど)を大幅に改善することが示された。 Because diffusion models have shown impressive performances in a number of tasks, such as image synthesis, there is a trend in recent works to prove (with certain assumptions) that these models have strong approximation capabilities. In this paper, we show that current diffusion models actually have an expressive bottleneck in backward denoising and some assumption made by existing theoretical guarantees is too strong. Based on this finding, we prove that diffusion models have unbounded errors in both local and global denoising. In light of our theoretical studies, we introduce soft mixture denoising (SMD), an expressive and efficient model for backward denoising. SMD not only permits diffusion models to well approximate any Gaussian mixture distributions in theory, but also is simple and efficient for implementation. Our experiments on multiple image datasets show that SMD significantly improves different types of diffusion models (e.g., DDPM), espeically in the situation of few backward iterations. | 翻訳日:2024-01-19 20:10:39 公開日:2024-01-18 |
# 単純錯体上のフラワーペタルラプラシアンを用いた高次グラフ畳み込みネットワーク Higher-order Graph Convolutional Network with Flower-Petals Laplacians on Simplicial Complexes ( http://arxiv.org/abs/2309.12971v2 ) ライセンス: Link先を確認 | Yiming Huang, Yujie Zeng, Qiang Wu, Linyuan L\"u | (参考訳) 様々なタスクにおけるバニラグラフニューラルネットワーク(gnns)の成功にもかかわらず、ペアワイズネットワークの基礎は、複雑なシステムにおける潜在高次相互作用を識別する能力を本質的に制限している。
この能力ギャップを埋めるために,高次相互作用をモデル化するための頑健なツールであるsimplicial Complex (SCs) のリッチな数学的理論を活用する新しい手法を提案する。
現在のSCベースのGNNは、複雑さと剛性に悩まされており、高次相互作用強度の定量化は依然として難しい。
本稿では,FPラプラシアンをSCに組み込んだ高次フラワー・ペタールス(FP)モデルを提案する。
さらに, fpラプラシアンに接地した高次グラフ畳み込みネットワーク (higcn) を導入することで, 様々な位相スケールで固有特徴を識別できる。
各fpラプラシアン領域内のパラメータ群である学習可能なグラフフィルタを用いることで、フィルタの重みが高次相互作用強度の定量化に寄与する多様なパターンを識別できる。
HiGCNの高度表現性の理論的基盤は厳密に示されている。
さらに実験により,提案モデルがグラフタスクにおける最先端のパフォーマンスを達成し,グラフ内の高次相互作用を探索するためのスケーラブルで柔軟なソリューションを提供することを明らかにした。
コードとデータセットはhttps://github.com/yiminghh/higcnで入手できる。 Despite the recent successes of vanilla Graph Neural Networks (GNNs) on various tasks, their foundation on pairwise networks inherently limits their capacity to discern latent higher-order interactions in complex systems. To bridge this capability gap, we propose a novel approach exploiting the rich mathematical theory of simplicial complexes (SCs) - a robust tool for modeling higher-order interactions. Current SC-based GNNs are burdened by high complexity and rigidity, and quantifying higher-order interaction strengths remains challenging. Innovatively, we present a higher-order Flower-Petals (FP) model, incorporating FP Laplacians into SCs. Further, we introduce a Higher-order Graph Convolutional Network (HiGCN) grounded in FP Laplacians, capable of discerning intrinsic features across varying topological scales. By employing learnable graph filters, a parameter group within each FP Laplacian domain, we can identify diverse patterns where the filters' weights serve as a quantifiable measure of higher-order interaction strengths. The theoretical underpinnings of HiGCN's advanced expressiveness are rigorously demonstrated. Additionally, our empirical investigations reveal that the proposed model accomplishes state-of-the-art performance on a range of graph tasks and provides a scalable and flexible solution to explore higher-order interactions in graphs. Codes and datasets are available at https://github.com/Yiminghh/HiGCN. | 翻訳日:2024-01-19 20:10:20 公開日:2024-01-18 |
# Virchow:100万ドルのデジタル病理モデル Virchow: A Million-Slide Digital Pathology Foundation Model ( http://arxiv.org/abs/2309.07778v5 ) ライセンス: Link先を確認 | Eugene Vorontsov, Alican Bozkurt, Adam Casson, George Shaikovski, Michal Zelechowski, Siqi Liu, Kristen Severson, Eric Zimmermann, James Hall, Neil Tenenholtz, Nicolo Fusi, Philippe Mathieu, Alexander van Eck, Donghun Lee, Julian Viret, Eric Robert, Yi Kan Wang, Jeremy D. Kunz, Matthew C. H. Lee, Jan Bernhard, Ran A. Godrich, Gerard Oakley, Ewan Millar, Matthew Hanna, Juan Retamero, William A. Moye, Razik Yousfi, Christopher Kanan, David Klimstra, Brandon Rothrock, Thomas J. Fuchs | (参考訳) 病理画像解析による精密医療と意思決定支援システムを実現する人工知能の利用は、がんの診断と治療に革命をもたらす可能性がある。
このような応用は、病理画像で観察される多様なパターンをキャプチャするモデルの能力に依存する。
この課題に対処するために,計算病理学の基礎モデルである virchow を提案する。
VirchowはDINOv2アルゴリズムによって強化された自己教師型学習を用いて、150万のヘマトキシリンとエオシンでトレーニングされた6億2200万のパラメータを持つビジョントランスフォーマーモデルである。
Virchowモデルにより、17種類の癌に対して0.949の検体レベルAUCを持つ膵臓検出システムの開発が可能となり、7種類のまれな癌に対して0.937のAUCを達成できる。
Virchowモデルは、内部および外部画像タイルレベルのベンチマークとスライドレベルのバイオマーカー予測タスクに最先端を設定します。
データとネットワークアーキテクチャのスケールアップは、限られた量のトレーニングデータが利用可能な多くのハイインパクトな計算病理アプリケーションにおいて、精度を向上させることを示唆している。 The use of artificial intelligence to enable precision medicine and decision support systems through the analysis of pathology images has the potential to revolutionize the diagnosis and treatment of cancer. Such applications will depend on models' abilities to capture the diverse patterns observed in pathology images. To address this challenge, we present Virchow, a foundation model for computational pathology. Using self-supervised learning empowered by the DINOv2 algorithm, Virchow is a vision transformer model with 632 million parameters trained on 1.5 million hematoxylin and eosin stained whole slide images from diverse tissue and specimen types, which is orders of magnitude more data than previous works. The Virchow model enables the development of a pan-cancer detection system with 0.949 overall specimen-level AUC across 17 different cancer types, while also achieving 0.937 AUC on 7 rare cancer types. The Virchow model sets the state-of-the-art on the internal and external image tile level benchmarks and slide level biomarker prediction tasks. The gains in performance highlight the importance of training on massive pathology image datasets, suggesting scaling up the data and network architecture can improve the accuracy for many high-impact computational pathology applications where limited amounts of training data are available. | 翻訳日:2024-01-19 20:09:54 公開日:2024-01-18 |
# LLMによる長期文書概要評価について Less is More for Long Document Summary Evaluation by LLMs ( http://arxiv.org/abs/2309.07382v2 ) ライセンス: Link先を確認 | Yunshu Wu, Hayate Iso, Pouya Pezeshkpour, Nikita Bhutani, Estevam Hruschka | (参考訳) 大規模言語モデル(llm)は要約評価タスクにおいて有望な性能を示しているが、高い計算コストや長い文書の中間で重要な情報が見過ごされるような中途半端な問題などの課題に直面している。
これらの課題に対処するために,長い資料からキー文を抽出し,LLMを誘導して要約を評価する新しい手法であるExtract-then-Evaluateを提案する。
その結果,提案手法は評価コストを大幅に削減するだけでなく,人的評価との相関も高いことがわかった。
さらに,最適な文書長と文抽出手法の実践的提案を行い,LCMによるテキスト生成評価のためのコスト効率が高く精度の高い手法の開発に寄与する。 Large Language Models (LLMs) have shown promising performance in summary evaluation tasks, yet they face challenges such as high computational costs and the Lost-in-the-Middle problem where important information in the middle of long documents is often overlooked. To address these issues, this paper introduces a novel approach, Extract-then-Evaluate, which involves extracting key sentences from a long source document and then evaluating the summary by prompting LLMs. The results reveal that the proposed method not only significantly reduces evaluation costs but also exhibits a higher correlation with human evaluations. Furthermore, we provide practical recommendations for optimal document length and sentence extraction methods, contributing to the development of cost-effective yet more accurate methods for LLM-based text generation evaluation. | 翻訳日:2024-01-19 20:09:31 公開日:2024-01-18 |
# パノプティカル・ビジョン-言語的特徴 Panoptic Vision-Language Feature Fields ( http://arxiv.org/abs/2309.05448v2 ) ライセンス: Link先を確認 | Haoran Chen, Kenneth Blomqvist, Francesco Milano and Roland Siegwart | (参考訳) 近年,3次元オープン語彙セマンティックセグメンテーションの手法が提案されている。
このようなメソッドは、実行時に提供されるテキスト記述に基づいて、シーンを任意のクラスに分割することができる。
本稿では,我々の知識を最大限に活用するために,3dシーンにおける開語彙汎視セグメンテーションのための最初のアルゴリズムを提案する。
我々のアルゴリズムであるpanoptic vision-language feature fields(pvlff)は,事前訓練された2dモデルから視覚言語特徴を蒸留することで,シーンの意味的特徴領域を学習し,入力フレーム上の2dインスタンスセグメントを用いたコントラスト学習を通じてインスタンス特徴フィールドを協調的に適合させる。
対象クラスでトレーニングされていないにもかかわらず,提案手法はHyperSim,ScanNet,Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティックセグメンテーション性能を達成し,またセグメンテーションの観点からも現行の3Dオープンボキャブラリシステムより優れている。
モデルアーキテクチャの有効性を示すために,本手法のコンポーネントを改良する。
私たちのコードはhttps://github.com/ethz-asl/pvlffで利用可能です。 Recently, methods have been proposed for 3D open-vocabulary semantic segmentation. Such methods are able to segment scenes into arbitrary classes based on text descriptions provided during runtime. In this paper, we propose to the best of our knowledge the first algorithm for open-vocabulary panoptic segmentation in 3D scenes. Our algorithm, Panoptic Vision-Language Feature Fields (PVLFF), learns a semantic feature field of the scene by distilling vision-language features from a pretrained 2D model, and jointly fits an instance feature field through contrastive learning using 2D instance segments on input frames. Despite not being trained on the target classes, our method achieves panoptic segmentation performance similar to the state-of-the-art closed-set 3D systems on the HyperSim, ScanNet and Replica dataset and additionally outperforms current 3D open-vocabulary systems in terms of semantic segmentation. We ablate the components of our method to demonstrate the effectiveness of our model architecture. Our code will be available at https://github.com/ethz-asl/pvlff. | 翻訳日:2024-01-19 20:09:17 公開日:2024-01-18 |
# 単一画像参照に対する潜在劣化表現制約 Latent Degradation Representation Constraint for Single Image Deraining ( http://arxiv.org/abs/2309.04780v3 ) ライセンス: Link先を確認 | Yuhong He, Long Peng, Lu Wang, Jun Cheng | (参考訳) 雨片は様々な形状や方向を示すため、劣化表現の学習は単一の画像参照において極めて困難である。
既存の手法は主に複雑なモジュールの設計を目的としており、雨画像から潜在劣化表現を暗黙的に学習している。
このように、明示的な制約の欠如により、コンテンツ非依存の劣化表現を分離することは困難であり、結果として過度あるいは過小評価の問題が発生する。
そこで本稿では,DAEncoder(Direction-Aware Encoder),UNet Deraining Network(UNet Deraining Network),Multi-Scale Interaction Block(MSIBlock)からなるLDRCNet(Latent Degradation Representation Constraint Network)を提案する。
具体的には, 変形可能な畳み込みを用いて降雨の方向の整合性を利用して, 遅延劣化表現を適応的に抽出するDAEncoderを提案する。
次に、トレーニング中の劣化表現学習を明示的に制約するために制約損失を導入する。
最後に,情報伝達を適応的に行うために,情報伝達ネットワークの学習した劣化表現とデコーダ特徴を融合させるmsiブロックを提案する。
合成および実データを用いた実験結果から,本手法が新たな最先端性能を実現することを示す。 Since rain streaks show a variety of shapes and directions, learning the degradation representation is extremely challenging for single image deraining. Existing methods are mainly targeted at designing complicated modules to implicitly learn latent degradation representation from coupled rainy images. This way, it is hard to decouple the content-independent degradation representation due to the lack of explicit constraint, resulting in over- or under-enhancement problems. To tackle this issue, we propose a novel Latent Degradation Representation Constraint Network (LDRCNet) that consists of Direction-Aware Encoder (DAEncoder), UNet Deraining Network, and Multi-Scale Interaction Block (MSIBlock). Specifically, the DAEncoder is proposed to adaptively extract latent degradation representation by using the deformable convolutions to exploit the direction consistency of rain streaks. Next, a constraint loss is introduced to explicitly constraint the degradation representation learning during training. Last, we propose an MSIBlock to fuse with the learned degradation representation and decoder features of the deraining network for adaptive information interaction, which enables the deraining network to remove various complicated rainy patterns and reconstruct image details. Experimental results on synthetic and real datasets demonstrate that our method achieves new state-of-the-art performance. | 翻訳日:2024-01-19 20:08:54 公開日:2024-01-18 |
# チャットの失敗とトラブル:理由と解決策 Chat Failures and Troubles: Reasons and Solutions ( http://arxiv.org/abs/2309.03708v2 ) ライセンス: Link先を確認 | Manal Helal, Patrick Holthaus, Gabriella Lakatos, Farshid Amirabdollahian | (参考訳) 本稿では,Chatにおける障害やトラブルの原因となるヒューマンロボットインタラクション(HRI)の一般的な問題について検討する。
あるユースケースの設計決定は、適切なロボット、適切なチャットモデル、失敗の原因となる共通の問題、潜在的な解決策の特定、継続的な改善計画から始まります。
結論として、トレーニング済み人工知能(ai)事前学習モデルの使用をガイドし、語彙フィルタリング、新しいデータセットでバッチモデルの再トレーニング、データストリームからオンライン学習、強化学習モデルを使用してトレーニング済みモデルを自己更新し、エラーを低減するクローズドループ制御アルゴリズムの使用が推奨されている。 This paper examines some common problems in Human-Robot Interaction (HRI) causing failures and troubles in Chat. A given use case's design decisions start with the suitable robot, the suitable chatting model, identifying common problems that cause failures, identifying potential solutions, and planning continuous improvement. In conclusion, it is recommended to use a closed-loop control algorithm that guides the use of trained Artificial Intelligence (AI) pre-trained models and provides vocabulary filtering, re-train batched models on new datasets, learn online from data streams, and/or use reinforcement learning models to self-update the trained models and reduce errors. | 翻訳日:2024-01-19 20:08:26 公開日:2024-01-18 |
# 階層型マスク型3次元拡散モデルによる映像アウトパインティング Hierarchical Masked 3D Diffusion Model for Video Outpainting ( http://arxiv.org/abs/2309.02119v2 ) ライセンス: Link先を確認 | Fanda Fan, Chaoxu Guo, Litong Gong, Biao Wang, Tiezheng Ge, Yuning Jiang, Chunjie Luo, Jianfeng Zhan | (参考訳) video outpaintingは、ビデオフレームの端にある欠損領域を適切に完成することを目的としている。
画像のオーバーペイントと比較すると、モデルが満たされた領域の時間的一貫性を維持する必要があるため、追加の課題がある。
本稿では,映像出力のためのマスク付き3次元拡散モデルを提案する。
マスクモデリングの手法を用いて3次元拡散モデルを訓練する。
これにより、複数のガイドフレームを使用して複数のビデオクリップの推測結果を接続し、時間的一貫性を確保し、隣接するフレーム間のジッタを低減できる。
一方,映像のグローバルフレームをプロンプトとして抽出し,モデルにクロスアテンションを用いて現在の映像クリップ以外の情報を得るよう誘導する。
また,アーティファクトの蓄積問題を解決するために,ハイブリッドな粗粒度推定パイプラインを導入する。
既存の粗粒度パイプラインはインフィルディング戦略のみを使用するため、スパースフレームの時間間隔が大きすぎるため、劣化が発生する。
我々のパイプラインは、マスクモデリングの双方向学習の恩恵を受けており、スパースフレームを生成する際に、埋め込みと補間というハイブリッド戦略を利用することができる。
実験の結果,本手法は映像の画質向上に有効であることがわかった。
さらなる結果とコードは、https://fanfanda.github.io/M3DDM/で公開されています。 Video outpainting aims to adequately complete missing areas at the edges of video frames. Compared to image outpainting, it presents an additional challenge as the model should maintain the temporal consistency of the filled area. In this paper, we introduce a masked 3D diffusion model for video outpainting. We use the technique of mask modeling to train the 3D diffusion model. This allows us to use multiple guide frames to connect the results of multiple video clip inferences, thus ensuring temporal consistency and reducing jitter between adjacent frames. Meanwhile, we extract the global frames of the video as prompts and guide the model to obtain information other than the current video clip using cross-attention. We also introduce a hybrid coarse-to-fine inference pipeline to alleviate the artifact accumulation problem. The existing coarse-to-fine pipeline only uses the infilling strategy, which brings degradation because the time interval of the sparse frames is too large. Our pipeline benefits from bidirectional learning of the mask modeling and thus can employ a hybrid strategy of infilling and interpolation when generating sparse frames. Experiments show that our method achieves state-of-the-art results in video outpainting tasks. More results and codes are provided at our https://fanfanda.github.io/M3DDM/. | 翻訳日:2024-01-19 20:08:14 公開日:2024-01-18 |
# 半監督医用画像分割のための擬似ラベルガイドデータ拡張によるデュアルデコーダの整合性 Dual-Decoder Consistency via Pseudo-Labels Guided Data Augmentation for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2308.16573v3 ) ライセンス: Link先を確認 | Yuanbin Chen, Tao Wang, Hui Tang, Longxuan Zhao, Ruige Zong, Shun Chen, Tao Tan, Xinlin Zhang, Tong Tong | (参考訳) 教師付き学習は目覚ましい成功を収めてきたが、バイオメディカルイメージングにおける大規模ラベル付きデータセットの取得は、高コストと放射線技師が必要とする時間的アノテーションのため、しばしば不可能である。
半教師付き学習は、ラベルのないデータセットから有用な情報を活用することで、この制限を克服するための効果的な戦略として現れる。
本稿では,医用画像セグメンテーションのための新しい半教師付き学習手法であるDual-Decoder ConsistencyをPseudo-Labels Guided Data Augmentation (DCPA)により提案する。
トレーニングプロセス中に一貫性のある表現を促進するために、一貫性の規則化を考案する。
具体的には、生徒と教師のネットワークに異なるデコーダを使用しながら、同じエンコーダをメンテナンスする。
さらに,ラベルなしデータから学習するために,教師ネットワークが生成する擬似ラベルを作成し,擬似ラベルによるトレーニングデータを増強する。
どちらの手法も,提案手法の性能向上に寄与する。
本手法は3つの医用画像セグメント化データセットを用いて評価する。
10%および20%のラベル付きデータと5%のラベル付きデータの極端なシナリオを用いて,最先端の半教師付き医用画像分割法との包括的比較を行った。
実験の結果, 3つの半教師付き設定における他の手法と比較して, 優れた性能を示すことができた。
ソースコードはhttps://github.com/BinYCn/DCPA.gitで公開されている。 While supervised learning has achieved remarkable success, obtaining large-scale labeled datasets in biomedical imaging is often impractical due to high costs and the time-consuming annotations required from radiologists. Semi-supervised learning emerges as an effective strategy to overcome this limitation by leveraging useful information from unlabeled datasets. In this paper, we present a novel semi-supervised learning method, Dual-Decoder Consistency via Pseudo-Labels Guided Data Augmentation (DCPA), for medical image segmentation. We devise a consistency regularization to promote consistent representations during the training process. Specifically, we use distinct decoders for student and teacher networks while maintain the same encoder. Moreover, to learn from unlabeled data, we create pseudo-labels generated by the teacher networks and augment the training data with the pseudo-labels. Both techniques contribute to enhancing the performance of the proposed method. The method is evaluated on three representative medical image segmentation datasets. Comprehensive comparisons with state-of-the-art semi-supervised medical image segmentation methods were conducted under typical scenarios, utilizing 10% and 20% labeled data, as well as in the extreme scenario of only 5% labeled data. The experimental results consistently demonstrate the superior performance of our method compared to other methods across the three semi-supervised settings. The source code is publicly available at https://github.com/BinYCn/DCPA.git. | 翻訳日:2024-01-19 20:07:57 公開日:2024-01-18 |
# マスク付き特徴アライメントを持つ平均教師DETR:ロバストドメイン適応検出トランスフレームワーク Mean Teacher DETR with Masked Feature Alignment: A Robust Domain Adaptive Detection Transformer Framework ( http://arxiv.org/abs/2310.15646v5 ) ライセンス: Link先を確認 | Weixi Weng, Chun Yuan | (参考訳) 非教師付きドメイン適応オブジェクト検出(UDAOD)による検出変換(DETR)の研究は主に特徴アライメントに焦点を当てており、既存の手法は2つの種類に分けられる。
1段階の機能アライメント手法は、パフォーマンスの変動やトレーニングの停滞を容易に引き起こすことができる。
平均教師に基づく2段階特徴アライメント手法は、事前訓練段階に続き、自己訓練段階と、信頼性の高い事前訓練モデルの獲得と一貫した性能向上の達成に直面する課題を含む。
上述の手法では、ターゲットライクなドメインのような第3の関連ドメインをどのように活用して適応を支援するかはまだ検討されていない。
これらの問題に対処するため、我々はMTMと呼ばれる2段階のフレームワーク、すなわちMasked Feature Alignmentを用いた平均教師-DETRを提案する。
事前訓練段階では,画像スタイルの転送によって生成されたラベル付きターゲットライクな画像を用いて,性能変動を回避する。
自己学習の段階では、平均教師に基づく擬似ラベルによる未ラベルのターゲット画像を活用し、学生モデルの一貫した性能向上を保証するために、Object Queries Knowledge Transfer (OQKT)と呼ばれるモジュールを提案する。
最も重要なことは,Masked Domain Query-based Feature Alignment (MDQFA) やMasked Token-wise Feature Alignment (MTWFA) といったマスク付き機能アライメント手法によって,トレーニングの停滞を防止し,事前訓練段階における堅牢な事前訓練モデルを実現するとともに,自己学習段階におけるモデルの目標性能を向上させることにある。
3つの難解なシナリオの実験と理論的解析はmtmの有効性を検証する。 Unsupervised domain adaptation object detection (UDAOD) research on Detection Transformer(DETR) mainly focuses on feature alignment and existing methods can be divided into two kinds, each of which has its unresolved issues. One-stage feature alignment methods can easily lead to performance fluctuation and training stagnation. Two-stage feature alignment method based on mean teacher comprises a pretraining stage followed by a self-training stage, each facing problems in obtaining reliable pretrained model and achieving consistent performance gains. Methods mentioned above have not yet explore how to utilize the third related domain such as target-like domain to assist adaptation. To address these issues, we propose a two-stage framework named MTM, i.e. Mean Teacher-DETR with Masked Feature Alignment. In the pretraining stage, we utilize labeled target-like images produced by image style transfer to avoid performance fluctuation. In the self-training stage, we leverage unlabeled target images by pseudo labels based on mean teacher and propose a module called Object Queries Knowledge Transfer (OQKT) to ensure consistent performance gains of the student model. Most importantly, we propose masked feature alignment methods including Masked Domain Query-based Feature Alignment (MDQFA) and Masked Token-wise Feature Alignment (MTWFA) to alleviate domain shift in a more robust way, which not only prevent training stagnation and lead to a robust pretrained model in the pretraining stage, but also enhance the model's target performance in the self-training stage. Experiments on three challenging scenarios and a theoretical analysis verify the effectiveness of MTM. | 翻訳日:2024-01-19 20:01:00 公開日:2024-01-18 |
# SpecTr: 最適なトランスポートによる高速な投機的デコーディング SpecTr: Fast Speculative Decoding via Optimal Transport ( http://arxiv.org/abs/2310.15141v2 ) ライセンス: Link先を確認 | Ziteng Sun and Ananda Theertha Suresh and Jae Hun Ro and Ahmad Beirami and Himanshu Jain and Felix Yu | (参考訳) 大規模言語モデルからの自己回帰サンプリングは、いくつかの自然言語タスクにおいて最先端の結果をもたらす。
しかし、自己回帰サンプリングはトークンを1つずつ生成して遅くし、特定のタスクでは禁止される。
サンプリングを高速化する1つの方法は、$\textit{speculative decoding}$: $\textit{draft}$(ブロックまたはトークンのシーケンス)をサンプリングするために小さなモデルを使用して、大きな言語モデルによってドラフト内のすべてのトークンを並列にスコアする。
ドラフト中のトークンのサブセットは、最終的な出力が大きなモデルの分布に従うことを保証するための統計的方法に基づいて受け入れられる(そして、残りは拒否される)。
本研究では、最適な輸送(OT)のレンズを$\textit{membership cost}$とすることで、投機的復号化の原理的理解を提供する。
このフレームワークはよく知られた$\textit{maximal-coupling}$問題の拡張と見なすことができる。
この新しい定式化により、投機的復号法を一般化し、トークンレベルで1セットの$k$の候補を可能にすることで、最適なメンバーシップコストが向上します。
最適なドラフト選択アルゴリズム(トランスポート計画)は線形プログラミングによって計算できることを示し,その最もよく知られた実行時間は$k$で指数関数的である。
次に, 許容確率が(1-1/e)$-optimal multiplicative である有効なドラフト選択アルゴリズムを提案する。
さらに、1つのトークンのドメインサイズでほぼ線形に時間で計算することができる。
この新たなドラフト選択$アルゴリズムを用いて、デコードされた出力に品質劣化がないことを保証しながらデコードを高速化する、$\textit{SpecTr}$と呼ばれる新しい自動回帰サンプリングアルゴリズムを開発する。
提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化を実現する。 Autoregressive sampling from large language models has led to state-of-the-art results in several natural language tasks. However, autoregressive sampling generates tokens one at a time making it slow, and even prohibitive in certain tasks. One way to speed up sampling is $\textit{speculative decoding}$: use a small model to sample a $\textit{draft}$ (block or sequence of tokens), and then score all tokens in the draft by the large language model in parallel. A subset of the tokens in the draft are accepted (and the rest rejected) based on a statistical method to guarantee that the final output follows the distribution of the large model. In this work, we provide a principled understanding of speculative decoding through the lens of optimal transport (OT) with $\textit{membership cost}$. This framework can be viewed as an extension of the well-known $\textit{maximal-coupling}$ problem. This new formulation enables us to generalize the speculative decoding method to allow for a set of $k$ candidates at the token-level, which leads to an improved optimal membership cost. We show that the optimal draft selection algorithm (transport plan) can be computed via linear programming, whose best-known runtime is exponential in $k$. We then propose a valid draft selection algorithm whose acceptance probability is $(1-1/e)$-optimal multiplicatively. Moreover, it can be computed in time almost linear with size of domain of a single token. Using this $new draft selection$ algorithm, we develop a new autoregressive sampling algorithm called $\textit{SpecTr}$, which provides speedup in decoding while ensuring that there is no quality degradation in the decoded output. We experimentally demonstrate that for state-of-the-art large language models, the proposed approach achieves a wall clock speedup of 2.13X, a further 1.37X speedup over speculative decoding on standard benchmarks. | 翻訳日:2024-01-19 20:00:28 公開日:2024-01-18 |
# 仮面型ハードアテンション変換器とブールRASPがスターフリー言語を正確に認識する Masked Hard-Attention Transformers and Boolean RASP Recognize Exactly the Star-Free Languages ( http://arxiv.org/abs/2310.13897v2 ) ライセンス: Link先を確認 | Dana Angluin, David Chiang, and Andy Yang | (参考訳) コンバータエンコーダ(すべての注意が正確に1つの位置に集中している)と厳密な将来のマスキング(各位置が左の位置に厳密にしか入らない)について検討し、これらのネットワークで認識される言語のクラスがまさにスターフリー言語であることを証明した。
位置埋め込みの追加は、認識された言語のクラスを他のよく研究されたクラスに増加させる。
これらの証明の主要なテクニックは、Boolean値に制限されたRASPの亜種であるBoolean RASPである。
スターフリー言語を通じて、トランスフォーマーを一階述語論理、時相論理、代数的オートマトン理論に関連付ける。 We consider transformer encoders with hard attention (in which all attention is focused on exactly one position) and strict future masking (in which each position only attends to positions strictly to its left), and prove that the class of languages recognized by these networks is exactly the star-free languages. Adding position embeddings increases the class of recognized languages to other well-studied classes. A key technique in these proofs is Boolean RASP, a variant of RASP that is restricted to Boolean values. Via the star-free languages, we relate transformers to first-order logic, temporal logic, and algebraic automata theory. | 翻訳日:2024-01-19 19:59:52 公開日:2024-01-18 |
# FactCHD: Fact-Conflicting Hallucination Detectionのベンチマーク FactCHD: Benchmarking Fact-Conflicting Hallucination Detection ( http://arxiv.org/abs/2310.12086v2 ) ライセンス: Link先を確認 | Xiang Chen, Duanzheng Song, Honghao Gui, Chenxi Wang, Ningyu Zhang, Jiang Yong, Fei Huang, Chengfei Lv, Dan Zhang, Huajun Chen | (参考訳) その素晴らしい生成能力にもかかわらず、llmは実世界のアプリケーションにおける事実衝突幻覚によって妨げられている。
LLMによって生成されたテキスト中の幻覚の正確な同定は、特に複雑な推論シナリオにおいて、比較的未発見の領域である。
このギャップに対処するため,本研究では,LLMから事実強調幻覚を検出するための専用のベンチマークであるFactCHDを提案する。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
FactCHDの特徴的な要素は、事実に基づくエビデンス連鎖の統合であり、検出器の説明を評価する深さを著しく高めている。
異なるLLMの実験は、事実誤りを正確に検出する現在のアプローチの欠点を明らかにする。
さらに,ツールエンハンスされたchatgptとllama2に基づくlora-tuningによるリフレクティブな考察を合成し,予測結果とエビデンスを融合することで,より信頼性の高い検出を可能にする真理トライアンギュレータを提案する。
ベンチマークデータセットはhttps://github.com/zjunlp/factchdで入手できる。 Despite their impressive generative capabilities, LLMs are hindered by fact-conflicting hallucinations in real-world applications. The accurate identification of hallucinations in texts generated by LLMs, especially in complex inferential scenarios, is a relatively unexplored area. To address this gap, we present FactCHD, a dedicated benchmark designed for the detection of fact-conflicting hallucinations from LLMs. FactCHD features a diverse dataset that spans various factuality patterns, including vanilla, multi-hop, comparison, and set operation. A distinctive element of FactCHD is its integration of fact-based evidence chains, significantly enhancing the depth of evaluating the detectors' explanations. Experiments on different LLMs expose the shortcomings of current approaches in detecting factual errors accurately. Furthermore, we introduce Truth-Triangulator that synthesizes reflective considerations by tool-enhanced ChatGPT and LoRA-tuning based on Llama2, aiming to yield more credible detection through the amalgamation of predictive results and evidence. The benchmark dataset is available at https://github.com/zjunlp/FactCHD. | 翻訳日:2024-01-19 19:59:38 公開日:2024-01-18 |
# ウォーターマーク大形変圧器の機能不変量 Functional Invariants to Watermark Large Transformers ( http://arxiv.org/abs/2310.11446v2 ) ライセンス: Link先を確認 | Pierre Fernandez, Guillaume Couairon, Teddy Furon, Matthijs Douze | (参考訳) トランスフォーマーベースのモデルの急速な成長は、その完全性と所有権保険に対する懸念を高める。
Watermarkingはモデルにユニークな識別子を埋め込むことでこの問題に対処し、パフォーマンスを保っている。
しかし、既存のアプローチの多くは、計算コストのためスケールに適さないウォーターマーク信号をインプリントするために重みを最適化する必要がある。
本稿では,非盲点ホワイトボックス設定(原点と透かし付きネットワークの両方へのアクセスを想定して)に適用可能な,計算コストをほとんど必要としない透かしについて検討する。
彼らは次元の置換やスケーリング/アンスケーリングといった操作を通じて、モデルの不変性を利用して機能的に等価なコピーを生成する。
これにより、出力を変更することなくモデルを透かし、ステルス性を保つことができる。
実験では、アプローチの有効性と様々なモデル変換(微調整、量子化、プルーニング)に対する堅牢性を示し、大きなモデルの完全性を保護するための実用的な解決策である。 The rapid growth of transformer-based models increases the concerns about their integrity and ownership insurance. Watermarking addresses this issue by embedding a unique identifier into the model, while preserving its performance. However, most existing approaches require to optimize the weights to imprint the watermark signal, which is not suitable at scale due to the computational cost. This paper explores watermarks with virtually no computational cost, applicable to a non-blind white-box setting (assuming access to both the original and watermarked networks). They generate functionally equivalent copies by leveraging the models' invariance, via operations like dimension permutations or scaling/unscaling. This enables to watermark models without any change in their outputs and remains stealthy. Experiments demonstrate the effectiveness of the approach and its robustness against various model transformations (fine-tuning, quantization, pruning), making it a practical solution to protect the integrity of large models. | 翻訳日:2024-01-19 19:59:18 公開日:2024-01-18 |
# 4次元gaussian splattingによる実時間フォトリアリスティック動的シーン表現とレンダリング Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting ( http://arxiv.org/abs/2310.10642v2 ) ライセンス: Link先を確認 | Zeyu Yang, Hongye Yang, Zijie Pan, Xiatian Zhu, Li Zhang | (参考訳) 2次元画像から動的3Dシーンを再構成し、時間とともに多様なビューを生成することは、シーンの複雑さと時間的ダイナミクスのために困難である。
神経暗黙モデルの発展にもかかわらず、制限は持続する。
(i)不適切なシーン構造:既存の手法は、複雑な6次元光機能を直接学習することから、動的シーンの空間的・時間的構造を明らかにするのに苦労する。
(ii) スケーリング変形モデリング: 複雑なダイナミクスでは、シーン要素の明示的にモデリングすることは現実的ではない。
これらの問題に対処するため,我々は時空を全体として考慮し,動的シーンの時空間的4dボリュームを,明示的な幾何学と外観モデリングを用いて4dプリミティブのコレクションを最適化することにより近似する。
4dプリミティブを最適化する学習は、カスタマイズされたレンダリングルーチンで任意の時間に新しいビューを合成できる。
我々のモデルは概念的に単純であり、異方性楕円によってパラメータ化され、空間と時間で任意に回転する4次元ガウスのパラメータと、4次元球面調和係数で表されるビュー依存および時間進化の外観から構成される。
このアプローチは、シンプルさ、可変長ビデオとエンドツーエンドのトレーニングのための柔軟性、効率的なリアルタイムレンダリングを提供する。
モノクロおよびマルチビューシナリオを含む様々なベンチマーク実験は、我々の4DGSモデルの優れた視覚的品質と効率を実証する。 Reconstructing dynamic 3D scenes from 2D images and generating diverse views over time is challenging due to scene complexity and temporal dynamics. Despite advancements in neural implicit models, limitations persist: (i) Inadequate Scene Structure: Existing methods struggle to reveal the spatial and temporal structure of dynamic scenes from directly learning the complex 6D plenoptic function. (ii) Scaling Deformation Modeling: Explicitly modeling scene element deformation becomes impractical for complex dynamics. To address these issues, we consider the spacetime as an entirety and propose to approximate the underlying spatio-temporal 4D volume of a dynamic scene by optimizing a collection of 4D primitives, with explicit geometry and appearance modeling. Learning to optimize the 4D primitives enables us to synthesize novel views at any desired time with our tailored rendering routine. Our model is conceptually simple, consisting of a 4D Gaussian parameterized by anisotropic ellipses that can rotate arbitrarily in space and time, as well as view-dependent and time-evolved appearance represented by the coefficient of 4D spherindrical harmonics. This approach offers simplicity, flexibility for variable-length video and end-to-end training, and efficient real-time rendering, making it suitable for capturing complex dynamic scene motions. Experiments across various benchmarks, including monocular and multi-view scenarios, demonstrate our 4DGS model's superior visual quality and efficiency. | 翻訳日:2024-01-19 19:59:02 公開日:2024-01-18 |
# 弱改良セマンティックセグメンテーションのためのGPTプロンプト制御拡散 GPT-Prompt Controlled Diffusion for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2310.09760v2 ) ライセンス: Link先を確認 | Wangyu Wu, Tianhong Dai, Xiaowei Huang, Fei Ma, Jimin Xiao | (参考訳) 画像レベルラベルのみを使用してセグメンテーションモデルを訓練することを目的としたweakly supervised semantic segmentation (wsss) が注目されている。
既存の手法は主に、既存の画像とその対応する画像レベルラベルを利用して高品質な擬似ラベルを作成することに集中している。
しかし、利用可能なデータセットのサイズが限られると、擬似ラベルの品質は大幅に低下する。
そこで本稿では,データ拡張のためのGPCD(GPT-Prompt Controlled Diffusion)と呼ばれる新しいアプローチを導入することで,この問題を異なる視点から解決する。
このアプローチは、GPTプロンプトによって誘導される制御拡散によって達成される、様々な画像で拡張することで、現在のラベル付きデータセットを強化する。
このプロセスでは、既存の画像と画像レベルのラベルが必要な制御情報を提供し、GPTはプロンプトの強化に使用され、多様な背景が生成される。
さらに、データソース情報をトークンとしてViT(Vision Transformer)フレームワークに統合する。
これらのトークンは、強調画像の起源を認識するために、下流のWSSSフレームワークの能力を改善するように設計されている。
提案するgpcdアプローチは,既存の最先端手法を明らかに上回っている。
この効果は、利用可能なデータ量が小さくなるとより明確になり、この方法の有効性が示される。 Weakly supervised semantic segmentation (WSSS), aiming to train segmentation models solely using image-level labels, has received significant attention. Existing approaches mainly concentrate on creating high-quality pseudo labels by utilizing existing images and their corresponding image-level labels. However, the quality of pseudo labels degrades significantly when the size of available dataset is limited. Thus, in this paper, we tackle this problem from a different view by introducing a novel approach called GPT-Prompt Controlled Diffusion (GPCD) for data augmentation. This approach enhances the current labeled datasets by augmenting with a variety of images, achieved through controlled diffusion guided by GPT prompts. In this process, the existing images and image-level labels provide the necessary control information, where GPT is employed to enrich the prompts, leading to the generation of diverse backgrounds. Moreover, we integrate data source information as tokens into the Vision Transformer (ViT) framework. These tokens are specifically designed to improve the ability of downstream WSSS framework to recognize the origins of augmented images. Our proposed GPCD approach clearly surpasses existing state-of-the-art methods. This effect is more obvious when the amount of available data is small, demonstrating the effectiveness of our method. | 翻訳日:2024-01-19 19:58:36 公開日:2024-01-18 |
# オンライン誤報の背後にある人間を理解する:COVID-19パンデミックのレンズを通しての観察的研究 Understanding the Humans Behind Online Misinformation: An Observational Study Through the Lens of the COVID-19 Pandemic ( http://arxiv.org/abs/2310.08483v2 ) ライセンス: Link先を確認 | Mohit Chandra, Anush Mattapalli, Munmun De Choudhury | (参考訳) オンライン誤報の拡散は、社会にとって最大の脅威の1つとなっている。
誤情報検出モデルの構築にかなりの努力が払われているが、誤情報の周辺は依然として多岐にわたる。
オンラインの誤情報とその影響を緩和するには、複雑な問題やトピックに富んだ情報エコシステムに関する複雑な景観の理解だけでなく、その背景にある個人の心理的要因も包含する必要がある。
時系列分析手法とロバストな因果推論に基づく設計を用いて,3200万以上のcovid-19ツイートと1600万の履歴タイムラインツイートを分析した大規模観察研究を行った。
我々は、新型コロナウイルス(covid-19)に誤情報を流布するユーザの行動と心理学を理解すること、および、パンデミック以前の非共済ドメインにおける誤情報の共有に関する歴史的傾斜との関係に焦点をあてている。
本分析は,利用者の誤情報の共有に対する歴史的傾向が,創発的話題に関する誤情報の共有に関する現在の行動と正の関連があることを強調するものである。
この作業は、ユーザー中心の接種戦略と、オンラインの誤った情報に効果的に取り組むための生態学的根拠に基づくアジャイル介入を設計するための貴重な基盤となるかもしれない。 The proliferation of online misinformation has emerged as one of the biggest threats to society. Considerable efforts have focused on building misinformation detection models, still the perils of misinformation remain abound. Mitigating online misinformation and its ramifications requires a holistic approach that encompasses not only an understanding of its intricate landscape in relation to the complex issue and topic-rich information ecosystem online, but also the psychological drivers of individuals behind it. Adopting a time series analytic technique and robust causal inference-based design, we conduct a large-scale observational study analyzing over 32 million COVID-19 tweets and 16 million historical timeline tweets. We focus on understanding the behavior and psychology of users disseminating misinformation during COVID-19 and its relationship with the historical inclinations towards sharing misinformation on Non-COVID domains before the pandemic. Our analysis underscores the intricacies inherent to cross-domain misinformation, and highlights that users' historical inclination toward sharing misinformation is positively associated with their present behavior pertaining to misinformation sharing on emergent topics and beyond. This work may serve as a valuable foundation for designing user-centric inoculation strategies and ecologically-grounded agile interventions for effectively tackling online misinformation. | 翻訳日:2024-01-19 19:57:33 公開日:2024-01-18 |
# 2つの散逸相互作用量子ビットの最適符号化 Optimal encoding of two dissipative interacting qubits ( http://arxiv.org/abs/2310.05561v2 ) ライセンス: Link先を確認 | G. Di Bello, G. De Filippis, A. Hamma, and C. A. Perroni | (参考訳) 1つの論理キュービットの実装のための物理モデルとして,オーミックバスと相互作用する2つの結合キュービットのシステムについて検討した。
このモデルでは、他の量子ビットとの相互作用はユニタリノイズを表し、一方オーミック浴は有限温度に寄与する。
1次元デコヒーレンスフリー部分空間(dfs)の存在下では、これはデコヒーレンスからキュービットを保護するのに十分ではないが、1つの論理キュービットを物理量よりも高い性能でエンコードできることを示した。
行列積状態に基づく数値解析により、論理量子ビットの最適符号化のための異なる可能な戦略を示す。
この方法は摂動計算の結果を忠実に再現するが、風呂と強いカップリングの場合など、物理的な実装において重要な関心を持つケースにまで拡張することができる。
その結果、ベル基底における反強磁性状態の直接和である部分空間に符号化された論理量子ビット、DFSと三重項の量子ビットは、DFSへのアンカーと反強磁性相互作用からの保護の両方を利用するため、最適に堅牢である。
これらの著者はこの作品に等しく貢献し、その名称はアルファベット順に並べられている。 We investigate a system of two coupled qubits interacting with an Ohmic bath as a physical model for the implementation of one logical qubit. In this model, the interaction with the other qubit represents unitary noise while the Ohmic bath is responsible for finite temperature. In the presence of a one-dimensional decoherence-free subspace (DFS), we show that, while this is not sufficient to protect a qubit from decoherence, it can be exploited to encode one logical qubit with greater performance than the physical one. We show different possible strategies for the optimal encoding of a logical qubit through a numerical analysis based on matrix product states. This method reproduces faithfully the results of perturbative calculations, but it can be extended to cases of crucial interest for physical implementations, e.g., in the case of strong coupling with the bath. As a result, a logical qubit encoded in the subspace which is the direct sum of the antiferromagnetic states in Bell basis, the DFS and the one in the triplet, is the optimally robust one, as it takes advantage of both the anchoring to the DFS and the protection from the antiferromagnetic interaction. These authors contributed equally to this work, and their names are listed in alphabetical order. | 翻訳日:2024-01-19 19:56:58 公開日:2024-01-18 |
# dunkl型微分項による一般化フォッカー・プランク方程式 The Generalized Fokker-Planck Equation in terms of Dunkl-type Derivatives ( http://arxiv.org/abs/2310.05017v4 ) ライセンス: Link先を確認 | R. D. Mota, D. Ojeda-Guill\'en and M. A. Xicot\'encatl | (参考訳) 本研究では、(1+1)次元のフォッカー・プランク方程式の2つの異なる一般化を導入し、空間微分を反射作用素を含む一般化ダンクル型微分に置き換える。
これらの結果の応用として、調和振動子と遠心型ポテンシャルに対する一般化されたフォッカー・プランク方程式を正確に解く。 In this work we introduce two different generalizations of the Fokker-Planck equation in (1+1) dimensions by replacing the spatial derivatives in terms of generalized Dunkl-type derivatives involving reflection operators. As applications of these results, we solve exactly the generalized Fokker-Planck equations for the harmonic oscillator and the centrifugal-type potentials. | 翻訳日:2024-01-19 19:56:38 公開日:2024-01-18 |
# 大規模言語モデルのためのMetaToolベンチマーク:ツールの使用と使用方法の決定 MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use ( http://arxiv.org/abs/2310.03128v4 ) ライセンス: Link先を確認 | Yue Huang and Jiawen Shi and Yuan Li and Chenrui Fan and Siyuan Wu and Qihui Zhang and Yixin Liu and Pan Zhou and Yao Wan and Neil Zhenqiang Gong and Lichao Sun | (参考訳) 大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
近年,多くの研究がllmのツール活用能力に着目している。
彼らは主に、LLMが特定のツールと効果的に連携する方法を調査した。
しかしながら、AutoGPTやMetaGPTのようなアプリケーションで見られるような、LLMがインテリジェントなエージェントとして機能するシナリオでは、LDMは、ツールを採用するかどうかを決定し、ユーザ要求を満たすために利用可能なツールの集合から最も適切なツールを選択する、複雑な意思決定プロセスに関与することが期待されている。
そこで本稿では,LLM がツール使用意識を持ち,ツールを正しく選択できるかどうかを評価するベンチマークである MetaTool を紹介する。
具体的には、ベンチマーク内でToolEと呼ばれるデータセットを作成します。
このデータセットには、シングルツールとマルチツールの両方のシナリオを含む、LDMがツールを使用するきっかけとなるプロンプトという形で、さまざまなタイプのユーザクエリが含まれている。
その後、ツール使用意識とツール選択の両方にタスクを設定しました。
ツール選択に関して,ツール選択,特定のシナリオにおけるツール選択,信頼性問題のあるツール選択,マルチツール選択など,さまざまな観点から4つのサブタスクを定義した。
我々は8つのLLMを巻き込んだ実験を行い、その大多数は依然としてツールを効果的に選択するのに苦労しており、LLMと真の知的エージェントの既存のギャップを強調しています。
しかし, 誤差解析の結果, 改善の余地は依然として大きいことがわかった。
最後に、ツール開発者がツールが適用する下流のllmに基づいて新しい記述を生成するために、適切な書き直しモデルを選択することを強く推奨します。
我々のコードは \href{https://github.com/HowieHwong/MetaTool}{Github} にある。 Large language models (LLMs) have garnered significant attention due to their impressive natural language processing (NLP) capabilities. Recently, many studies have focused on the tool utilization ability of LLMs. They primarily investigated how LLMs effectively collaborate with given specific tools. However, in scenarios where LLMs serve as intelligent agents, as seen in applications like AutoGPT and MetaGPT, LLMs are expected to engage in intricate decision-making processes that involve deciding whether to employ a tool and selecting the most suitable tool(s) from a collection of available tools to fulfill user requests. Therefore, in this paper, we introduce MetaTool, a benchmark designed to evaluate whether LLMs have tool usage awareness and can correctly choose tools. Specifically, we create a dataset called ToolE within the benchmark. This dataset contains various types of user queries in the form of prompts that trigger LLMs to use tools, including both single-tool and multi-tool scenarios. Subsequently, we set the tasks for both tool usage awareness and tool selection. We define four subtasks from different perspectives in tool selection, including tool selection with similar choices, tool selection in specific scenarios, tool selection with possible reliability issues, and multi-tool selection. We conduct experiments involving eight popular LLMs and find that the majority of them still struggle to effectively select tools, highlighting the existing gaps between LLMs and genuine intelligent agents. However, through the error analysis, we found there is still significant room for improvement. Finally, we conclude with insights for tool developers -- we strongly recommend that tool developers choose an appropriate rewrite model for generating new descriptions based on the downstream LLM the tool will apply to. Our code is in \href{https://github.com/HowieHwong/MetaTool}{Github}. | 翻訳日:2024-01-19 19:56:31 公開日:2024-01-18 |
# 3D-Mol:3次元情報を用いた分子特性予測のための新しいコントラスト学習フレームワーク 3D-Mol: A Novel Contrastive Learning Framework for Molecular Property Prediction with 3D Information ( http://arxiv.org/abs/2309.17366v2 ) ライセンス: Link先を確認 | Taojie Kuang, Yiming Ren, Zhixiang Ren | (参考訳) 分子特性予測は、初期の薬物候補のスクリーニングと最適化に不可欠であり、深層学習に基づく手法で進歩を遂げている。
深層学習に基づく手法はかなり進歩しているが、3d空間情報を十分に活用できないことが多い。
特に、現在の分子エンコーディング技術は空間情報を不十分に抽出する傾向にあり、単一の分子が複数の異なる分子を表現できるあいまいな表現をもたらす。
さらに、既存の分子モデリング手法は、最も安定な3dコンフォメーションに主に焦点をあて、現実に存在する他の実行可能なコンフォメーションを無視している。
これらの問題に対処するために,より正確な空間構造表現のために設計された新しいアプローチである3d-molを提案する。
分子を3つの階層グラフに分解し、幾何学的情報を抽出する。
さらに、3D-Molは、2000万のラベルのないデータに対する事前学習に対照的な学習を活用し、3Dコンフォメーション記述子と指紋の類似性に基づいて、同じトポロジカル構造によるコンフォメーションを重み付き正のペアとして扱い、負のペアとして扱う。
7つのベンチマークで3D-Molと最先端のベースラインを比較し,優れた性能を示す。 Molecular property prediction, crucial for early drug candidate screening and optimization, has seen advancements with deep learning-based methods. While deep learning-based methods have advanced considerably, they often fall short in fully leveraging 3D spatial information. Specifically, current molecular encoding techniques tend to inadequately extract spatial information, leading to ambiguous representations where a single one might represent multiple distinct molecules. Moreover, existing molecular modeling methods focus predominantly on the most stable 3D conformations, neglecting other viable conformations present in reality. To address these issues, we propose 3D-Mol, a novel approach designed for more accurate spatial structure representation. It deconstructs molecules into three hierarchical graphs to better extract geometric information. Additionally, 3D-Mol leverages contrastive learning for pretraining on 20 million unlabeled data, treating their conformations with identical topological structures as weighted positive pairs and contrasting ones as negatives, based on the similarity of their 3D conformation descriptors and fingerprints. We compare 3D-Mol with various state-of-the-art baselines on 7 benchmarks and demonstrate our outstanding performance. | 翻訳日:2024-01-19 19:56:02 公開日:2024-01-18 |
# 大規模言語モデル強化アルゴリズム選択:包括的アルゴリズム表現を目指して Large Language Model-Enhanced Algorithm Selection: Towards Comprehensive Algorithm Representation ( http://arxiv.org/abs/2311.13184v2 ) ライセンス: Link先を確認 | Xingyu Wu, Yan Zhong, Jibin Wu, Bingbing Jiang, Kay Chen Tan | (参考訳) アルゴリズムの選択は、実行前に特定の問題を解決するのに最も適したアルゴリズムを特定することを目的としている。
現在の主流アルゴリズム選択技術は、様々な問題の特徴表現に重きを置き、各アルゴリズムの性能を教師あり情報として利用する。
しかし,アルゴリズム特徴の考察には大きな研究ギャップがある。
このギャップは主にアルゴリズムの固有の複雑さによるもので、様々なアルゴリズムに適用可能な普遍的に効果的な特徴抽出方法を見つけるのが特に困難である。
残念なことに、この側面を無視することはアルゴリズム選択の正確性に影響を与え、間接的にトレーニング目的で問題データの量を増やす必要がある。
本稿では,アルゴリズム選択プロセスにアルゴリズム表現を統合するアプローチを提案することにより,このギャップに対処するための重要な取り組みを行う。
特に,提案手法では,問題とアルゴリズムの表現をそれぞれ異なるモジュールで抽出し,アルゴリズム表現はコード理解領域における事前学習されたllmの機能を活用する。
アルゴリズムと問題の両方に対する埋め込みベクトルの抽出に続いて、最も適切なアルゴリズムは一致する次数の計算によって決定される。
提案手法は,提案手法の有効性を検証しただけでなく,異なる組込み事前学習 LLM の性能を実証し,提案手法はLLM のコード表現能力を評価するためのベースラインタスクとして機能する可能性を持っていることを示唆している。 Algorithm selection aims to identify the most suitable algorithm for solving a specific problem before execution, which has become a critical process of the AutoML. Current mainstream algorithm selection techniques rely heavily on feature representations of various problems and employ the performance of each algorithm as supervised information. However, there is a significant research gap concerning the consideration of algorithm features. This gap is primarily attributed to the inherent complexity of algorithms, making it particularly challenging to find a universally effective feature extraction method that is applicable across a diverse range of algorithms. Unfortunately, neglecting this aspect undoubtedly impacts the accuracy of algorithm selection and indirectly necessitates an increased volume of problem data for training purposes. This paper takes a significant stride towards addressing this gap by proposing an approach that integrates algorithm representation into the algorithm selection process. Specifically, our proposed model employs distinct modules to extract representations of both problems and algorithms, where the algorithm representation leverages the capabilities of pre-trained LLMs in the realm of code comprehension. Following the extraction of embedding vectors for both algorithms and problems, the most suitable algorithm is determined through calculations of matching degrees. Our experiments not only validate the effectiveness of the proposed model but also showcase the performance of different embedded pre-trained LLMs, which suggests that the proposed algorithm selection framework holds the potential to serve as a baseline task for evaluating the code representation capabilities of LLMs. | 翻訳日:2024-01-19 19:48:18 公開日:2024-01-18 |
# InterVENOR: 修復の対話的連鎖による大規模言語モデルの符号化能力向上 INTERVENOR: Prompt the Coding Ability of Large Language Models with the Interactive Chain of Repairing ( http://arxiv.org/abs/2311.09868v2 ) ライセンス: Link先を確認 | Hanbin Wang, Zhenghao Liu, Shuo Wang, Ganqu Cui, Ning Ding, Zhiyuan Liu and Ge Yu | (参考訳) 本稿では,人間のコード修復行動(反復的判断,再検討,修復)を模倣し,大規模言語モデル(llm)のコーディング能力を促進する対話型修復チェーン(intervenor)を提案する。
具体的には、2つのLLMベースのエージェントであるCode LearnerとCode Teacherを使って、コード修復の異なる役割を演じ、生成されたコードを修正するために対話的に作業する。
コード学習者は、コード教師からの指示に従ってコードの生成と修復を依頼される。
Code Teacherは、コンパイラからのフィードバックに応じてコードエラーを再考し、コードラーナーのコード修復プロセスをガイドするために繰り返し再ペアリング(CoR)を生成する。
実験の結果、intervenorは最先端のメソッドよりも優れており、コード生成とコード変換タスクにおいて、gpt-3.5モデルよりも約13%と4.5%改善されていることがわかった。
さらに分析した結果,CoRは自然言語によるバグの理由や解決計画に照らし出すことができることがわかった。
コードコンパイラのフィードバックにより、intervenorはコードの構文エラーとアサーションエラーを正確に識別し、コードを修正する正確な指示を提供することができる。
すべてのデータとコードはhttps://github.com/NEUIR/INTERVENORで入手できる。 This paper proposes INTERactiVE chaiN Of Repairing (INTERVENOR), which mimics human code repairing behavior (iteratively judging, rethinking, and repairing) and prompts the coding ability of regard Large Language Models (LLMs). Specifically, INTERVENOR employs two LLM based agents, Code Learner and Code Teacher, to play different roles in code repairing and work interactively to repair the generated codes. The Code Learner is asked to generate and repair code according to the instructions from the Code Teacher. The Code Teacher rethinks the code errors according to the corresponding feedback from compilers and iteratively generates the chain-of-repairing (CoR) to guide the code repairing process for Code Learner. Our experiments show that INTERVENOR outperforms the state-of-the-art methods and achieves about 13% and 4.5% improvements over the GPT-3.5 model in code generation and code translation tasks, respectively. Our further analyses show that CoR can illuminate the bug reasons and solution plans via natural language. With the feedback of code compilers, INTERVENOR can accurately identify the syntax errors and assertion errors in the code and provide precise instructions to repair codes. All data and codes are available at https://github.com/NEUIR/INTERVENOR | 翻訳日:2024-01-19 19:47:55 公開日:2024-01-18 |
# 論文の拡散, 適合性, 貢献価値への潜在的影響の解消 Disentangling the Potential Impacts of Papers into Diffusion, Conformity, and Contribution Values ( http://arxiv.org/abs/2311.09262v2 ) ライセンス: Link先を確認 | Zhikai Xue, Guoxiu He, Zhuoren Jiang, Sichen Gu, Yangyang Kang, Star Zhao, Wei Lu | (参考訳) 学術論文の潜在的影響は、その人気や貢献など様々な要因によって決定される。
既存のモデルは、通常、静的グラフに基づいて元の引用数を推定し、微妙な視点から値の区別に失敗する。
本研究では,論文の拡散,コンフォーマル性,寄与価値(DPPDCC)への潜在的影響を識別する新しいグラフニューラルネットワークを提案する。
DPPDCCは,構築した動的不均一グラフ内の時間的特徴と構造的特徴を符号化する。
特に,知識の流れを捉えるために,論文と要約の進化的比較・共催・引用の重要性を強調した。
人気を解き明かすために,拡張グラフを対比して拡散の本質を抽出し,モデル適合性に蓄積された引用バイナリ化を予測する。
さらに,各視点を個別にモデル化し,貢献の固有価値を保つために直交制約を適用する。
論文の汎用性を評価するために,特定の時点に基づいてデータを分割し,実世界の条件を反映することで問題を再検討する。
3つのデータセットの大規模な実験結果から、DPPDCCは前、新、即時発行された論文のベースラインを著しく上回っていることが示された。
さらなる分析により、その堅牢性が確認された。
私たちはデータセットとコードを一般公開します。 The potential impact of an academic paper is determined by various factors, including its popularity and contribution. Existing models usually estimate original citation counts based on static graphs and fail to differentiate values from nuanced perspectives. In this study, we propose a novel graph neural network to Disentangle the Potential impacts of Papers into Diffusion, Conformity, and Contribution values (called DPPDCC). Given a target paper, DPPDCC encodes temporal and structural features within the constructed dynamic heterogeneous graph. Particularly, to capture the knowledge flow, we emphasize the importance of comparative and co-cited/citing information between papers and aggregate snapshots evolutionarily. To unravel popularity, we contrast augmented graphs to extract the essence of diffusion and predict the accumulated citation binning to model conformity. We further apply orthogonal constraints to encourage distinct modeling of each perspective and preserve the inherent value of contribution. To evaluate models' generalization for papers published at various times, we reformulate the problem by partitioning data based on specific time points to mirror real-world conditions. Extensive experimental results on three datasets demonstrate that DPPDCC significantly outperforms baselines for previously, freshly, and immediately published papers. Further analyses confirm its robust capabilities. We will make our datasets and codes publicly available. | 翻訳日:2024-01-19 19:47:30 公開日:2024-01-18 |
# 入力凸LSTM:高速リアプノフモデル予測制御のための凸アプローチ Input Convex LSTM: A Convex Approach for Fast Lyapunov-Based Model Predictive Control ( http://arxiv.org/abs/2311.07202v2 ) ライセンス: Link先を確認 | Zihao Wang, Zhe Wu | (参考訳) 入力凸ニューラルネットワーク(ICNN)を活用し、ICNNベースのモデル予測制御(MPC)は、MPCフレームワーク内の凸性を維持することで、グローバルに最適なソリューションを実現する。
しかし、現在のicnnアーキテクチャは、複雑なタスクのためのディープニューラルネットワークとして機能する能力を制限する、消失/爆発勾配の問題に遭遇する。
さらに、従来のニューラルネットワークベースのMPCやICNNベースのMPCを含む現在のニューラルネットワークベースのMPCは、第一原理モデルに基づくMPCと比較して収束速度が遅い。
本研究では, リアプノフ系mpcのための新しい入力凸lstmを提案するために, icnnsの原理を活用し, 収束時間を短縮し, 消滅・爆発勾配問題を緩和し, 閉ループ安定性を確保した。
本研究では, 非線形化学反応器のシミュレーションから, 拡散勾配問題の緩和, 収束時間の低減, 46.7%, 31.3%, 20.2%のパーセンテージ低下を観測した。 Leveraging Input Convex Neural Networks (ICNNs), ICNN-based Model Predictive Control (MPC) successfully attains globally optimal solutions by upholding convexity within the MPC framework. However, current ICNN architectures encounter the issue of vanishing/exploding gradients, which limits their ability to serve as deep neural networks for complex tasks. Additionally, the current neural network-based MPC, including conventional neural network-based MPC and ICNN-based MPC, faces slower convergence speed when compared to MPC based on first-principles models. In this study, we leverage the principles of ICNNs to propose a novel Input Convex LSTM for Lyapunov-based MPC, with the specific goal of reducing convergence time and mitigating the vanishing/exploding gradient problem while ensuring closed-loop stability. From a simulation study of a nonlinear chemical reactor, we observed a mitigation of vanishing/exploding gradient problem and a reduction in convergence time, with a percentage decrease of 46.7%, 31.3%, and 20.2% compared to baseline plain RNN, plain LSTM, and Input Convex Recurrent Neural Network, respectively. | 翻訳日:2024-01-19 19:47:08 公開日:2024-01-18 |
# モーメントマッチングガウス混合によるDDIMサンプリングの改善 Improved DDIM Sampling with Moment Matching Gaussian Mixtures ( http://arxiv.org/abs/2311.04938v2 ) ライセンス: Link先を確認 | Prasad Gabbur | (参考訳) 本稿では,事前学習した拡散確率モデル (ddpm) からのサンプリングを高速化するために最も広く用いられている手法の一つであるデノイジン拡散暗黙モデル (ddim) における逆遷移演算子 (kernel) としてガウス混合モデル (gmm) を用いることを提案する。
具体的には、GMMのパラメータを制約することにより、DDPMフォワードの1階と2階の中心モーメントを一致させる。
モーメントマッチングはガウス核を持つオリジナルのDDIMと同等かそれ以上の品質のサンプルを得るのに十分である。
celebahqおよびffhqでトレーニングされた非条件モデルおよびimagenetデータセットでトレーニングされたクラス条件モデルを用いて実験結果を提供する。
以上の結果から, GMMカーネルを使用すれば, サンプリングステップ数が少ない場合に, 生成したサンプルの品質が大幅に向上することが示唆された。
例えば、imagenet 256x256では10のサンプリングステップで6.94、gmmカーネルでは207.85、ガウスカーネルでは10.15と196.73である。 We propose using a Gaussian Mixture Model (GMM) as reverse transition operator (kernel) within the Denoising Diffusion Implicit Models (DDIM) framework, which is one of the most widely used approaches for accelerated sampling from pre-trained Denoising Diffusion Probabilistic Models (DDPM). Specifically we match the first and second order central moments of the DDPM forward marginals by constraining the parameters of the GMM. We see that moment matching is sufficient to obtain samples with equal or better quality than the original DDIM with Gaussian kernels. We provide experimental results with unconditional models trained on CelebAHQ and FFHQ and class-conditional models trained on ImageNet datasets respectively. Our results suggest that using the GMM kernel leads to significant improvements in the quality of the generated samples when the number of sampling steps is small, as measured by FID and IS metrics. For example on ImageNet 256x256, using 10 sampling steps, we achieve a FID of 6.94 and IS of 207.85 with a GMM kernel compared to 10.15 and 196.73 respectively with a Gaussian kernel. | 翻訳日:2024-01-19 19:46:25 公開日:2024-01-18 |
# 部分絡み合いエントロピーの測地:PEEスレッドからビットスレッドへ Geometrizing the Partial Entanglement Entropy: from PEE Threads to Bit Threads ( http://arxiv.org/abs/2311.02301v4 ) ライセンス: Link先を確認 | Jiong Lin, Yizhou Lu, Qiang Wen | (参考訳) ホログラフィックCFTにおける部分絡み合いエントロピー(PEE)をAdS/CFTの文脈で測る手法を提案する。
より具体的には、ある点 $\textbf{x}$ が与えられたとき、これらの2点を接続するバルク測地学の観点で、$\textbf{x}$ と他の任意の点の間の2点 PEE を測地する。
我々はこれらの測地線を \textit{pee threads} と呼び、これは自然に分岐のないベクトル場 $v_{\textbf{x}}^{\mu}$ の積分曲線と見なすことができ、これは我々が \emph{pee thread flow} と呼ぶ。
PEEスレッドの密度を特徴付ける$V_{\textbf{x}}^{\mu}$のノルムは、PEEの物理的要求によって決定できる。
任意の静的区間または球面領域$A$に対して、状態によって決定されるPEEスレッド構成からユニークなビットスレッド構成を生成することができることを示す。
したがって、中性でないビットスレッドは、内在的なpeスレッドから発生する。
静的非連結区間の場合、分散のない流れを記述するベクトル場はRT式を再現するのにより適している。
我々は、PEEスレッドを任意のホモロジー曲面と交差する回数で重み付けする。
代わりに、RT式は、全ての重みの割り当てが可能なPEEスレッドの和の最小化として完全に再構成される。 We give a scheme to geometrize the partial entanglement entropy (PEE) for holographic CFT in the context of AdS/CFT. More explicitly, given a point $\textbf{x}$ we geometrize the two-point PEEs between $\textbf{x}$ and any other points in terms of the bulk geodesics connecting these two points. We refer to these geodesics as the \textit{PEE threads}, which can be naturally regarded as the integral curves of a divergenceless vector field $V_{\textbf{x}}^{\mu}$, which we call \emph{PEE thread flow}. The norm of $V_{\textbf{x}}^{\mu}$ that characterizes the density of the PEE threads can be determined by some physical requirements of the PEE. We show that, for any static interval or spherical region $A$, a unique bit thread configuration can be generated from the PEE thread configuration determined by the state. Hence, the non-intrinsic bit threads are emergent from the intrinsic PEE threads. For static disconnected intervals, the vector fields describing a divergenceless flow is are longer suitable to reproduce the RT formula. We weight the PEE threads with the number of times it intersects with any homologous surface. Instead the RT formula is perfectly reformulated to be the minimization of the summation of the PEE threads with all possible assignment of weights. | 翻訳日:2024-01-19 19:46:03 公開日:2024-01-18 |
# ランダムニューラルネットワークのリプシッツ定数の上下境界 Upper and lower bounds for the Lipschitz constant of random neural networks ( http://arxiv.org/abs/2311.01356v3 ) ライセンス: Link先を確認 | Paul Geuchen, Thomas Heindl, Dominik St\"oger, Felix Voigtlaender | (参考訳) 実験的研究により、ニューラルネットワークは入力の小さな対向的な摂動に非常に敏感であることが広く証明されている。
これらいわゆる逆例に対する最悪の場合のロバスト性は、ニューラルネットワークのリプシッツ定数によって定量化することができる。
本稿では,ランダムreluニューラルネットワークのリプシッツ定数の上限と下限について検討する。
具体的には、重みと偏りはHe初期化の一般化に従うと仮定し、偏りに対する一般対称分布が許容される。
浅いニューラルネットワークでは、リプシッツ定数を絶対数値定数まで特徴づける。
一定の深さと十分に大きな幅を持つ深層ネットワークの場合、確立された上界は、幅の対数的な因子によって下界よりも大きい。 Empirical studies have widely demonstrated that neural networks are highly sensitive to small, adversarial perturbations of the input. The worst-case robustness against these so-called adversarial examples can be quantified by the Lipschitz constant of the neural network. In this paper, we study upper and lower bounds for the Lipschitz constant of random ReLU neural networks. Specifically, we assume that the weights and biases follow a generalization of the He initialization, where general symmetric distributions for the biases are permitted. For shallow neural networks, we characterize the Lipschitz constant up to an absolute numerical constant. For deep networks with fixed depth and sufficiently large width, our established upper bound is larger than the lower bound by a factor that is logarithmic in the width. | 翻訳日:2024-01-19 19:45:39 公開日:2024-01-18 |
# フィンテック応用のための2目的パレート最適フラッド防止ルールの探索について On Finding Bi-objective Pareto-optimal Fraud Prevention Rule Sets for Fintech Applications ( http://arxiv.org/abs/2311.00964v2 ) ライセンス: Link先を確認 | Chengyao Wen, Yin Lou | (参考訳) ルールは直感的なif-then構造のおかげで非常に解釈しやすいため、フィンテック機関では不正防止の決定に広く使われている。
実際には、不正防止決定ルールの2段階の枠組みが一般的にフィンテックの大規模機関で採用されている。
本稿では,初期ルールプールから2目的空間(精度やリコールなど)の高品質なルールサブセットを見つけることを目的とする。
この目的のために、パレート最適性の概念を採用し、パレートフロントを構成する非支配ルール部分集合の集合を見つけることを目的とする。
我々はPORSと呼ばれるヒューリスティックなフレームワークを提案し、PORSのコアがフロント(SSF)におけるソリューション選択の問題であることを確認した。
本研究では,SSF問題を体系的に分類し,パブリック・プロプライエタリ・データセットとプロプライエタリ・データセットの両方で様々なSSF手法を徹底的に評価する。
また,初期規則セットの多様性を促進するために,spectralrulesと呼ばれる新しい逐次被覆アルゴリズムを導入し,spectralrulesがparetoフロントの品質をさらに向上させることを実証的に確認した。
alipayの2つの実際のアプリケーションシナリオにおいて、既存の作業と比較して提案手法の利点を実証する。 Rules are widely used in Fintech institutions to make fraud prevention decisions, since rules are highly interpretable thanks to their intuitive if-then structure. In practice, a two-stage framework of fraud prevention decision rule set mining is usually employed in large Fintech institutions. This paper is concerned with finding high-quality rule subsets in a bi-objective space (such as precision and recall) from an initial pool of rules. To this end, we adopt the concept of Pareto optimality and aim to find a set of non-dominated rule subsets, which constitutes a Pareto front. We propose a heuristic-based framework called PORS and we identify that the core of PORS is the problem of solution selection on the front (SSF). We provide a systematic categorization of the SSF problem and a thorough empirical evaluation of various SSF methods on both public and proprietary datasets. We also introduce a novel variant of sequential covering algorithm called SpectralRules to encourage the diversity of the initial rule set and we empirically find that SpectralRules further improves the quality of the found Pareto front. On two real application scenarios within Alipay, we demonstrate the advantages of our proposed methodology compared to existing work. | 翻訳日:2024-01-19 19:45:29 公開日:2024-01-18 |
# ベイズ最適化における期待外の改善 Unexpected Improvements to Expected Improvement for Bayesian Optimization ( http://arxiv.org/abs/2310.20708v2 ) ライセンス: Link先を確認 | Sebastian Ament, Samuel Daulton, David Eriksson, Maximilian Balandat, Eytan Bakshy | (参考訳) 期待改善 (ei) はおそらくベイズ最適化において最も人気のある獲得関数であり、数え切れないほど成功したアプリケーションを見出しているが、その性能は近年の手法に匹敵することが多い。
特に、並列および多目的設定を含むEIとその変種は、多くの領域でその取得値が数値的に消滅するため、最適化が難しい。
この難易度は一般に、観察数、探索空間の次元性、あるいは制約の数が増えるにつれて増大し、結果として文学的およびしばしば最適でない性能をもたらす。
本稿では,各メンバーが同じあるいはほぼ同等の最適値を持つ新たな獲得関数群であるLogEIを提案するが,数値的最適化は極めて容易である。
古典的"解析ei,期待超容積改善 (ehvi) ,制約付き, ノイズ, パラレル変種において, 数値病理が現れることを実証し, これらの病理を治療する対応する再構成法を提案する。
実験の結果,LogEIファミリーの獲得関数は,その最適化性能を大幅に向上し,最近の最先端の獲得関数の性能に匹敵するものであることが明らかとなり,文献における数値最適化の役割が過小評価されている。 Expected Improvement (EI) is arguably the most popular acquisition function in Bayesian optimization and has found countless successful applications, but its performance is often exceeded by that of more recent methods. Notably, EI and its variants, including for the parallel and multi-objective settings, are challenging to optimize because their acquisition values vanish numerically in many regions. This difficulty generally increases as the number of observations, dimensionality of the search space, or the number of constraints grow, resulting in performance that is inconsistent across the literature and most often sub-optimal. Herein, we propose LogEI, a new family of acquisition functions whose members either have identical or approximately equal optima as their canonical counterparts, but are substantially easier to optimize numerically. We demonstrate that numerical pathologies manifest themselves in "classic" analytic EI, Expected Hypervolume Improvement (EHVI), as well as their constrained, noisy, and parallel variants, and propose corresponding reformulations that remedy these pathologies. Our empirical results show that members of the LogEI family of acquisition functions substantially improve on the optimization performance of their canonical counterparts and surprisingly, are on par with or exceed the performance of recent state-of-the-art acquisition functions, highlighting the understated role of numerical optimization in the literature. | 翻訳日:2024-01-19 19:45:09 公開日:2024-01-18 |
# BasisFormer:学習可能かつ解釈可能なBasisによる注意ベースの時系列予測 BasisFormer: Attention-based Time Series Forecasting with Learnable and Interpretable Basis ( http://arxiv.org/abs/2310.20496v2 ) ライセンス: Link先を確認 | Zelin Ni and Hang Yu and Shizhan Liu and Jianguo Li and Weiyao Lin | (参考訳) ベースは、特徴抽出器や将来の参照として機能するため、時系列予測のための現代のディープラーニングベースのモデルに不可欠な部分となっている。
有効にするために、基底は特定の時系列データのセットに合わせて調整され、集合内の各時系列と異なる相関関係を示す必要がある。
しかしながら、現在の最先端の手法は、両方の要件を同時に満たす能力に制限されている。
この課題に対処するために,学習可能かつ解釈可能なベースを活用したエンドツーエンド時系列予測アーキテクチャであるbaseformerを提案する。
このアーキテクチャは3つのコンポーネントから構成される: まず、適応的な自己教師型学習を通じてベースを取得し、時系列の歴史的および将来のセクションを2つの異なるビューとして扱い、対照的な学習を採用する。
次に,歴史的視点における時系列と基底の類似度係数を双方向の相互注意により計算するコーフモジュールを設計する。
最後に、類似度係数に基づいて、将来の視点でベースを選択・統合し、正確な将来の予測を可能にする予測モジュールを提案する。
6つのデータセットに関する広範な実験を通して、BasisFormerは、単変量および多変量予測タスクにおいて、それぞれ11.04\%と15.78\%の従来の最先端メソッドよりも優れていることを示した。
コードは以下の通り。 \url{https://github.com/nzl5116190/Basisformer} Bases have become an integral part of modern deep learning-based models for time series forecasting due to their ability to act as feature extractors or future references. To be effective, a basis must be tailored to the specific set of time series data and exhibit distinct correlation with each time series within the set. However, current state-of-the-art methods are limited in their ability to satisfy both of these requirements simultaneously. To address this challenge, we propose BasisFormer, an end-to-end time series forecasting architecture that leverages learnable and interpretable bases. This architecture comprises three components: First, we acquire bases through adaptive self-supervised learning, which treats the historical and future sections of the time series as two distinct views and employs contrastive learning. Next, we design a Coef module that calculates the similarity coefficients between the time series and bases in the historical view via bidirectional cross-attention. Finally, we present a Forecast module that selects and consolidates the bases in the future view based on the similarity coefficients, resulting in accurate future predictions. Through extensive experiments on six datasets, we demonstrate that BasisFormer outperforms previous state-of-the-art methods by 11.04\% and 15.78\% respectively for univariate and multivariate forecasting tasks. Code is available at: \url{https://github.com/nzl5116190/Basisformer} | 翻訳日:2024-01-19 19:44:44 公開日:2024-01-18 |
# 分類するか、分類するかを学ぶか?
一般カテゴリー発見のための自己符号化 Learn to Categorize or Categorize to Learn? Self-Coding for Generalized Category Discovery ( http://arxiv.org/abs/2310.19776v3 ) ライセンス: Link先を確認 | Sarah Rastegar, Hazel Doughty, Cees G. M. Snoek | (参考訳) テスト時に新しいカテゴリを発表するという試みでは、事前定義されたカテゴリセットによって制限される従来の教師付き認識モデルの固有の制限に直面する。
自己監督とオープンワールドの学習の領域において、テスト時のカテゴリ発見への進歩は行われてきたが、重要でありながらしばしば見過ごされる疑問が続いている。
本稿では,最適化のレンズを通してカテゴリを概念化し,よく定義された問題に対する最適解として捉える。
このユニークな概念化を生かして,テスト時に未知のカテゴリを発見できる,新しい,効率的かつ自己管理的な手法を提案する。
このアプローチの健全な特徴は、個々のデータインスタンスに最小長のカテゴリコードを割り当てることであり、実世界のデータセットでよく見られる暗黙のカテゴリ階層をカプセル化する。
この機構により、カテゴリの粒度の制御が強化され、より詳細なカテゴリを扱うためのモデルが組み合わされる。
試行錯誤による評価は, テスト時に未知のカテゴリを管理する上でのソリューションの有効性を実証するものである。
さらに、我々の提案を理論的根拠で補強し、その最適性の証明を提供する。
私たちのコードはhttps://github.com/sarahrastegar/infosieveで利用可能です。 In the quest for unveiling novel categories at test time, we confront the inherent limitations of traditional supervised recognition models that are restricted by a predefined category set. While strides have been made in the realms of self-supervised and open-world learning towards test-time category discovery, a crucial yet often overlooked question persists: what exactly delineates a category? In this paper, we conceptualize a category through the lens of optimization, viewing it as an optimal solution to a well-defined problem. Harnessing this unique conceptualization, we propose a novel, efficient and self-supervised method capable of discovering previously unknown categories at test time. A salient feature of our approach is the assignment of minimum length category codes to individual data instances, which encapsulates the implicit category hierarchy prevalent in real-world datasets. This mechanism affords us enhanced control over category granularity, thereby equipping our model to handle fine-grained categories adeptly. Experimental evaluations, bolstered by state-of-the-art benchmark comparisons, testify to the efficacy of our solution in managing unknown categories at test time. Furthermore, we fortify our proposition with a theoretical foundation, providing proof of its optimality. Our code is available at https://github.com/SarahRastegar/InfoSieve. | 翻訳日:2024-01-19 19:44:23 公開日:2024-01-18 |
# モデル適応によるデバイアスアルゴリズム Debiasing Algorithm through Model Adaptation ( http://arxiv.org/abs/2310.18913v2 ) ライセンス: Link先を確認 | Tomasz Limisiewicz and David Mare\v{c}ek and Tom\'a\v{s} Musil | (参考訳) 大規模言語モデルは、さまざまな言語タスクのゴーツーソリューションになりつつある。
しかし、能力の増大に伴い、モデルはトレーニングデータに存在するバイアスやステレオタイプから生じる急激な相関に依存する傾向にある。
本研究では,言語モデルにおけるジェンダーバイアスの検出と緩和手法を提案する。
問題のあるモデルコンポーネントを識別するために因果分析を行い、中間フィードフォワード層が最もバイアスを伝達しやすいことを発見します。
解析結果に基づいて,これらの層を線形射影で乗じることで,モデルに適応する。
提案手法であるDAMAは,下流タスクにおけるモデルの性能を維持しながら,様々な指標によって測定されるバイアスを著しく低減する。
当社は,llamaの最先端性能を再トレーニングしながら,バイアスを少なくする手法とモデルのコードをリリースしています。 Large language models are becoming the go-to solution for various language tasks. However, with growing capacity, models are prone to rely on spurious correlations stemming from biases and stereotypes present in the training data. This work proposes a novel method for detecting and mitigating gender bias in language models. We perform causal analysis to identify problematic model components and discover that mid-upper feed-forward layers are most prone to convey biases. Based on the analysis results, we adapt the model by multiplying these layers by a linear projection. Our titular method, DAMA, significantly decreases bias as measured by diverse metrics while maintaining the model's performance on downstream tasks. We release code for our method and models, which retrain LLaMA's state-of-the-art performance while being significantly less biased. | 翻訳日:2024-01-19 19:44:02 公開日:2024-01-18 |
# リング状ネットワークによるコヒーレント励起輸送 Coherent excitation transport through ring-shaped networks ( http://arxiv.org/abs/2310.17967v2 ) ライセンス: Link先を確認 | Francesco Perciavalle, Oliver Morsch, Davide Rossini, Luigi Amico | (参考訳) 導体に結合されたリング状の回路を通る物質波のコヒーレントな量子輸送は、メソスコピック物理学における象徴的なシステムを定義し、量子科学の基本的な問題を探究し、実用的な装置を考案するための重要な道筋を導いた。
ここでは,物質波の伝搬を伴わずに,リングネットワークを通過する励起の源対ドレイン輸送について検討する。
我々は、光ツイーザーやイオントラップに閉じ込められたライドバーグ原子のような量子技術に関連する特定の長距離相互作用を持つスピン系をモデル化する。
rf- と dc-SQUID の論理に着想を得て、1 と 2 の局所エネルギーオフセットを持つ環を考える。
局所的なデチューニングとコヒーレントトンネルの結果として生じる特定の位相シフトの組み合わせとして、励起の輸送がどのように制御され、相互作用の範囲に依存するかを実証する。 The coherent quantum transport of matter wave through a ring-shaped circuit attached to leads defines an iconic system in mesoscopic physics that has allowed both to explore fundamental questions in quantum science and to draw important avenues for conceiving devices of practical use. Here we study the source-to-drain transport of excitations going through a ring-network, without propagation of matter waves. We model the circuit in terms of a spin system with specific long-range interactions that are relevant for quantum technology, such as Rydberg atoms trapped in optical tweezers or ion traps. Inspired by the logic of rf- and dc-SQUIDs, we consider rings with one and two local energy offsets, or detunings. As a combination of specific phase shifts in going though the localized detunings and as a result of coherent tunneling, we demonstrate how the transport of excitations can be controlled, with a distinctive dependence on the range of interactions. | 翻訳日:2024-01-19 19:43:51 公開日:2024-01-18 |
# 情緒的ビデオコンテンツ分析 : 十年レビューと新たな展望 Affective Video Content Analysis: Decade Review and New Perspectives ( http://arxiv.org/abs/2310.17212v2 ) ライセンス: Link先を確認 | Junxiao Xue, Jie Wang, Xuecheng Wu and Qian Zhang | (参考訳) ビデオコンテンツはセマンティクスに富み、視聴者の様々な感情を誘発する能力を持っている。
近年、情緒コンピューティングの急速な発展と視覚データの爆発的成長により、情緒的映像コンテンツ分析(AVCA)が感情的コンピューティングの重要な分野として広く研究されている。
本研究では,過去10年間のAVCA開発を包括的にレビューし,特にビデオ特徴抽出,表現主観性,マルチモーダル特徴融合の3大課題に対処するために,最も先進的な手法に注目した。
まず、AVCAで広く使われている感情表現モデルを紹介し、よく使われるデータセットを記述する。
1)表情認識と姿勢感情認識を含む単調なAVCAモデル,(2)特徴融合,決定融合,注意に基づくマルチモーダルモデルを含むマルチモーダルなAVCAモデル,(3)モデル性能評価基準。
最後に,感情認識や世論分析,人間とコンピュータのインタラクション,感情知など,今後の課題と今後の研究方向性について論じる。 Video content is rich in semantics and has the ability to evoke various emotions in viewers. In recent years, with the rapid development of affective computing and the explosive growth of visual data, affective video content analysis (AVCA) as an essential branch of affective computing has become a widely researched topic. In this study, we comprehensively review the development of AVCA over the past decade, particularly focusing on the most advanced methods adopted to address the three major challenges of video feature extraction, expression subjectivity, and multimodal feature fusion. We first introduce the widely used emotion representation models in AVCA and describe commonly used datasets. We summarize and compare representative methods in the following aspects: (1) unimodal AVCA models, including facial expression recognition and posture emotion recognition; (2) multimodal AVCA models, including feature fusion, decision fusion, and attention-based multimodal models; (3) model performance evaluation standards. Finally, we discuss future challenges and promising research directions, such as emotion recognition and public opinion analysis, human-computer interaction, and emotional intelligence. | 翻訳日:2024-01-19 19:43:32 公開日:2024-01-18 |
# 量子力学のジョルダン代数的定式化と非可換ランダウ問題 Jordan Algebraic Formulation of Quantum Mechanics and The Non-commutative Landau Problem ( http://arxiv.org/abs/2312.12047v3 ) ライセンス: Link先を確認 | Tekin Dereli, Ekin S{\i}la Y\"or\"uk | (参考訳) 非可換ランダウ問題のジョルダン代数的定式化と調和ポテンシャルについて述べる。
これを達成するために、量子力学のヒルベルト空間バージョンの別の定式化が提示される。
この構成を用いて、非可換ランダウ問題に対応するヒルベルト空間を得る。
非可換パラメータは、ジョルダン代数的設定におけるアソシエータの項で記述される。
この問題から生じる純粋な状態と密度行列を特徴付ける。
これにより、この特定の問題に対する状態ベクトルに対するヨルダン=シュル=オディンガー時間発展方程式が導かれる。 We present a Jordan algebraic formulation of the non-commutative Landau problem coupled to a harmonic potential. To achieve this, an alternative formulation of the Hilbert space version of quantum mechanics is presented. Using this construction, the Hilbert space corresponding to the non-commutative Landau problem is obtained. Non-commutative parameters are then described in terms of an associator in the Jordan algebraic setting. Pure states and density matrices arising from this problem are characterized. This in turn leads us to the Jordan-Schr\"odinger time-evolution equation for the state vectors for this specific problem. | 翻訳日:2024-01-19 19:36:21 公開日:2024-01-18 |
# パートナーによる部分的ラベル学習 Partial Label Learning with a Partner ( http://arxiv.org/abs/2312.11034v2 ) ライセンス: Link先を確認 | Chongjie Si, Zekun Jiang, Xuehui Wang, Yan Wang, Xiaokang Yang, Wei Shen | (参考訳) 部分的ラベル学習(pll)では、各インスタンスは1つだけが基底である候補ラベルの集合に関連付けられる。
既存の研究の大部分は、正しいラベルを特定するためのラベル付けの信頼性を推定するために、堅牢な分類器の構築に焦点を当てている。
しかし、これらの方法は通常、ラベルのずれたサンプルの修正に苦労する。
本稿では,既存のPLL手法によるサンプルの識別と修正を支援するため,新しいパートナー分類法を導入し,新しい「相互監視」パラダイムを提案する。
具体的には、サンプルの非候補ラベルを割り当てるべきではないという暗黙の事実に基づいて、パートナー分類器をインスタンス化するが、これは本質的に正確であり、PLLでは十分に研究されていない。
さらに、ベース分類器とパートナー分類器を結びつけるために、新しい協調用語を定式化する。
相互監視のそれぞれの段階では、両方の分類器は、特定のラベルの過信を防止するために、ぼやけたメカニズムによってお互いの予測をぼかす。
広汎な実験により、この学習パラダイムと組み合わせることで、確立されたスタンドアローンおよび深層学習に基づくPLLアプローチの性能と曖昧さを著しく改善できることが示されている。 In partial label learning (PLL), each instance is associated with a set of candidate labels among which only one is ground-truth. The majority of the existing works focuses on constructing robust classifiers to estimate the labeling confidence of candidate labels in order to identify the correct one. However, these methods usually struggle to rectify mislabeled samples. To help existing PLL methods identify and rectify mislabeled samples, in this paper, we introduce a novel partner classifier and propose a novel ``mutual supervision'' paradigm. Specifically, we instantiate the partner classifier predicated on the implicit fact that non-candidate labels of a sample should not be assigned to it, which is inherently accurate and has not been fully investigated in PLL. Furthermore, a novel collaborative term is formulated to link the base classifier and the partner one. During each stage of mutual supervision, both classifiers will blur each other's predictions through a blurring mechanism to prevent overconfidence in a specific label. Extensive experiments demonstrate that the performance and disambiguation ability of several well-established stand-alone and deep-learning based PLL approaches can be significantly improved by coupling with this learning paradigm. | 翻訳日:2024-01-19 19:36:13 公開日:2024-01-18 |
# 人力航空機設計に着目した単目的・多目的最適化ベンチマーク問題 Single and Multi-Objective Optimization Benchmark Problems Focusing on Human-Powered Aircraft Design ( http://arxiv.org/abs/2312.08953v2 ) ライセンス: Link先を確認 | Nobuo Namura | (参考訳) 本稿では,人力航空機の設計に特化して,単目的・多目的両方の最適化研究を進めるための新しいベンチマーク問題を提案する。
これらのベンチマーク問題は、流体力学や物質力学のような実世界設計の考察を取り入れ、エンジニアリング設計最適化のより現実的なシミュレーションを提供するという点でユニークである。
そこで本研究では,これらの問題に対して3つの難易度レベルと翼分節パラメータを提案する。
これらの問題は計算量的に合理的に設計され、短い評価時間を確保しながら、エンジニアリング設計の問題の適度なマルチモーダリティを捉えている。
多目的問題に対する一般的な進化アルゴリズムを用いた広範な実験により,提案するベンチマークが,凸,線形,凹凸,逆三角形といった実世界の問題で観測されるパレートフロント形状を効果的に再現できることが証明された。
ベンチマーク問題のソースコードは、最適化研究コミュニティの幅広いアプリケーション向けに公開されている。 This paper introduces a novel set of benchmark problems aimed at advancing research in both single and multi-objective optimization, with a specific focus on the design of human-powered aircraft. These benchmark problems are unique in that they incorporate real-world design considerations such as fluid dynamics and material mechanics, providing a more realistic simulation of engineering design optimization. We propose three difficulty levels and a wing segmentation parameter in these problems, allowing for scalable complexity to suit various research needs. The problems are designed to be computationally reasonable, ensuring short evaluation times, while still capturing the moderate multimodality of engineering design problems. Our extensive experiments using popular evolutionary algorithms for multi-objective problems demonstrate that the proposed benchmarks effectively replicate the diverse Pareto front shapes observed in real-world problems, including convex, linear, concave, and inverted triangular forms. The benchmark problems' source codes are publicly available for wider application in the optimization research community. | 翻訳日:2024-01-19 19:35:16 公開日:2024-01-18 |
# ヒューマン・aiコラボレーションと認知信頼の多様性の定量化 Quantifying Divergence for Human-AI Collaboration and Cognitive Trust ( http://arxiv.org/abs/2312.08722v2 ) ライセンス: Link先を確認 | M\"uge Kural, Ali Gebe\c{s}\c{c}e, Tilek Chubakov, G\"ozde G\"ul \c{S}ahin | (参考訳) コラボレーションの可能性を予測し、AIシステムに対する認知的信頼を測定することは、これまで以上に重要である。
そのため、従来の研究は主にモデルの特徴(例えば精度、信頼性)にのみ焦点をあて、人間の要因を無視した。
そこで本研究では,人間から取得したラベルと広範囲のモデルから算出した分散度指標(KL, JSD)に基づく意思決定類似度尺度を提案する。
そこで,ユーザに対して,様々なモデルからソフトラベルを付与し,最も近い選択肢を選択するように依頼する。
ユーザは、最も類似したモデルと類似性/差異を示し、選択されたシステムに対するコラボレーションと認知信頼の可能性を調査する。
最後に,提案した意思決定類似度尺度と調査結果との関係を質的,定量的に分析した。
人々が最もよく似たモデル -- jsdによって測定される -- とコラボレーションする傾向があることが分かっていますが、このコラボレーションが必ずしも同じようなレベルの認知的信頼を意味するとは限らないのです。
私たちは、レポジトリでユーザリサーチ(設計、アウトプット)、モデル、メトリクスに関連するすべてのリソースをリリースします。 Predicting the collaboration likelihood and measuring cognitive trust to AI systems is more important than ever. To do that, previous research mostly focus solely on the model features (e.g., accuracy, confidence) and ignore the human factor. To address that, we propose several decision-making similarity measures based on divergence metrics (e.g., KL, JSD) calculated over the labels acquired from humans and a wide range of models. We conduct a user study on a textual entailment task, where the users are provided with soft labels from various models and asked to pick the closest option to them. The users are then shown the similarities/differences to their most similar model and are surveyed for their likelihood of collaboration and cognitive trust to the selected system. Finally, we qualitatively and quantitatively analyze the relation between the proposed decision-making similarity measures and the survey results. We find that people tend to collaborate with their most similar models -- measured via JSD -- yet this collaboration does not necessarily imply a similar level of cognitive trust. We release all resources related to the user study (e.g., design, outputs), models, and metrics at our repo. | 翻訳日:2024-01-19 19:34:57 公開日:2024-01-18 |
# 普遍的および非普遍的資源を持つマッチゲート回路の絡み合いスペクトル Entanglement spectrum of matchgate circuits with universal and non-universal resources ( http://arxiv.org/abs/2312.08447v2 ) ライセンス: Link先を確認 | Andrew M. Projansky, Joshuah T. Heath, James D. Whitfield | (参考訳) 量子状態の絡み合いレベル統計は、基礎となる量子回路における普遍性の署名として最近提案されている。
これは、エンタングルメントスペクトルが生成するエンタングルメントの可積分性に結びついている場合のレベル反発の結果である。
しかし、エンタングルメントスペクトルにおけるレベルスペーシング統計のこのような研究は、製品状態入力におけるクリフォードとハールのランダム回路の出力状態に限定されている。
本研究では、シミュレーション可能なゲート集合からなる回路の最初の例を示すが、摂動普遍要素を持たないウィグナー・ダイソン分散絡み合いレベルスペクトルを持つ。
まず、無作為な積状態に作用するマッチゲート回路に対して、ウィグナー・ダイソンの統計は、クリフォード回路に関する以前の研究と直接的に類似して、単一のSWAPゲートによって現れることを示す。
次に、入力状態の異なるマッチゲート回路の絡み合いスペクトルを調べ、2ビットから3ビットの絡み合い入力へと進むと、絡み合いの複雑さの急激な跳躍を求める。
クリフォードとマッチゲートのハイブリッド回路の研究では、普遍的な量子ゲート要素が存在しない場合、出力状態がウィグナー・ダイソンの絡み合いレベル統計を示す古典的シミュレート可能な回路の例を示す。
そこで本研究では, 絡み合いスペクトルが任意の量子回路におけるシミュラビリティの概念と強く結びついていないことを示す。 The entanglement level statistics of a quantum state have recently been proposed to be a signature of universality in the underlying quantum circuit. This is a consequence of level repulsion in the entanglement spectra being tied to the integrability of entanglement generated. However, such studies of the level-spacing statistics in the entanglement spectrum have thus far been limited to the output states of Clifford and Haar random circuits on product state inputs. In this work, we provide the first example of a circuit which is composed of a simulable gate set, yet has a Wigner-Dyson distributed entanglement level spectrum without any perturbing universal element. We first show that, for matchgate circuits acting on random product states, Wigner-Dyson statistics emerge by virtue of a single SWAP gate, in direct analog to previous studies on Clifford circuits. We then examine the entanglement spectrum of matchgate circuits with varied input states, and find a sharp jump in the complexity of entanglement as we go from two- to three-qubit entangled inputs. Studying Clifford and matchgate hybrid circuits, we find examples of classically simulable circuits whose output states exhibit Wigner-Dyson entanglement level statistics in the absence of universal quantum gate elements. Our study thus provides strong evidence that entanglement spectrum is not strongly connected to notions of simulability in any given quantum circuit. | 翻訳日:2024-01-19 19:34:36 公開日:2024-01-18 |
# automlにおける逐次ハイパーパラメータ空間削減のためのメタレベル学習アルゴリズム A Meta-Level Learning Algorithm for Sequential Hyper-Parameter Space Reduction in AutoML ( http://arxiv.org/abs/2312.06305v2 ) ライセンス: Link先を確認 | Giorgos Borboudakis, Paulos Charonyktakis, Konstantinos Paraschakis, Ioannis Tsamardinos | (参考訳) AutoMLプラットフォームには、解析の各ステップ、すなわち、計算、変換、特徴選択、モデリングのための異なる可能なアルゴリズムを試すための、多数のオプションがある。
アルゴリズムと超パラメータ値の最適な組み合わせを見つけるのは計算に費用がかかり、探索する組み合わせの数は空間の指数的な爆発に繋がる。
本稿では,予測性能を低下させることなく,自動学習ツールの空間を削減できる逐次ハイパーパラメータ空間縮小(shsr)アルゴリズムを提案する。
SHSRはメタレベルの学習アルゴリズムで、いくつかのデータセット上でAutoMLツールの過去の実行を分析し、分析する新しいデータセットからどのハイパーパラメータ値をフィルタリングするかを学ぶ。
SHSRは284の分類と375の回帰問題に基づいて評価され、約30%の実行時間を短縮し、性能低下は0.1%未満であった。 AutoML platforms have numerous options for the algorithms to try for each step of the analysis, i.e., different possible algorithms for imputation, transformations, feature selection, and modelling. Finding the optimal combination of algorithms and hyper-parameter values is computationally expensive, as the number of combinations to explore leads to an exponential explosion of the space. In this paper, we present the Sequential Hyper-parameter Space Reduction (SHSR) algorithm that reduces the space for an AutoML tool with negligible drop in its predictive performance. SHSR is a meta-level learning algorithm that analyzes past runs of an AutoML tool on several datasets and learns which hyper-parameter values to filter out from consideration on a new dataset to analyze. SHSR is evaluated on 284 classification and 375 regression problems, showing an approximate 30% reduction in execution time with a performance drop of less than 0.1%. | 翻訳日:2024-01-19 19:34:09 公開日:2024-01-18 |
# invariant random forest: ood一般化のための木ベースモデル解 Invariant Random Forest: Tree-Based Model Solution for OOD Generalization ( http://arxiv.org/abs/2312.04273v3 ) ライセンス: Link先を確認 | Yufan Liao, Qi Wu, Xing Yan | (参考訳) Out-Of-Distribution (OOD) の一般化は機械学習において重要なトピックである。
しかし、最近の研究は、ニューラルネットワークの対応する方法のみに焦点を当てている。
Invariant Decision Tree (IDT) と呼ばれる決定木モデルのOOD一般化のための新しい効果的な解を提案する。
IDTは、木の成長中に異なる環境にまたがる分裂の不安定で変動的な挙動に関して、ペナルティ項を強制する。
そのアンサンブル版である不変ランダムフォレスト(irf)が構築されている。
提案手法は,温和な条件下での理論的結果に動機づけられ,合成データと実データの両方を用いた数値実験により検証された。
非OOD木モデルに比べて優れた性能は、木モデルのOOD一般化を考えることが絶対必要であり、より多くの注意を払わなければならないことを意味する。 Out-Of-Distribution (OOD) generalization is an essential topic in machine learning. However, recent research is only focusing on the corresponding methods for neural networks. This paper introduces a novel and effective solution for OOD generalization of decision tree models, named Invariant Decision Tree (IDT). IDT enforces a penalty term with regard to the unstable/varying behavior of a split across different environments during the growth of the tree. Its ensemble version, the Invariant Random Forest (IRF), is constructed. Our proposed method is motivated by a theoretical result under mild conditions, and validated by numerical tests with both synthetic and real datasets. The superior performance compared to non-OOD tree models implies that considering OOD generalization for tree models is absolutely necessary and should be given more attention. | 翻訳日:2024-01-19 19:33:53 公開日:2024-01-18 |
# Assertion Enhanced Few-Shot Learning:教育説明生成のための大規模言語モデルの指導手法 Assertion Enhanced Few-Shot Learning: Instructive Technique for Large Language Models to Generate Educational Explanations ( http://arxiv.org/abs/2312.03122v2 ) ライセンス: Link先を確認 | Tasmia Shahriar, Noboru Matsuda and Kelly Ramos | (参考訳) 人間の教育者は、学生からの教育的説明を予想し、探究する本質的な能力を有しており、学生がこれらの説明を独立して説明できない場合に、思考を誘発する質問を引き起こす。
我々は,大規模言語モデルの少数ショット学習機能を用いて,インテリジェントチューニングシステムを構築することを目指している。
本研究は, より正確な, 詳細指向の教育説明を生成するための, 新規なプロンプト技術であるAssertion Enhanced Few-Shot Learningを提案する。
我々の中心的な仮説は、教育領域では、数発のデモは必要だが、品質説明生成に十分な条件ではないということである。
本研究は,12人の教員を対象に,従来のFew-Shot Learningとの比較を行った。
その結果,Assertion Enhanced Few-Shot Learning は説明精度を15%向上し,教師が評価した高品質な説明が得られることがわかった。
また,アサーションの影響を判断する定性的なアブレーション研究を行い,関心領域における説明を生み出すための教育者フレンドリな指導ガイドラインを提供する。 Human educators possess an intrinsic ability to anticipate and seek educational explanations from students, which drives them to pose thought-provoking questions when students cannot articulate these explanations independently. We aim to imbue Intelligent Tutoring Systems with this ability using few-shot learning capability of Large Language Models. Our work proposes a novel prompting technique, Assertion Enhanced Few-Shot Learning, to facilitate the generation of accurate, detailed oriented educational explanations. Our central hypothesis is that, in educational domain, few-shot demonstrations are necessary but not a sufficient condition for quality explanation generation. We conducted a study involving 12 in-service teachers, comparing our approach to Traditional Few-Shot Learning. The results show that Assertion Enhanced Few-Shot Learning improves explanation accuracy by 15% and yields higher-quality explanations, as evaluated by teachers. We also conduct a qualitative ablation study to factor the impact of assertions to provide educator-friendly prompting guidelines for generating explanations in their domain of interest. | 翻訳日:2024-01-19 19:33:40 公開日:2024-01-18 |
# GIVT: 生成無限語彙変換器 GIVT: Generative Infinite-Vocabulary Transformers ( http://arxiv.org/abs/2312.02116v2 ) ライセンス: Link先を確認 | Michael Tschannen, Cian Eastwood, Fabian Mentzer | (参考訳) 有限語彙からの離散トークンの代わりに、実数値エントリを持つベクトル列を生成する生成無限語彙変換器(GIVT)を導入する。
この目的のために、デコーダのみのトランスフォーマーに対する驚くほど簡単な2つの修正を提案する。
1)入力において,有限ボキャブラリールックアップテーブルを入力ベクトルの線形射影に置き換える。
2) 出力において,多変量ガウス混合モデルのパラメータにロジット予測(通常はカテゴリー分布にマッピングされる)を置き換える。
トランスフォーマーを用いてvq-vaeの離散的潜在シーケンスをモデル化するvq-ganとmaskgitの画像処理パラダイムに触発されて、givtを用いてvaeの非定量的実数値潜在シーケンスをモデル化する。
繰り返しマスクドモデリングによるクラス条件画像生成にgivtを適用すると,マスギットと競合する結果が得られ,一方,提案手法は因果モデリングにvq-ganとマスギットを上回っている。
最後に、UViMフレームワークのVAEに基づく変種を用いて、単視分割と深度推定にアプローチを適用する際に、画像生成以外の競合結果を得る。 We introduce generative infinite-vocabulary transformers (GIVT) which generate vector sequences with real-valued entries, instead of discrete tokens from a finite vocabulary. To this end, we propose two surprisingly simple modifications to decoder-only transformers: 1) at the input, we replace the finite-vocabulary lookup table with a linear projection of the input vectors; and 2) at the output, we replace the logits prediction (usually mapped to a categorical distribution) with the parameters of a multivariate Gaussian mixture model. Inspired by the image-generation paradigm of VQ-GAN and MaskGIT, where transformers are used to model the discrete latent sequences of a VQ-VAE, we use GIVT to model the unquantized real-valued latent sequences of a VAE. When applying GIVT to class-conditional image generation with iterative masked modeling, we show competitive results with MaskGIT, while our approach outperforms both VQ-GAN and MaskGIT when using it for causal modeling. Finally, we obtain competitive results outside of image generation when applying our approach to panoptic segmentation and depth estimation with a VAE-based variant of the UViM framework. | 翻訳日:2024-01-19 19:33:20 公開日:2024-01-18 |
# DKiS:秘密鍵を用いた非可逆画像ステガノグラフィ DKiS: Decay weight invertible image steganography with private key ( http://arxiv.org/abs/2311.18243v2 ) ライセンス: Link先を確認 | Hang Yang, Yitian Xu, Xuhua Liu | (参考訳) 画像ステガノグラフィは、他の画像の中に情報を隠蔽する行為として定義されており、伝統的にその手法が公に知られるか攻撃されている場合にセキュリティ上の課題に遭遇する。
これを解決するために、新しい秘密鍵ベース画像ステガノグラフィー技術が導入された。
このアプローチは、ステガノグラフィー手法の公開知識に関係なく、アクセスに対応する秘密鍵を必要とするため、隠れた情報のセキュリティを保証する。
提案手法の有効性を実証し,実世界の適用性を示す実験的な証拠が提示されている。
さらに,インバータブル画像ステガノグラフィ法における批判的課題として,シークレットからホストパイプラインへの非必須情報,すなわち「ガーベージ」の転送が挙げられている。
この問題に対処するために,情報伝達の制御,無関係なデータを効果的にフィルタリングし,画像ステガノグラフィの性能を向上させるために,減衰重みが導入されている。
このテクニックのコードはhttps://github.com/yanghangAI/DKiSで公開されている。 Image steganography, defined as the practice of concealing information within another image, traditionally encounters security challenges when its methods become publicly known or are under attack. To address this, a novel private key-based image steganography technique has been introduced. This approach ensures the security of the hidden information, as access requires a corresponding private key, regardless of the public knowledge of the steganography method. Experimental evidence has been presented, demonstrating the effectiveness of our method and showcasing its real-world applicability. Furthermore, a critical challenge in the invertible image steganography process has been identified by us: the transfer of non-essential, or `garbage', information from the secret to the host pipeline. To tackle this issue, the decay weight has been introduced to control the information transfer, effectively filtering out irrelevant data and enhancing the performance of image steganography. The code for this technique is publicly accessible at https://github.com/yanghangAI/DKiS, and a practical demonstration can be found at http://yanghang.site/hidekey. | 翻訳日:2024-01-19 19:33:00 公開日:2024-01-18 |
# UAE:マルチモダリティ医療画像への普遍的解剖学的埋め込み UAE: Universal Anatomical Embedding on Multi-modality Medical Images ( http://arxiv.org/abs/2311.15111v3 ) ライセンス: Link先を確認 | Xiaoyu Bai, Fan Bai, Xiaofei Huo, Jia Ge, Jingjing Lu, Xianghua Ye, Ke Yan, and Yong Xia | (参考訳) 医用画像における特定の解剖学的構造(例えば、病変やランドマーク)の同定は、医用画像解析において重要な役割を果たす。
トレーニングにおいてランドマークアノテーションを必要とせず,任意の解剖学的点を推論で検出できるため,既存のランドマーク検出手法が注目されている。
彼らは自己教師付き学習を使用して、画像内の各ボクセルに対する識別的埋め込みを取得する。
これらのアプローチは、最寄りの隣接マッチングを通じて対応するランドマークを識別でき、様々なタスクにまたがる有望な結果を示している。
しかしながら、現在の手法では、(1)類似した外観を持つボクセルを識別するが、異なる意味を持つ(例えば、明確な境界を持たない2つの隣接する構造)、(2)類似のセマンティクスを持つが顕著に異なる外観を持つボクセル(例えば、コントラスト注入前後の同一容器)、(3)異質なマッチング(例えば、CT-MRIランドマークベース登録)、といった課題に直面している。
これらの課題を克服するため,我々は,出現,意味,および横断的解剖学的埋め込みを学ぶために設計された統一フレームワークであるuniversal anatomical embedded (uae)を提案する。
特に、uaeは、3つの重要なイノベーションを取り入れている: (1) 先駆的なコントラスト損失を伴う意味埋め込み学習、(2) 固定点ベースのマッチング戦略、(3) 相互モダリティ埋め込み学習のための反復的アプローチ。
単発ランドマーク検出,経時的CTスキャンの病変追跡,CT-MRIアフィン/リグイド登録など,モダリティ内タスクおよびモダリティ間タスク間でUAEを徹底的に評価した。
以上の結果から,UAEは最先端の手法よりも優れており,ランドマークに基づく医用画像解析タスクに対して,堅牢で多目的なアプローチを提供する。
コードとトレーニングされたモデルは以下の通りである。 Identifying specific anatomical structures (\textit{e.g.}, lesions or landmarks) in medical images plays a fundamental role in medical image analysis. Exemplar-based landmark detection methods are receiving increasing attention since they can detect arbitrary anatomical points in inference while do not need landmark annotations in training. They use self-supervised learning to acquire a discriminative embedding for each voxel within the image. These approaches can identify corresponding landmarks through nearest neighbor matching and has demonstrated promising results across various tasks. However, current methods still face challenges in: (1) differentiating voxels with similar appearance but different semantic meanings (\textit{e.g.}, two adjacent structures without clear borders); (2) matching voxels with similar semantics but markedly different appearance (\textit{e.g.}, the same vessel before and after contrast injection); and (3) cross-modality matching (\textit{e.g.}, CT-MRI landmark-based registration). To overcome these challenges, we propose universal anatomical embedding (UAE), which is a unified framework designed to learn appearance, semantic, and cross-modality anatomical embeddings. Specifically, UAE incorporates three key innovations: (1) semantic embedding learning with prototypical contrastive loss; (2) a fixed-point-based matching strategy; and (3) an iterative approach for cross-modality embedding learning. We thoroughly evaluated UAE across intra- and inter-modality tasks, including one-shot landmark detection, lesion tracking on longitudinal CT scans, and CT-MRI affine/rigid registration with varying field of view. Our results suggest that UAE outperforms state-of-the-art methods, offering a robust and versatile approach for landmark based medical image analysis tasks. Code and trained models are available at: \href{https://shorturl.at/bgsB3} | 翻訳日:2024-01-19 19:32:40 公開日:2024-01-18 |
# 逆認識による神経表現のラベリング Labeling Neural Representations with Inverse Recognition ( http://arxiv.org/abs/2311.13594v2 ) ライセンス: Link先を確認 | Kirill Bykov, Laura Kopf, Shinichi Nakajima, Marius Kloft, Marina M.-C. H\"ohne | (参考訳) ディープニューラルネットワーク(DNN)は、複雑な階層データ表現を学習する際、顕著な能力を示すが、これらの表現の性質はほとんど不明である。
ネットワーク分割のような既存のグローバル説明可能性法は、セグメンテーションマスクへの依存、統計学的意義試験の欠如、高い計算要求といった制限に直面している。
Inverse Recognition(INVERT)は,これらの概念を識別する能力を活用して,学習した表現と人間の理解可能な概念を結合するスケーラブルな手法である。
以前の研究とは対照的に、INVERTは多様な種類のニューロンを処理でき、計算の複雑さが小さく、セグメンテーションマスクの可用性に依存しない。
さらに、INVERTは、表現とその対応する説明との整合性を評価し、統計的意義の尺度を提供する解釈可能な指標を提供する。
本研究では,スプリアス相関の影響を受ける表現の同定,モデル内の意思決定の階層構造解釈など,様々なシナリオにおける逆解析の適用性を示す。 Deep Neural Networks (DNNs) demonstrate remarkable capabilities in learning complex hierarchical data representations, but the nature of these representations remains largely unknown. Existing global explainability methods, such as Network Dissection, face limitations such as reliance on segmentation masks, lack of statistical significance testing, and high computational demands. We propose Inverse Recognition (INVERT), a scalable approach for connecting learned representations with human-understandable concepts by leveraging their capacity to discriminate between these concepts. In contrast to prior work, INVERT is capable of handling diverse types of neurons, exhibits less computational complexity, and does not rely on the availability of segmentation masks. Moreover, INVERT provides an interpretable metric assessing the alignment between the representation and its corresponding explanation and delivering a measure of statistical significance. We demonstrate the applicability of INVERT in various scenarios, including the identification of representations affected by spurious correlations, and the interpretation of the hierarchical structure of decision-making within the models. | 翻訳日:2024-01-19 19:31:57 公開日:2024-01-18 |
# ICMC-ASR:ICASSP 2024車載マルチチャネル音声認識チャレンジ ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge ( http://arxiv.org/abs/2401.03473v2 ) ライセンス: Link先を確認 | He Wang, Pengcheng Guo, Yue Li, Ao Zhang, Jiayao Sun, Lei Xie, Wei Chen, Pan Zhou, Hui Bu, Xin Xu, Binbin Zhang, Zhuo Chen, Jian Wu, Longbiao Wang, Eng Siong Chng, Sun Li | (参考訳) 運転シナリオにおける音声認識研究を促進するため,ISCSLP 2022で行われたICSRC(Intelligent Cockpit Speech Recognition Challenge)の成功と,ICASSP 2024 In-car Multi-Channel Automatic Speech Recognition (ICMC-ASR) Challengeの立ち上げを行った。
この課題は、新しいエネルギー車両内で記録された100時間以上のマルチチャネル音声データと、データ拡張のための40時間以上のノイズを収集する。
評価指標として、文字誤り率(cer)と結合最小置換文字誤り率(cpcer)を用いて、自動音声認識(asr)と自動音声ダイアリゼーション・認識(asdr)を含む2つのトラックを設定する。
ICMC-ASRチャレンジは98の参加チームを集め、両方のトラックで53の有効な結果を得た。
最後に、ustciflytekはasrトラックで13.16%、asdrトラックで21.48%、チャレンジベースラインと比べて絶対的に13.08%、51.4%改善した。 To promote speech processing and recognition research in driving scenarios, we build on the success of the Intelligent Cockpit Speech Recognition Challenge (ICSRC) held at ISCSLP 2022 and launch the ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition (ICMC-ASR) Challenge. This challenge collects over 100 hours of multi-channel speech data recorded inside a new energy vehicle and 40 hours of noise for data augmentation. Two tracks, including automatic speech recognition (ASR) and automatic speech diarization and recognition (ASDR) are set up, using character error rate (CER) and concatenated minimum permutation character error rate (cpCER) as evaluation metrics, respectively. Overall, the ICMC-ASR Challenge attracts 98 participating teams and receives 53 valid results in both tracks. In the end, first-place team USTCiflytek achieves a CER of 13.16% in the ASR track and a cpCER of 21.48% in the ASDR track, showing an absolute improvement of 13.08% and 51.4% compared to our challenge baseline, respectively. | 翻訳日:2024-01-19 19:24:38 公開日:2024-01-18 |
# 行列プロファイル解析を用いた時系列関係推論による可変ラグモチーフの枠組み Framework for Variable-lag Motif Following Relation Inference In Time Series using Matrix Profile analysis ( http://arxiv.org/abs/2401.02860v2 ) ライセンス: Link先を確認 | Naaek Chinpattanakarn and Chainarong Amornbunchornvej | (参考訳) 誰がどのパターンに従っているかを知ることは、集団行動を理解する上で重要なステップである(例えば、人間のグループ、魚のグループ、あるいは株式市場など)。
時系列は、以下の関係についての洞察を得るために使用できるリソースの1つです。
しかし、後続のパターンやモチーフの概念と、それらを時系列で見つける解決策は明確ではない。
本研究では,2つの時系列間の後続モチーフの概念を定式化し,2つの時系列間の後続パターンを推測する枠組みを提案する。
このフレームワークは効率的でスケーラブルな方法の1つを利用して、行列プロファイルメソッドと呼ばれる時系列からモチーフを取得する。
提案するフレームワークをいくつかのベースラインと比較する。
フレームワークはシミュレーションデータセットのベースラインよりもパフォーマンスがよい。
音声録音のデータセットでは、2人の歌手が互いに続けて歌う一対の時系列の中で、以下のモチーフを検索することができる。
暗号通貨データセットでは、このフレームワークは2つのデジタル通貨から1対の時系列内で次のモチーフをキャプチャすることができる。
我々のフレームワークは時系列のあらゆる分野で利用でき、時系列間の後続パターンについての洞察を得ることができる。 Knowing who follows whom and what patterns they are following are crucial steps to understand collective behaviors (e.g. a group of human, a school of fish, or a stock market). Time series is one of resources that can be used to get insight regarding following relations. However, the concept of following patterns or motifs and the solution to find them in time series are not obvious. In this work, we formalize a concept of following motifs between two time series and present a framework to infer following patterns between two time series. The framework utilizes one of efficient and scalable methods to retrieve motifs from time series called the Matrix Profile Method. We compare our proposed framework with several baselines. The framework performs better than baselines in the simulation datasets. In the dataset of sound recording, the framework is able to retrieve the following motifs within a pair of time series that two singers sing following each other. In the cryptocurrency dataset, the framework is capable of capturing the following motifs within a pair of time series from two digital currencies, which implies that the values of one currency follow the values of another currency patterns. Our framework can be utilized in any field of time series to get insight regarding following patterns between time series. | 翻訳日:2024-01-19 19:24:12 公開日:2024-01-18 |
# 深層強化学習のためのコントラスト学習に基づくエージェントモデリング Contrastive learning-based agent modeling for deep reinforcement learning ( http://arxiv.org/abs/2401.00132v2 ) ライセンス: Link先を確認 | Wenhao Ma, Yu-Cheng Chang, Jie Yang, Yu-Kai Wang, Chin-Teng Lin | (参考訳) マルチエージェントシステムは、様々な目標、行動、戦略を持つ他のエージェントと協調したり、競合したりするエージェントを必要とすることが多い。
エージェントモデリングは、エージェントが他のエージェントの振る舞いを理解し、意味のあるポリシー表現を抽出する手段であるため、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。
これらの表現は強化学習によって訓練されるegoエージェントの適応ポリシーを強化するのに使うことができる。
しかし、既存のエージェントモデリングアプローチでは、訓練中の他のエージェント(モデル化エージェント)からの局所的な観察や、ポリシー適応のための長い観察軌道を想定している。
これらの制約的な仮定を取り除き、エージェントモデリングの性能を向上させるために、訓練および実行中のegoエージェントからの局所的な観察のみに依存する、コントラスト型学習ベースのエージェントモデリング(clam)法を考案した。
これらの観察により、CLAMは各エピソードの冒頭からリアルタイムに一貫した高品質なポリシー表現を生成することができる。
協調型・競争型マルチエージェント環境におけるアプローチの有効性を検討した。
実験により,本手法が協調的・競争的両課題の最先端を達成し,強化学習の強化を目的とした対照的な学習ベースエージェントモデリングの可能性を強調した。 Multi-agent systems often require agents to collaborate with or compete against other agents with diverse goals, behaviors, or strategies. Agent modeling is essential when designing adaptive policies for intelligent machine agents in multiagent systems, as this is the means by which the ego agent understands other agents' behavior and extracts their meaningful policy representations. These representations can be used to enhance the ego agent's adaptive policy which is trained by reinforcement learning. However, existing agent modeling approaches typically assume the availability of local observations from other agents (modeled agents) during training or a long observation trajectory for policy adaption. To remove these constrictive assumptions and improve agent modeling performance, we devised a Contrastive Learning-based Agent Modeling (CLAM) method that relies only on the local observations from the ego agent during training and execution. With these observations, CLAM is capable of generating consistent high-quality policy representations in real-time right from the beginning of each episode. We evaluated the efficacy of our approach in both cooperative and competitive multi-agent environments. Our experiments demonstrate that our approach achieves state-of-the-art on both cooperative and competitive tasks, highlighting the potential of contrastive learning-based agent modeling for enhancing reinforcement learning. | 翻訳日:2024-01-19 19:23:52 公開日:2024-01-18 |
# TopCoW: CTAとMRAのためのWillis(CoW)円のベンチマークトポロジ-アウェア解剖学的セグメンテーション TopCoW: Benchmarking Topology-Aware Anatomical Segmentation of the Circle of Willis (CoW) for CTA and MRA ( http://arxiv.org/abs/2312.17670v2 ) ライセンス: Link先を確認 | Kaiyuan Yang, Fabio Musio, Yihui Ma, Norman Juchler, Johannes C. Paetzold, Rami Al-Maskari, Luciano H\"oher, Hongwei Bran Li, Ibrahim Ethem Hamamci, Anjany Sekuboyina, Suprosanna Shit, Houjing Huang, Diana Waldmannstetter, Florian Kofler, Fernando Navarro, Martin Menten, Ivan Ezhov, Daniel Rueckert, Iris Vos, Ynte Ruigrok, Birgitta Velthuis, Hugo Kuijf, Julien H\"ammerli, Catherine Wurster, Philippe Bijlenga, Laura Westphal, Jeroen Bisschop, Elisa Colombo, Hakim Baazaoui, Andrew Makmur, James Hallinan, Bene Wiestler, Jan S. Kirschke, Roland Wiest, Emmanuel Montagnon, Laurent Letourneau-Guillon, Adrian Galdran, Francesco Galati, Daniele Falcetta, Maria A. Zuluaga, Chaolong Lin, Haoran Zhao, Zehan Zhang, Sinyoung Ra, Jongyun Hwang, Hyunjin Park, Junqiang Chen, Marek Wodzinski, Henning M\"uller, Pengcheng Shi, Wei Liu, Ting Ma, Cansu Yal\c{c}in, Rachika E. Hamadache, Joaquim Salvi, Xavier Llado, Uma Maria Lal-Trehan Estrada, Valeriia Abramova, Luca Giancardo, Arnau Oliver, Jialu Liu, Haibin Huang, Yue Cui, Zehang Lin, Yusheng Liu, Shunzhi Zhu, Tatsat R. Patel, Vincent M. Tutino, Maysam Orouskhani, Huayu Wang, Mahmud Mossa-Basha, Chengcheng Zhu, Maximilian R. Rokuss, Yannick Kirchhoff, Nico Disch, Julius Holzschuh, Fabian Isensee, Klaus Maier-Hein, Yuki Sato, Sven Hirsch, Susanne Wegener, Bjoern Menze | (参考訳) ウィリス循環(英: Circle of Willis、CoW)は、脳の主要な循環を繋ぐ重要な動脈網である。
その血管構造は、重度の神経血管疾患のリスク、重症度、および臨床結果に影響すると考えられている。
しかし、高度に可変なCoW解剖を特徴付けることは、まだ手作業であり、時間を要する専門家のタスクである。
CoWは通常、磁気共鳴血管造影(MRA)とCTアンギオグラフィ(CTA)の2つのアンギオグラフィーによって画像化されるが、CoW解剖学、特にCTAのアノテーションを付加したパブリックデータセットは限られている。
そこで2023年に、注釈付きCoWデータセットのリリースでTopCoW Challengeを組織しました。
TopCoWデータセットは、仮想現実性(VR)技術によって実現された13の可能なCoWコンテナコンポーネントに対して、ボクセルレベルのアノテーションを備えた最初のパブリックデータセットである。
また、同じ患者のMRAとCTAをペアにした最初の大規模なデータセットでもある。
TopCoWの課題は、トポロジカルメトリクスに重点を置いたマルチクラス解剖学的セグメンテーションタスクとして、CoWの特性問題を定式化した。
我々は4大陸から140人以上の登録参加者を集めたCoWセグメンテーションタスクを世界中に招待した。
トップパフォーマンスのチームは、多くの牛の成分を割って約90%のスコアを得ることができたが、低いスコアで動脈や希少な変種を伝えることができた。
また、高いサイコロスコアの予測には位相的誤りがあった。
追加のトポロジ解析により、特定のCoW成分の検出とCoW変種トポロジの正確なマッチングの改善が示された。
topcowは、mraとctaの牛解剖学的セグメンテーションタスクを形態学的および位相的にベンチマークする最初の試みであった。 The Circle of Willis (CoW) is an important network of arteries connecting major circulations of the brain. Its vascular architecture is believed to affect the risk, severity, and clinical outcome of serious neuro-vascular diseases. However, characterizing the highly variable CoW anatomy is still a manual and time-consuming expert task. The CoW is usually imaged by two angiographic imaging modalities, magnetic resonance angiography (MRA) and computed tomography angiography (CTA), but there exist limited public datasets with annotations on CoW anatomy, especially for CTA. Therefore we organized the TopCoW Challenge in 2023 with the release of an annotated CoW dataset. The TopCoW dataset was the first public dataset with voxel-level annotations for thirteen possible CoW vessel components, enabled by virtual-reality (VR) technology. It was also the first large dataset with paired MRA and CTA from the same patients. TopCoW challenge formalized the CoW characterization problem as a multiclass anatomical segmentation task with an emphasis on topological metrics. We invited submissions worldwide for the CoW segmentation task, which attracted over 140 registered participants from four continents. The top performing teams managed to segment many CoW components to Dice scores around 90%, but with lower scores for communicating arteries and rare variants. There were also topological mistakes for predictions with high Dice scores. Additional topological analysis revealed further areas for improvement in detecting certain CoW components and matching CoW variant topology accurately. TopCoW represented a first attempt at benchmarking the CoW anatomical segmentation task for MRA and CTA, both morphologically and topologically. | 翻訳日:2024-01-19 19:23:29 公開日:2024-01-18 |
# キュービットエントロピーからの真空エネルギー Vacuum Energy from Qubit Entropy ( http://arxiv.org/abs/2312.17317v2 ) ライセンス: Link先を確認 | Gon\c{c}alo M. Quinta, Antonino Flachi | (参考訳) 量子エントロピーの観点から、量子論における真空エネルギーの非伝統的な記述を開発する。
正確には、ゼロ温度における任意の非相互作用量子場の真空エネルギーは、仮想揺らぎに付随するクビット自由度の量子エントロピーに比例することを示す。
まずフェルミオンに対してこれを証明し、それから任意のスピンの量子数への導出を延長する。
最後に、これらの結果を用いてゼロ温度での非相互作用量子真空に対する熱力学の最初の法則を得る。 We develop a non-conventional description of the vacuum energy in quantum field theory in terms of quantum entropy. Precisely, we show that the vacuum energy of any non-interacting quantum field at zero temperature is proportional to the quantum entropy of the qubit degrees of freedom associated with virtual fluctuations. We prove this for fermions first, and then extend the derivation to quanta of any spin. Finally, we use these results to obtain the first law of thermodynamics for a non-interacting quantum vacuum at zero temperature. | 翻訳日:2024-01-19 19:22:56 公開日:2024-01-18 |
# LLaMA-1/2, GPT-3.5/4の原理的インストラクション Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 ( http://arxiv.org/abs/2312.16171v2 ) ライセンス: Link先を確認 | Sondos Mahmoud Bsharat and Aidar Myrzakhan and Zhiqiang Shen | (参考訳) 本稿では,大規模言語モデルのクエリと実行のプロセスを合理化する26の指導原則を提案する。
我々のゴールは、様々な規模の大規模言語モデルに対する質問の定式化、それらの能力の検証、そして異なるプロンプトに入力する際の様々な大規模言語モデルの振る舞いに対するユーザの理解を高めることにある。
LLaMA-1/2 (7B, 13B, 70B) と GPT-3.5/4 を用いて大規模な実験を行い,提案原則の有効性を検証し,設計を促す。
大規模な言語モデルの推進に取り組む研究者にとって、この研究がより良いガイドになることを期待しています。
プロジェクトページはhttps://github.com/VILA-Lab/ATLASで公開されている。 This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the underlying concepts of formulating questions for various scales of large language models, examining their abilities, and enhancing user comprehension on the behaviors of different scales of large language models when feeding into different prompts. Extensive experiments are conducted on LLaMA-1/2 (7B, 13B and 70B), GPT-3.5/4 to verify the effectiveness of the proposed principles on instructions and prompts design. We hope that this work can provide a better guide for researchers working on the prompting of large language models. Project page is available at https://github.com/VILA-Lab/ATLAS. | 翻訳日:2024-01-19 19:22:49 公開日:2024-01-18 |
# 強い光-物質相互作用に対する混合摂動非摂動処理 A mixed perturbative-nonperturbative treatment for strong light-matter interactions ( http://arxiv.org/abs/2312.15324v2 ) ライセンス: Link先を確認 | Carlos J. S\'anchez Mart\'inez, Johannes Feist, Francisco J. Garc\'ia-Vidal | (参考訳) 量子エミッタと任意の電磁環境との相互作用に関する完全な情報は、いわゆるスペクトル密度に符号化される。
本稿では, 一般的なナノフォトニック構造に結合する際のエミッタダイナミクスに対して, リンドブラッドのようなマスター方程式を提供する。
我々の枠組みはスペクトル密度を2つの項に分割することに基づいている。
一方、スペクトル密度は、量子エミッタの非マルコフ的および強結合に基づくダイナミクスの原因となる。
一方、残りの弱結合項を含む残留スペクトル密度は、その逆である。
前者は、量子エミッタ遷移周波数を含む周波数領域の原スペクトル密度に適合してパラメータが決定される離散モードの損失の集合で非摂動的に処理される。
後者はマルコフ近似の下で摂動的に扱われる。
提案手法のパワーと妥当性を3つの異なるセットアップで数値シミュレーションにより示し,超強結合法を含む全テストに様々なシナリオを提供する。 The full information about the interaction between a quantum emitter and an arbitrary electromagnetic environment is encoded in the so-called spectral density. We present an approach for describing such interaction in any coupling regime, providing a Lindblad-like master equation for the emitter dynamics when coupled to a general nanophotonic structure. Our framework is based on the splitting of the spectral density into two terms. On the one hand, a spectral density responsible for the non-Markovian and strong-coupling-based dynamics of the quantum emitter. On the other hand, a residual spectral density including the remaining weak-coupling terms. The former is treated nonperturbatively with a collection of lossy interacting discrete modes whose parameters are determined by a fit to the original spectral density in a frequency region encompassing the quantum emitter transition frequencies. The latter is treated perturbatively under a Markovian approximation. We illustrate the power and validity of our approach through numerical simulations in three different setups, thus offering a variety of scenarios for a full test, including the ultra-strong coupling regime. | 翻訳日:2024-01-19 19:22:36 公開日:2024-01-18 |
# 骨格に基づく人間行動認識のための空間時間デカップリングコントラスト学習 Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based Human Action Recognition ( http://arxiv.org/abs/2312.15144v3 ) ライセンス: Link先を確認 | Shaojie Zhang, Jianqin Yin, and Yonghao Dang | (参考訳) 骨格に基づく行動認識は人間とコンピュータの相互作用における中心的なタスクである。
しかし、以前の方法の多くは2つの問題に苦しんでいる。
(i)空間的・時間的情報混合から生じる意味的曖昧性
(ii)潜在データ分布の明示的な活用(すなわち、クラス内変動とクラス間関係)を見渡すことにより、スケルトンエンコーダの最適解が導かれる。
これを軽減するために,従来のスケルトンエンコーダに組み込むことができ,テスト時に取り除くことができる,識別的および意味的に異なる表現をシーケンスから得るための空間時空間デカップリングコントラスト学習(STD-CL)フレームワークを提案する。
具体的には,グローバルな特徴を空間的特徴と時間的特徴に分離し,特徴の空間的時間的結合を低減する。
さらに, 潜在データ分布を明示的に活用するために, 横断意味関係をモデル化し, 特徴を正のペアから抽出し, 負のペアを押し下げる, コントラスト学習に注意的特徴を用いる。
4つのスケルトンエンコーダ(HCN, 2S-AGCN, CTR-GCN, Hyperformer)を持つSTD-CLは、NTU60, NTU120, NW-UCLAベンチマークにおいて、しっかりとした改善がなされている。
コードはまもなくリリースされる。 Skeleton-based action recognition is a central task in human-computer interaction. However, most previous methods suffer from two issues: (i) semantic ambiguity arising from spatial-temporal information mixture; and (ii) overlooking the explicit exploitation of the latent data distributions (i.e., the intra-class variations and inter-class relations), thereby leading to sub-optimum solutions of the skeleton encoders. To mitigate this, we propose a spatial-temporal decoupling contrastive learning (STD-CL) framework to obtain discriminative and semantically distinct representations from the sequences, which can be incorporated into various previous skeleton encoders and can be removed when testing. Specifically, we decouple the global features into spatial-specific and temporal-specific features to reduce the spatial-temporal coupling of features. Furthermore, to explicitly exploit the latent data distributions, we employ the attentive features to contrastive learning, which models the cross-sequence semantic relations by pulling together the features from the positive pairs and pushing away the negative pairs. Extensive experiments show that STD-CL with four various skeleton encoders (HCN, 2S-AGCN, CTR-GCN, and Hyperformer) achieves solid improvements on NTU60, NTU120, and NW-UCLA benchmarks. The code will be released soon. | 翻訳日:2024-01-19 19:22:22 公開日:2024-01-18 |
# 運転シーンに対する弱監督型セマンティックセグメンテーション Weakly Supervised Semantic Segmentation for Driving Scenes ( http://arxiv.org/abs/2312.13646v3 ) ライセンス: Link先を確認 | Dongseob Kim, Seungho Lee, Junsuk Choe, Hyunjung Shim | (参考訳) 画像レベルラベルを用いたweakly supervised semantic segmentation(wsss)における最先端技術は、都市景観などの運転シーンデータセットにおいて深刻な性能低下を示す。
この課題に対処するため、シーンデータセットの駆動に適した新しいWSSSフレームワークを開発しました。
データセットの特徴を広範囲に分析し,提案するベースラインとしてコントラスト言語画像事前学習(CLIP)を用いて擬似マスクを得る。
しかし、CLIPは、(1)CLIPの擬似マスクが小さなオブジェクトクラスを表現していないこと、(2)これらのマスクが顕著なノイズを含んでいること、の2つの主要な課題を紹介している。
それぞれの問題に対する解決策を次のように提案する。
1)モデルトレーニング中に小規模パッチをシームレスに組み込んだグローバルローカルビュートレーニングを考案し,モデルが運転シーン(例えば交通信号)において小型で重要なオブジェクトを扱う能力を高める。
2)CLIPマスクとセグメンテーション予測の整合性を評価することによって,信頼性と雑音の領域を識別する新しい手法であるCARBを導入する。
適応的な損失重み付けによってノイズの多いピクセルよりも信頼性の高いピクセルを優先する。
特に,提案手法はCityscapesテストデータセット上で51.8\% mIoUを達成し,シーンデータセットを駆動するWSSSベースラインとしての可能性を示した。
camvidとwilddash2の実験結果は、小規模のデータセットや視覚的に困難な状況でも、さまざまなデータセットにまたがる手法の有効性を示しています。
コードはhttps://github.com/k0u-id/CARBで公開されている。 State-of-the-art techniques in weakly-supervised semantic segmentation (WSSS) using image-level labels exhibit severe performance degradation on driving scene datasets such as Cityscapes. To address this challenge, we develop a new WSSS framework tailored to driving scene datasets. Based on extensive analysis of dataset characteristics, we employ Contrastive Language-Image Pre-training (CLIP) as our baseline to obtain pseudo-masks. However, CLIP introduces two key challenges: (1) pseudo-masks from CLIP lack in representing small object classes, and (2) these masks contain notable noise. We propose solutions for each issue as follows. (1) We devise Global-Local View Training that seamlessly incorporates small-scale patches during model training, thereby enhancing the model's capability to handle small-sized yet critical objects in driving scenes (e.g., traffic light). (2) We introduce Consistency-Aware Region Balancing (CARB), a novel technique that discerns reliable and noisy regions through evaluating the consistency between CLIP masks and segmentation predictions. It prioritizes reliable pixels over noisy pixels via adaptive loss weighting. Notably, the proposed method achieves 51.8\% mIoU on the Cityscapes test dataset, showcasing its potential as a strong WSSS baseline on driving scene datasets. Experimental results on CamVid and WildDash2 demonstrate the effectiveness of our method across diverse datasets, even with small-scale datasets or visually challenging conditions. The code is available at https://github.com/k0u-id/CARB. | 翻訳日:2024-01-19 19:21:43 公開日:2024-01-18 |
# 指数関数族の双対減算と分割正規化による発散とその凸変形 Divergences induced by dual subtractive and divisive normalizations of exponential families and their convex deformations ( http://arxiv.org/abs/2312.12849v2 ) ライセンス: Link先を確認 | Frank Nielsen | (参考訳) 指数関数系は統計学、情報理論、機械学習などのワークホースである統計モデルである。
指数関数族は、積あるいは自由エネルギー関数によって減算的に正規化されるか、分割関数によって同値に正規化される。
減算正規化子と除算正規化子は、ブレグマンとジェンセンの発散を誘導する厳密に凸かつ滑らかな関数である。
指数族における確率密度間のスキュード・バタチャリヤ距離が、対応する自然パラメータ間の累積関数によって誘導されるスキュード・ジェンセン発散量と、一方のクルバック・リーブラー発散数が逆側ブレグマン発散量とに等しいことが知られている。
本稿では,指数関数の非正規化密度間の$\alpha$-divergencesが,分割関数によって誘導される$\alpha$-skewed Jensenの発散をスケールすることを示した。
すると、一対の擬算術的手段に対する相対凸性は、凸関数とその引数の両方を変形させ、通常の凸性が保存されたときに対応する発散を持つ双平面空間を定義できることを示す。 Exponential families are statistical models which are the workhorses in statistics, information theory, and machine learning among others. An exponential family can either be normalized subtractively by its cumulant or free energy function or equivalently normalized divisively by its partition function. Both subtractive and divisive normalizers are strictly convex and smooth functions inducing pairs of Bregman and Jensen divergences. It is well-known that skewed Bhattacharryya distances between probability densities of an exponential family amounts to skewed Jensen divergences induced by the cumulant function between their corresponding natural parameters, and in limit cases that the sided Kullback-Leibler divergences amount to reverse-sided Bregman divergences. In this paper, we first show that the $\alpha$-divergences between unnormalized densities of an exponential family amounts to scaled $\alpha$-skewed Jensen divergences induced by the partition function. We then show how comparative convexity with respect to a pair of quasi-arithmetic means allows to deform both convex functions and their arguments, and thereby define dually flat spaces with corresponding divergences when ordinary convexity is preserved. | 翻訳日:2024-01-19 19:21:13 公開日:2024-01-18 |
# FedA3I: 異種アノテーションに対するFederated Medical Image Segmentationのアグリゲーション FedA3I: Annotation Quality-Aware Aggregation for Federated Medical Image Segmentation against Heterogeneous Annotation Noise ( http://arxiv.org/abs/2312.12838v2 ) ライセンス: Link先を確認 | Nannan Wu, Zhaobin Sun, Zengqiang Yan, Li Yu | (参考訳) 連合学習(federated learning, fl)は、プライバシ保護特性のため、分散医療データのセグメンテーションモデルをトレーニングするための有望なパラダイムとして登場した。
しかし、既存の研究では、FLの性能上限を制限する実世界の医療データセットで発生する一般的なアノテーションノイズを見落としている。
本稿では,この問題を初めて特定し,解決する。
問題定式化のために,非独立かつ同一分布する(非iid)ノイズを各クライアント内の画素間でモデル化し,それをマルチソースデータに拡張して異種雑音モデル(すなわち,クライアント間の非iidアノテーションノイズ)を形成するための輪郭進化を提案する。
このような2段階の非IIDノイズを持つアノテーションからの堅牢な学習では、モデルアグリゲーションにおけるデータ品質の重要性を強調し、高品質なクライアントがFLに大きな影響を与えます。
そこで我々は,FedA3Iと命名されたアノテーションを付加したFederated Learning with Annotation quAlity-aware AggregatIonを提案する。
具体的には,各クライアントにおけるノイズ推定をガウス混合モデルを用いて達成し,それをモデル集約に階層的に組み込む。
2つの実世界の医療画像セグメンテーションデータセットに対する大規模な実験は、クロスクオリエントアノテーションノイズに対する最先端アプローチに対するFedA$3$Iの優れた性能を示している。
コードはhttps://github.com/wnn2000/FedAAAIで入手できる。 Federated learning (FL) has emerged as a promising paradigm for training segmentation models on decentralized medical data, owing to its privacy-preserving property. However, existing research overlooks the prevalent annotation noise encountered in real-world medical datasets, which limits the performance ceilings of FL. In this paper, we, for the first time, identify and tackle this problem. For problem formulation, we propose a contour evolution for modeling non-independent and identically distributed (Non-IID) noise across pixels within each client and then extend it to the case of multi-source data to form a heterogeneous noise model (i.e., Non-IID annotation noise across clients). For robust learning from annotations with such two-level Non-IID noise, we emphasize the importance of data quality in model aggregation, allowing high-quality clients to have a greater impact on FL. To achieve this, we propose Federated learning with Annotation quAlity-aware AggregatIon, named FedA3I, by introducing a quality factor based on client-wise noise estimation. Specifically, noise estimation at each client is accomplished through the Gaussian mixture model and then incorporated into model aggregation in a layer-wise manner to up-weight high-quality clients. Extensive experiments on two real-world medical image segmentation datasets demonstrate the superior performance of FedA$^3$I against the state-of-the-art approaches in dealing with cross-client annotation noise. The code is available at https://github.com/wnn2000/FedAAAI. | 翻訳日:2024-01-19 19:20:52 公開日:2024-01-18 |
# 高速推論速度を有する車両走行問題に対する高性能非自己回帰解法のための蒸留自己回帰モデル Distilling Autoregressive Models to Obtain High-Performance Non-Autoregressive Solvers for Vehicle Routing Problems with Faster Inference Speed ( http://arxiv.org/abs/2312.12469v2 ) ライセンス: Link先を確認 | Yubin Xiao, Di Wang, Boyang Li, Mingzhao Wang, Xuan Wu, Changliang Zhou, You Zhou | (参考訳) ニューラルネットワークモデルは、自動回帰(AR)または非自己回帰(NAR)学習アプローチを採用することで、車両ルーティング問題(VRP)に有望な性能を示す。
arモデルは高品質なソリューションを生み出すが、一般的にはシーケンシャルな生成によって高い推論レイテンシを持つ。
逆に、NARモデルは低い推論遅延で並列に解を生成するが、一般に性能は劣っている。
本稿では,低推論遅延を有する高性能NARモデルを得るための汎用的非自己回帰的知識蒸留法(GNARKD)を提案する。
GNARKDは、学習した中心成分をネットワークアーキテクチャに保存し、知識蒸留により対応するNARモデルを入手しながら、ARモデルの逐次生成の制約を取り除く。
我々は、GNARKDを広く採用されている3つのARモデルに適用して、合成および実世界の両方のインスタンスに対して、NAR VRPソルバを得る。
実験の結果、gnarkdは許容される性能低下(2-3\%)で推論時間を大幅に削減する(4~5倍高速)。
我々の知る限りでは、この研究は知識蒸留を通じてARからNAR VRPソルバを得るための第一種である。 Neural construction models have shown promising performance for Vehicle Routing Problems (VRPs) by adopting either the Autoregressive (AR) or Non-Autoregressive (NAR) learning approach. While AR models produce high-quality solutions, they generally have a high inference latency due to their sequential generation nature. Conversely, NAR models generate solutions in parallel with a low inference latency but generally exhibit inferior performance. In this paper, we propose a generic Guided Non-Autoregressive Knowledge Distillation (GNARKD) method to obtain high-performance NAR models having a low inference latency. GNARKD removes the constraint of sequential generation in AR models while preserving the learned pivotal components in the network architecture to obtain the corresponding NAR models through knowledge distillation. We evaluate GNARKD by applying it to three widely adopted AR models to obtain NAR VRP solvers for both synthesized and real-world instances. The experimental results demonstrate that GNARKD significantly reduces the inference time (4-5 times faster) with acceptable performance drop (2-3\%). To the best of our knowledge, this study is first-of-its-kind to obtain NAR VRP solvers from AR ones through knowledge distillation. | 翻訳日:2024-01-19 19:20:21 公開日:2024-01-18 |
# 視覚言語インストラクションチューニングのためのクラスタ条件loraエキスパートの混合 Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning ( http://arxiv.org/abs/2312.12379v2 ) ライセンス: Link先を確認 | Yunhao Gou, Zhili Liu, Kai Chen, Lanqing Hong, Hang Xu, Aoxue Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang | (参考訳) LVLM(Large Vision-Language Models)のインストラクションチューニングは、幅広い下流視覚言語タスクにおいてゼロショットの一般化を伴う多目的モデルの開発に革命をもたらした。
しかし、異なるソースやフォーマットのトレーニングタスクの多様性は避けられないタスク競合につながり、異なるタスクが同じモデルパラメータのセットで競合し、結果として最適な命令追従能力となる。
そこで本研究では,タスクにカスタマイズされたモデルパラメータをアクティベートするために設計された,新しい混合型エキスパート (moe) アーキテクチャであるクラスタ条件型lora専門家 (mocle) の混合を提案する。
新たな命令に対するMoCLEの一般化能力を改善するために、別個のユニバーサルエキスパートが組み込まれている。
10のゼロショットタスクに関する大規模な実験は、MoCLEの有効性を示している。 Instruction tuning of the Large Vision-language Models (LVLMs) has revolutionized the development of versatile models with zero-shot generalization across a wide range of downstream vision-language tasks. However, diversity of training tasks of different sources and formats would lead to inevitable task conflicts, where different tasks conflicts for the same set of model parameters, resulting in sub-optimal instruction-following abilities. To address that, we propose the Mixture of Cluster-conditional LoRA Experts (MoCLE), a novel Mixture of Experts (MoE) architecture designed to activate the task-customized model parameters based on the instruction clusters. A separate universal expert is further incorporated to improve the generalization capabilities of MoCLE for novel instructions. Extensive experiments on 10 zero-shot tasks demonstrate the effectiveness of MoCLE. | 翻訳日:2024-01-19 19:19:59 公開日:2024-01-18 |
# NODI:拡散音による外部分布検出 NODI: Out-Of-Distribution Detection with Noise from Diffusion ( http://arxiv.org/abs/2401.08689v2 ) ライセンス: Link先を確認 | Jingqiu Zhou, Aojun Zhou, Hongsheng Li | (参考訳) out-of-distribution (ood)検出は、機械学習モデルを安全にデプロイする上で重要な部分である。
文学で開発された多くの手法で広く研究されている。
この問題はOODスコア計算に対処するが、従来の方法ではOODスコアを分布内データセットの限られた使用量で計算する。
例えば、OODスコアは、分配データのごく一部からの情報で計算される。
さらに、これらの方法はニューラルイメージエンコーダで画像を符号化する。
これらの手法のロバスト性は、異なる訓練方法とアーキテクチャのイメージエンコーダに対してほとんど確認されない。
本稿では,OODタスクに拡散過程を導入する。
拡散モデルは、トレーニングセット全体の情報を予測されたノイズベクトルに統合する。
さらに、ノイズベクトル(安定点)の閉形式解を推定する。
次に、ノイズベクトルをOODスコアに変換し、OODベンチマークの深いモデル予測ノイズベクトルと閉形式ノイズベクトルの両方をテストする。
提案手法は, 従来のood法を, 画像エンコーダのすべてのタイプで上回っている。
\ref{main})。
MAEベースのイメージエンコーダで3.5$%のパフォーマンス向上が達成される。
さらに,異なる種類の画像エンコーダを適用し,OOD法の堅牢性を検討した。
画像エンコーダをResNetからVision Transformerに切り替える際には,OOD手法の一般化に失敗し,画像エンコーダ全体の堅牢性を示した。 Out-of-distribution (OOD) detection is a crucial part of deploying machine learning models safely. It has been extensively studied with a plethora of methods developed in the literature. This problem is tackled with an OOD score computation, however, previous methods compute the OOD scores with limited usage of the in-distribution dataset. For instance, the OOD scores are computed with information from a small portion of the in-distribution data. Furthermore, these methods encode images with a neural image encoder. The robustness of these methods is rarely checked with respect to image encoders of different training methods and architectures. In this work, we introduce the diffusion process into the OOD task. The diffusion model integrates information on the whole training set into the predicted noise vectors. What's more, we deduce a closed-form solution for the noise vector (stable point). Then the noise vector is converted into our OOD score, we test both the deep model predicted noise vector and the closed-form noise vector on the OOD benchmarks \cite{openood}. Our method outperforms previous OOD methods across all types of image encoders (Table. \ref{main}). A $3.5\%$ performance gain is achieved with the MAE-based image encoder. Moreover, we studied the robustness of OOD methods by applying different types of image encoders. Some OOD methods failed to generalize well when switching image encoders from ResNet to Vision Transformers, our method performs exhibits good robustness with all the image encoders. | 翻訳日:2024-01-19 19:09:45 公開日:2024-01-18 |
# 相対性理論の量子原理と可算重力 Quantum Principle of Relativity and The Renormalizable Gravity ( http://arxiv.org/abs/2401.08617v2 ) ライセンス: Link先を確認 | Jinsu Kim and Dongok Kim | (参考訳) 我々は、一般相対性理論を導入することなく、相対性理論という新しい相対性理論に基づく純粋量子理論を開発した。
我々は、相対性理論の本質が量子領域に自然に拡張され、活性変換と受動変換の同一構造が維持されることを示した。
この原理を用いることで、重力効果は自然に正規化可能理論に組み込まれ、古典的理論において一般相対性理論が出現することを示した。
グラビトンプロパゲーターを導出し、この理論に基づくいくつかの例を提供する。 We develop a purely quantum theory based on the novel principle of relativity, termed the quantum principle of relativity, without introducing general relativity. We demonstrate that the essence of the principle of relativity can be naturally extended into the quantum realm, maintaining the identical structures of active and passive transformations. By employing this principle, we show that gravitational effects are naturally incorporated into the renormalizable theory, with general relativity emerging in the classical regime. We derive graviton propagators and provide several examples grounded in this novel theory. | 翻訳日:2024-01-19 19:09:26 公開日:2024-01-18 |
# E^2-LLM:大規模言語モデルの効率的・極長拡張 E^2-LLM: Efficient and Extreme Length Extension of Large Language Models ( http://arxiv.org/abs/2401.06951v2 ) ライセンス: Link先を確認 | Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang, Ge Zhang, Jiakai Wang, Haoran Que, Yukang Chen, Wenbo Su, Tiezheng Ge, Jie Fu, Wenhu Chen, Bo Zheng | (参考訳) 一般的に、長いコンテキストサイズでのllmのトレーニングは計算コストが高く、トレーニング時間とgpuリソースが必要となる。
既存のロングコンテキスト拡張手法は、通常、対応するロングコンテキストウィンドウをサポートするために追加のトレーニング手順を必要とし、ロングコンテキストトレーニングデータ(例えば32k)が必要であり、GPUトレーニングコストが高いと仮定する。
上記の問題に対処するため,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と計算コストを大幅に削減した効率的な拡張手法を提案する。
具体的には、E2-LLMのトレーニングデータは短い長さ(例:4k)しか必要とせず、チューニングコストを大幅に削減する。
第2に、短いトレーニングコンテキストウィンドウ上のトレーニング手順は一度だけ実行され、推論時に異なる評価コンテキストウィンドウをサポートすることができる。
第3に,RoPE 位置埋め込みに基づく E2 - LLM において,異なるサンプルに対するスケールと位置指数パラメータに関する2つの異なる拡張手法を導入する。
推論時に任意のコンテキスト長を直接補間する場合、モデルは異なる相対差に対してより堅牢になる。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。 Typically, training LLMs with long context sizes is computationally expensive, requiring extensive training hours and GPU resources. Existing long-context extension methods usually need additional training procedures to support corresponding long-context windows, where the long-context training data (e.g., 32k) is needed, and high GPU training costs are assumed. To address the aforementioned issues, we propose an Efficient and Extreme length extension method for Large Language Models, called E 2 -LLM, with only one training procedure and dramatically reduced computation cost, which also removes the need to collect long-context data. Concretely, first, the training data of our E 2 -LLM only requires a short length (e.g., 4k), which reduces the tuning cost greatly. Second, the training procedure on the short training context window is performed only once time, and we can support different evaluation context windows at inference. Third, in E 2 - LLM, based on RoPE position embeddings, we introduce two different augmentation methods on the scale and position index parameters for different samples in training. It aims to make the model more robust to the different relative differences when directly interpolating the arbitrary context length at inference. Comprehensive experimental results on multiple benchmark datasets demonstrate the effectiveness of our E 2 -LLM on challenging long-context tasks. | 翻訳日:2024-01-19 19:09:16 公開日:2024-01-18 |
# マルチモーダル大規模言語モデル(MLLM)の推論能力を探る:マルチモーダル推論における新興動向に関する包括的調査 Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning ( http://arxiv.org/abs/2401.06805v2 ) ライセンス: Link先を確認 | Yiqi Wang, Wentao Chen, Xiaotian Han, Xudong Lin, Haiteng Zhao, Yongfei Liu, Bohan Zhai, Jianbo Yuan, Quanzeng You, Hongxia Yang | (参考訳) 抽象推論能力を備えた強力な人工知能(Strong AI)または人工知能(AGI)は、次世代AIの目標である。
近年のLarge Language Models (LLM) の進歩と,MLLM (Multimodal Large Language Models) の出現する分野は,幅広いマルチモーダルタスクやアプリケーションにまたがる印象的な機能を示している。
特に、異なるモデルアーキテクチャ、トレーニングデータ、トレーニングステージを持つ様々なMLLMが、幅広いMLLMベンチマークで評価されている。
これらの研究により、MLLMの現在の能力の様々な側面が明らかになった。
しかし,MLLMの推論能力は体系的に研究されていない。
本稿では,マルチモーダル推論の既存の評価プロトコルを概観的にレビューし,MLLMのフロンティアを分類・説明し,推論集約タスクへのMLLMの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
われわれの調査はしっかりとした基盤を確立し、この重要なトピックであるマルチモーダル推論に光を当てていると信じています。 Strong Artificial Intelligence (Strong AI) or Artificial General Intelligence (AGI) with abstract reasoning ability is the goal of next-generation AI. Recent advancements in Large Language Models (LLMs), along with the emerging field of Multimodal Large Language Models (MLLMs), have demonstrated impressive capabilities across a wide range of multimodal tasks and applications. Particularly, various MLLMs, each with distinct model architectures, training data, and training stages, have been evaluated across a broad range of MLLM benchmarks. These studies have, to varying degrees, revealed different aspects of the current capabilities of MLLMs. However, the reasoning abilities of MLLMs have not been systematically investigated. In this survey, we comprehensively review the existing evaluation protocols of multimodal reasoning, categorize and illustrate the frontiers of MLLMs, introduce recent trends in applications of MLLMs on reasoning-intensive tasks, and finally discuss current practices and future directions. We believe our survey establishes a solid base and sheds light on this important topic, multimodal reasoning. | 翻訳日:2024-01-19 19:08:52 公開日:2024-01-18 |
# umg-clip: オープンワールド理解のための統一マルチグラナリティビジョンジェネラリスト UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding ( http://arxiv.org/abs/2401.06397v2 ) ライセンス: Link先を確認 | Bowen Shi, Peisen Zhao, Zichen Wang, Yuhang Zhang, Yaoming Wang, Jin Li, Wenrui Dai, Junni Zou, Hongkai Xiong, Qi Tian, Xiaopeng Zhang | (参考訳) Contrastive Language-image pre-training (CLIP)で表現される視覚言語基盤モデルは、視覚とテキストの両方のタスクを共同で理解するために注目を集めている。
しかしながら、既存のアプローチでは、グローバルイメージ表現とテキスト記述をマッチさせるトレーニングモデルに重点を置いているため、ローカル領域と対応するテキストトークンの間の重要なアライメントを見渡すことができる。
本稿では,CLIPを多粒度アライメントで拡張する。
特に、画像レベル、領域レベル、ピクセルレベルのキャプション/タグを含む様々な粒度の擬似アノテーションを含む新しいデータセットを意図的に構築する。
そこで我々はUMG-CLIPと呼ばれる統一された多粒度学習フレームワークを開発し,様々な詳細レベルにわたる多彩な知覚能力を持つモデルを同時に強化する。
パラメータ効率のよいチューニングを備えたUMG-CLIPは、現在広く使われているCLIPモデルを超え、オープンワールド認識、検索、セマンティックセグメンテーション、およびパンプトセグメンテーションタスクを含む様々な画像理解ベンチマークで最先端のパフォーマンスを達成する。
UMG-CLIPが、ビジョン言語基盤モデルを進化させる貴重な選択肢になり得ることを願っている。 Vision-language foundation models, represented by Contrastive language-image pre-training (CLIP), have gained increasing attention for jointly understanding both vision and textual tasks. However, existing approaches primarily focus on training models to match global image representations with textual descriptions, thereby overlooking the critical alignment between local regions and corresponding text tokens. This paper extends CLIP with multi-granularity alignment. Notably, we deliberately construct a new dataset comprising pseudo annotations at various levels of granularities, encompassing image-level, region-level, and pixel-level captions/tags. Accordingly, we develop a unified multi-granularity learning framework, named UMG-CLIP, that simultaneously empowers the model with versatile perception abilities across different levels of detail. Equipped with parameter efficient tuning, UMG-CLIP surpasses current widely used CLIP models and achieves state-of-the-art performance on diverse image understanding benchmarks, including open-world recognition, retrieval, semantic segmentation, and panoptic segmentation tasks. We hope UMG-CLIP can serve as a valuable option for advancing vision-language foundation models. | 翻訳日:2024-01-19 19:08:32 公開日:2024-01-18 |
# 適応パラメータ制御を用いたコンパクト微分進化を用いたユーザ介入によるオントロジアライメント法 An ontology alignment method with user intervention using compact differential evolution with adaptive parameter control ( http://arxiv.org/abs/2401.06337v2 ) ライセンス: Link先を確認 | Zhaoming Lv | (参考訳) ユーザインタラクションは、オントロジーのアライメント品質を改善する最も効果的な方法の1つです。
しかし、このアプローチは、ユーザーがマッチングプロセスに効果的に参加できるという課題に直面している。
この課題を解決するためです
本稿では,適応パラメータ制御(IOACDE)を用いたコンパクト微分進化アルゴリズムを用いた対話型オントロジーアライメント手法を提案する。
本手法では,オントロジーアライメント処理を対話的最適化問題としてモデル化し,ユーザが2つの方法でマッチングを行うことができる。
ioacdeが完全な候補アライメントとして生成したマッピング提案は、最適化プロセス中にユーザによって評価される。
もうひとつは、自動マッチング処理後の単一マッピングを評価し、アライメント結果を改善することである。
提案アルゴリズムの有効性を実証するために,実世界のオントロジーのユーザをシミュレートするために,ニューラル埋め込みモデルとK近辺モデル(KNN)を用いる。
実験の結果,提案手法は非対話性に比べてアライメント品質が向上することがわかった。
OAEIの最先端手法と比較すると,提案アルゴリズムは誤り率に比較して高い性能を示した。 User interaction is one of the most effective ways to improve the ontology alignment quality. However, this approach faces the challenge of how users can participate effectively in the matching process. To solve this challenge. In this paper, an interactive ontology alignment approach using compact differential evolution algorithm with adaptive parameter control (IOACDE) is proposed. In this method, the ontology alignment process is modeled as an interactive optimization problem and users are allowed to intervene in matching in two ways. One is that the mapping suggestions generated by IOACDE as a complete candidate alignment is evaluated by user during optimization process. The other is that the user ameliorates the alignment results by evaluating single mapping after the automatic matching process. To demonstrate the effectiveness of the proposed algorithm, the neural embedding model and K nearest neighbor (KNN) is employed to simulate user for the ontologies of the real world. The experimental results show that the proposed interactive approach can improve the alignment quality compared to the non-interactive. Compared with the state-of-the-art methods from OAEI, the results show that the proposed algorithm has a better performance under the same error rate. | 翻訳日:2024-01-19 19:08:10 公開日:2024-01-18 |
# MISS:Med-VQAのためのジェネレーティブプレトレーニングとファインタニングアプローチ MISS: A Generative Pretraining and Finetuning Approach for Med-VQA ( http://arxiv.org/abs/2401.05163v2 ) ライセンス: Link先を確認 | Jiawei Chen, Dingkang Yang, Yue Jiang, Yuxuan Lei, Lihua Zhang | (参考訳) 医用視覚質問応答(VQA)は、ビジョンランゲージ事前学習(VLP)モデルが一般化性能を効果的に向上する、困難なマルチモーダルタスクである。
しかし,医療分野のほとんどの手法は,VQAを現実的な応用シナリオへの移行が困難な回答分類タスクとして扱う。
さらに,医用画像のプライバシや高価なアノテーション処理により,事前トレーニング用の大規模医用画像テキストペアデータセットが著しく不足している。
本稿では,医療用VQAタスクのための大規模MultI-task Self-Supervised Learning based framework(MISS)を提案する。
既存の方法とは異なり、医療用VQAを生成タスクとして扱う。
テキストエンコーダとマルチモーダルエンコーダを統合し,マルチタスク学習による画像テキスト特徴の調整を行う。
さらに,大言語モデル(llms)を用いた単一モーダル画像データセットの特徴空間を拡張し,従来の医用視覚野タスクデータをvlpに適用可能にするトランスポート・アンド・キャプチャ法を提案する。
実験により,本手法はより少ないマルチモーダルデータセットで優れた結果が得られることを示すとともに,生成VQAモデルの利点を示す。
コードとモデルの重み付けは、論文が受け入れられるとリリースされます。 Medical visual question answering (VQA) is a challenging multimodal task, where Vision-Language Pre-training (VLP) models can effectively improve the generalization performance. However, most methods in the medical field treat VQA as an answer classification task which is difficult to transfer to practical application scenarios. Additionally, due to the privacy of medical images and the expensive annotation process, large-scale medical image-text pairs datasets for pretraining are severely lacking. In this paper, we propose a large-scale MultI-task Self-Supervised learning based framework (MISS) for medical VQA tasks. Unlike existing methods, we treat medical VQA as a generative task. We unify the text encoder and multimodal encoder and align image-text features through multi-task learning. Furthermore, we propose a Transfer-and-Caption method that extends the feature space of single-modal image datasets using large language models (LLMs), enabling those traditional medical vision field task data to be applied to VLP. Experiments show that our method achieves excellent results with fewer multimodal datasets and demonstrates the advantages of generative VQA models. The code and model weights will be released upon the paper's acceptance. | 翻訳日:2024-01-19 19:07:22 公開日:2024-01-18 |
# LPAC:学習可能な知覚・行動・コミュニケーションループとカバレッジ制御への応用 LPAC: Learnable Perception-Action-Communication Loops with Applications to Coverage Control ( http://arxiv.org/abs/2401.04855v2 ) ライセンス: Link先を確認 | Saurav Agarwal, Ramya Muthukrishnan, Walker Gosrich, Vijay Kumar, Alejandro Ribeiro | (参考訳) 被覆制御は、ロボット群をナビゲートし、特徴や前兆を知らない現象を協調的に監視する問題である。
この問題は、コミュニケーションや感知能力に制限のあるロボットによる分散設定では難しい。
本稿では,畳み込みニューラルネットワーク (cnn) が局所的な知覚を処理し,グラフニューラルネットワーク (gnn) がロボット通信を容易にし,最後に,浅い多層パーセプトロン (mlp) がロボットの動作を計算する,lpacアーキテクチャを提案する。
gnnは、近くのロボットと通信する情報と、受信した情報を組み込む方法を計算することで、ロボット群でのコラボレーションを可能にする。
LPACモデルは、模倣学習を用いて訓練され、標準の分散型および集中型カバレッジ制御アルゴリズムを上回っている。
学習されたポリシーは、トレーニングデータセットとは異なる環境に一般化され、より多くのロボットでより大きな環境に転送される。
その結果,ロボット群における分散ナビゲーションにおけるlpacアーキテクチャの適合性が示唆された。 Coverage control is the problem of navigating a robot swarm to collaboratively monitor features or a phenomenon of interest not known a priori. The problem is challenging in decentralized settings with robots that have limited communication and sensing capabilities. We propose a learnable Perception-Action-Communication (LPAC) architecture for the problem, wherein a convolution neural network (CNN) processes localized perception; a graph neural network (GNN) facilitates robot communications; finally, a shallow multi-layer perceptron (MLP) computes robot actions. The GNN enables collaboration in the robot swarm by computing what information to communicate with nearby robots and how to incorporate received information. Evaluations show that the LPAC models -- trained using imitation learning -- outperform standard decentralized and centralized coverage control algorithms. The learned policy generalizes to environments different from the training dataset, transfers to larger environments with more robots, and is robust to noisy position estimates. The results indicate the suitability of LPAC architectures for decentralized navigation in robot swarms to achieve collaborative behavior. | 翻訳日:2024-01-19 19:07:04 公開日:2024-01-18 |
# 窒素空洞スピン系における3次例外線 Third-order exceptional line in a nitrogen-vacancy spin system ( http://arxiv.org/abs/2401.09690v1 ) ライセンス: Link先を確認 | Yang Wu, Yunhan Wang, Xiangyu Ye, Wenquan Liu, Zhibo Niu, Chang-Kui Duan, Ya Wang, Xing Rong and Jiangfeng Du | (参考訳) 例外点 (eps) は非遺伝性から引き起こされ、例外的ノードトポロジー、一方向の可視性、単一モードラッシング、感度向上、エネルギー収穫といったリッチな現象をもたらす。
分離された高次EPは2次EPよりもリッチなトポロジカルな特徴と優れた性能を示す。
近年,高次EPが生成する線や環などの高次EPジオメトリは,スタンドアローン高次EPよりもリッチな現象や利点をもたらすと予測されている。
しかし、ハミルトニアンのパラメータ空間におけるより多くの自由度やより高い対称性の要求により、高次EP測地の実験的な探索は到達範囲を超えている。
本稿では,原子スケールでの3次例外線(el)の観測について報告する。
複数の対称性を導入することで、3階ELの出現は、ダイヤモンド中の窒素空孔中心の1つの電子スピンで達成された。
さらに,異なる対称性下でのEP構造の挙動を系統的に検討した。
これらの対称性は高次EPと関連するEPジオメトリの発生に不可欠な役割を担っている。
我々の研究は、原子スケールでの高次EP関連トポロジー物理学と、量子技術における高次EPの潜在的応用を探求する新たな道を開く。 The exceptional points (EPs) aroused from the non-Hermiticity bring rich phenomena, such as exceptional nodal topologies, unidirectional invisibility, single-mode lasing, sensitivity enhancement and energy harvesting. Isolated high-order EPs have been observed to exhibit richer topological characteristics and better performance in sensing over 2nd-order EPs. Recently, high-order EP geometries, such as lines or rings formed entirely by high order EPs, are predicted to provide richer phenomena and advantages over stand-alone high-order EPs. However, experimental exploration of high-order EP geometries is hitherto beyond reach due to the demand of more degrees of freedom in the Hamiltonian's parameter space or a higher level of symmetries. Here we report the observation of the third-order exceptional line (EL) at the atomic scale. By introducing multiple symmetries, the emergence of the third-order EL has been successfully realized with a single electron spin of nitrogen-vacancy center in diamond. Furthermore, the behaviors of the EP structure under different symmetries are systematically investigated. The symmetries are shown to play essential roles in the occurrence of high-order EPs and the related EP geometries. Our work opens a new avenue to explore high-order EP-related topological physics at the atomic scale and to the potential applications of high-order EPs in quantum technologies. | 翻訳日:2024-01-19 18:14:18 公開日:2024-01-18 |
# 2レベル量子エミッタを用いた結合共振器アレイにおける原子-光子結合状態の制御 Controlling atom-photon bound states in a coupled resonator array with a two-level quantum emitter ( http://arxiv.org/abs/2401.09688v1 ) ライセンス: Link先を確認 | Zelin Lu, Jing Li, Jing Lu and Lan Zhou | (参考訳) 2レベル量子エミッタ(2LE)が2つの隣接共振器のモードに電気双極子結合される1次元(1D)結合共振器アレイ(CRA)を考える。
本研究では,CRA真空中におけるエネルギースペクトル,境界状態の光子確率分布,および2LEの放出過程について検討する。
量子位相遷移は、帯域外の離散レベルの数の変化によって特徴づけられる。
この変更の条件も示されている。
結合状態の光子波動関数は、2leと共振器との結合強度が等しくない場合、2leの位置付近で非対称性であることが判明し、結合強度のうちより大きい方角で決定されるのと同じ優先方向を持つ。
原子-光子結合状態の存在は、十分な時間内に定常振動または非消滅定数の形で表される。 We consider a one-dimensional (1D) coupled-resonator array (CRA), where a two-level quantum emitter (2LE) is electric-dipole coupled to the modes of two adjacent resonators. We investigate the energy spectrum, the photon probability distribution of the bound states and the emission process of the 2LE into the CRA vacuum. A quantum phase transition is found which is characterized by the change of the number of the out-of-band discrete levels. The condition for this change is also presented. The photon wave functions of bound states are found to be asymmetry around the position of the 2LE when the coupling strengths between the 2LE and the resonator are not equal, and they have the same preferred directions which are primary determined by the larger one among the coupling strengths. The presence of the atom-photon bound states is manifested in the form of a stationary oscillation or a non-vanishing constant in the long enough time. | 翻訳日:2024-01-19 18:13:55 公開日:2024-01-18 |
# 分類・回帰作業におけるカテゴリ可変エンコーダの性能比較 Comparative Study on the Performance of Categorical Variable Encoders in Classification and Regression Tasks ( http://arxiv.org/abs/2401.09682v1 ) ライセンス: Link先を確認 | Wenbin Zhu, Runwen Qiu and Ying Fu | (参考訳) 分類変数は分類や回帰タスクのためのデータセットによく現れ、トレーニング前に数値にエンコードする必要がある。
多くのエンコーダが開発され、性能に大きな影響を与えるため、タスクに適したエンコーダを選択することは、時間がかかりながら重要な実践問題となる。
本研究は機械学習モデルを3つのカテゴリに分類する。
1) 多層パーセプトロンニューラルネットワークなどの入力に対して暗黙的にアフィン変換を行うATIモデル
2)ランダムフォレストなどの決定木に基づく木型モデル
3) 残りは KNN などです。
理論的には、データから適切な重みを学習することで、他のエンコーダを模倣できるという意味で、ワンホットエンコーダがAITモデルにとって最良の選択であることを示す。
また,対象エンコーダとその変種がツリーベースモデルに適したエンコーダである理由についても述べる。
本研究では、28データセット上の8つの一般的な機械学習モデルとともに、1ホットおよびターゲットエンコーダを含む14のエンコーダを評価するための総合的な計算実験を行った。
計算結果は我々の理論分析と一致する。
本研究の知見は,不正検出や疾患診断などの分野におけるデータサイエンティストに適したエンコーダの選択方法に光を当てた。 Categorical variables often appear in datasets for classification and regression tasks, and they need to be encoded into numerical values before training. Since many encoders have been developed and can significantly impact performance, choosing the appropriate encoder for a task becomes a time-consuming yet important practical issue. This study broadly classifies machine learning models into three categories: 1) ATI models that implicitly perform affine transformations on inputs, such as multi-layer perceptron neural network; 2) Tree-based models that are based on decision trees, such as random forest; and 3) the rest, such as kNN. Theoretically, we prove that the one-hot encoder is the best choice for ATI models in the sense that it can mimic any other encoders by learning suitable weights from the data. We also explain why the target encoder and its variants are the most suitable encoders for tree-based models. This study conducted comprehensive computational experiments to evaluate 14 encoders, including one-hot and target encoders, along with eight common machine-learning models on 28 datasets. The computational results agree with our theoretical analysis. The findings in this study shed light on how to select the suitable encoder for data scientists in fields such as fraud detection, disease diagnosis, etc. | 翻訳日:2024-01-19 18:13:36 公開日:2024-01-18 |
# オンライン強化学習におけるハーネス化密度比 Harnessing Density Ratios for Online Reinforcement Learning ( http://arxiv.org/abs/2401.09681v1 ) ライセンス: Link先を確認 | Philip Amortila, Dylan J. Foster, Nan Jiang, Ayush Sekhari, Tengyang Xie | (参考訳) オフラインとオンラインの強化学習の理論は、平行して進化してきたにもかかわらず、アルゴリズムと分析技術が一方の環境に自然に相応しいものが存在するという、統一の可能性の兆候を示し始めている。
しかし、オフラインrlの新たなパラダイムである密度比モデリングの概念は、おそらく正当な理由から、オンラインrlにはほとんど欠如している。 密度比の存在と境界性は、適切なカバレッジを持つ探索データセットへのアクセスに依存しているが、オンラインrlの核となる課題は、そのようなデータセットを1つ始めることなく収集することである。
この研究で、おそらく驚くべきことに、密度比に基づくアルゴリズムがオンラインに匹敵することを示している。
カバービリティ (Xie et al., 2023) とよばれる構造条件である探索分布の存在を前提として, サンプル効率のよいオンライン探索を行うために, 密度比実現可能性と値関数実現性を利用した新しいアルゴリズム (GLOW) を提案する。
GLOWは、トラルニケートを慎重に使用することで、非有界密度比に対処し、これを最適化と組み合わせて探索を導く。
より効率的なHyGLOWと補完し、オンラインRLが追加のオフラインデータで拡張されるハイブリッドRL設定(Song et al., 2022)を行う。
HyGLOW は、ハイブリッド RL からオフライン RL への証明可能なブラックボックス還元を提供する、より一般的なメタアルゴリズムの特別なケースとして派生している。 The theories of offline and online reinforcement learning, despite having evolved in parallel, have begun to show signs of the possibility for a unification, with algorithms and analysis techniques for one setting often having natural counterparts in the other. However, the notion of density ratio modeling, an emerging paradigm in offline RL, has been largely absent from online RL, perhaps for good reason: the very existence and boundedness of density ratios relies on access to an exploratory dataset with good coverage, but the core challenge in online RL is to collect such a dataset without having one to start. In this work we show -- perhaps surprisingly -- that density ratio-based algorithms have online counterparts. Assuming only the existence of an exploratory distribution with good coverage, a structural condition known as coverability (Xie et al., 2023), we give a new algorithm (GLOW) that uses density ratio realizability and value function realizability to perform sample-efficient online exploration. GLOW addresses unbounded density ratios via careful use of truncation, and combines this with optimism to guide exploration. GLOW is computationally inefficient; we complement it with a more efficient counterpart, HyGLOW, for the Hybrid RL setting (Song et al., 2022) wherein online RL is augmented with additional offline data. HyGLOW is derived as a special case of a more general meta-algorithm that provides a provable black-box reduction from hybrid RL to offline RL, which may be of independent interest. | 翻訳日:2024-01-19 18:13:15 公開日:2024-01-18 |
# UAVメタバースにおけるツインズマイグレーションのためのTiny Multi-Agent DRL:マルチリーダーマルチフォロー・スタックルバーグゲームアプローチ Tiny Multi-Agent DRL for Twins Migration in UAV Metaverses: A Multi-Leader Multi-Follower Stackelberg Game Approach ( http://arxiv.org/abs/2401.09680v1 ) ライセンス: Link先を確認 | Jiawen Kang, Yue Zhong, Minrui Xu, Jiangtian Nie, Jinbo Wen, Hongyang Du, Dongdong Ye, Xumin Huang, Dusit Niyato, Shengli Xie | (参考訳) UAV(Unmanned Aerial Vehicles)とメタバース(Metaverses)の相乗効果は、UAVメタバース(UAV metaverses)と呼ばれる新たなパラダイムを生み出している。
UAVツインズ(UAV Twins、UT)は、UAVのアプリケーションに革命をもたらし、より没入的、現実的で、情報的になるようにしたUAVのデジタルツインとして、地上基地局(例えばRoadSide Units(RSU))に展開され、UAVのメタバースユーザー(UMU)向けのメタバースサービスを提供する。
UAVの動的モビリティとRSUの限られた通信範囲のため、UMUのシームレスな没入体験を確保するために、リアルタイムUTマイグレーションを実行することが不可欠である。
しかしながら、適切なrsusの選択と必要な帯域幅の最適化は、信頼性と効率的なutマイグレーションを実現する上では困難である。
これらの課題に対処するために,UAVメタバースにおける効率的なUTマイグレーションのためのプルーニング技術に基づく,機械学習に基づく小さなゲームフレームワークStackelbergを提案する。
具体的には,UAVの実用性に新たなUMUの没入度を考慮し,マルチリーダーマルチフォローのStackelbergモデルを定式化する。
そこで我々は,Tiny Multi-Agent Deep Reinforcement Learning (Tiny MADRL)アルゴリズムを設計し,最適なゲームソリューションを表す小さなネットワークを得る。
具体的には,ネットワークパラメータ数を削減し,モデルサイズと計算量の削減を実現し,Tiny MADRLの効率的な実装を可能にする。
その結果,提案手法は従来の方式よりも優れた性能を示した。 The synergy between Unmanned Aerial Vehicles (UAVs) and metaverses is giving rise to an emerging paradigm named UAV metaverses, which create a unified ecosystem that blends physical and virtual spaces, transforming drone interaction and virtual exploration. UAV Twins (UTs), as the digital twins of UAVs that revolutionize UAV applications by making them more immersive, realistic, and informative, are deployed and updated on ground base stations, e.g., RoadSide Units (RSUs), to offer metaverse services for UAV Metaverse Users (UMUs). Due to the dynamic mobility of UAVs and limited communication coverages of RSUs, it is essential to perform real-time UT migration to ensure seamless immersive experiences for UMUs. However, selecting appropriate RSUs and optimizing the required bandwidth is challenging for achieving reliable and efficient UT migration. To address the challenges, we propose a tiny machine learning-based Stackelberg game framework based on pruning techniques for efficient UT migration in UAV metaverses. Specifically, we formulate a multi-leader multi-follower Stackelberg model considering a new immersion metric of UMUs in the utilities of UAVs. Then, we design a Tiny Multi-Agent Deep Reinforcement Learning (Tiny MADRL) algorithm to obtain the tiny networks representing the optimal game solution. Specifically, the actor-critic network leverages the pruning techniques to reduce the number of network parameters and achieve model size and computation reduction, allowing for efficient implementation of Tiny MADRL. Numerical results demonstrate that our proposed schemes have better performance than traditional schemes. | 翻訳日:2024-01-19 18:12:45 公開日:2024-01-18 |
# 要求駆動適応によるグレースフル劣化と回復の統合 Integrating Graceful Degradation and Recovery through Requirement-driven Adaptation ( http://arxiv.org/abs/2401.09678v1 ) ライセンス: Link先を確認 | Simon Chu, Justin Koe, David Garlan, and Eunsuk Kang | (参考訳) サイバー物理システム(CPS)は、悪質な操作条件、悪意のある攻撃、ハードウェアの劣化などの環境不確実性にさらされている。
これらの不確実性は、システムを準最適状態または安全でない状態にする失敗につながる可能性がある。
このような不確実性に耐性のあるシステムは,(1)優雅な劣化,(2)予期せぬ環境条件下でシステムが許容されるレベルの安全性を維持すること,(2)正常なシステム機能の再開を促進すること,の2つの操作に頼っている。
通常、劣化と回復のメカニズムは互いに独立して開発され、後にシステムに統合され、デザイナは2つの操作間のアクティベートとコーディネートのための追加のアドホックロジックを開発する必要がある。
In this paper, we propose a self-adaptation approach for improving system resiliency through automated triggering and coordination of graceful degradation and recovery.The key idea behind our approach is to treat degradation and recovery as requirement-driven adaptation tasks: Degradation can be thought of as temporarily weakening an original (i.e., ideal) system requirement to be achieved by the system, and recovery as strengthening the weakened requirement when the environment returns within an expected operating boundary.
さらに, 弱化と強化を二重演算として扱うことにより, 劣化と回復の協調を可能にするために, 単一要求に基づく適応法が十分であると主張する。
信号時相論理(STL)に規定されるシステム要件を前提として,環境変化に応じて自動的に劣化と回復を行うランタイム適応フレームワークを提案する。
本フレームワークの試作実装について述べるとともに,無人水中車両(UUV)のケーススタディを用いて,提案手法の有効性を実証する。 Cyber-physical systems (CPS) are subject to environmental uncertainties such as adverse operating conditions, malicious attacks, and hardware degradation. These uncertainties may lead to failures that put the system in a sub-optimal or unsafe state. Systems that are resilient to such uncertainties rely on two types of operations: (1) graceful degradation, to ensure that the system maintains an acceptable level of safety during unexpected environmental conditions and (2) recovery, to facilitate the resumption of normal system functions. Typically, mechanisms for degradation and recovery are developed independently from each other, and later integrated into a system, requiring the designer to develop an additional, ad-hoc logic for activating and coordinating between the two operations. In this paper, we propose a self-adaptation approach for improving system resiliency through automated triggering and coordination of graceful degradation and recovery.The key idea behind our approach is to treat degradation and recovery as requirement-driven adaptation tasks: Degradation can be thought of as temporarily weakening an original (i.e., ideal) system requirement to be achieved by the system, and recovery as strengthening the weakened requirement when the environment returns within an expected operating boundary. Furthermore, by treating weakening and strengthening as dual operations, we argue that a single requirement-based adaptation method is sufficient to enable coordination between degradation and recovery. Given system requirements specified in signal temporal logic (STL), we propose a run-time adaptation framework that automatically performs degradation and recovery in response to environmental changes. We describe a prototype implementation of our framework and demonstrate the feasibility of the proposed approach using a case study in unmanned underwater vehicles (UUVs). | 翻訳日:2024-01-19 18:12:11 公開日:2024-01-18 |
# 3次元顔再建における眼球運動の問題 Eye Motion Matters for 3D Face Reconstruction ( http://arxiv.org/abs/2401.09677v1 ) ライセンス: Link先を確認 | Xuan Wang, Mengyuan Liu | (参考訳) 近年の3次元顔画像再構成の進歩は,様々な応用において顕著な進歩を見せている。
それでも、一般的な技術は、グローバルな顔の輪郭と表情を優先し、しばしば眼領域の微妙なダイナミクスを無視する傾向にある。
そこで我々は,視覚領域のダイナミックな特徴を捉えるために,局所的ダイナミックロスを補完するアイランドマーク調整モジュールを提案する。
我々のモジュールはランドマークの柔軟な調整を可能にし、様々な目の状態の正確な再現を可能にします。
本稿では,このアプローチの包括的評価を行い,二つのデータセットについて広範な実験を行う。
結果は、我々のアプローチの優れたパフォーマンスを強調し、この特定の課題に取り組む上で、その重要な貢献を強調しています。 Recent advances in single-image 3D face reconstruction have shown remarkable progress in various applications. Nevertheless, prevailing techniques tend to prioritize the global facial contour and expression, often neglecting the nuanced dynamics of the eye region. In response, we introduce an Eye Landmark Adjustment Module, complemented by a Local Dynamic Loss, designed to capture the dynamic features of the eyes area. Our module allows for flexible adjustment of landmarks, resulting in accurate recreation of various eye states. In this paper, we present a comprehensive evaluation of our approach, conducting extensive experiments on two datasets. The results underscore the superior performance of our approach, highlighting its significant contributions in addressing this particular challenge. | 翻訳日:2024-01-19 18:11:44 公開日:2024-01-18 |
# 局所適応逆色攻撃を用いたニューラルスタイル伝達に対するアートワーク保護 Artwork Protection Against Neural Style Transfer Using Locally Adaptive Adversarial Color Attack ( http://arxiv.org/abs/2401.09673v1 ) ライセンス: Link先を確認 | Zhongliang Guo, Kaixuan Wang, Weiye Li, Yifei Qian, Ognjen Arandjelovi\'c and Lei Fang | (参考訳) ニューラルスタイル転送(NST)はコンピュータビジョンにおいて任意のスタイルで新しい画像を生成するために広く採用されている。
このプロセスはニューラルネットワークを利用して、スタイルイメージの美的要素とコンテンツイメージの構造的側面を調和して統合された視覚結果にマージする。
しかし、未許可のNSTはアートワークを活用できる。
このような誤用は、芸術家の権利に関する社会技術的懸念を提起し、オリジナル作品の積極的な保護のための技術的アプローチの開発を動機付ける。
敵攻撃(Adversarial attack)とは、主に機械学習のセキュリティに関する概念である。
私たちの作品は、アーティストの知的財産を保護するためにこの技術を導入しています。
本稿では,人間の目では認識できないがNSTでは破壊的な方法で画像を変更する手法であるLAACA(Locally Adversarial Color Attack)を提案する。
具体的には,中間的特徴を乱すことによって生じる高頻度コンテンツに富む画像領域を対象とした摂動をデザインする。
本研究では,提案手法を用いてnstを攻撃することにより,視認性が低下し,視覚アートワークの保護に有効なソリューションとなることを確認した。 Neural style transfer (NST) is widely adopted in computer vision to generate new images with arbitrary styles. This process leverages neural networks to merge aesthetic elements of a style image with the structural aspects of a content image into a harmoniously integrated visual result. However, unauthorized NST can exploit artwork. Such misuse raises socio-technical concerns regarding artists' rights and motivates the development of technical approaches for the proactive protection of original creations. Adversarial attack is a concept primarily explored in machine learning security. Our work introduces this technique to protect artists' intellectual property. In this paper Locally Adaptive Adversarial Color Attack (LAACA), a method for altering images in a manner imperceptible to the human eyes but disruptive to NST. Specifically, we design perturbations targeting image areas rich in high-frequency content, generated by disrupting intermediate features. Our experiments and user study confirm that by attacking NST using the proposed method results in visually worse neural style transfer, thus making it an effective solution for visual artwork protection. | 翻訳日:2024-01-19 18:11:33 公開日:2024-01-18 |
# 意味不明なドメイン翻訳に向けて:分散分布マッチングアプローチ Towards Identifiable Unsupervised Domain Translation: A Diversified Distribution Matching Approach ( http://arxiv.org/abs/2401.09671v1 ) ライセンス: Link先を確認 | Sagar Shrestha and Xiao Fu | (参考訳) 教師なしドメイン翻訳(UDT)は、あるドメイン(例えばスケッチ)から別のドメイン(例えば写真)にサンプルを変換する関数を見つけることを目的としており、高レベルの意味の意味(`content''とも呼ばれる)を変更することはない。
翻訳関数は、変換されたソースドメインとターゲットドメインの確率分布マッチングによって求められることが多い。
CycleGANは間違いなくこのラインの最も代表的なアプローチである。
しかし、文献では、CycleGANと変種は所望の翻訳関数を識別できず、内容が一致しない翻訳を生成することに気づいた。
この制限は、学習基準の解空間における複数の翻訳関数、すなわち '`measure-serving automorphism' (MPA) の存在によって生じる。
このような識別可能性の問題に対する認識にもかかわらず、解決策はいまだ解明されていない。
本研究は中核的識別可能性調査を掘り下げ, MPA除去理論を導入する。
解析の結果,複数対のドメイン間条件分布が学習関数と一致する場合,MPAは存在しない可能性が示唆された。
我々の理論は、古典的なアプローチのように、データドメイン全体以外の、ドメインの補助変数誘発サブセットに対する分布マッチングを用いたUDT学習者につながります。
提案フレームワークは,適切な UDT 設定下での翻訳識別性を,私たちの知る限り初めて確立したフレームワークである。
実験は我々の理論的な主張と相関する。 Unsupervised domain translation (UDT) aims to find functions that convert samples from one domain (e.g., sketches) to another domain (e.g., photos) without changing the high-level semantic meaning (also referred to as ``content''). The translation functions are often sought by probability distribution matching of the transformed source domain and target domain. CycleGAN stands as arguably the most representative approach among this line of work. However, it was noticed in the literature that CycleGAN and variants could fail to identify the desired translation functions and produce content-misaligned translations. This limitation arises due to the presence of multiple translation functions -- referred to as ``measure-preserving automorphism" (MPA) -- in the solution space of the learning criteria. Despite awareness of such identifiability issues, solutions have remained elusive. This study delves into the core identifiability inquiry and introduces an MPA elimination theory. Our analysis shows that MPA is unlikely to exist, if multiple pairs of diverse cross-domain conditional distributions are matched by the learning function. Our theory leads to a UDT learner using distribution matching over auxiliary variable-induced subsets of the domains -- other than over the entire data domains as in the classical approaches. The proposed framework is the first to rigorously establish translation identifiability under reasonable UDT settings, to our best knowledge. Experiments corroborate with our theoretical claims. | 翻訳日:2024-01-19 18:11:15 公開日:2024-01-18 |
# 深部強化学習と実世界軌道データを用いた自動運転車の交通平滑化制御 Traffic Smoothing Controllers for Autonomous Vehicles Using Deep Reinforcement Learning and Real-World Trajectory Data ( http://arxiv.org/abs/2401.09666v1 ) ライセンス: Link先を確認 | Nathan Lichtl\'e, Kathy Jang, Adit Shah, Eugene Vinitsky, Jonathan W. Lee, Alexandre M. Bayen | (参考訳) 自動運転車に展開可能な交通平滑なクルーズコントローラを設計することは、交通の流れを改善し、混雑を低減し、混合自律交通における燃料効率を向上させるための重要なステップである。
我々は、テネシー州のI-24ハイウェイの実際の軌跡データを1車線シミュレーションで再生することにより、大きな交通マイクロシミュレータを慎重に微調整する、という一般的な問題を回避した。
標準の深層強化学習法を用いて, 省エネな波浪運動政策を学習する。
エージェントへのインプットとして,直近の車両で容易に利用できる局所状態である前方の車両のみの速度と距離,および下流の交通状況に関する非局所的な観測を観測する。
我々は低4%の自律走行車侵入速度で、多くの停止波を示す軌道上で15%以上の燃料節約を達成することを示した。
最後に, 制御器の平滑化効果を解析し, シミュレーションに車線変更を加えたり, 下流情報を取り除いたりすることの堅牢性を示す。 Designing traffic-smoothing cruise controllers that can be deployed onto autonomous vehicles is a key step towards improving traffic flow, reducing congestion, and enhancing fuel efficiency in mixed autonomy traffic. We bypass the common issue of having to carefully fine-tune a large traffic microsimulator by leveraging real-world trajectory data from the I-24 highway in Tennessee, replayed in a one-lane simulation. Using standard deep reinforcement learning methods, we train energy-reducing wave-smoothing policies. As an input to the agent, we observe the speed and distance of only the vehicle in front, which are local states readily available on most recent vehicles, as well as non-local observations about the downstream state of the traffic. We show that at a low 4% autonomous vehicle penetration rate, we achieve significant fuel savings of over 15% on trajectories exhibiting many stop-and-go waves. Finally, we analyze the smoothing effect of the controllers and demonstrate robustness to adding lane-changing into the simulation as well as the removal of downstream information. | 翻訳日:2024-01-19 18:10:56 公開日:2024-01-18 |
# ランダムウォークによる分散確率最適化の高速化 Accelerating Distributed Stochastic Optimization via Self-Repellent Random Walks ( http://arxiv.org/abs/2401.09665v1 ) ライセンス: Link先を確認 | Jie Hu and Vishwaraj Doshi and Do Young Eun | (参考訳) ランダムウォーク方式でエージェントのネットワークを横断するトークンによって勾配をサンプリングする分散確率最適化アルゴリズムの一群について検討する。
通常、これらのランダムウォークは所望の目標分布から漸近的にサンプリングされ、最適化反復の収束において重要な役割を果たすマルコフ連鎖として選択される。
本稿では,非線形マルコフ連鎖に従う標準線形マルコフトークン,すなわち自己退化ラドムウォーク (srrw) を置き換え,新しい手法を提案する。
任意の「基底」マルコフ連鎖に対して定義されているSRRWは、正のスカラー {\alpha} によってパラメータ化され、過去に頻繁に訪れた状態に遷移する確率が低いため、その名前にちなむ。
グラフ上のmcmcサンプリングの文脈において、最近のdoshi et al. (2023) におけるブレークスルーは、srrwがサンプリングの漸近的分散のo(1/{\alpha})を減少させることを示している。
本稿では,SA-SRRWと呼ばれる確率近似の形で,分散確率最適化のためのトークンアルゴリズムを駆動するSRRWの一般化版を提案する。
結果として生じるsa-srrwの誤差がほぼ確実にゼロに収束し、結果として生じる漸近共分散行列の明示的な形が反復誤差に対応することを証明し、中央極限定理を証明する。
この漸近的共分散は、基本マルコフ連鎖によって駆動されるアルゴリズムよりも常に小さく、速度 O(1/{\alpha}^2) で減少する。
実験結果は理論的な結果を支持する。 We study a family of distributed stochastic optimization algorithms where gradients are sampled by a token traversing a network of agents in random-walk fashion. Typically, these random-walks are chosen to be Markov chains that asymptotically sample from a desired target distribution, and play a critical role in the convergence of the optimization iterates. In this paper, we take a novel approach by replacing the standard linear Markovian token by one which follows a nonlinear Markov chain - namely the Self-Repellent Radom Walk (SRRW). Defined for any given 'base' Markov chain, the SRRW, parameterized by a positive scalar {\alpha}, is less likely to transition to states that were highly visited in the past, thus the name. In the context of MCMC sampling on a graph, a recent breakthrough in Doshi et al. (2023) shows that the SRRW achieves O(1/{\alpha}) decrease in the asymptotic variance for sampling. We propose the use of a 'generalized' version of the SRRW to drive token algorithms for distributed stochastic optimization in the form of stochastic approximation, termed SA-SRRW. We prove that the optimization iterate errors of the resulting SA-SRRW converge to zero almost surely and prove a central limit theorem, deriving the explicit form of the resulting asymptotic covariance matrix corresponding to iterate errors. This asymptotic covariance is always smaller than that of an algorithm driven by the base Markov chain and decreases at rate O(1/{\alpha}^2) - the performance benefit of using SRRW thereby amplified in the stochastic optimization context. Empirical results support our theoretical findings. | 翻訳日:2024-01-19 18:10:37 公開日:2024-01-18 |
# 超断熱トランジッションレス駆動による長距離マルチモードインターコネクトによる量子状態遷移とベル状態の生成 Enhanced Quantum State Transfer and Bell State Generation over Long-Range Multimode Interconnects via Superadiabatic Transitionless Driving ( http://arxiv.org/abs/2401.09663v1 ) ライセンス: Link先を確認 | Moein Malekakhlagh, Timothy Phung, Daniel Puzzuoli, Kentaro Heya, Neereja Sundaresan, and Jason Orcutt | (参考訳) メートルスケールの長い量子インターコネクトによる高忠実度な直接2量子ビットゲートの実現は、そのシステムのマルチモード性によって、部分的には困難である。
別の方法として、ローカル操作とリモート量子状態転送やリモート絡み合いを組み合わせる方法がある。
本稿では、可変相互作用を備えた2つの遠方量子ビットの量子状態移動と絡み合い生成を、共通のマルチモード相互接続上で検討する。
超断熱トランジッションレス駆動 (satd) 法を断熱通路に適用し, 標準プロトコルに対する様々な改善を実証した。
特に、選択された(共鳴)相互接続モードへのリークを抑制することで、SATDは、qubit-interconnectインタラクションによって課される速度制限関係を$g$で破り、代わりに、隣接するモードへのリークによって操作時間が制限される。
さらに、このような断熱プロトコルを用いてベル状態生成のためのマルチモードエラー機構を同定し、量子ビット-相互接続相互作用の偶数/oddモーダル依存性がダーク状態対称性を壊し、$(g/\delta_c)^2$で成長する奇モードと不利な断熱モードを重複させる。
従って、マルチモードインターコネクトによって課される弱い結合を採用することで、satdは動作速度が大幅に向上し、結果として一貫性のないエラーに対する感度が向上する。 Achieving high-fidelity direct two-qubit gates over meter-scale long quantum interconnects is challenging in part due to the multimode nature of such systems. One alternative scheme is to combine local operations with remote quantum state transfer or remote entanglement. Here, we study quantum state transfer and entanglement generation for two distant qubits, equipped with tunable interactions, over a common multimode interconnect. We employ the SuperAdiabatic Transitionless Driving (SATD) solutions for adiabatic passage and demonstrate various favorable improvements over the standard protocol. In particular, by suppressing leakage to a select (resonant) interconnect mode, SATD breaks the speed-limit relation imposed by the qubit-interconnect interaction $g$, where instead the operation time is limited by leakage to the adjacent modes, i.e. free spectral range $\Delta_c$ of the interconnect, allowing for fast operations even with weak $g$. Furthermore, we identify a multimode error mechanism for Bell state generation using such adiabatic protocols, in which the even/odd modal dependence of qubit-interconnect interaction breaks down the dark state symmetry, leading to detrimental adiabatic overlap with the odd modes growing as $(g/\Delta_c)^2$. Therefore, adopting a weak coupling, imposed by a multimode interconnect, SATD provides a significant improvement in terms of operation speed and consequently sensitivity to incoherent error. | 翻訳日:2024-01-19 18:09:46 公開日:2024-01-18 |
# 学習を加速するモビリティ: ネットワークにおける階層型フェデレーション学習の収束解析 Mobility Accelerates Learning: Convergence Analysis on Hierarchical Federated Learning in Vehicular Networks ( http://arxiv.org/abs/2401.09656v1 ) ライセンス: Link先を確認 | Tan Chen, Jintao Yan, Yuxuan Sun, Sheng Zhou, Deniz G\"und\"uz, Zhisheng Niu | (参考訳) 階層的フェデレーション学習(HFL)は、複数のエッジサーバとクラウドエッジサーバの助けを借りて、複数のデバイスにまたがるモデルの分散トレーニングを可能にする。
本稿では,主に車載ネットワークをターゲットとした高モバイル機器を用いたhflについて検討する。
収束解析により、エッジデータを融合し、エッジモデルをシャッフルすることで、モビリティが収束速度に影響を与えることを示す。
モビリティは通常通信の観点からは課題と見なされるが、より多様なデータを取り込むことができるため、エッジレベルの異種データとのhflの収束速度が増加することが証明される。
さらに,高速化はデータの融合を加速するため,より高速に収束することを示す。
シミュレーションの結果,CIFAR-10データセット上で畳み込みニューラルネットワークをトレーニングすると,HFLのモデル精度が最大15.1%向上することがわかった。 Hierarchical federated learning (HFL) enables distributed training of models across multiple devices with the help of several edge servers and a cloud edge server in a privacy-preserving manner. In this paper, we consider HFL with highly mobile devices, mainly targeting at vehicular networks. Through convergence analysis, we show that mobility influences the convergence speed by both fusing the edge data and shuffling the edge models. While mobility is usually considered as a challenge from the perspective of communication, we prove that it increases the convergence speed of HFL with edge-level heterogeneous data, since more diverse data can be incorporated. Furthermore, we demonstrate that a higher speed leads to faster convergence, since it accelerates the fusion of data. Simulation results show that mobility increases the model accuracy of HFL by up to 15.1% when training a convolutional neural network on the CIFAR-10 dataset. | 翻訳日:2024-01-19 18:08:58 公開日:2024-01-18 |
# 効果的な計画水平制御によるオフライン模倣学習 Offline Imitation Learning by Controlling the Effective Planning Horizon ( http://arxiv.org/abs/2401.09728v1 ) ライセンス: Link先を確認 | Hee-Jun Ahn, Seong-Woong Shim, Byung-Jun Lee | (参考訳) オフライン模倣学習(IL)では、一般的に、専門家ポリシーを学ぶために、少数の専門家の軌跡と、準最適行動からの補足的なオフラインデータセットのみを仮定する。
現在、状態-行動訪問分布間のばらつきを最小限に抑え、エージェントが行動の将来の結果も考慮するようにすることが一般的であるが、オフラインデータセットにおけるサンプリングエラーは、オフラインケースにおける状態-行動訪問の誤った推定につながる可能性がある。
本稿では,先行研究した明示的な正規化子を課すのではなく,効果的な計画方針(すなわち割引率の低減)を制御する効果について検討する。
残念ながら、既存のアルゴリズムは効率的な計画の地平線が短くなると近似誤差の増大に悩まされ、性能が著しく低下することがわかった。
問題の主な原因を分析し、アルゴリズムを正すための適切な治療法を提供する。
修正アルゴリズムは, 明示的な正規化ではなく, 効果的な計画ホライズンを制御することにより, 一般的な模倣学習ベンチマークを改善できることを示す。 In offline imitation learning (IL), we generally assume only a handful of expert trajectories and a supplementary offline dataset from suboptimal behaviors to learn the expert policy. While it is now common to minimize the divergence between state-action visitation distributions so that the agent also considers the future consequences of an action, a sampling error in an offline dataset may lead to erroneous estimates of state-action visitations in the offline case. In this paper, we investigate the effect of controlling the effective planning horizon (i.e., reducing the discount factor) as opposed to imposing an explicit regularizer, as previously studied. Unfortunately, it turns out that the existing algorithms suffer from magnified approximation errors when the effective planning horizon is shortened, which results in a significant degradation in performance. We analyze the main cause of the problem and provide the right remedies to correct the algorithm. We show that the corrected algorithm improves on popular imitation learning benchmarks by controlling the effective planning horizon rather than an explicit regularization. | 翻訳日:2024-01-19 18:01:08 公開日:2024-01-18 |
# 大規模言語モデルによる側方スパイアフィッシング:大規模組織設定の比較研究 Large Language Model Lateral Spear Phishing: A Comparative Study in Large-Scale Organizational Settings ( http://arxiv.org/abs/2401.09727v1 ) ライセンス: Link先を確認 | Mazal Bethany, Athanasios Galiopoulos, Emet Bethany, Mohammad Bahrami Karkevandi, Nishant Vishwamitra, Peyman Najafirad | (参考訳) フィッシングメールの重大な脅威は、高度にターゲティングされ、パーソナライズされ、自動化されたスピアフィッシング攻撃を生成するLLMのポテンシャルによってさらに悪化した。
LLMファシリケートフィッシングに関する2つの重要な問題には、さらなる調査が必要である。
1) 組織全体を対象とした大規模攻撃に対するLCM統合の具体的な検討を欠いた側方フィッシングに関する既存研究
2) 現行のフィッシング対策インフラは, 広範な開発にもかかわらず, LLMによる攻撃を防ぐ能力に欠けており, 従業員にもITセキュリティインシデント管理にも影響を及ぼす可能性がある。
しかし、そのような調査研究の実行は、通常のビジネス運用中に機能し、大規模な組織インフラの複雑さを反映する現実世界の環境を必要とする。
この設定はまた、様々な実験条件、特にllmsによるフィッシングメールの組み込みを容易にするのに必要な柔軟性を提供する必要がある。
本研究は,11ヶ月で約9,000人の大層1大学の運営と労働力をターゲットにした大規模言語モデル(llm)による横型フィッシングメールの作成を開拓した先駆的研究である。
また、電子メールフィルタリングインフラがLCMの生成したフィッシングを検知し、その有効性や改善の潜在的な領域を識別する能力も評価した。
そこで本研究では,既存のインフラでは欠落していたllm生成フィッシングメールを,98.96のf1スコアで検出するための機械学習に基づく検出手法を提案する。 The critical threat of phishing emails has been further exacerbated by the potential of LLMs to generate highly targeted, personalized, and automated spear phishing attacks. Two critical problems concerning LLM-facilitated phishing require further investigation: 1) Existing studies on lateral phishing lack specific examination of LLM integration for large-scale attacks targeting the entire organization, and 2) Current anti-phishing infrastructure, despite its extensive development, lacks the capability to prevent LLM-generated attacks, potentially impacting both employees and IT security incident management. However, the execution of such investigative studies necessitates a real-world environment, one that functions during regular business operations and mirrors the complexity of a large organizational infrastructure. This setting must also offer the flexibility required to facilitate a diverse array of experimental conditions, particularly the incorporation of phishing emails crafted by LLMs. This study is a pioneering exploration into the use of Large Language Models (LLMs) for the creation of targeted lateral phishing emails, targeting a large tier 1 university's operation and workforce of approximately 9,000 individuals over an 11-month period. It also evaluates the capability of email filtering infrastructure to detect such LLM-generated phishing attempts, providing insights into their effectiveness and identifying potential areas for improvement. Based on our findings, we propose machine learning-based detection techniques for such emails to detect LLM-generated phishing emails that were missed by the existing infrastructure, with an F1-score of 98.96. | 翻訳日:2024-01-19 18:00:50 公開日:2024-01-18 |
# インフォデミック・サーベイランスのためのウイルスの噂と脆弱性のあるユーザー予測 Predicting Viral Rumors and Vulnerable Users for Infodemic Surveillance ( http://arxiv.org/abs/2401.09724v1 ) ライセンス: Link先を確認 | Xuan Zhang, Wei Gao | (参考訳) インフォデミックの時代には、急速に広まりそうな噂の拡散を効果的に監視するツールと、そのような誤った情報を広める可能性の高い脆弱なユーザーを特定することが重要である。
この積極的なアプローチは、誤った情報が社会に与える影響を軽減し、タイムリーに予防措置をとることができる。
本稿では,統一グラフニューラルネットワークモデルを用いて,ウイルスのうわさや脆弱ユーザを予測する新しい手法を提案する。
ネットワークベースのユーザ埋め込みを事前学習し,ユーザとポスト間のクロスアテンション機構とコミュニティエンハンスド脆弱性伝播(cvp)手法を併用することで,ユーザとプロパゲーショングラフ表現を改善する。
さらに,マルチタスクのトレーニング戦略を2つ導入し,各タスク間の負の伝達効果を軽減し,全体的な性能向上を図る。
また,既存のうわさ検出データセットから自動的に派生した,うわさおよび非うわさイベントにおける情報バイラル性およびユーザ脆弱性に関する基礎的注釈付きデータセットを2つ構築した。
共同学習モデルの広範囲な評価結果から,噂検出,バイラル性予測,ユーザ脆弱性スコアリングの3つの課題において,強いベースラインよりも優れていることが確認された。
例えば、Weiboデータセットに基づく最良のベースラインと比較して、私たちのモデルは、噂検出のための精度3.8\%とMacF1を3.0\%改善し、それぞれバイラル性予測とユーザ脆弱性評価のために平均2乗誤差(MSE)を23.9\%と16.5\%削減します。
提案手法は,噂のバイラル性とユーザ脆弱性の相関関係を効果的に捉え,この情報を利用して予測性能を向上し,インフォデミック監視に有用なツールを提供する。 In the age of the infodemic, it is crucial to have tools for effectively monitoring the spread of rampant rumors that can quickly go viral, as well as identifying vulnerable users who may be more susceptible to spreading such misinformation. This proactive approach allows for timely preventive measures to be taken, mitigating the negative impact of false information on society. We propose a novel approach to predict viral rumors and vulnerable users using a unified graph neural network model. We pre-train network-based user embeddings and leverage a cross-attention mechanism between users and posts, together with a community-enhanced vulnerability propagation (CVP) method to improve user and propagation graph representations. Furthermore, we employ two multi-task training strategies to mitigate negative transfer effects among tasks in different settings, enhancing the overall performance of our approach. We also construct two datasets with ground-truth annotations on information virality and user vulnerability in rumor and non-rumor events, which are automatically derived from existing rumor detection datasets. Extensive evaluation results of our joint learning model confirm its superiority over strong baselines in all three tasks: rumor detection, virality prediction, and user vulnerability scoring. For instance, compared to the best baselines based on the Weibo dataset, our model makes 3.8\% and 3.0\% improvements on Accuracy and MacF1 for rumor detection, and reduces mean squared error (MSE) by 23.9\% and 16.5\% for virality prediction and user vulnerability scoring, respectively. Our findings suggest that our approach effectively captures the correlation between rumor virality and user vulnerability, leveraging this information to improve prediction performance and provide a valuable tool for infodemic surveillance. | 翻訳日:2024-01-19 18:00:24 公開日:2024-01-18 |
# 点雲色情報の高速グラフ化 fast graph-based denoising for point cloud color information ( http://arxiv.org/abs/2401.09721v1 ) ライセンス: Link先を確認 | Ryosuke Watanabe and Keisuke Nonaka and Eduardo Pavez and Tatsuya Kobayashi and Antonio Ortega | (参考訳) ポイントクラウドは、クロスリアリティ(XR)やリアルな3Dディスプレイなど、さまざまな3Dアプリケーションで利用されている。
例えば、3dポイントクラウドを使ったライブストリーミングでは、視覚品質を向上させるためにリアルタイムポイントクラウドの表示方法が必要となる。
しかし、K近傍のグラフ構造とノイズレベル推定の複雑さのため、従来の高精度デノナイズ法は大規模点雲に対してリアルタイムに実行できない。
本稿では,大規模クラウドのための高速グラフベースデノイング(FGBD)を提案する。
まず,様々な方向の点雲を走査し,近傍の走査線を探索することで高速グラフ構築を実現する。
次に,グラフ上の共分散行列の固有値を用いた高速雑音レベル推定法を提案する。
また,高速化アルゴリズムによる劣化を補うために,デノナイジング精度を向上させるための新しい低コストフィルタ選択法を提案する。
実験では,従来手法と比較して精度を維持しつつ,処理時間を劇的に短縮することに成功した。
30fpsで撮影され、約100万点のフレームが撮影された。 Point clouds are utilized in various 3D applications such as cross-reality (XR) and realistic 3D displays. In some applications, e.g., for live streaming using a 3D point cloud, real-time point cloud denoising methods are required to enhance the visual quality. However, conventional high-precision denoising methods cannot be executed in real time for large-scale point clouds owing to the complexity of graph constructions with K nearest neighbors and noise level estimation. This paper proposes a fast graph-based denoising (FGBD) for a large-scale point cloud. First, high-speed graph construction is achieved by scanning a point cloud in various directions and searching adjacent neighborhoods on the scanning lines. Second, we propose a fast noise level estimation method using eigenvalues of the covariance matrix on a graph. Finally, we also propose a new low-cost filter selection method to enhance denoising accuracy to compensate for the degradation caused by the acceleration algorithms. In our experiments, we succeeded in reducing the processing time dramatically while maintaining accuracy relative to conventional denoising methods. Denoising was performed at 30fps, with frames containing approximately 1 million points. | 翻訳日:2024-01-19 17:59:48 公開日:2024-01-18 |
# Gaussian Body: 3d Gaussian Splattingによる衣服の復元 GaussianBody: Clothed Human Reconstruction via 3d Gaussian Splatting ( http://arxiv.org/abs/2401.09720v1 ) ライセンス: Link先を確認 | Mengtian Li, Shengxiang Yao, Zhifeng Xie, Keyu Chen, Yu-Gang Jiang | (参考訳) そこで本研究では,3次元ガウシアンスプレイティングをベースとした,ガウシアンボディと呼ばれる新しい布地復元手法を提案する。
3D Gaussian Splattingは、高価なニューラルラディアンスベースモデルと比較して、トレーニング時間とレンダリング品質の点で、最近優れたパフォーマンスを示している。
しかし, 動的復元問題に対する静的な3次元ガウススティングモデルの適用は, 複雑な非剛性変形とリッチな布の細部により容易ではない。
これらの課題に対処するため,本手法では,標準空間と観測空間をまたいで動的ガウスを関連付けるために,明示的なポーズ誘導変形を考える。
訓練中,不正確な初期推定を補償するためのポーズ回帰を更新するポーズ改善戦略と,回帰点雲の密度を高めるためのスプリット・ア・スケール機構を提案する。
提案手法は, ダイナミックな布を被る人体に対して, 鮮明な幾何学的再構成とともに, 高品質な細部を施した, 最先端のフォトリアリスティックなノベルビューレンダリングを実現できることを示す。 In this work, we propose a novel clothed human reconstruction method called GaussianBody, based on 3D Gaussian Splatting. Compared with the costly neural radiance based models, 3D Gaussian Splatting has recently demonstrated great performance in terms of training time and rendering quality. However, applying the static 3D Gaussian Splatting model to the dynamic human reconstruction problem is non-trivial due to complicated non-rigid deformations and rich cloth details. To address these challenges, our method considers explicit pose-guided deformation to associate dynamic Gaussians across the canonical space and the observation space, introducing a physically-based prior with regularized transformations helps mitigate ambiguity between the two spaces. During the training process, we further propose a pose refinement strategy to update the pose regression for compensating the inaccurate initial estimation and a split-with-scale mechanism to enhance the density of regressed point clouds. The experiments validate that our method can achieve state-of-the-art photorealistic novel-view rendering results with high-quality details for dynamic clothed human bodies, along with explicit geometry reconstruction. | 翻訳日:2024-01-19 17:59:32 公開日:2024-01-18 |
# 自閉症スペクトラム障害のある会話の分析のためのパラメータ選択 Parameter Selection for Analyzing Conversations with Autism Spectrum Disorder ( http://arxiv.org/abs/2401.09717v1 ) ライセンス: Link先を確認 | Tahiya Chowdhury and Veronica Romero and Amanda Stent | (参考訳) 自閉症スペクトラム障害(ASD)の診断は、生化学的診断ではなく、心理学者による相互作用行動の分析に依存するため、複雑で困難な課題である。
本稿では、典型的に(TD)を発達させている心理学者と子どもの診断会話から抽出された音響・韻律・言語的特徴を解析し、ASD診断のモデル化手法を提案する。
さまざまな機能への貢献をさまざまな会話タスクで比較します。
ASD児の会話行動の特徴を特徴づける最小限のパラメータの探索に焦点をあてる。
ASDは、子どもの行動の分析に加えて、会話を通して診断されるため、心理学者の会話行動が診断グループによって異なるかどうかも検討する。
以上の結果から,ASD児の会話データを詳細に分析し,診断と介入を支援することができた。 The diagnosis of autism spectrum disorder (ASD) is a complex, challenging task as it depends on the analysis of interactional behaviors by psychologists rather than the use of biochemical diagnostics. In this paper, we present a modeling approach to ASD diagnosis by analyzing acoustic/prosodic and linguistic features extracted from diagnostic conversations between a psychologist and children who either are typically developing (TD) or have ASD. We compare the contributions of different features across a range of conversation tasks. We focus on finding a minimal set of parameters that characterize conversational behaviors of children with ASD. Because ASD is diagnosed through conversational interaction, in addition to analyzing the behavior of the children, we also investigate whether the psychologist's conversational behaviors vary across diagnostic groups. Our results can facilitate fine-grained analysis of conversation data for children with ASD to support diagnosis and intervention. | 翻訳日:2024-01-19 17:59:09 公開日:2024-01-18 |
# HCVP: ドメイン一般化のための階層的コントラストビジュアルプロンプトの活用 HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain Generalization ( http://arxiv.org/abs/2401.09716v1 ) ライセンス: Link先を確認 | Guanglin Zhou and Zhongyi Han and Shiming Chen and Biwei Huang and Liming Zhu and Tongliang Liu and Lina Yao and Kun Zhang | (参考訳) ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
DGでは、不変な特徴をカプセル化する固定構造や一様パラメータ化にモデルを制約する一般的な実践は、特定の側面を不注意にブレンドすることができる。
このようなアプローチはドメイン間変異の微妙な分化に苦慮し、特定のドメインに対する偏見を示し、ドメイン不変の特徴の正確な学習を妨げる可能性がある。
そこで本研究では,モデルにドメインレベルとタスク固有の特性を補う新しい手法を提案する。
このアプローチは、特定の特徴から不変特徴をより効果的に分離し、一般化を促進することを目的としている。
DGパラダイムにおける視覚的プロンプトの出現傾向に基づいて、我々の研究は、新しい \textbf{H}ierarchical \textbf{C}ontrastive \textbf{V}isual \textbf{P}rompt (HCVP) 方法論を導入する。
これは、プロンプトに対するユニークな生成的アプローチと、明示的なモデル構造と特別な損失関数とを分離して、この分野における重要な進歩を示している。
HCVPは、データセット全体で頻繁に共有される従来の視覚的プロンプトとは違い、即時コントラスト学習によって強化された階層的なプロンプト生成ネットワークを使用している。
これらの生成プロンプトはインスタンスに依存し、異なるドメインとタスクに固有のユニークな特徴に対応します。
さらに,視覚トランスフォーマーバックボーンに生成された視覚プロンプトを効果的に組み込むことで,ブリッジとして機能するプロンプト変調ネットワークを考案する。
5つのDGデータセットで実施された実験は、HCVPの有効性を示し、確立されたDGアルゴリズムと適応プロトコルの両方より優れている。 Domain Generalization (DG) endeavors to create machine learning models that excel in unseen scenarios by learning invariant features. In DG, the prevalent practice of constraining models to a fixed structure or uniform parameterization to encapsulate invariant features can inadvertently blend specific aspects. Such an approach struggles with nuanced differentiation of inter-domain variations and may exhibit bias towards certain domains, hindering the precise learning of domain-invariant features. Recognizing this, we introduce a novel method designed to supplement the model with domain-level and task-specific characteristics. This approach aims to guide the model in more effectively separating invariant features from specific characteristics, thereby boosting the generalization. Building on the emerging trend of visual prompts in the DG paradigm, our work introduces the novel \textbf{H}ierarchical \textbf{C}ontrastive \textbf{V}isual \textbf{P}rompt (HCVP) methodology. This represents a significant advancement in the field, setting itself apart with a unique generative approach to prompts, alongside an explicit model structure and specialized loss functions. Differing from traditional visual prompts that are often shared across entire datasets, HCVP utilizes a hierarchical prompt generation network enhanced by prompt contrastive learning. These generative prompts are instance-dependent, catering to the unique characteristics inherent to different domains and tasks. Additionally, we devise a prompt modulation network that serves as a bridge, effectively incorporating the generated visual prompts into the vision transformer backbone. Experiments conducted on five DG datasets demonstrate the effectiveness of HCVP, outperforming both established DG algorithms and adaptation protocols. | 翻訳日:2024-01-19 17:58:55 公開日:2024-01-18 |
# skyeyegpt: 大きな言語モデルによる命令チューニングによる遠隔センシング視覚言語タスクの統合 SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction Tuning with Large Language Model ( http://arxiv.org/abs/2401.09712v1 ) ライセンス: Link先を確認 | Yang Zhan, Zhitong Xiong, Yuan Yuan | (参考訳) 大規模言語モデル(llm)は最近視覚言語領域に拡張され、印象的な汎用マルチモーダル機能を得た。
しかし、リモートセンシング(RS)データのためのマルチモーダル大言語モデル(MLLM)の探索はまだ初期段階であり、性能は不十分である。
本研究では,視覚言語理解に特化して設計された多モード大言語モデルSkyEyeGPTを紹介する。
この目的のために,マルチタスクとマルチタスクの会話命令を含む,RSマルチモーダル命令チューニングデータセットを慎重にキュレートする。
手動検証の結果,968kサンプルの高品質rs命令追従データセットが得られた。
我々の研究は、シンプルだが効果的な設計で、SkyEyeGPTは、余分なエンコーディングモジュールを必要とせずに、驚くほど異なるタスクで驚くほどうまく機能することを示した。
具体的には、アライメント層を介して言語ドメインにRS視覚機能を投影した後、タスク固有の命令と共同でLSMベースのRSデコーダに入力し、RSオープンなタスクに対する回答を予測する。
さらに、異なる粒度で命令追従と多ターン対話能力を向上させるための2段階チューニング手法を設計する。
RS視覚言語タスクのための8つのデータセットの実験は、画像レベルおよび領域レベルのタスクにおいてSkyEyeGPTが優れていることを示す。
特に、SkyEyeGPTは、いくつかの定性試験において、GPT-4Vと比較して奨励的な結果を示す。
オンラインデモ、コード、データセットはhttps://github.com/ZhanYang-nwpu/SkyEyeGPTで公開される。 Large language models (LLMs) have recently been extended to the vision-language realm, obtaining impressive general multi-modal capabilities. However, the exploration of multi-modal large language models (MLLMs) for remote sensing (RS) data is still in its infancy, and the performance is not satisfactory. In this work, we introduce SkyEyeGPT, a unified multi-modal large language model specifically designed for RS vision-language understanding. To this end, we meticulously curate an RS multi-modal instruction tuning dataset, including single-task and multi-task conversation instructions. After manual verification, we obtain a high-quality RS instruction-following dataset with 968k samples. Our research demonstrates that with a simple yet effective design, SkyEyeGPT works surprisingly well on considerably different tasks without the need for extra encoding modules. Specifically, after projecting RS visual features to the language domain via an alignment layer, they are fed jointly with task-specific instructions into an LLM-based RS decoder to predict answers for RS open-ended tasks. In addition, we design a two-stage tuning method to enhance instruction-following and multi-turn dialogue ability at different granularities. Experiments on 8 datasets for RS vision-language tasks demonstrate SkyEyeGPT's superiority in image-level and region-level tasks, such as captioning and visual grounding. In particular, SkyEyeGPT exhibits encouraging results compared to GPT-4V in some qualitative tests. The online demo, code, and dataset will be released in https://github.com/ZhanYang-nwpu/SkyEyeGPT. | 翻訳日:2024-01-19 17:58:20 公開日:2024-01-18 |
# P2Seg:相互蒸留によるポイント制御セグメンテーション P2Seg: Pointly-supervised Segmentation via Mutual Distillation ( http://arxiv.org/abs/2401.09709v1 ) ライセンス: Link先を確認 | Zipeng Wang, Xuehui Yu, Xumeng Han, Wenwen Yu, Zhixun Huang, Jianbin Jiao, Zhenjun Han | (参考訳) Point-level Supervised Instance Segmentation (PSIS)は、低コストのインスタンスインフォームティブアノテーションを利用することで、インスタンスセグメンテーションの適用性とスケーラビリティを高めることを目的としている。
既存のPSISメソッドは通常、オブジェクトを区別するために位置情報に依存するが、輪郭アノテーションがないため、正確な境界を予測することは難しい。
それにもかかわらず、弱教師付きセマンティックセグメンテーション法は、クラス内の特徴整合を利用して同じセマンティック領域の境界輪郭を捉えることに長けている。
本稿では, 実例位置と意味情報の相補的強度を活用し, 高精度な実例レベルの物体知覚を実現するための相互蒸留モジュール(MDM)を設計する。
MDMはSemantic to Instance (S2I) と Instance to Semantic (I2S) で構成されている。
S2Iは意味領域の正確な境界によってガイドされ、注釈付き点とインスタンスの輪郭の関係を学習する。
i2sはインスタンス間の識別関係を利用して、セマンティックマップ内のさまざまなオブジェクトの区別を容易にする。
広範囲にわたる実験は、インスタンスと意味情報の相乗効果を高めるためのMDMの有効性を実証し、結果としてインスタンスレベルのオブジェクト表現の品質を向上させる。
提案手法は,PASCAL VOCおよびMS COCOデータセット上で55.7 mAP$_{50}$と17.6 mAPを達成し,最近のPSIS法およびいくつかのボックス管理インスタンスセグメンテーション競合よりも大幅に優れている。 Point-level Supervised Instance Segmentation (PSIS) aims to enhance the applicability and scalability of instance segmentation by utilizing low-cost yet instance-informative annotations. Existing PSIS methods usually rely on positional information to distinguish objects, but predicting precise boundaries remains challenging due to the lack of contour annotations. Nevertheless, weakly supervised semantic segmentation methods are proficient in utilizing intra-class feature consistency to capture the boundary contours of the same semantic regions. In this paper, we design a Mutual Distillation Module (MDM) to leverage the complementary strengths of both instance position and semantic information and achieve accurate instance-level object perception. The MDM consists of Semantic to Instance (S2I) and Instance to Semantic (I2S). S2I is guided by the precise boundaries of semantic regions to learn the association between annotated points and instance contours. I2S leverages discriminative relationships between instances to facilitate the differentiation of various objects within the semantic map. Extensive experiments substantiate the efficacy of MDM in fostering the synergy between instance and semantic information, consequently improving the quality of instance-level object representations. Our method achieves 55.7 mAP$_{50}$ and 17.6 mAP on the PASCAL VOC and MS COCO datasets, significantly outperforming recent PSIS methods and several box-supervised instance segmentation competitors. | 翻訳日:2024-01-19 17:57:53 公開日:2024-01-18 |
# 同ゲート量子回路の分類とその時空対称性とレベルスペーシング分布への応用 Classification of same-gate quantum circuits and their space-time symmetries with application to the level-spacing distribution ( http://arxiv.org/abs/2401.09708v1 ) ライセンス: Link先を確認 | Urban Duh and Marko Znidaric | (参考訳) 最寄りの2サイトゲートに翻訳不変なFloquetシステムについて検討する。
ゲートが周期的な境界条件を持つNサイトシステムに適用される順序に依存すると、回路構成は因子的に異なる。
れんが壁の一般化や階段構成の一般化と見なすことのできるスペクトル同値なクラスはn-1のみであることが証明される。
すべてのクラスは2つの整数で特徴づけられ、非自明な時空対称性を持ち、量子カオスの標準指標であるレベルスペーシング分布に重要な意味を持つ。
すなわち、カオス性を研究するためには、フロケプロパゲーター自体の固有位相ではなく、プロパゲーターの適切な根のスペクトルに目を向けるべきである。 We study Floquet systems with translationally invariant nearest-neighbor 2-site gates. Depending on the order in which the gates are applied on an N-site system with periodic boundary conditions, there are factorially many different circuit configurations. We prove that there are only N-1 different spectrally equivalent classes which can be viewed either as a generalization of the brick-wall or of the staircase configuration. Every class, characterized by two integers, has a nontrivial space-time symmetry with important implications for the level-spacing distribution -- a standard indicator of quantum chaos. Namely, in order to study chaoticity one should not look at eigenphases of the Floquet propagator itself, but rather at the spectrum of an appropriate root of the propagator. | 翻訳日:2024-01-19 17:57:25 公開日:2024-01-18 |
# InfoNCE損失と言語スイッチング法を用いたトランスフォーマーベースモデルを用いたカリキュラム推薦 Curriculum Recommendations Using Transformer Base Model with InfoNCE Loss And Language Switching Method ( http://arxiv.org/abs/2401.09699v1 ) ライセンス: Link先を確認 | Xiaonan Xu, Bin Yuan, Yongyao Mo, Tianbo Song, Shulin Li | (参考訳) カリキュラム勧告パラダイムは、教育技術とカリキュラム開発における進化を続ける領域における学習平等の促進に向けられている。
コンテンツ紛争や言語翻訳の混乱など、既存の方法論によって引き起こされる固有の障害を認識するため、このパラダイムはこれらの課題に立ち向かい、克服することを目的としている。
特筆すべきは、言語翻訳によって引き起こされるコンテンツの衝突と混乱であり、全包括的でパーソナライズされた学習体験の作成を妨げる障害である。
このパラダイムの目的は、多様性を受け入れるだけでなく、各学習者の異なるニーズに合わせて学習体験をカスタマイズする教育環境を育むことである。
これらの課題を克服するため、私たちのアプローチはカリキュラム開発とパーソナライズドラーニングにおける注目すべき貢献に基づいて、3つの重要なイノベーションを導入しました。
これには、計算効率を向上させるためのTransformer Base Modelの統合、正確なコンテンツトピックマッチングのためのInfoNCE Lossの実装、翻訳関連の曖昧さを軽減するための言語切替戦略の導入が含まれる。
これらのイノベーションは共に、固有の課題に一括して取り組み、多様な学習者のためのより公平で効果的な学習の旅に貢献することを目的としている。
コンテントアライメント予測のための多種多様な言語的ニュアンスにおける手法の有効性を示す。
索引項(index terms-curriculum recommendation)、情報損失を伴うトランスフォーマーモデル、言語スイッチング。 The Curriculum Recommendations paradigm is dedicated to fostering learning equality within the ever-evolving realms of educational technology and curriculum development. In acknowledging the inherent obstacles posed by existing methodologies, such as content conflicts and disruptions from language translation, this paradigm aims to confront and overcome these challenges. Notably, it addresses content conflicts and disruptions introduced by language translation, hindrances that can impede the creation of an all-encompassing and personalized learning experience. The paradigm's objective is to cultivate an educational environment that not only embraces diversity but also customizes learning experiences to suit the distinct needs of each learner. To overcome these challenges, our approach builds upon notable contributions in curriculum development and personalized learning, introducing three key innovations. These include the integration of Transformer Base Model to enhance computational efficiency, the implementation of InfoNCE Loss for accurate content-topic matching, and the adoption of a language switching strategy to alleviate translation-related ambiguities. Together, these innovations aim to collectively tackle inherent challenges and contribute to forging a more equitable and effective learning journey for a diverse range of learners. Competitive cross-validation scores underscore the efficacy of sentence-transformers/LaBSE, achieving 0.66314, showcasing our methodology's effectiveness in diverse linguistic nuances for content alignment prediction. Index Terms-Curriculum Recommendation, Transformer model with InfoNCE Loss, Language Switching. | 翻訳日:2024-01-19 17:57:13 公開日:2024-01-18 |
# 線形に変化する非相反ホッピングを有する一次元格子における非エルミート皮膚効果の溶解 Dissolution of non-Hermitian skin effect in one-dimensional lattices with linearly varying nonreciprocal hopping ( http://arxiv.org/abs/2401.09697v1 ) ライセンス: Link先を確認 | Bo Hou, Han Xiao, Rong L\"u, and Qi-Bo Zeng | (参考訳) 線形に変化する非相互ホッピングを持つ一次元非エルミタン格子について検討し、非エルミタン皮膚効果(NHSE)は非相互性の強さが増加するにつれて徐々に溶解することを示した。
開境界条件下でのエネルギースペクトルは、非逆ホッピングが弱いとき、実および虚の固有エネルギーからなる。
興味深いことに、真の固有エネルギーは等間隔のはしごを形成し、対応する固有状態は NHSE によるガウス分布との境界で局所化される。
非相互性を高めることで、真の固有エネルギーの数は減少し、さらに多くの固有エネルギーが虚偽となる。
スペクトルにおける実数値遷移に伴い、固有状態は境界から格子のバルクに移動する。
非相互性が十分に強くなると、全スペクトルは虚数であり、NHSEはシステム内で完全に消え、すなわち全ての固有状態はバルク内部に局在するガウス境界状態となる。
我々の研究は、空間的に異なる非相互ホッピングを持つ非エルミート系のエキゾチックな性質を明らかにする。 We study the one-dimensional non-Hermitian lattices with linearly varying nonreciprocal hopping, where the non-Hermitian skin effect (NHSE) is found to be dissolved gradually as the strength of nonreciprocity increases. The energy spectrum under open boundary condition is composed of real and imaginary eigenenergies when the nonreciprocal hopping is weak. Interestingly, the real eigenenergies form an equally spaced ladder, and the corresponding eigenstates are localized at the boundary with a Gaussian distribution due to NHSE. By increasing the nonreciprocity, the number of real eigenenergies will decrease while more and more eigenenergies become imaginary. Accompanied by the real-imaginary transition in the spectrum, the eigenstates are shifted from the boundary into the bulk of the lattice. When the nonreciprocity gets strong enough, the whole spectrum will be imaginary and the NHSE disappears completely in the system, i.e., all the eigenstates become Gaussian bound states localized inside the bulk. Our work unveils the exotic properties of non-Hermitian systems with spatially varying nonreciprocal hopping. | 翻訳日:2024-01-19 17:56:46 公開日:2024-01-18 |
# ChatGPTはブレークアップテキストを書くべきか?
関係解消におけるAIの役割を探る Should ChatGPT Write Your Breakup Text? Exploring the Role of AI in Relationship Dissolution ( http://arxiv.org/abs/2401.09695v1 ) ライセンス: Link先を確認 | Yue Fu, Yixin Chen, Zelia Gomes Da Costa Lai, Alexis Hiniker | (参考訳) 幸福と幸福には関係が不可欠です。
関係の解消、関係のライフサイクルの最終段階、そして個人の人生における最もストレスの多い出来事の1つは、人々に対して深く、長く続く影響をもたらす。
コンピュータセンシングコミュニケーション(cmc)による分割過程の促進とai-mediated communication(aimc)ツールの今後の影響について,21名を対象に半構造化インタビューを行った。
理解することを目指しています
1) 解体プロセスにおける技術の役割
2)その過程における個人のニーズと支援
3)AIがこれらのニーズにどう対処するか。
我々の研究は、人々が関係を終わらせる様々な段階で異なるニーズを持っていることを示している。
現在、技術は情報収集やコミュニティ支援に使われ、分裂の触媒として働き、ゴーストやブロックを可能にし、コミュニケーションを促進する。
参加者は、AIが分裂につながる関係の感覚形成を助け、仲介者として働き、別れの会話中に適切な言葉、トーン、言語の作成を支援し、別れ後の仲間シップ、リフレクション、リカバリ、成長をサポートすることを期待している。
また,行動変化の分裂過程とttm(transtheoretical model)が重なり合うことを示した。
TTMのレンズを通じて、我々はAIがこの繊細なプロセスにおいてAIの役割について必要な注意事項を含む、AIがブレークアップで提供できる潜在的なサポートと余裕について調査する。 Relationships are essential to our happiness and wellbeing. The dissolution of a relationship, the final stage of relationship's lifecycle and one of the most stressful events in an individual's life, can have profound and long-lasting impacts on people. With the breakup process increasingly facilitated by computer-mediated communication (CMC), and the likely future influence of AI-mediated communication (AIMC) tools, we conducted a semi-structured interview study with 21 participants. We aim to understand: 1) the current role of technology in the breakup process, 2) the needs and support individuals have during the process, and 3) how AI might address these needs. Our research shows that people have distinct needs at various stages of ending a relationship. Presently, technology is used for information gathering and community support, acting as a catalyst for breakups, enabling ghosting and blocking, and facilitating communication. Participants anticipate that AI could aid in sense-making of their relationship leading up to the breakup, act as a mediator, assist in crafting appropriate wording, tones, and language during breakup conversations, and support companionship, reflection, recovery, and growth after a breakup. Our findings also demonstrate an overlap between the breakup process and the Transtheoretical Model (TTM) of behavior change. Through the lens of TTM, we explore the potential support and affordances AI could offer in breakups, including its benefits and the necessary precautions regarding AI's role in this sensitive process. | 翻訳日:2024-01-19 17:56:28 公開日:2024-01-18 |
# EfficientRec クラスタリングとユーザインタラクション埋め込みプロファイルに基づく無制限のユーザ-イテムスケールレコメンデーションシステム EfficientRec an unlimited user-item scale recommendation system based on clustering and users interaction embedding profile ( http://arxiv.org/abs/2401.09693v1 ) ライセンス: Link先を確認 | Vu Hong Quan, Le Hoang Ngan, Le Minh Duc, Nguyen Tran Ngoc Linh, and Hoang Quynh-Le | (参考訳) 近年、レコメンデーションシステムはテクノロジー企業への関心が高まっている。
企業は常にユーザやプロダクトを増加させており、時間とともにユーザやアイテムの数は増え続けています。
ユーザ数や項目数に依存する複雑さを持つ従来の推薦アルゴリズムは,産業環境への適応を困難にしている。
本稿では,グラフニューラルネットワークを,ユーザの好みを抽出するためのコントラスト学習フレームワークを用いて適用する新しい手法を提案する。
私たちは、推論プロセスの計算コストを大幅に削減するソフトクラスタリングアーキテクチャを取り込んでいます。
実験の結果,学習段階と予測段階の両方において,低い計算コストでユーザの好みを学習できることがわかった。
同時に、モデルは非常に優れた精度を提供する。
このアーキテクチャをEfficientRecと呼び、モデルコンパクトさと無制限のユーザや製品にスケールできる能力について述べます。 Recommendation systems are highly interested in technology companies nowadays. The businesses are constantly growing users and products, causing the number of users and items to continuously increase over time, to very large numbers. Traditional recommendation algorithms with complexity dependent on the number of users and items make them difficult to adapt to the industrial environment. In this paper, we introduce a new method applying graph neural networks with a contrastive learning framework in extracting user preferences. We incorporate a soft clustering architecture that significantly reduces the computational cost of the inference process. Experiments show that the model is able to learn user preferences with low computational cost in both training and prediction phases. At the same time, the model gives a very good accuracy. We call this architecture EfficientRec with the implication of model compactness and the ability to scale to unlimited users and products. | 翻訳日:2024-01-19 17:56:05 公開日:2024-01-18 |
# ニューラルネットワークの各層に画像特徴を入力した模倣学習 Imitation Learning Inputting Image Feature to Each Layer of Neural Network ( http://arxiv.org/abs/2401.09691v1 ) ライセンス: Link先を確認 | Koki Yamane, Sho Sakaino, Toshiaki Tsuji | (参考訳) 模倣学習は、トレーニングデータから人間の行動を学習し、再現することを可能にする。
機械学習の最近の進歩は、画像などの高次元観測データを直接処理するエンドツーエンドの学習アプローチを可能にする。
しかし、これらの手法は複数のモードからデータを処理する場合、特に短いサンプリング時間を使用する場合、特に所望の出力との相関が低いデータを不注意に無視する場合、重要な課題に直面している。
本稿では,各ニューラルネットワーク層にデータを入力することで,データの影響を比較的低い相関で増幅する,この課題に対処する有用な手法を提案する。
提案手法は,学習プロセスに多様なデータソースを効果的に組み込む。
原画像と関節情報を入力として簡単なピック・アンド・プレイス操作を用いた実験により,短いサンプリング期間のデータを扱う場合においても,成功率の大幅な向上が示された。 Imitation learning enables robots to learn and replicate human behavior from training data. Recent advances in machine learning enable end-to-end learning approaches that directly process high-dimensional observation data, such as images. However, these approaches face a critical challenge when processing data from multiple modalities, inadvertently ignoring data with a lower correlation to the desired output, especially when using short sampling periods. This paper presents a useful method to address this challenge, which amplifies the influence of data with a relatively low correlation to the output by inputting the data into each neural network layer. The proposed approach effectively incorporates diverse data sources into the learning process. Through experiments using a simple pick-and-place operation with raw images and joint information as input, significant improvements in success rates are demonstrated even when dealing with data from short sampling periods. | 翻訳日:2024-01-19 17:55:51 公開日:2024-01-18 |
# トップk近傍に基づくテキストプロンプト画像のCLIPモデル CLIP Model for Images to Textual Prompts Based on Top-k Neighbors ( http://arxiv.org/abs/2401.09763v1 ) ライセンス: Link先を確認 | Xin Zhang, Xin Zhang, YeMing Cai, Tianzhi Jia | (参考訳) 近年,マルチモーダル生成のサブフィールドであるテキストから画像への合成が注目されている。
生成モデルを利用して大量の注釈付きデータを必要としないテキストプロンプトを生成する,画像からプロンプト生成のための費用対効果の高い手法を提案する。
提案手法をオンラインステージとオフラインステージの2段階に分けた。
我々は、CLIPモデルとK-nearest neighbors (KNN)アルゴリズムを組み合わせる。
提案システムは,オフラインタスクとオンラインタスクの2つの主要な部分から構成される。
本手法は, クリップよりも0.013, 0.055, 0.011, clip + knn (top 10) 高い測定値を持つ。 Text-to-image synthesis, a subfield of multimodal generation, has gained significant attention in recent years. We propose a cost-effective approach for image-to-prompt generation that leverages generative models to generate textual prompts without the need for large amounts of annotated data. We divide our method into two stages: online stage and offline stage. We use a combination of the CLIP model and K-nearest neighbors (KNN) algorithm. The proposed system consists of two main parts: an offline task and an online task. Our method owns the highest metric 0.612 among these models, which is 0.013, 0.055, 0.011 higher than Clip, Clip + KNN(top 10) respectively. | 翻訳日:2024-01-19 17:48:26 公開日:2024-01-18 |
# ラベル集約によるクラウドソーシングとLCMのアノテーション品質の比較検討 A Comparative Study on Annotation Quality of Crowdsourcing and LLM via Label Aggregation ( http://arxiv.org/abs/2401.09760v1 ) ライセンス: Link先を確認 | Jiyi Li | (参考訳) 大規模言語モデル(LLM)がデータアノテーションタスクのクラウドソーシングを上回っているかどうかは、最近注目を集めている。
一部の研究は、新しいデータセットを収集して特定のNLPタスクにおいて、個々の群衆労働者とLLM労働者の平均的なパフォーマンスでこの問題を検証した。
しかし,クラウドソーシングにおける注釈品質研究のための既存のデータセットはまだそのような評価には利用されていないため,異なる視点から信頼性の高い評価が提供される可能性がある。
一方で,クラウドソーシングを利用する場合,複数のクラウドラベルから同じインスタンスに集約された推定ラベルが最終的に収集されたラベルであるため,これらの集約ラベルの品質が重要である。
そこで本稿では,まず,既存のクラウドソーシングデータセットを比較研究に利用し,ベンチマークを作成する方法について検討する。
次に,個々人の群集ラベルとllmラベルの質を比較し,総合ラベルの評価を行う。
さらに,Crowd-LLMハイブリッドラベルアグリゲーション手法を提案し,その性能を検証する。
既存のクラウドソーシングデータセットに優れたLLMラベルを付加することで,データセットの集約ラベルの品質が向上し,LLMラベル自体の品質よりも高いことが判明した。 Whether Large Language Models (LLMs) can outperform crowdsourcing on the data annotation task is attracting interest recently. Some works verified this issue with the average performance of individual crowd workers and LLM workers on some specific NLP tasks by collecting new datasets. However, on the one hand, existing datasets for the studies of annotation quality in crowdsourcing are not yet utilized in such evaluations, which potentially provide reliable evaluations from a different viewpoint. On the other hand, the quality of these aggregated labels is crucial because, when utilizing crowdsourcing, the estimated labels aggregated from multiple crowd labels to the same instances are the eventually collected labels. Therefore, in this paper, we first investigate which existing crowdsourcing datasets can be used for a comparative study and create a benchmark. We then compare the quality between individual crowd labels and LLM labels and make the evaluations on the aggregated labels. In addition, we propose a Crowd-LLM hybrid label aggregation method and verify the performance. We find that adding LLM labels from good LLMs to existing crowdsourcing datasets can enhance the quality of the aggregated labels of the datasets, which is also higher than the quality of LLM labels themselves. | 翻訳日:2024-01-19 17:48:14 公開日:2024-01-18 |
# SlideAVSR: 音声認識のための論文解説ビデオのデータセット SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition ( http://arxiv.org/abs/2401.09759v1 ) ライセンス: Link先を確認 | Hao Wang and Shuhei Kurita and Shuichiro Shimizu and Daisuke Kawahara | (参考訳) AVSR(Audio-visual speech Recognition)は、音声の補完としてビデオを使用する自動音声認識(ASR)のマルチモーダル拡張である。
avsrでは、リップリードなどの顔特徴のデータセットにかなりの努力が向けられているが、広い文脈での画像理解能力の評価には不足していることが多い。
本稿では,学術論文説明ビデオを用いたAVSRデータセットであるSlideAVSRを構築する。
SlideAVSRは、プレゼンテーション記録上のスライド上のテキストでモデルが音声を転写する新しいベンチマークを提供する。
論文の説明で頻繁に見られる技術的用語は、参照テキストなしでは書き起こしが難しいことで悪名高いため、SlideAVSRデータセットはAVSR問題の新たな側面を浮き彫りにしている。
簡易かつ効果的なベースラインとして,スライドからのテキスト情報を参照可能なavsrモデルであるdocwhisperを提案し,slideavsr上での有効性を確認する。 Audio-visual speech recognition (AVSR) is a multimodal extension of automatic speech recognition (ASR), using video as a complement to audio. In AVSR, considerable efforts have been directed at datasets for facial features such as lip-readings, while they often fall short in evaluating the image comprehension capabilities in broader contexts. In this paper, we construct SlideAVSR, an AVSR dataset using scientific paper explanation videos. SlideAVSR provides a new benchmark where models transcribe speech utterances with texts on the slides on the presentation recordings. As technical terminologies that are frequent in paper explanations are notoriously challenging to transcribe without reference texts, our SlideAVSR dataset spotlights a new aspect of AVSR problems. As a simple yet effective baseline, we propose DocWhisper, an AVSR model that can refer to textual information from slides, and confirm its effectiveness on SlideAVSR. | 翻訳日:2024-01-19 17:47:55 公開日:2024-01-18 |
# 名前付きエンティティにおける正規ポリセミーの解消 Resolving Regular Polysemy in Named Entities ( http://arxiv.org/abs/2401.09758v1 ) ライセンス: Link先を確認 | Shu-Kai Hsieh, Yu-Hsiang Tseng, Hsin-Yu Chou, Ching-Wen Yang, Yu-Yun Chang | (参考訳) 単語感覚の曖昧さは主に、予め定義された意味のインベントリに基づいて共通の単語の語彙的曖昧さを扱う。
逆に、適切な名前は通常アドホックな現実世界の参照者を指すと考えられている。
参照が決定されると、あいまいさは確実に解決される。
しかし、適切な名前は、アペラティビゼーション(appellativization)を通じて曖昧さ、すなわち、共通の言葉のように振舞い、参照者の異なる側面を表すこともある。
本論文では,正則なポリセミズムの光による固有名称のあいまいさに対処し,ドットオブジェクトとして定式化した。
本稿では,中国語のwordnet (cwn) と固有語をドットオブジェクトとして曖昧化するために,単語認識曖昧化(wsd)モデルを提案する。
このモデルは、cwnの用語と例文を利用する光沢ベースのモデルアーキテクチャの柔軟性を活用している。
その結果,比較的スパースなデータ集合でも,共通名詞と固有名詞の両方で競争結果が得られることがわかった。
パフォーマンスの高いwsdツールであるだけでなく、このモデルは語彙リソースの将来の開発をさらに促進します。 Word sense disambiguation primarily addresses the lexical ambiguity of common words based on a predefined sense inventory. Conversely, proper names are usually considered to denote an ad-hoc real-world referent. Once the reference is decided, the ambiguity is purportedly resolved. However, proper names also exhibit ambiguities through appellativization, i.e., they act like common words and may denote different aspects of their referents. We proposed to address the ambiguities of proper names through the light of regular polysemy, which we formalized as dot objects. This paper introduces a combined word sense disambiguation (WSD) model for disambiguating common words against Chinese Wordnet (CWN) and proper names as dot objects. The model leverages the flexibility of a gloss-based model architecture, which takes advantage of the glosses and example sentences of CWN. We show that the model achieves competitive results on both common and proper nouns, even on a relatively sparse sense dataset. Aside from being a performant WSD tool, the model further facilitates the future development of the lexical resource. | 翻訳日:2024-01-19 17:47:37 公開日:2024-01-18 |
# 5Gネットワークを越えた協調三点モデルによる地対空被覆拡張 Cooperative Tri-Point Model-Based Ground-to-Air Coverage Extension in Beyond 5G Networks ( http://arxiv.org/abs/2401.09757v1 ) ライセンス: Link先を確認 | Ziwei Cai, Min Sheng, Junju Liu, Chenxi Zhao and Jiandong Li | (参考訳) 既存の地上インフラを利用して航空利用者のカバーを提供することは、潜在的に低コストなソリューションである。
しかし、既に配備されている地上基地局(TBS)は、降着アンテナにより地上対空(G2A)が弱い。
さらに,3次元空間,特に垂直方向における複雑な信号カバレッジ要求のために,アンテナ調整による空間全体の最適カバレッジの実現が困難である。
本稿では,コラボレーティブ・ビームを用いたコラボレーティブ・トライポイント(cotp)モデルに基づくg2aカバレッジ拡張手法を提案する。
既存のTBSを有効協力の確立に活用するため、3つのTBS間の協調により、G2Aカバレッジを最小のカバレッジオーバーラップで確保できることを示すとともに、COTPモデルを用いてG2Aカバレッジ拡張を分析する。
このモデルを用いて, 三角柱状部分空間と対応するTBS協調集合を分割するために, デラウネー三角測量に基づく協調被覆構造を設計する。
地表面積を維持しながら異なる高さの空間をカバーできる協調作業用TBSを実現するため,三角プリズム形状の空域を最大化するための協調ビーム生成アルゴリズムを設計した。
シミュレーション結果とフィールド試験により,提案手法は地盤被覆を保証しながら,G2A範囲を効率的に拡張できることを示した。 The utilization of existing terrestrial infrastructures to provide coverage for aerial users is a potentially low-cost solution. However, the already deployed terrestrial base stations (TBSs) result in weak ground-to-air (G2A) coverage due to the down-tilted antennas. Furthermore, achieving optimal coverage across the entire airspace through antenna adjustment is challenging due to the complex signal coverage requirements in three-dimensional space, especially in the vertical direction. In this paper, we propose a cooperative tri-point (CoTP) model-based method that utilizes cooperative beams to enhance the G2A coverage extension. To utilize existing TBSs for establishing effective cooperation, we prove that the cooperation among three TBSs can ensure G2A coverage with a minimum coverage overlap, and design the CoTP model to analyze the G2A coverage extension. Using the model, a cooperative coverage structure based on Delaunay triangulation is designed to divide triangular prism-shaped subspaces and corresponding TBS cooperation sets. To enable TBSs in the cooperation set to cover different height subspaces while maintaining ground coverage, we design a cooperative beam generation algorithm to maximize the coverage in the triangular prism-shaped airspace. The simulation results and field trials demonstrate that the proposed method can efficiently enhance the G2A coverage extension while guaranteeing ground coverage. | 翻訳日:2024-01-19 17:47:22 公開日:2024-01-18 |
# シェープ値を用いたドリフトの説明 Explaining Drift using Shapley Values ( http://arxiv.org/abs/2401.09756v1 ) ライセンス: Link先を確認 | Narayanan U. Edakunni and Utkarsh Tekriwal and Anukriti Jain | (参考訳) 機械学習モデルは、トレーニングされていないデータよりも結果を予測するために使用されると、パフォーマンスが劣化することが多い。
これらのシナリオは、パンデミックのような大きな出来事によって、データの分布が徐々に、あるいは突然に変化するとき、現実世界で発生することが多い。
このようなコンセプトドリフトに耐性のあるテクニックを考案するために、機械学習の研究には多くの試みがあった。
しかし、モデル性能のドリフトの背後にあるドライバを特定するための原則的なフレームワークは存在しない。
本稿では,shapley値を用いてドリフトの主な貢献者を識別し,それぞれの貢献度を定量化する新しいフレームワークdbshapを提案する。
提案フレームワークはドリフトを駆動する際の個々の特徴の重要性を定量化するだけでなく,ドライバとしての入力と出力の関係の変化も含んでいる。
DBShapが提供する説明は、ドリフトの背後にある根本原因を理解し、ドリフトに弾力性を持たせるために使用することができる。 Machine learning models often deteriorate in their performance when they are used to predict the outcomes over data on which they were not trained. These scenarios can often arise in real world when the distribution of data changes gradually or abruptly due to major events like a pandemic. There have been many attempts in machine learning research to come up with techniques that are resilient to such Concept drifts. However, there is no principled framework to identify the drivers behind the drift in model performance. In this paper, we propose a novel framework - DBShap that uses Shapley values to identify the main contributors of the drift and quantify their respective contributions. The proposed framework not only quantifies the importance of individual features in driving the drift but also includes the change in the underlying relation between the input and output as a possible driver. The explanation provided by DBShap can be used to understand the root cause behind the drift and use it to make the model resilient to the drift. | 翻訳日:2024-01-19 17:46:57 公開日:2024-01-18 |
# 近傍類似性保存による普遍ロバストグラフニューラルネットワーク Universally Robust Graph Neural Networks by Preserving Neighbor Similarity ( http://arxiv.org/abs/2401.09754v1 ) ライセンス: Link先を確認 | Yulin Zhu, Yuni Lai, Xing Ai, Kai Zhou | (参考訳) グラフニューラルネットワークのリレーショナルデータ学習における大きな成功にもかかわらず、グラフニューラルネットワークはホモ親和性グラフに対する構造攻撃に弱いことが広く研究されている。
これにより、グラフニューラルネットワークの相同性グラフに対する対角的堅牢性を高めるために、ロバストモデルの増加が実現された。
しかし、異種グラフに基づく脆弱性はいまだに謎のままだ。
このギャップを埋めるため,本論文では,親和性グラフ上のグラフニューラルネットワークの脆弱性を探究し,理論的に負の分類損失の更新が,パワード・アグリゲートされた隣接特徴に基づくペアワイズ類似性と負の相関があることを実証する。
この理論的な証明は、グラフ攻撃者がホモ親和グラフとヘテロ親和グラフの両方のego特徴ではなく、隣り合う特徴の類似性に基づいて異なるノード対を接続する傾向があるという経験的観察を説明する。
このようにして、隣接する類似性誘導伝搬を監督するために、二重kNNグラフパイプラインを組み込んだNSPGNNと呼ばれる新しいロバストモデルを導入する。
この伝搬は、ローパスフィルタを用いて正のkNNグラフに沿ったノード対の特徴を円滑にし、ハイパスフィルタは負のkNNグラフに沿ったノード対の特徴を識別する。
ホモ親和グラフおよびヘテロ親和グラフの広範な実験は、最先端の手法と比較してNSPGNNの普遍的堅牢性を検証する。 Despite the tremendous success of graph neural networks in learning relational data, it has been widely investigated that graph neural networks are vulnerable to structural attacks on homophilic graphs. Motivated by this, a surge of robust models is crafted to enhance the adversarial robustness of graph neural networks on homophilic graphs. However, the vulnerability based on heterophilic graphs remains a mystery to us. To bridge this gap, in this paper, we start to explore the vulnerability of graph neural networks on heterophilic graphs and theoretically prove that the update of the negative classification loss is negatively correlated with the pairwise similarities based on the powered aggregated neighbor features. This theoretical proof explains the empirical observations that the graph attacker tends to connect dissimilar node pairs based on the similarities of neighbor features instead of ego features both on homophilic and heterophilic graphs. In this way, we novelly introduce a novel robust model termed NSPGNN which incorporates a dual-kNN graphs pipeline to supervise the neighbor similarity-guided propagation. This propagation utilizes the low-pass filter to smooth the features of node pairs along the positive kNN graphs and the high-pass filter to discriminate the features of node pairs along the negative kNN graphs. Extensive experiments on both homophilic and heterophilic graphs validate the universal robustness of NSPGNN compared to the state-of-the-art methods. | 翻訳日:2024-01-19 17:46:40 公開日:2024-01-18 |
# ポリオレフィン製造最適化への機械学習の適用 Applications of Machine Learning to Optimizing Polyolefin Manufacturing ( http://arxiv.org/abs/2401.09753v1 ) ライセンス: Link先を確認 | Niket Sharma and Y.A. Liu | (参考訳) この章は、化学およびポリオレフィン製造最適化における機械学習(ML)の活用に焦点を当てた、私たちの本からのプレプリントです。
化学プロセスにおける最新のml応用に熱中する初心者と経験豊富なプロフェッショナルの両方のために作られています。
化学産業におけるAIとMLの進化を辿り、コアMLコンポーネントを規定し、ML初心者のためのリソースを提供する。
各種ML手法について詳細な議論を行い, 回帰, 分類, 教師なし学習技術, 性能指標, 実例について述べる。
MLP, DNN, RNN, CNN, 変圧器などのエンサンブル手法, 深層学習ネットワークについて, 化学応用における役割の高まりについて検討した。
実践ワークショップは、高度なmlアルゴリズムを用いた予測モデリングを通じて読者を導く。
この章は、モデル精度を高めるハイブリッドアプローチを提唱する科学指導型MLに関する洞察で締めくくられる。
広範な文献学は、さらなる研究と実践のための資源を提供する。
この章は、MLの化学工学、特にポリオレフィン製造における実践的応用の徹底的なプライマーを目指しており、その後の章で引き続き学ぶためのステージを設定している。
参考までに原本[169,170]を引用してください。 This chapter is a preprint from our book by , focusing on leveraging machine learning (ML) in chemical and polyolefin manufacturing optimization. It's crafted for both novices and seasoned professionals keen on the latest ML applications in chemical processes. We trace the evolution of AI and ML in chemical industries, delineate core ML components, and provide resources for ML beginners. A detailed discussion on various ML methods is presented, covering regression, classification, and unsupervised learning techniques, with performance metrics and examples. Ensemble methods, deep learning networks, including MLP, DNNs, RNNs, CNNs, and transformers, are explored for their growing role in chemical applications. Practical workshops guide readers through predictive modeling using advanced ML algorithms. The chapter culminates with insights into science-guided ML, advocating for a hybrid approach that enhances model accuracy. The extensive bibliography offers resources for further research and practical implementation. This chapter aims to be a thorough primer on ML's practical application in chemical engineering, particularly for polyolefin production, and sets the stage for continued learning in subsequent chapters. Please cite the original work [169,170] when referencing. | 翻訳日:2024-01-19 17:46:16 公開日:2024-01-18 |
# 動的関節分布適応を用いた話者独立音声認識の改良 Improving Speaker-independent Speech Emotion Recognition Using Dynamic Joint Distribution Adaptation ( http://arxiv.org/abs/2401.09752v1 ) ライセンス: Link先を確認 | Cheng Lu, Yuan Zong, Hailun Lian, Yan Zhao, Bj\"orn Schuller, and Wenming Zheng | (参考訳) 話者に依存しない音声感情認識では、トレーニングとテストサンプルは多様な話者から収集され、異なる話者からのデータの特徴分布にまたがるマルチドメインシフトの課題につながる。
その結果、トレーニングされたモデルが新しい話者のデータに直面すると、その性能は低下する傾向にある。
この問題に対処するため,マルチソースドメイン適応の枠組みに基づく動的共同分散適応法(DJDA)を提案する。
DJDAは、まず、境界分布適応(MDA)と条件分布適応(CDA)を含む関節分布適応(JDA)を利用し、異なる話者によるマルチドメイン分布シフトをより正確に測定する。
これにより、感情特徴の話者バイアスを排除し、識別的および話者不変の音声感情特徴を粗いレベルから細かいレベルに学習することができる。
さらに、$\mathcal{A}$-Distanceに基づく動的バランス係数を用いて、JDA内のMDAおよびCDAの適応寄与を定量化し、新しい話者のデータから発生する未知の分布を効果的に扱うことを促進した。
実験により,他のSOTA法と比較して,DJDAの優れた性能が示された。 In speaker-independent speech emotion recognition, the training and testing samples are collected from diverse speakers, leading to a multi-domain shift challenge across the feature distributions of data from different speakers. Consequently, when the trained model is confronted with data from new speakers, its performance tends to degrade. To address the issue, we propose a Dynamic Joint Distribution Adaptation (DJDA) method under the framework of multi-source domain adaptation. DJDA firstly utilizes joint distribution adaptation (JDA), involving marginal distribution adaptation (MDA) and conditional distribution adaptation (CDA), to more precisely measure the multi-domain distribution shifts caused by different speakers. This helps eliminate speaker bias in emotion features, allowing for learning discriminative and speaker-invariant speech emotion features from coarse-level to fine-level. Furthermore, we quantify the adaptation contributions of MDA and CDA within JDA by using a dynamic balance factor based on $\mathcal{A}$-Distance, promoting to effectively handle the unknown distributions encountered in data from new speakers. Experimental results demonstrate the superior performance of our DJDA as compared to other state-of-the-art (SOTA) methods. | 翻訳日:2024-01-19 17:45:56 公開日:2024-01-18 |
# 分散ランダムネットワーク蒸留による探索と反探索 Exploration and Anti-Exploration with Distributional Random Network Distillation ( http://arxiv.org/abs/2401.09750v1 ) ライセンス: Link先を確認 | Kai Yang, Jian Tao, Jiafei Lyu, Xiu Li | (参考訳) エージェントが未知の環境で高いリターンを得るための深層強化学習において、探索は依然として重要な課題である。
探索的ランダムネットワーク蒸留(RND)アルゴリズムは、多くの環境で有効であることが証明されているが、しばしばボーナスアロケーションにおいてより識別力を必要とする。
本稿では,RND における 'bonus inconsistency' 問題に注目し,その限界を指摘する。
この問題に対処するために, RND の派生である Distributional RND (DRND) を導入する。
drndはランダムネットワークの分布を蒸留し、疑似カウントを暗黙的に組み込んでボーナス割り当ての精度を向上させることで探索プロセスを強化する。
この改良により、エージェントはより広範な探査に従事した。
本手法は,計算オーバーヘッドの増大を伴わずに,不整合問題を効果的に軽減する。
理論解析と実験の結果から,本手法が従来の rnd アルゴリズムよりも優れていることが示された。
本手法は,D4RLオフラインタスクにおける探索防止機構として有効である。 Exploration remains a critical issue in deep reinforcement learning for an agent to attain high returns in unknown environments. Although the prevailing exploration Random Network Distillation (RND) algorithm has been demonstrated to be effective in numerous environments, it often needs more discriminative power in bonus allocation. This paper highlights the ``bonus inconsistency'' issue within RND, pinpointing its primary limitation. To address this issue, we introduce the Distributional RND (DRND), a derivative of the RND. DRND enhances the exploration process by distilling a distribution of random networks and implicitly incorporating pseudo counts to improve the precision of bonus allocation. This refinement encourages agents to engage in more extensive exploration. Our method effectively mitigates the inconsistency issue without introducing significant computational overhead. Both theoretical analysis and experimental results demonstrate the superiority of our approach over the original RND algorithm. Our method excels in challenging online exploration scenarios and effectively serves as an anti-exploration mechanism in D4RL offline tasks. | 翻訳日:2024-01-19 17:45:34 公開日:2024-01-18 |
# OTS-Funcimg事前学習モデル(Botfip) -- 包括的シンボリック回帰フレームワーク Bootstrapping OTS-Funcimg Pre-training Model (Botfip) -- A Comprehensive Symbolic Regression Framework ( http://arxiv.org/abs/2401.09748v1 ) ライセンス: Link先を確認 | Tianhao Chen, Pengbo Xu, Haibiao Zheng | (参考訳) 科学コンピューティングの分野では、多くの問題解決アプローチはプロセスと最終結果にのみ焦点をあてる傾向があり、科学のためのAIでさえ、データの背後にある深いマルチモーダル情報マイニングが欠如しており、画像テキストドメインと同様のマルチモーダルフレームワークが欠落している。
本稿では,Symbolic Regression(SR)を焦点とし,画像テキスト領域におけるBLIPモデルからインスピレーションを得て,Funcimg(Funcimg)とOTS(Operation Tree Sequence)に基づく科学計算マルチモーダルフレームワーク,Bootstrapping OTS-Funcimg事前学習モデル(Botfip)を提案する。
SR実験において,低複雑性SR問題におけるBotfipの利点を検証し,その可能性を示す。
MEDフレームワークとして、Botfipは幅広い科学計算問題における将来の応用を約束している。 In the field of scientific computing, many problem-solving approaches tend to focus only on the process and final outcome, even in AI for science, there is a lack of deep multimodal information mining behind the data, missing a multimodal framework akin to that in the image-text domain. In this paper, we take Symbolic Regression(SR) as our focal point and, drawing inspiration from the BLIP model in the image-text domain, propose a scientific computing multimodal framework based on Function Images (Funcimg) and Operation Tree Sequence (OTS), named Bootstrapping OTS-Funcimg Pre-training Model (Botfip). In SR experiments, we validate the advantages of Botfip in low-complexity SR problems, showcasing its potential. As a MED framework, Botfip holds promise for future applications in a broader range of scientific computing problems. | 翻訳日:2024-01-19 17:45:18 公開日:2024-01-18 |
# 拡散視覚プログラマとしての画像翻訳 Image Translation as Diffusion Visual Programmers ( http://arxiv.org/abs/2401.09742v1 ) ライセンス: Link先を確認 | Cheng Han, James C. Liang, Qifan Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Ying Nian Wu, Dongfang Liu | (参考訳) 本稿では,ニューロシンボリック画像翻訳フレームワークであるdvpを提案する。
提案したDVPはGPTアーキテクチャ内に条件フレキシブル拡散モデルをシームレスに組み込み,RoI識別,スタイル転送,位置操作にまたがる多種多様な視覚的プログラム(コンピュータビジョンモデル)のコヒーレントなシーケンスを編成し,透過的かつ制御可能な画像翻訳プロセスを容易にする。
大規模な実験は、DVPの卓越したパフォーマンスを示し、同時に芸術を超越している。
第一に、DVPはインスタンスの正規化を通じて条件フレキシブルな翻訳を実現し、手動ガイダンスによる感度を排除し、高品質なコンテンツ生成のためのテキスト記述に最適に集中できるようにします。
第二に、このフレームワークは特徴空間における複雑な高次元概念をよりアクセスしやすい低次元のシンボル(例えば [Prompt], [RoI object])に解読することで、コンテキスト内推論を強化する。
最後に、DVPは、各プログラミング段階で明示的な記号表現を提供することで、システム制御性と説明可能性を改善し、ユーザが直感的に解釈し、結果を変更することを可能にする。
我々の研究は、人工画像翻訳プロセスと認知知能を調和させるための重要なステップであり、より広範な応用を約束する。 We introduce the novel Diffusion Visual Programmer (DVP), a neuro-symbolic image translation framework. Our proposed DVP seamlessly embeds a condition-flexible diffusion model within the GPT architecture, orchestrating a coherent sequence of visual programs (i.e., computer vision models) for various pro-symbolic steps, which span RoI identification, style transfer, and position manipulation, facilitating transparent and controllable image translation processes. Extensive experiments demonstrate DVP's remarkable performance, surpassing concurrent arts. This success can be attributed to several key features of DVP: First, DVP achieves condition-flexible translation via instance normalization, enabling the model to eliminate sensitivity caused by the manual guidance and optimally focus on textual descriptions for high-quality content generation. Second, the framework enhances in-context reasoning by deciphering intricate high-dimensional concepts in feature spaces into more accessible low-dimensional symbols (e.g., [Prompt], [RoI object]), allowing for localized, context-free editing while maintaining overall coherence. Last but not least, DVP improves systemic controllability and explainability by offering explicit symbolic representations at each programming stage, empowering users to intuitively interpret and modify results. Our research marks a substantial step towards harmonizing artificial image translation processes with cognitive intelligence, promising broader applications. | 翻訳日:2024-01-19 17:44:57 公開日:2024-01-18 |
# 方向距離場を用いた3次元幾何モデル間の相違の測定 Measuring the Discrepancy between 3D Geometric Models using Directional Distance Fields ( http://arxiv.org/abs/2401.09736v1 ) ライセンス: Link先を確認 | Siyu Ren, Junhui Hou, Xiaodong Chen, Hongkai Xiong, and Wenping Wang | (参考訳) ポイントクラウドまたはトライアングルメッシュで表現できる3D幾何モデル間の相違の定式化は、ボードアプリケーションにおいて重要な問題である。
既存の方法は、主に2つのモデル間の対応性を直接確立し、それから対応するポイント間の点距離を集約することに焦点を当て、その結果、それらは非効率または非効率である。
本稿では,3次元幾何学データに対する効率良く,効果的で,ロバストで,微分可能な距離メトリックである dirdist を提案する。
具体的には,提案する3dモデルの暗黙的表現,すなわち3d点の方向距離を定義する方向距離場(ddf)に基づいてディルディストを構築し,その局所面形状を捉える。
次に、2つの3次元幾何モデル間の差分を同一領域上で定義されたDFF間の差分として転送し、モデル対応を自然に確立する。
DirDistの利点を実証するため,テンプレート表面の嵌合,剛性登録,非剛性登録,シーンフロー推定,人間のポーズ最適化など,距離メトリック駆動型3次元幾何モデリングタスクについて検討した。
大規模な実験により、我々のDirDistは全てのタスクにおいてかなり高い精度を達成できることがわかった。
一般的な距離計量として、ディルディストは3次元幾何学モデリングの分野を前進させる可能性がある。
ソースコードは \url{https://github.com/rsy6318/dirdist} で入手できる。 Qualifying the discrepancy between 3D geometric models, which could be represented with either point clouds or triangle meshes, is a pivotal issue with board applications. Existing methods mainly focus on directly establishing the correspondence between two models and then aggregating point-wise distance between corresponding points, resulting in them being either inefficient or ineffective. In this paper, we propose DirDist, an efficient, effective, robust, and differentiable distance metric for 3D geometry data. Specifically, we construct DirDist based on the proposed implicit representation of 3D models, namely directional distance field (DDF), which defines the directional distances of 3D points to a model to capture its local surface geometry. We then transfer the discrepancy between two 3D geometric models as the discrepancy between their DDFs defined on an identical domain, naturally establishing model correspondence. To demonstrate the advantage of our DirDist, we explore various distance metric-driven 3D geometric modeling tasks, including template surface fitting, rigid registration, non-rigid registration, scene flow estimation and human pose optimization. Extensive experiments show that our DirDist achieves significantly higher accuracy under all tasks. As a generic distance metric, DirDist has the potential to advance the field of 3D geometric modeling. The source code is available at \url{https://github.com/rsy6318/DirDist}. | 翻訳日:2024-01-19 17:44:30 公開日:2024-01-18 |
# 多モードNOON状態による光子損失に対する最適多重位相推定 Optimal multiple-phase estimation with multi-mode NOON states against photon loss ( http://arxiv.org/abs/2401.09734v1 ) ライセンス: Link先を確認 | Min Namkung, Dong-Hyun Kim, Seongjin Hong, Yong-Su Kim, Changhyoup Lee, and Hyang-Tag Lim | (参考訳) マルチモード正午状態は光子損失のない量子エンハンス多相推定が可能である。
しかし、マルチモードNOON状態は光子損失に弱いことが知られており、その量子エンハンスメントは損失環境によって消散することができる。
本研究では、推定精度における量子的優位性を、光子損失の存在下でも達成できることを実証する。
これは、他の位相を定義する参照モードを含む多重モードにおける光子損失率に応じて、多重モードNOON状態の重みを最適化することで達成される。
また,光子数を多モードビームスプリッタでカウントすることで,準最適,量子的優位性が得られることを示す。
この研究は、損失のある環境で量子化多重位相推定技術を開発するための貴重なガイダンスを提供することを期待している。 Multi-mode NOON states can quantum-enhance multiple-phase estimation in the absence of photon loss. However, a multi-mode NOON state is known to be vulnerable to photon loss, and its quantum-enhancement can be dissipated by lossy environment. In this work, we demonstrate that a quantum advantage in estimate precision can still be achieved in the presence of photon loss. This is accomplished by optimizing the weights of the multi-mode NOON states according to photon loss rates in the multiple modes, including the reference mode which defines the other phases. For practical relevance, we also show that photon-number counting via a multi-mode beam-splitter achieves the useful, albeit sub-optimal, quantum advantage. We expect this work to provide valuable guidance for developing quantum-enhanced multiple-phase estimation techniques in lossy environments. | 翻訳日:2024-01-19 17:44:07 公開日:2024-01-18 |
# Open-vocabulary Video Instance Segmentation 用テキストとしてのBrownian Bridge Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation ( http://arxiv.org/abs/2401.09732v1 ) ライセンス: Link先を確認 | Zesen Cheng and Kehan Li and Hao Li and Peng Jin and Chang Liu and Xiawu Zheng and Rongrong Ji and Jie Chen | (参考訳) 任意のクラステキストでオブジェクトを一時配置することは、オープン語彙ビデオインスタンスセグメンテーション(VIS)の第一の追求である。
ビデオデータの語彙不足のため、従来の手法では、各フレームとクラステキストを別々に調整し、フレーム間の相関を無視して、オブジェクトインスタンスを認識するための画像テキストプリトレーニングモデルを利用している。
その結果、分離はビデオのインスタンスの動きコンテキストを破り、ビデオとテキストの間に劣ったアライメントを引き起こす。
この問題に対処するため、Brownian Bridgeとしてフレームレベルのインスタンス表現をリンクしてインスタンスダイナミクスをモデル化し、より正確にオープンなVIS(BriVIS)のためにブリッジレベルのインスタンス表現をクラステキストにアライメントすることを提案する。
具体的には,フレームレベルのインスタンスクエリを生成するための冷凍ビデオセグメンタ上にシステムを構築し,フレームクエリから時間的コンテキストでクエリを生成するためのTIR(Temporal Instance Resampler)を設計する。
ブラウンブリッジに従うインスタンスクエリを型付けし、クラステキストとの整合を達成するために、ブリッジテキストアライメント(bta)を設計し、対照的な目的を通じてインスタンスの橋レベル表現を識別する。
MinVISを基本的なビデオセグメンタとし、Open-vocabulary SOTA (OV2Seg) をクリアマージンで上回る。
例えば、挑戦的な大語彙VISデータセット(BURST)では、7.43mAPに達し、OV2Seg (4.97mAP)と比較して49.49%改善されている。 Temporally locating objects with arbitrary class texts is the primary pursuit of open-vocabulary Video Instance Segmentation (VIS). Because of the insufficient vocabulary of video data, previous methods leverage image-text pretraining model for recognizing object instances by separately aligning each frame and class texts, ignoring the correlation between frames. As a result, the separation breaks the instance movement context of videos, causing inferior alignment between video and text. To tackle this issue, we propose to link frame-level instance representations as a Brownian Bridge to model instance dynamics and align bridge-level instance representation to class texts for more precisely open-vocabulary VIS (BriVIS). Specifically, we build our system upon a frozen video segmentor to generate frame-level instance queries, and design Temporal Instance Resampler (TIR) to generate queries with temporal context from frame queries. To mold instance queries to follow Brownian bridge and accomplish alignment with class texts, we design Bridge-Text Alignment (BTA) to learn discriminative bridge-level representations of instances via contrastive objectives. Setting MinVIS as the basic video segmentor, BriVIS surpasses the Open-vocabulary SOTA (OV2Seg) by a clear margin. For example, on the challenging large-vocabulary VIS dataset (BURST), BriVIS achieves 7.43 mAP and exhibits 49.49% improvement compared to OV2Seg (4.97 mAP). | 翻訳日:2024-01-19 17:43:51 公開日:2024-01-18 |
# PatchAD: 時系列異常検出のためのパッチベースMLPミキサ PatchAD: Patch-based MLP-Mixer for Time Series Anomaly Detection ( http://arxiv.org/abs/2401.09793v1 ) ライセンス: Link先を確認 | Zhijie Zhong, Zhiwen Yu, Yiyuan Yang, Weizheng Wang, Kaixiang Yang | (参考訳) 異常検出は時系列分析の重要な側面であり、時系列サンプルにおける異常事象の同定を目的としている。
このタスクの中心的な課題は、ラベルラッキングシナリオにおける正規および異常パターンの表現を効果的に学習することにある。
これまでの研究は主に復元に基づくアプローチに依存し、モデルの表現能力を制限していた。
さらに、現在のディープラーニングベースの手法のほとんどは十分に軽量ではないため、異常検出のためのより効率的なフレームワークを設計する必要がある。
本研究では,表現抽出と異常検出にコントラスト学習を利用するマルチスケールパッチベースmlp-mixerアーキテクチャであるpatchadを提案する。
具体的には、PatchADは4つの異なるMLPミキサーで構成されており、MLPアーキテクチャを高効率で軽量なアーキテクチャにのみ活用している。
さらに,潜在的なモデル劣化を軽減するために,2つの制約モジュールを革新的に開発した。
総合的な実験により、PatchADは複数の実世界の多変量時系列データセットにまたがって最先端の結果を達成する。
私たちのコードは公開されています。
\footnote{\url{https://github.com/EmorZz1G/PatchAD}} Anomaly detection stands as a crucial aspect of time series analysis, aiming to identify abnormal events in time series samples. The central challenge of this task lies in effectively learning the representations of normal and abnormal patterns in a label-lacking scenario. Previous research mostly relied on reconstruction-based approaches, restricting the representational abilities of the models. In addition, most of the current deep learning-based methods are not lightweight enough, which prompts us to design a more efficient framework for anomaly detection. In this study, we introduce PatchAD, a novel multi-scale patch-based MLP-Mixer architecture that leverages contrastive learning for representational extraction and anomaly detection. Specifically, PatchAD is composed of four distinct MLP Mixers, exclusively utilizing the MLP architecture for high efficiency and lightweight architecture. Additionally, we also innovatively crafted a dual project constraint module to mitigate potential model degradation. Comprehensive experiments demonstrate that PatchAD achieves state-of-the-art results across multiple real-world multivariate time series datasets. Our code is publicly available.\footnote{\url{https://github.com/EmorZz1G/PatchAD}} | 翻訳日:2024-01-19 17:35:28 公開日:2024-01-18 |
# BreastRegNet:乳房酸素線と病理像の登録のためのディープラーニングフレームワーク BreastRegNet: A Deep Learning Framework for Registration of Breast Faxitron and Histopathology Images ( http://arxiv.org/abs/2401.09791v1 ) ライセンス: Link先を確認 | Negar Golestani, Aihui Wang, Gregory R Bean, and Mirabela Rusu | (参考訳) 乳がんの標準治療プロトコルは、腫瘍や周囲の組織を外科的に除去し、ネオアジュバント治療を行う。
病理学者は通常、乳房の摘出組織を調べ、残存疾患の程度を診断するために、ファキシトロンと呼ばれるキャビネットx線ラジオグラフに頼っている。
しかし, 残存癌の位置, サイズ, 焦点を正確に判定することは困難であり, 誤った評価が臨床結果につながる可能性がある。
自動化された方法を利用することで病理組織学のプロセスが改善され、病理医はより効果的かつ正確にサンプリングできる領域を選択できる。
認識されている必要性にもかかわらず、現在ではそのような方法が存在しない。
このような自動検出モデルの訓練には、ファキシトロンと病理像を登録し、がんの程度を病理組織学からX線画像にマッピングすることで取得できる、現生放射線画像の正確な真実ラベルが必要である。
本研究では,モノモダル合成画像ペアを用いた深層学習に基づく画像登録手法を提案する。
モデルは、ネオアジュバント化学療法を受け、手術を受けた50人の女性のデータを用いて訓練された。
その結果,本手法はより高速で,最先端反復 (4.43\pm4.1$ mm) およびディープラーニング (4.02\pm3.15$ mm) アプローチよりも平均ランドマーク誤差 (2.1\pm1.96$ mm) が著しく低いことがわかった。
放射線学と病理情報の統合によるアプローチの性能向上により,大規模なデータセットの生成が容易となり,より正確な乳癌検出のためのトレーニングモデルが実現された。 A standard treatment protocol for breast cancer entails administering neoadjuvant therapy followed by surgical removal of the tumor and surrounding tissue. Pathologists typically rely on cabinet X-ray radiographs, known as Faxitron, to examine the excised breast tissue and diagnose the extent of residual disease. However, accurately determining the location, size, and focality of residual cancer can be challenging, and incorrect assessments can lead to clinical consequences. The utilization of automated methods can improve the histopathology process, allowing pathologists to choose regions for sampling more effectively and precisely. Despite the recognized necessity, there are currently no such methods available. Training such automated detection models require accurate ground truth labels on ex-vivo radiology images, which can be acquired through registering Faxitron and histopathology images and mapping the extent of cancer from histopathology to x-ray images. This study introduces a deep learning-based image registration approach trained on mono-modal synthetic image pairs. The models were trained using data from 50 women who received neoadjuvant chemotherapy and underwent surgery. The results demonstrate that our method is faster and yields significantly lower average landmark error ($2.1\pm1.96$ mm) over the state-of-the-art iterative ($4.43\pm4.1$ mm) and deep learning ($4.02\pm3.15$ mm) approaches. Improved performance of our approach in integrating radiology and pathology information facilitates generating large datasets, which allows training models for more accurate breast cancer detection. | 翻訳日:2024-01-19 17:35:10 公開日:2024-01-18 |
# 産業4.0におけるビッグデータ探査のセマンティックアプローチ A Semantic Approach for Big Data Exploration in Industry 4.0 ( http://arxiv.org/abs/2401.09789v1 ) ライセンス: Link先を確認 | Idoia Berges, V\'ictor Julio Ram\'irez-Dur\'an, Arantza Illarramendi | (参考訳) 自動化、モノのインターネット、ビッグデータ、クラウドコンピューティング技術のトレンドは、第4次産業革命(Industry 4.0)に繋がった。そこでは、パターンや洞察を視覚化し、識別することが可能であり、それによってデータの理解を深め、製造プロセスを改善することができる。
しかし,データ探索の課題は,事前設計した可視化には現れないデータ分析に関心があるため,情報技術の専門家の支援を受ける必要があるため,製造の専門家にとっては困難である。
本稿では,ドメインの専門家がデータのフレンドリーな探索と視覚化を可能にする,実業界 4.0 シナリオ用に開発された意味に基づくビジュアルクエリシステムを提案する。
システムの主な特徴は、セマンティックな注釈付きデータと、セマンティックな記述と結びついているマシンの2Dカスタマイズされたデジタル表現を組み合わせた使い方である。
これらの記述はオントロジーの用語を用いて表現され、特に産業用4.0シナリオに属する機械の性能の指標を捉えるために使用されるセンサーがモデル化されている。
さらに、このセマンティックな記述により、より高度な抽象化レベルでクエリを定式化し、データの形式と性質に基づいて結果のカスタマイズされたグラフィカルな視覚化を提供し、さらなるタイプの分析を可能にするリッチなデータをダウンロードすることができる。 The growing trends in automation, Internet of Things, big data and cloud computing technologies have led to the fourth industrial revolution (Industry 4.0), where it is possible to visualize and identify patterns and insights, which results in a better understanding of the data and can improve the manufacturing process. However, many times, the task of data exploration results difficult for manufacturing experts because they might be interested in analyzing also data that does not appear in pre-designed visualizations and therefore they must be assisted by Information Technology experts. In this paper, we present a proposal materialized in a semantic-based visual query system developed for a real Industry 4.0 scenario that allows domain experts to explore and visualize data in a friendly way. The main novelty of the system is the combined use that it makes of captured data that are semantically annotated first, and a 2D customized digital representation of a machine that is also linked with semantic descriptions. Those descriptions are expressed using terms of an ontology, where, among others, the sensors that are used to capture indicators about the performance of a machine that belongs to a Industry 4.0 scenario have been modeled. Moreover, this semantic description allows to: formulate queries at a higher level of abstraction, provide customized graphical visualizations of the results based on the format and nature of the data, and download enriched data enabling further types of analysis. | 翻訳日:2024-01-19 17:34:38 公開日:2024-01-18 |
# 深層能動学習のためのフリップフロップ型サンプル検索 Querying Easily Flip-flopped Samples for Deep Active Learning ( http://arxiv.org/abs/2401.09787v1 ) ライセンス: Link先を確認 | Seong Jin Cho, Gwangsu Kim, Junghyun Lee, Jinwoo Shin, and Chang D. Yoo | (参考訳) アクティブラーニング(Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルのパフォーマンス向上を目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
サンプルから決定境界までの距離は予測の不確かさの自然な尺度であるが、特に多クラス分類タスクで形成される複雑な決定境界について計算することはしばしば難解である。
この問題に対処するため,本研究では,予測ラベルの不一致の最小確率として定義されたLDMと,軽微な仮定の下で漸近的に一貫したLDM推定器を提案する。
この推定器は計算効率が高く,パラメータ摂動を用いたディープラーニングモデルに容易に実装できる。
LDMに基づくアクティブラーニングは、ラベルなしデータを最小のLCMでクエリすることで行う。
実験の結果, ldmベースのアクティブラーニングアルゴリズムは, 検討されたすべてのデータセットと深層アーキテクチャにおいて, 最先端の総合的性能を得ることができた。 Active learning is a machine learning paradigm that aims to improve the performance of a model by strategically selecting and querying unlabeled data. One effective selection strategy is to base it on the model's predictive uncertainty, which can be interpreted as a measure of how informative a sample is. The sample's distance to the decision boundary is a natural measure of predictive uncertainty, but it is often intractable to compute, especially for complex decision boundaries formed in multiclass classification tasks. To address this issue, this paper proposes the {\it least disagree metric} (LDM), defined as the smallest probability of disagreement of the predicted label, and an estimator for LDM proven to be asymptotically consistent under mild assumptions. The estimator is computationally efficient and can be easily implemented for deep learning models using parameter perturbation. The LDM-based active learning is performed by querying unlabeled data with the smallest LDM. Experimental results show that our LDM-based active learning algorithm obtains state-of-the-art overall performance on all considered datasets and deep architectures. | 翻訳日:2024-01-19 17:34:13 公開日:2024-01-18 |
# 細粒度シーングラフ生成のための適応型自己学習フレームワーク Adaptive Self-training Framework for Fine-grained Scene Graph Generation ( http://arxiv.org/abs/2401.09786v1 ) ライセンス: Link先を確認 | Kibum Kim, Kanghoon Yoon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park | (参考訳) シーングラフ生成(SGG)モデルは、長い尾の述語分布やアノテーションの欠如といったベンチマークデータセットに固有の問題に悩まされている。
本研究では, 注釈のない三つ子を用いて, SGGの長期問題を軽減することを目的とする。
そこで本研究では,SGGモデルがトレーニングされている無注釈三重項に対して擬似ラベルを割り当てる,SGG(ST-SGG)の自己評価フレームワークを提案する。
画像認識のための自己学習には大きな進歩があったが、意味的あいまいさや述語クラスの長期分布といった固有の性質から、SGGタスクのための自己学習フレームワークの設計は困難である。
そこで本研究では,既存のsggモデルに適用可能なモデル非依存フレームワークであるcatm(class-specific adaptive thresholding with momentum)という,sggのための新しい擬似ラベル手法を提案する。
さらに,提案する自己学習フレームワークをmpnn(state-of-the-art message-passing neural network)ベースのsggモデルに適用する上で有用なグラフ構造学習器(gsl)を考案する。
各種SGGモデルにおけるST-SGGの有効性,特に詳細な述語クラスの性能向上について検討した。 Scene graph generation (SGG) models have suffered from inherent problems regarding the benchmark datasets such as the long-tailed predicate distribution and missing annotation problems. In this work, we aim to alleviate the long-tailed problem of SGG by utilizing unannotated triplets. To this end, we introduce a Self-Training framework for SGG (ST-SGG) that assigns pseudo-labels for unannotated triplets based on which the SGG models are trained. While there has been significant progress in self-training for image recognition, designing a self-training framework for the SGG task is more challenging due to its inherent nature such as the semantic ambiguity and the long-tailed distribution of predicate classes. Hence, we propose a novel pseudo-labeling technique for SGG, called Class-specific Adaptive Thresholding with Momentum (CATM), which is a model-agnostic framework that can be applied to any existing SGG models. Furthermore, we devise a graph structure learner (GSL) that is beneficial when adopting our proposed self-training framework to the state-of-the-art message-passing neural network (MPNN)-based SGG models. Our extensive experiments verify the effectiveness of ST-SGG on various SGG models, particularly in enhancing the performance on fine-grained predicate classes. | 翻訳日:2024-01-19 17:33:55 公開日:2024-01-18 |
# eコマースバイヤーセラーメッセージングにおけるインスタント応答 Instant Answering in E-Commerce Buyer-Seller Messaging ( http://arxiv.org/abs/2401.09785v1 ) ライセンス: Link先を確認 | Besnik Fetahu, Tejas Mehta, Qun Song, Nikhita Vedula, Oleg Rokhlenko, Shervin Malmasi | (参考訳) 電子商取引の顧客は、購入決定のための詳細な製品情報を求めることが多い。
この手動応答要求は追加のコストを課し、購入者のショッピング体験を乱し、応答時間は時間から日によって変動する。
我々は、ドメイン特化連合質問応答(qa)システムを用いて、大手電子商店の売り手に対する買い手問い合わせの自動化を目指す。
最大の課題は、単一質問用に設計された現在のQAシステムに、詳細な顧客クエリに対処することである。
我々は、低レイテンシ、シーケンシャル-to-sequenceアプローチ、message-to-question (m2q)でこれに対処する。
メッセージから最も健全な情報を識別して抽出することで、バイヤーメッセージを簡潔な質問に再構成する。
ベースラインに対する評価の結果,M2Qは質問理解において757%,回答率は1,746%の相対的な増加を示した。
ライブ配信では、自動回答は、販売者が年間数百万のメッセージに手動で応答するのを防ぐだけでなく、購入者が返信を待つ必要をなくすことで顧客の購入決定を加速する。 E-commerce customers frequently seek detailed product information for purchase decisions, commonly contacting sellers directly with extended queries. This manual response requirement imposes additional costs and disrupts buyer's shopping experience with response time fluctuations ranging from hours to days. We seek to automate buyer inquiries to sellers in a leading e-commerce store using a domain-specific federated Question Answering (QA) system. The main challenge is adapting current QA systems, designed for single questions, to address detailed customer queries. We address this with a low-latency, sequence-to-sequence approach, MESSAGE-TO-QUESTION ( M2Q ). It reformulates buyer messages into succinct questions by identifying and extracting the most salient information from a message. Evaluation against baselines shows that M2Q yields relative increases of 757% in question understanding, and 1,746% in answering rate from the federated QA system. Live deployment shows that automatic answering saves sellers from manually responding to millions of messages per year, and also accelerates customer purchase decisions by eliminating the need for buyers to wait for a reply | 翻訳日:2024-01-19 17:33:33 公開日:2024-01-18 |
# 大規模言語モデルにおけるバイアスの活用:"bias-kNN'"による効果的なFew-Shot学習 Leveraging Biases in Large Language Models: "bias-kNN'' for Effective Few-Shot Learning ( http://arxiv.org/abs/2401.09783v1 ) ライセンス: Link先を確認 | Yong Zhang, Hanzhang Li, Zhitao Li, Ning Cheng, Ming Li, Jing Xiao, Jianzong Wang | (参考訳) 大きな言語モデル(LLM)は、ゼロショットや少数ショット学習など、様々なアプリケーションにおいて大きな可能性を示している。
しかし、それらのパフォーマンスは固有のバイアスによって妨げられる。
従来,これらのバイアスを最小限に抑え,修正しようとする手法ではなく,‘bias-kNN’という新しい方法論を導入する。
このアプローチはバイアスのある出力を活かし、kNNの主要な特徴として活用し、金のラベルを補足する。
多様なドメインテキスト分類データセットと異なるGPT-2モデルサイズにまたがる包括的評価は,‘bias-kNN'法の適応性と有効性を示している。
注目すべきは、このアプローチが従来の文脈内学習を数ショットのシナリオで上回るだけでなく、サンプル、テンプレート、言葉遣いのスペクトルにわたって堅牢性を示すことだ。
そこで本研究では, バイアスを利用したモデル性能向上のための資産化について考察した。 Large Language Models (LLMs) have shown significant promise in various applications, including zero-shot and few-shot learning. However, their performance can be hampered by inherent biases. Instead of traditionally sought methods that aim to minimize or correct these biases, this study introduces a novel methodology named ``bias-kNN''. This approach capitalizes on the biased outputs, harnessing them as primary features for kNN and supplementing with gold labels. Our comprehensive evaluations, spanning diverse domain text classification datasets and different GPT-2 model sizes, indicate the adaptability and efficacy of the ``bias-kNN'' method. Remarkably, this approach not only outperforms conventional in-context learning in few-shot scenarios but also demonstrates robustness across a spectrum of samples, templates and verbalizers. This study, therefore, presents a unique perspective on harnessing biases, transforming them into assets for enhanced model performance. | 翻訳日:2024-01-19 17:33:14 公開日:2024-01-18 |
# 散逸環境におけるデチューニングがエントロピー不確実性と量子相関に及ぼす影響 The effects of detuning on entropic uncertainty bound and quantum correlations in dissipative environment ( http://arxiv.org/abs/2401.09782v1 ) ライセンス: Link先を確認 | Shahram Mehrmanesh, Maryam Hadipour, Maryam Hadipour | (参考訳) 量子情報理論の基本的な議論の1つは不確実性原理である。
この原理に従って、2つの非互換な観測可能量は高い精度で同時に測定することはできない。
本研究では,量子メモリの存在下でのエントロピー不確実性関係を用いる。
散逸環境を考えると、量子メモリの遷移周波数とキャビティの中心周波数との調律がエントリピック不確実性境界と量子メモリと測定粒子との量子相関に与える影響について検討する。
デチューニングを増加させることで、量子相関が維持されることが示されている。
その結果、不確実性境界と量子相関との逆関係により、測定結果はより正確に推測される。 One of the fundamental arguments in quantum information theory is the uncertainty principle. In accordance with this principle, two incompatible observables cannot be measured with high precision at the same time. In this work, we will use the entropic uncertainty relation in the presence of quantum memory. Considering a dissipative environment, the effects of the detuning between the transition frequency of a quantum memory and the center frequency of a cavity on entrpic uncertainty bound and quantum correlation between quantum memory and measured particle will be studied. It is shown that by increasing the detuning, quantum correlation is maintained. As a result, due to the inverse relationship between the uncertainty bound and quantum correlation, the measurement results is guessed more accurately. | 翻訳日:2024-01-19 17:32:56 公開日:2024-01-18 |
# yes/no質問の制御可能な非文脈化と事実文への回答 Controllable Decontextualization of Yes/No Question and Answers into Factual Statements ( http://arxiv.org/abs/2401.09775v1 ) ライセンス: Link先を確認 | Lingbo Mo, Besnik Fetahu, Oleg Rokhlenko, Shervin Malmasi | (参考訳) yes/no または polar question は主要な言語質問のカテゴリの1つである。
これらは主尋問節からなり、回答は二項(主張または否定)である。
ポーラ質問と回答(PQA)は、フォーラムやeコマースアプリケーションなど、多くのコミュニティや他のキュレートされたQAソースに存在する貴重な知識リソースを表している。
他の文脈で極性のある質問のみに答えを使うことは自明ではない。
回答は文脈化され、質問質問節と回答者との共有知識が提供されると仮定される。
本稿では,極性質問に対する回答の制御可能な書き直しの問題に対処する。
本稿では,制御可能な書き直しを保証するためにソフト制約を利用するトランスフォーマーシーケンス to シーケンスモデルを提案し,その出力文が意味論的にPQA入力と等価であることを示す。
自動評価と人的評価の指標を用いて測定した3つのPQAデータセットの評価は,提案手法が既存のベースラインと比較して最高の性能を達成することを示す。 Yes/No or polar questions represent one of the main linguistic question categories. They consist of a main interrogative clause, for which the answer is binary (assertion or negation). Polar questions and answers (PQA) represent a valuable knowledge resource present in many community and other curated QA sources, such as forums or e-commerce applications. Using answers to polar questions alone in other contexts is not trivial. Answers are contextualized, and presume that the interrogative question clause and any shared knowledge between the asker and answerer are provided. We address the problem of controllable rewriting of answers to polar questions into decontextualized and succinct factual statements. We propose a Transformer sequence to sequence model that utilizes soft-constraints to ensure controllable rewriting, such that the output statement is semantically equivalent to its PQA input. Evaluation on three separate PQA datasets as measured through automated and human evaluation metrics show that our proposed approach achieves the best performance when compared to existing baselines. | 翻訳日:2024-01-19 17:32:46 公開日:2024-01-18 |
# 大規模音声映像言語モデルにおける音声幻覚について On the Audio Hallucinations in Large Audio-Video Language Models ( http://arxiv.org/abs/2401.09774v1 ) ライセンス: Link先を確認 | Taichi Nishimura and Shota Nakada and Masayoshi Kondo | (参考訳) 大規模なオーディオビデオ言語モデルは、ビデオとオーディオの両方に記述を生成することができる。
しかし、時にはオーディオコンテンツを無視し、視覚情報のみに依存するオーディオ記述を生成する。
本稿では、これを音声幻覚と呼び、それを大規模オーディオビデオ言語モデルで分析する。
音声情報について質問して1000文を集め,幻覚を含むか否かを注釈する。
文が幻覚化されている場合、幻覚の種類も分類する。
その結果,332文は幻覚型ごとに名詞や動詞に異なる傾向が観察されることがわかった。
そこで本研究では,ゼロショットおよび微調整設定における事前学習音声テキストモデルを用いた音声幻覚分類の課題に取り組む。
実験結果から、ゼロショットモデルはランダム(40.3%)よりも高い性能(52.2%)、微調整モデルは87.9%、ゼロショットモデルより優れていた。 Large audio-video language models can generate descriptions for both video and audio. However, they sometimes ignore audio content, producing audio descriptions solely reliant on visual information. This paper refers to this as audio hallucinations and analyzes them in large audio-video language models. We gather 1,000 sentences by inquiring about audio information and annotate them whether they contain hallucinations. If a sentence is hallucinated, we also categorize the type of hallucination. The results reveal that 332 sentences are hallucinated with distinct trends observed in nouns and verbs for each hallucination type. Based on this, we tackle a task of audio hallucination classification using pre-trained audio-text models in the zero-shot and fine-tuning settings. Our experimental results reveal that the zero-shot models achieve higher performance (52.2% in F1) than the random (40.3%) and the fine-tuning models achieve 87.9%, outperforming the zero-shot models. | 翻訳日:2024-01-19 17:32:27 公開日:2024-01-18 |
# SEINE: Nucleiインスタンスセグメンテーションのための構造エンコーディングとインタラクションネットワーク SEINE: Structure Encoding and Interaction Network for Nuclei Instance Segmentation ( http://arxiv.org/abs/2401.09773v1 ) ライセンス: Link先を確認 | Ye Zhang, Linghan Cai, Ziyue Wang, Yongbing Zhang | (参考訳) 病理組織像における核インスタンスセグメンテーションは, 生物学的解析と癌診断において非常に重要であるが, 2つの理由から困難である。
1) クロモフォブ核の核内領域と核外領域の類似した視覚的表示は、しばしば低セグメンテーションを引き起こし、(2) 現行の手法は核構造の探索を欠いているため、断片化されたインスタンス予測をもたらす。
そこで本稿では,核の構造モデリング手法を開発し,核間の構造類似性を活用し,各セグメントインスタンスの積分性を向上させる構造符号化・相互作用ネットワークであるseineを提案する。
具体的には、核構造と意味学の相関を考慮し、核構造の合理的な表現を実現する輪郭構造符号化(SE)を導入する。
符号化に基づいて、ファジィ核の構造学習を強化するために、透明核をプロトタイプとして用いた構造誘導注意(SGA)を提案する。
構造学習能力を強化するため、意味的特徴融合(SFF)が提示され、意味的および構造的分岐のセマンティック一貫性が向上する。
さらに、不正確な核境界予測を抑えるために位置強調法(PE)を適用した。
大規模な実験は我々のアプローチの優位性を示し、SEINEは4つのデータセット上で最先端(SOTA)性能を達成する。
コードは \href{https://github.com/zhangye-zoe/SEINE}{https://github.com/zhangye-zoe/SEINE} で公開されている。 Nuclei instance segmentation in histopathological images is of great importance for biological analysis and cancer diagnosis but remains challenging for two reasons. (1) Similar visual presentation of intranuclear and extranuclear regions of chromophobe nuclei often causes under-segmentation, and (2) current methods lack the exploration of nuclei structure, resulting in fragmented instance predictions. To address these problems, this paper proposes a structure encoding and interaction network, termed SEINE, which develops the structure modeling scheme of nuclei and exploits the structure similarity between nuclei to improve the integrality of each segmented instance. Concretely, SEINE introduces a contour-based structure encoding (SE) that considers the correlation between nuclei structure and semantics, realizing a reasonable representation of the nuclei structure. Based on the encoding, we propose a structure-guided attention (SGA) that takes the clear nuclei as prototypes to enhance the structure learning for the fuzzy nuclei. To strengthen the structural learning ability, a semantic feature fusion (SFF) is presented to boost the semantic consistency of semantic and structure branches. Furthermore, a position enhancement (PE) method is applied to suppress incorrect nuclei boundary predictions. Extensive experiments demonstrate the superiority of our approaches, and SEINE achieves state-of-the-art (SOTA) performance on four datasets. The code is available at \href{https://github.com/zhangye-zoe/SEINE}{https://github.com/zhangye-zoe/SEINE}. | 翻訳日:2024-01-19 17:32:13 公開日:2024-01-18 |
# 異端性のあるグラフから学ぶ : 進歩と未来 Towards Learning from Graphs with Heterophily: Progress and Future ( http://arxiv.org/abs/2401.09769v1 ) ライセンス: Link先を確認 | Chenghua Gong, Yao Cheng, Xiang Li, Caihua Shan, Siqiang Luo, Chuan Shi | (参考訳) グラフは、現実世界のエンティティ間の複雑な関係をモデル化する構造化データである。
連結ノードが異なるラベルや異種な特徴を持つ傾向にあるヘテロフィルスグラフは、最近大きな注目を集め、多くのアプリケーションを発見した。
一方、異種グラフからの学習を促進する努力が増加している。
関連するトピックに関する調査は存在するが、ヘテロ親和性グラフ学習のサブトピックであるヘテロ親和性GNNに焦点を当てている。
本調査では、ヘテロフィリーグラフによる学習に関する既存の研究を概観し、まず180以上の出版物を収集し、その分野の発展を紹介する。
そこで我々は,学習戦略,モデルアーキテクチャ,実践的応用を含む階層的分類に基づく既存手法を体系的に分類する。
最後に、既存の研究の主な課題を議論し、今後の研究に有望な道筋を強調する。出版の詳細と対応するオープンソースコードにアクセスして、リポジトリで継続的に更新します。 Graphs are structured data that models complex relations between real-world entities. Heterophilous graphs, where linked nodes are prone to be with different labels or dissimilar features, have recently attracted significant attention and found many applications. Meanwhile, increasing efforts have been made to advance learning from heterophilous graphs. Although there exist surveys on the relevant topic, they focus on heterophilous GNNs, which are only sub-topics of heterophilous graph learning. In this survey, we comprehensively overview existing works on learning from graphs with heterophily.First, we collect over 180 publications and introduce the development of this field. Then, we systematically categorize existing methods based on a hierarchical taxonomy including learning strategies, model architectures and practical applications. Finally, we discuss the primary challenges of existing studies and highlight promising avenues for future research.More publication details and corresponding open-source codes can be accessed and will be continuously updated at our repositories:https://github.com/gongchenghua/Awesome-Survey-Graphs-with-Heterophily. | 翻訳日:2024-01-19 17:31:46 公開日:2024-01-18 |
# ダイヤモンド型原子アンサンブルに基づく通信周波数変換のための量子インタフェース Quantum interface for telecom frequency conversion based on diamond-type atomic ensembles ( http://arxiv.org/abs/2401.09768v1 ) ライセンス: Link先を確認 | Po-Han Tseng, Ling-Chun Chen, Jiun-Shiuan Shiu, Yong-Fan Chen | (参考訳) ファイバベースの量子ネットワークでは、通信帯域を活用することが、量子ノード間の長距離量子情報(QI)伝送に不可欠である。
しかし、近赤外波長はアルカリ原子によるQIの処理と保存に最適である。
原子量子デバイスと通信ファイバ間の周波数ギャップを効率よく埋めつつ、光子によって運ばれるQIを維持することは、量子周波数変換(QFC)が中心的な量子インターフェースとして扱う課題である。
本研究では,ダイヤモンド型4波混合(FWM)とルビジウムエネルギーレベルを用いた通信バンドQFC機構について検討した。
この機構は、光子を795nmの近赤外波長と1367nmまたは1529nmの通信帯域に変換する。
Heisenberg-Langevin 法を応用し、量子ノイズを考慮した変換効率(CE)を最適化し、対応する実験パラメータを提示する。
適用された吸収損失を無視する先行研究とは異なり,本研究は実用シナリオとより関連がある。
さらに, 減密度演算理論を用いることで, 高純度QFCを実現するために, 真空場雑音の影響を受けずに高忠実度で量子特性を維持できることを示す。
もう一つの重要な貢献は、このスキームが光子数、経路、偏光度で符号化されたQIにどのように影響するかを調べることである。
これらの符号化量子ビットは、十分に高CE下での顕著な絡み合い保持を示す。
完全CEの場合、このスキームは統一忠実性を達成することができる。
この包括的探究は、量子ネットワークにおける原子アンサンブルに基づくダイヤモンド型qfcスキームの応用を理論的に支援し、分散量子コンピューティングと長距離量子通信におけるスキームの進歩に不可欠な基礎を築いた。 In a fiber-based quantum network, utilizing the telecom band is crucial for long-distance quantum information (QI) transmission between quantum nodes. However, the near-infrared wavelength is identified as optimal for processing and storing QI through alkaline atoms. Efficiently bridging the frequency gap between atomic quantum devices and telecom fibers while maintaining QI carried by photons is a challenge addressed by quantum frequency conversion (QFC) as a pivotal quantum interface. This study explores a telecom-band QFC mechanism using diamond-type four-wave mixing (FWM) with rubidium energy levels. The mechanism converts photons between the near-infrared wavelength of 795 nm and the telecom band of 1367 or 1529 nm. Applying the Heisenberg-Langevin approach, we optimize conversion efficiency (CE) across varying optical depths while considering quantum noises and present corresponding experimental parameters. Unlike previous works neglecting the applied field absorption loss, our results are more relevant to practical scenarios. Moreover, by employing the reduced-density-operator theory, we demonstrate that this diamond-type FWM scheme maintains quantum characteristics with high fidelity, unaffected by vacuum field noise, enabling high-purity QFC. Another significant contribution lies in examining how this scheme impacts QI encoded in photon-number, path, and polarization degrees of freedom. These encoded qubits exhibit remarkable entanglement retention under sufficiently high CE. In the case of perfect CE, the scheme can achieve unity fidelity. This comprehensive exploration provides theoretical support for the application of the diamond-type QFC scheme based on atomic ensembles in quantum networks, laying the essential groundwork for advancing the scheme in distributed quantum computing and long-distance quantum communication. | 翻訳日:2024-01-19 17:31:29 公開日:2024-01-18 |
# 機能レベル脆弱性検出器の手続き間脆弱性に対する有効性について On the Effectiveness of Function-Level Vulnerability Detectors for Inter-Procedural Vulnerabilities ( http://arxiv.org/abs/2401.09767v1 ) ライセンス: Link先を確認 | Zhen Li, Ning Wang, Deqing Zou, Yating Li, Ruqian Zhang, Shouhuai Xu, Chao Zhang, Hai Jin | (参考訳) ソフトウェアの脆弱性は大きなサイバー脅威であり、それらを検出することが重要である。
脆弱性を検出するための重要なアプローチの1つは、プログラム機能全体を処理しながらディープラーニングを使用することである。
しかし、このアプローチの限界は理解されていない。
本稿では,プロセス間脆弱性(inter-procedural vulnerabilities)として知られる1種類の脆弱性を検出する際の限界について検討する。
この目的のために,c/c++オープンソースソフトウェアに基づく最初のプロセス間脆弱性データセット(interpvd)を作成し,vultriggerと呼ばれる関数間の脆弱性トリガーステートメントを識別するツールを提案する。
実験の結果、VulTriggerは脆弱性トリガステートメントとプロセス間脆弱性を効果的に識別できることがわかった。
私たちの発見には
(i)プロセス間脆弱性は、平均2.8層のプロセス間脆弱性と共用する。
(ii) 機能レベルの脆弱性検出装置は,手続き内脆弱性を検知するよりも,プロセス間脆弱性のパッチ対象の機能検出に効果が低い。 Software vulnerabilities are a major cyber threat and it is important to detect them. One important approach to detecting vulnerabilities is to use deep learning while treating a program function as a whole, known as function-level vulnerability detectors. However, the limitation of this approach is not understood. In this paper, we investigate its limitation in detecting one class of vulnerabilities known as inter-procedural vulnerabilities, where the to-be-patched statements and the vulnerability-triggering statements belong to different functions. For this purpose, we create the first Inter-Procedural Vulnerability Dataset (InterPVD) based on C/C++ open-source software, and we propose a tool dubbed VulTrigger for identifying vulnerability-triggering statements across functions. Experimental results show that VulTrigger can effectively identify vulnerability-triggering statements and inter-procedural vulnerabilities. Our findings include: (i) inter-procedural vulnerabilities are prevalent with an average of 2.8 inter-procedural layers; and (ii) function-level vulnerability detectors are much less effective in detecting to-be-patched functions of inter-procedural vulnerabilities than detecting their counterparts of intra-procedural vulnerabilities. | 翻訳日:2024-01-19 17:30:57 公開日:2024-01-18 |
# 操作制御型遠隔操作の実現 Realization of controlled Remote implementation of operation ( http://arxiv.org/abs/2401.09766v1 ) ライセンス: Link先を確認 | Shaomin Liu, Qi-Lin Zhang and Lin Chen | (参考訳) control remote implementation of operation (crio) は、強力なセキュリティを備えた遠隔操作を実現する。
我々は光子キャビティ原子系の量子ビットを絡み合わせることで実装を伝達する。
ファイバーで転移する光子と光学キャビティに埋め込まれた原子はCZゲートを構成する。
ゲートは、コントローラの許可を得て、参加者間で実装を転送する。
また, アルカリ金属原子間の非断熱的ホロノミック制御ゲートを構築する。
デコヒーレンスと散逸は実装演算子の忠実度を低下させる。
ゲートのロバスト性を改善するために, 遮蔽効果と動的スキームを適用した。 Controlled remote implementation of operation (CRIO) enables to implement operations on a remote state with strong security. We transmit implementations by entangling qubits in photon-cavity-atom system. The photons transferring in fibre and the atoms embedded in optical cavity construct CZ gates. The gates transfer implementations between participants with the permission of controller. We also construct nonadiabatic holonomic controlled gate between alkali metal atoms. Decoherence and dissipation decrease the fidelity of the implementation operators. We apply anti-blockade effect and dynamical scheme to improve the robustness of the gate. | 翻訳日:2024-01-19 17:30:41 公開日:2024-01-18 |
# 時間的洞察の強化:マルチモーダル大言語モデルにおける時間的幻覚の緩和 Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models ( http://arxiv.org/abs/2401.09861v1 ) ライセンス: Link先を確認 | Li Sun, Liuan Wang, Jun Sun, Takayuki Okatani | (参考訳) MLLM(Multimodal Large Language Models)の最近の進歩は、マルチメディアコンテンツの理解を著しく向上させ、テキスト、画像、ビデオなどの様々なモダリティを融合させた。
しかし、ビデオ入力を処理する場合、これらのモデルが直面する重要な課題は、特にイベントレベルでの誤認識や解釈といった幻覚の発生である。
本研究では,MLLMにおける事象レベルの幻覚に対処する革新的な手法を提案する。
本手法は,イベントクエリと提供ビデオの両方からイベント固有情報を抽出し,活用してMLLMの応答を洗練する新しいフレームワークを活用する。
オンデマンドイベントクエリをアイコンアクションに分解するユニークなメカニズムを提案する。
その後、CLIPやBLIP2のようなモデルを用いて、イベント発生の特定のタイムスタンプを予測する。
Charades-STAデータセットを用いて評価を行ったところ,時間的幻覚の低下と事象関連応答の質の向上が認められた。
本研究は,MLLMの限界に対処する新たな視点を提供するだけでなく,時間関連質問の文脈でMLLMを評価するための定量的に測定可能な方法にも貢献する。 Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced the comprehension of multimedia content, bringing together diverse modalities such as text, images, and videos. However, a critical challenge faced by these models, especially when processing video inputs, is the occurrence of hallucinations - erroneous perceptions or interpretations, particularly at the event level. This study introduces an innovative method to address event-level hallucinations in MLLMs, focusing on specific temporal understanding in video content. Our approach leverages a novel framework that extracts and utilizes event-specific information from both the event query and the provided video to refine MLLMs' response. We propose a unique mechanism that decomposes on-demand event queries into iconic actions. Subsequently, we employ models like CLIP and BLIP2 to predict specific timestamps for event occurrences. Our evaluation, conducted using the Charades-STA dataset, demonstrates a significant reduction in temporal hallucinations and an improvement in the quality of event-related responses. This research not only provides a new perspective in addressing a critical limitation of MLLMs but also contributes a quantitatively measurable method for evaluating MLLMs in the context of temporal-related questions. | 翻訳日:2024-01-19 17:23:39 公開日:2024-01-18 |
# segment anythingモデルによる少数ショット意味セグメンテーションの促進 Boosting Few-Shot Semantic Segmentation Via Segment Anything Model ( http://arxiv.org/abs/2401.09826v1 ) ライセンス: Link先を確認 | Chen-Bin Feng, Qi Lai, Kangdao Liu, Houcheng Su, Chi-Man Vong | (参考訳) セマンティックセグメンテーションでは、正確な予測マスクが医療画像解析や画像編集などの下流タスクに不可欠である。
注釈付きデータの欠如により、少数の意味セマンティクスセグメンテーション(fss)は正確な輪郭を持つマスクの予測が不十分である。
近年,大規模な基盤モデルセグメントモデル (SAM) が詳細な特徴の処理に優れていることに気付いた。
SAMにインスパイアされたFSS-SAMは,不正確な輪郭の問題に対処し,FSS法を高速化する。
FSS-SAMはトレーニング不要。
FSSメソッドの処理後ツールとして機能し、予測されたマスクの精度を向上させることができる。
具体的には、FSS法による予測マスクを用いてプロンプトを生成し、SAMを用いて新しいマスクを予測する。
SAMを用いて間違ったマスクの予測を避けるために,予測結果選択(PRS)アルゴリズムを提案する。
このアルゴリズムは誤った予測を著しく減らすことができる。
実験結果から,本手法は定量的および定性的両面において基礎的FSS法よりも優れていることがわかった。 In semantic segmentation, accurate prediction masks are crucial for downstream tasks such as medical image analysis and image editing. Due to the lack of annotated data, few-shot semantic segmentation (FSS) performs poorly in predicting masks with precise contours. Recently, we have noticed that the large foundation model segment anything model (SAM) performs well in processing detailed features. Inspired by SAM, we propose FSS-SAM to boost FSS methods by addressing the issue of inaccurate contour. The FSS-SAM is training-free. It works as a post-processing tool for any FSS methods and can improve the accuracy of predicted masks. Specifically, we use predicted masks from FSS methods to generate prompts and then use SAM to predict new masks. To avoid predicting wrong masks with SAM, we propose a prediction result selection (PRS) algorithm. The algorithm can remarkably decrease wrong predictions. Experiment results on public datasets show that our method is superior to base FSS methods in both quantitative and qualitative aspects. | 翻訳日:2024-01-19 17:23:18 公開日:2024-01-18 |
# 深層ニューラルネットワークにおける小物体符号化の強化:ボリュームワイズドット製品層を用いた高速集中型ネットの導入 Enhancing Small Object Encoding in Deep Neural Networks: Introducing Fast&Focused-Net with Volume-wise Dot Product Layer ( http://arxiv.org/abs/2401.09823v1 ) ライセンス: Link先を確認 | Ali Tofik, Roy Partha Pratim | (参考訳) 本稿では,小物体を固定長特徴ベクトルに効率的に符号化するためのニューラルネットワークアーキテクチャであるFast&Focused-Netを紹介する。
従来の畳み込みニューラルネットワーク(CNN)とは対照的に、Fast&Focused-Netは、新たに提案した一連のレイヤであるVDP(Volume-wise Dot Product)を採用。
特に、CNNは、理論上の領域よりもより小さい有効受容領域を示し、視界を制限している。
さらに、CNNの初期層は低次元の特徴ベクトルを生成し、その後の学習のボトルネックとなる。
最後に、cnnの計算オーバーヘッド、特にパラメータ共有による多様な画像領域のキャプチャにおいて、かなり高い。
fast&focus-netの中心にあるvdp層は、画像パッチ情報全体をコンピュータの要求を減らすことで効率的にカバーすることで、これらの問題を解決することを目的としている。
実験結果は,様々なアプリケーションにおける高速・集中型ネットの長所を実証する。
CIFAR-10, CIFAR-100, STL-10, SVHN-Cropped, Fashion-MNISTなどのデータセットでは, オブジェクト分類タスクにおいて, ネットワークが最先端の手法よりも優れていた。
より大きな画像分類の文脈において、トランスフォーマーエンコーダ(ViT)と組み合わせることで、Fast&Focused-NetはOpenImages V6、ImageNet-1K、Places365データセットの競合結果を生み出した。
さらに、同じ組み合わせは、SVT、IC15、SVTP、HOSTデータセットにわたるテキスト認識タスクにおいて、非並列のパフォーマンスを示した。
本稿では,Fast&Focused-Netが効率的で集中的なディープラーニングのための有望な方向であることを示唆するアーキテクチャ,基礎となるモチベーション,広範な実証的証拠について述べる。 In this paper, we introduce Fast&Focused-Net, a novel deep neural network architecture tailored for efficiently encoding small objects into fixed-length feature vectors. Contrary to conventional Convolutional Neural Networks (CNNs), Fast&Focused-Net employs a series of our newly proposed layer, the Volume-wise Dot Product (VDP) layer, designed to address several inherent limitations of CNNs. Specifically, CNNs often exhibit a smaller effective receptive field than their theoretical counterparts, limiting their vision span. Additionally, the initial layers in CNNs produce low-dimensional feature vectors, presenting a bottleneck for subsequent learning. Lastly, the computational overhead of CNNs, particularly in capturing diverse image regions by parameter sharing, is significantly high. The VDP layer, at the heart of Fast&Focused-Net, aims to remedy these issues by efficiently covering the entire image patch information with reduced computational demand. Experimental results demonstrate the prowess of Fast&Focused-Net in a variety of applications. For small object classification tasks, our network outperformed state-of-the-art methods on datasets such as CIFAR-10, CIFAR-100, STL-10, SVHN-Cropped, and Fashion-MNIST. In the context of larger image classification, when combined with a transformer encoder (ViT), Fast&Focused-Net produced competitive results for OpenImages V6, ImageNet-1K, and Places365 datasets. Moreover, the same combination showcased unparalleled performance in text recognition tasks across SVT, IC15, SVTP, and HOST datasets. This paper presents the architecture, the underlying motivation, and extensive empirical evidence suggesting that Fast&Focused-Net is a promising direction for efficient and focused deep learning. | 翻訳日:2024-01-19 17:22:59 公開日:2024-01-18 |
# 量子テストベッド上の潜時ダイナミクスのデータ駆動評価 Data-Driven Characterization of Latent Dynamics on Quantum Testbeds ( http://arxiv.org/abs/2401.09822v1 ) ライセンス: Link先を確認 | Sohail Reddy, Stefanie Guenther, and Yujin Cho | (参考訳) 本稿では,超伝導量子コンピューティングハードウェアにおける潜時ダイナミクスを学ぶためのデータ駆動手法を提案する。
この目的のために、Lindbladマスター方程式によって記述される量子系の力学方程式を、デバイスデータから訓練されたパラメータ化されたソース項で拡張し、環境相互作用やシステムノイズといった未知のシステムダイナミクスを捉える。
本稿では,線形演算子に基づいてパラメータ化された発散潜時ダイナミクスと,非線形フィードフォワードニューラルネットワークによって与えられる拡張を学習し,区別する構造を考察する。
数値計算はLLNLの量子デバイスと統合テストベッドの2つの異なる量子処理ユニット(QPU)のデータを用いて行われる。
我々は,我々の解釈可能な構造保存モデルと非線形モデルがリンドブラッドマスター方程式の予測精度を改善し,QPUの潜在力学を正確にモデル化できることを実証した。 This paper presents a data-driven approach to learn latent dynamics in superconducting quantum computing hardware. To this end, we augment the dynamical equation of quantum systems described by the Lindblad master equation by a parameterized source term that is trained from device data to capture unknown system dynamics, such as environmental interactions and system noise. We consider a structure preserving augmentation that learns and distinguishes unitary from dissipative latent dynamics parameterized by a basis of linear operators, as well as an augmentation given by a nonlinear feed-forward neural network. Numerical results are presented using data from two different quantum processing units (QPU) at LLNL's Quantum Device and Integration Testbed. We demonstrate that our interpretable, structure preserving models and nonlinear models are able to improve the prediction accuracy of the Lindblad master equation and accurately model the latent dynamics of the QPUs. | 翻訳日:2024-01-19 17:22:21 公開日:2024-01-18 |
# PPNet: 終端から終端に近い経路計画のための新しいニューラルネットワーク構造 PPNet: A Novel Neural Network Structure for End-to-End Near-Optimal Path Planning ( http://arxiv.org/abs/2401.09819v1 ) ライセンス: Link先を確認 | Qinglong Meng, Chongkun Xia, Xueqian Wang, Songping Mai, and Bin Liang | (参考訳) サンプリングベースのパスプランナーのような古典的なパスプランナーは、初期解に対する感度の限界があり、最適な解への収束が遅い。
しかし、限られた電力/燃料を持つ自動運転車のような多くの応用において、短時間で最適に近い解を見つけることは困難である。
終端から終端に近い経路プランナーを実現するために、まず経路計画問題を、与えられた経路空間における経路空間分割と経路点生成である2つの部分問題に分割する。
さらに,上述した部分問題を解くことで経路計画問題を解決するために,経路計画ネットワーク(ppnet)という2段階のカスケードニューラルネットワークを提案する。
また,EDaGe-PPと呼ばれる経路計画のための新しい効率的なデータ生成手法を提案する。
その結果、計算時間は1/33以下であり、EDaGe-PPが生成したデータセットによってトレーニングされたPPNetの成功率は、他の手法と比較して約2ドルであることがわかった。
我々はPPNetを最先端の経路計画手法に対して検証する。
その結果、PPNetは15.3msでほぼ最適解を見つけることができ、これは最先端のパスプランナーよりもはるかに短い。 The classical path planners, such as sampling-based path planners, have the limitations of sensitivity to the initial solution and slow convergence to the optimal solution. However, finding a near-optimal solution in a short period is challenging in many applications such as the autonomous vehicle with limited power/fuel. To achieve an end-to-end near-optimal path planner, we first divide the path planning problem into two subproblems, which are path's space segmentation and waypoints generation in the given path's space. We further propose a two-level cascade neural network named Path Planning Network (PPNet) to solve the path planning problem by solving the abovementioned subproblems. Moreover, we propose a novel efficient data generation method for path planning named EDaGe-PP. The results show the total computation time is less than 1/33 and the success rate of PPNet trained by the dataset that is generated by EDaGe-PP is about $2 \times$ compared to other methods. We validate PPNet against state-of-the-art path planning methods. The results show PPNet can find a near-optimal solution in 15.3ms, which is much shorter than the state-of-the-art path planners. | 翻訳日:2024-01-19 17:22:04 公開日:2024-01-18 |
# 合成一般化のためのシンプルで効果的なデータ拡張 Simple and effective data augmentation for compositional generalization ( http://arxiv.org/abs/2401.09815v1 ) ライセンス: Link先を確認 | Yuekun Yao and Alexander Koller | (参考訳) 合成一般化は、単純な文の訓練から複雑な意味を予測する能力であり、強力な事前学習されたseq2seqモデルに挑戦する。
本稿では,MRをサンプリングし,それらを逆翻訳するデータ拡張法が,適切な分布からサンプルを採取した場合に限り,構成一般化に有効であることを示す。
驚くべきことに、一様分布からのサンプリングはテスト分布からのサンプリングとほぼ同等の性能を持ち、トレーニング分布からサンプリングされた以前の方法を大きく上回っている。
さらに、このようなデータ拡張手法の利点がどこから来ているのか、その理由を調査する実験を行う。 Compositional generalization, the ability to predict complex meanings from training on simpler sentences, poses challenges for powerful pretrained seq2seq models. In this paper, we show that data augmentation methods that sample MRs and backtranslate them can be effective for compositional generalization, but only if we sample from the right distribution. Remarkably, sampling from a uniform distribution performs almost as well as sampling from the test distribution, and greatly outperforms earlier methods that sampled from the training distribution. We further conduct experiments to investigate the reason why this happens and where the benefit of such data augmentation methods come from. | 翻訳日:2024-01-19 17:21:44 公開日:2024-01-18 |
# 相互作用スピンモデルのための分数量子化再帰時間の性質 Properties of Fractionally Quantized Recurrence Times for Interacting Spin Models ( http://arxiv.org/abs/2401.09810v1 ) ライセンス: Link先を確認 | Quancheng Liu, David A. Kessler, Eli Barkai | (参考訳) 再帰時間は、物理システムが初期状態に戻るのに必要な期間を定量化し、複雑なシステムの予測可能性を理解する上で重要な役割を果たす。
部分空間測定を持つ量子システムでは、再帰時間はアナナン-アハロノフ相によって制御され、わずかな量子化再帰時間が得られる。
しかし、相互作用量子系における分数量子化現象はいまだ研究されていない。
ここでは、相互作用スピンにおける再帰時間に対する普遍的な下界と上界を確立することで、このギャップに対処する。
特に、これらの境界が接近するシナリオを調査し、監視中の量子プロセスの速度に光を当てる。
特定のケースでは、複雑な多体系を1つの準粒子を持つ力学系に効果的にマッピングできることが判明し、整数量子化繰り返し時間の発見につながった。
この研究は、繰り返し時間と系内の暗黒状態の数との間に有意義な関連をもたらし、量子再帰、測定、相互作用効果の間の複雑な相互作用をより深く理解する。 Recurrence time quantifies the duration required for a physical system to return to its initial state, playing a pivotal role in understanding the predictability of complex systems. In quantum systems with subspace measurements, recurrence times are governed by Anandan-Aharonov phases, yielding fractionally quantized recurrence times. However, the fractional quantization phenomenon in interacting quantum systems remains poorly explored. Here, we address this gap by establishing universal lower and upper bounds for recurrence times in interacting spins. Notably, we investigate scenarios where these bounds are approached, shedding light on the speed of quantum processes under monitoring. In specific cases, our findings reveal that the complex many-body system can be effectively mapped onto a dynamical system with a single quasi-particle, leading to the discovery of integer quantized recurrence times. Our research yields a valuable link between recurrence times and the number of dark states in the system, thus providing a deeper understanding of the intricate interplay between quantum recurrence, measurements, and interaction effects. | 翻訳日:2024-01-19 17:21:32 公開日:2024-01-18 |
# SensoDat:シミュレーションに基づく自動運転車のセンサーデータセット SensoDat: Simulation-based Sensor Dataset of Self-driving Cars ( http://arxiv.org/abs/2401.09808v1 ) ライセンス: Link先を確認 | Christian Birchler, Cyrill Rohrbach, Timo Kehrer, Sebastiano Panichella | (参考訳) 自動運転車(sdcs)のような自律システム(22, 24)のコンテキストでの開発は、研究者や実践者が高価な計算ハードウェアとシミュレーションソフトウェアに依存しているため、時間がかかり、コストがかかる。
提案するSensoDatは,32,580個のシミュレーションベースのSDCテストケースを,SDC用最先端テストジェネレータで生成したデータセットである。
データセットは、時系列として表されるSDC(例えば、rpm、ホイールスピード、ブレーキサーマル、送信など)の軌跡ログと様々なセンサーデータで構成されている。
合計で、SensoDatは81種類のシミュレーションセンサーからのデータを提供する。
SDCの領域における今後の研究は、SensoDatを使用する場合、必ずしも高価なテストケースの実行に依存しない。
さらに、センサーデータの量や多種多様さから、SensoDatは特にAI開発、シミュレーションベースのSDCテストのための回帰テスト技術、シミュレーションにおけるフレキネスなど、研究に貢献できると考えている。
データセットへのリンク: https://doi.org/10.5281/zenodo.10307479 Developing tools in the context of autonomous systems [22, 24 ], such as self-driving cars (SDCs), is time-consuming and costly since researchers and practitioners rely on expensive computing hardware and simulation software. We propose SensoDat, a dataset of 32,580 executed simulation-based SDC test cases generated with state-of-the-art test generators for SDCs. The dataset consists of trajectory logs and a variety of sensor data from the SDCs (e.g., rpm, wheel speed, brake thermals, transmission, etc.) represented as a time series. In total, SensoDat provides data from 81 different simulated sensors. Future research in the domain of SDCs does not necessarily depend on executing expensive test cases when using SensoDat. Furthermore, with the high amount and variety of sensor data, we think SensoDat can contribute to research, particularly for AI development, regression testing techniques for simulation-based SDC testing, flakiness in simulation, etc. Link to the dataset: https://doi.org/10.5281/zenodo.10307479 | 翻訳日:2024-01-19 17:21:13 公開日:2024-01-18 |
# 縮退部分空間の局在と局所対称性 Degenerate subspace localization and local symmetries ( http://arxiv.org/abs/2401.09807v1 ) ライセンス: Link先を確認 | Peter Schmelcher | (参考訳) 固有状態の領域特異的な局在化は局所対称性を持つ系の永続的な観測である。
しかし、この局在化のメカニズムは解明されていない。
ここでは局所的な反射対称的タイト結合ハミルトニアンの解析を行い、局所化された固有状態につながる重要な特徴を同定する。
固有ベクトルに対する閉形式表現の弱い結合展開は、局所対称領域の中心で発生するオンサイトエネルギーの縮退が、領域全体に広がる固有状態の核を表していることを示す。
局所対称領域を構成する対称性関連サブドメインは等スペクトルであるため、サブドメインの結合強度の増加とともに線形に分裂する2つの縮退固有値に遭遇する。
拡張されたセットアップにおける(非対称な)環境とのカップリングは、線形に分裂する固有値の特定の系特異部分の生存につながる。
後者は局所対称領域上の固有状態の局所化と密接に関連している。
アイソスペクトル性を維持しながら局所対称性変換の一般化を可能にするための簡単な展望を提供する。 Domain specific localization of eigenstates has been a persistent observation for systems with local symmetries. The underlying mechanism for this localization behaviour has however remained elusive. We provide here an analysis of locally reflection symmetric tight-binding Hamiltonian which attempts at identifying the key features that lead to the localized eigenstates. A weak coupling expansion of closed-form expressions for the eigenvectors demonstrates that the degeneracy of on-site energies occuring at the center of the locally symmetric domains represents the nucleus for eigenstates spreading across the domain. Since the symmetry-related subdomains constituting a locally symmetric domain are isospectral we encounter pairwise degenerate eigenvalues that split linearly with an increasing coupling strength of the subdomains. The coupling to the (non-symmetric) environment in an extended setup then leads to the survival of a certain system specific fraction of linearly splitting eigenvalues. The latter go hand in hand with the eigenstate localization on the locally symmetric domain. We provide a brief outlook addressing possible generalizations of local symmetry transformations while maintaining isospectrality. | 翻訳日:2024-01-19 17:20:55 公開日:2024-01-18 |
# Clickbait vs. Quality: エンゲージメントベースの最適化がオンラインプラットフォームにおけるコンテンツランドスケープをいかに形作るか Clickbait vs. Quality: How Engagement-Based Optimization Shapes the Content Landscape in Online Platforms ( http://arxiv.org/abs/2401.09804v1 ) ライセンス: Link先を確認 | Nicole Immorlica, Meena Jagadeesan, Brendan Lucier | (参考訳) オンラインコンテンツプラットフォームは通常、レコメンデーションを行う際にエンゲージメントベースの最適化を使用する。
これはコンテンツクリエイターが品質に投資することを奨励するだけでなく、クリックベイトのようなゲームのトリックにも報いる。
コンテンツの全体的影響を理解するために,コンテントクリエーター間のゲームについて,エンゲージメント指標に基づいて検討し,品質とゲームへの投資に関する均衡決定を分析する。
まず,均衡で作成されたコンテンツは品質とゲームの間に正の相関を示し,twitterデータセット上で実証的に検証する。
コンテンツランドスケープの平衡構造を用いて,複数の軸に沿ったエンゲージメントに基づく最適化の下流性能について検討する。
おそらく、ユーザーが消費するコンテンツの平均品質は、ゲームのトリックがコンテンツクリエーターが採用するコストが高くなるにつれて均衡的に低下する可能性がある。
さらに、エンゲージメントベースの最適化は、ランダムなレコメンデーションを持つベースラインよりもユーザユーティリティの面では悪く、またエンゲージメントベースの最適化は、品質ベースの最適化と比較して実現されたエンゲージメントの面では、サブ最適である。
以上から,プラットフォーム選択の最適化指標を評価する際に,コンテンツクリエーターのインセンティブを検討する必要性を浮き彫りにする。 Online content platforms commonly use engagement-based optimization when making recommendations. This encourages content creators to invest in quality, but also rewards gaming tricks such as clickbait. To understand the total impact on the content landscape, we study a game between content creators competing on the basis of engagement metrics and analyze the equilibrium decisions about investment in quality and gaming. First, we show the content created at equilibrium exhibits a positive correlation between quality and gaming, and we empirically validate this finding on a Twitter dataset. Using the equilibrium structure of the content landscape, we then examine the downstream performance of engagement-based optimization along several axes. Perhaps counterintuitively, the average quality of content consumed by users can decrease at equilibrium as gaming tricks become more costly for content creators to employ. Moreover, engagement-based optimization can perform worse in terms of user utility than a baseline with random recommendations, and engagement-based optimization is also suboptimal in terms of realized engagement relative to quality-based optimization. Altogether, our results highlight the need to consider content creator incentives when evaluating a platform's choice of optimization metric. | 翻訳日:2024-01-19 17:20:42 公開日:2024-01-18 |
# 離散視覚単位を用いた学習による単一モデルによる多言語視覚音声認識 Multilingual Visual Speech Recognition with a Single Model by Learning with Discrete Visual Speech Units ( http://arxiv.org/abs/2401.09802v1 ) ライセンス: Link先を確認 | Minsu Kim, Jeong Hun Yeo, Jeongsoo Choi, Se Jin Park, Yong Man Ro | (参考訳) 本稿では,単一モデルを用いた文レベルの多言語視覚音声認識を初めて検討する。
視覚データの大規模多言語モデリングは膨大な計算コストを必要とするため,視覚音声単位を用いた新しい処理手法を提案する。
近年の音声音声ユニットの成功により、自己監督型視覚音声モデルから抽出した視覚音声特徴を識別して、提案した視覚音声ユニットを得る。
まず,多言語視聴覚データ5,512時間に対して,自己教師付き視覚音声モデルを訓練した。
分析により,視聴覚単位が非言語的情報を抑圧しながら,視覚情報を含むことを検証した。
本システムでは,視覚音声単位を入力として,複数のvsrデータベースを融合して構築した大規模多言語データに対して,対応するテキスト出力を予測するモデルを事前学習する。
入力と出力の両方が離散的であるため、標準のVSRトレーニングと比較してトレーニング効率を大幅に向上させることができる。
具体的には、入力データサイズを元のビデオ入力の0.016%に削減する。
音声認識における視覚情報の不足を補うために,音声・視覚音声単位からシステム入力が始まり,徐々に視覚音声単位に変化するカリキュラム学習を適用する。
事前トレーニング後、モデルは継続的な機能で微調整される。
我々は、従来の言語固有のVSRモデルに匹敵する性能を1つの訓練モデルで達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。 This paper explores sentence-level Multilingual Visual Speech Recognition with a single model for the first time. As the massive multilingual modeling of visual data requires huge computational costs, we propose a novel strategy, processing with visual speech units. Motivated by the recent success of the audio speech unit, the proposed visual speech unit is obtained by discretizing the visual speech features extracted from the self-supervised visual speech model. To correctly capture multilingual visual speech, we first train the self-supervised visual speech model on 5,512 hours of multilingual audio-visual data. Through analysis, we verify that the visual speech units mainly contain viseme information while suppressing non-linguistic information. By using the visual speech units as the inputs of our system, we pre-train the model to predict corresponding text outputs on massive multilingual data constructed by merging several VSR databases. As both the inputs and outputs are discrete, we can greatly improve the training efficiency compared to the standard VSR training. Specifically, the input data size is reduced to 0.016% of the original video inputs. In order to complement the insufficient visual information in speech recognition, we apply curriculum learning where the inputs of the system begin with audio-visual speech units and gradually change to visual speech units. After pre-training, the model is finetuned on continuous features. We set new state-of-the-art multilingual VSR performances by achieving comparable performances to the previous language-specific VSR models, with a single trained model. | 翻訳日:2024-01-19 17:20:22 公開日:2024-01-18 |
# 脱獄の仕方:ブラックボックスで簡単にジェイルブレイクを防げる方法 All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks ( http://arxiv.org/abs/2401.09798v1 ) ライセンス: Link先を確認 | Kazuhiro Takemoto | (参考訳) ChatGPTのような大規模言語モデル(LLM)は、倫理的に有害なプロンプトを生み出すために、セーフガードをバイパスする‘ジェイルブレイク’の課題に直面している。
本研究では,既存の手法に係わる複雑さと計算コストの限界を克服し,ジェイルブレイクプロンプトを効果的に生成するブラックボックス手法を提案する。
提案手法は, LLMがセーフガード・バイパス式を直接サンプリングできるという仮説に基づいて, 有害なプロンプトを標的LLM自体を用いて繰り返し書き直す。
ChatGPT(GPT-3.5およびGPT-4)とGemini-Proの実験により実証されたこの手法は、平均5回の反復で80%以上の攻撃成功率を達成した。
生成されたジェイルブレイクプロンプトは自然に単語で簡潔であり、検出しにくいことを示唆している。
その結果、効果的なジェイルブレイクプロンプトの作成は以前考えられていたよりも簡単であることが示され、ブラックボックスのジェイルブレイク攻撃はより深刻なセキュリティ上の脅威となる。 Large Language Models (LLMs) like ChatGPT face `jailbreak' challenges, where safeguards are bypassed to produce ethically harmful prompts. This study introduces a simple black-box method to effectively generate jailbreak prompts, overcoming the limitations of high complexity and computational costs associated with existing methods. The proposed technique iteratively rewrites harmful prompts into non-harmful expressions using the target LLM itself, based on the hypothesis that LLMs can directly sample safeguard-bypassing expressions. Demonstrated through experiments with ChatGPT (GPT-3.5 and GPT-4) and Gemini-Pro, this method achieved an attack success rate of over 80% within an average of 5 iterations and remained effective despite model updates. The jailbreak prompts generated were naturally-worded and concise, suggesting they are less detectable. The results indicate that creating effective jailbreak prompts is simpler than previously considered, and black-box jailbreak attacks pose a more serious security threat. | 翻訳日:2024-01-19 17:19:56 公開日:2024-01-18 |
# 大規模言語モデルのための高速で高性能でセキュアな分散トレーニングフレームワーク A Fast, Performant, Secure Distributed Training Framework For Large Language Model ( http://arxiv.org/abs/2401.09796v1 ) ライセンス: Link先を確認 | Wei Huang, Yinggui Wang, Anda Cheng, Aihui Zhou, Chaofan Yu, Lei Wang | (参考訳) 分散LLMは、サイロデータを用いてドメイン固有のLLMを協調訓練するための重要な方法である。
しかし、悪意あるモデルパラメータとデータをサーバまたはクライアント側から盗むことは、解決すべき緊急の問題となっている。
本稿では,モデルスライシングに基づくセキュア分散LLMを提案する。
この場合、クライアント側とサーバ側の両方にTrusted Execution Environment(TEE)をデプロイし、微調整構造(LoRAまたはP-tuning v2)をTEEに組み込む。
そして、軽量暗号化により、TEEおよび一般的な環境でセキュアな通信が実行される。
機器コストをさらに削減し,モデル性能と精度を向上させるため,分割微調整方式を提案する。
特に、LLMをレイヤで分割し、後者のレイヤをサーバサイドのTEE(クライアントはTEEを必要としない)に配置します。
次に,提案したスパシフィケーションパラメータファインチューニング(SPF)とLoRA部分を組み合わせることで,下流タスクの精度を向上させる。
多数の実験により,セキュリティを維持しながら精度を保証できることが示されている。 The distributed (federated) LLM is an important method for co-training the domain-specific LLM using siloed data. However, maliciously stealing model parameters and data from the server or client side has become an urgent problem to be solved. In this paper, we propose a secure distributed LLM based on model slicing. In this case, we deploy the Trusted Execution Environment (TEE) on both the client and server side, and put the fine-tuned structure (LoRA or embedding of P-tuning v2) into the TEE. Then, secure communication is executed in the TEE and general environments through lightweight encryption. In order to further reduce the equipment cost as well as increase the model performance and accuracy, we propose a split fine-tuning scheme. In particular, we split the LLM by layers and place the latter layers in a server-side TEE (the client does not need a TEE). We then combine the proposed Sparsification Parameter Fine-tuning (SPF) with the LoRA part to improve the accuracy of the downstream task. Numerous experiments have shown that our method guarantees accuracy while maintaining security. | 翻訳日:2024-01-19 17:19:36 公開日:2024-01-18 |
# アルツハイマー病早期発見のためのメタヒューリスティックアルゴリズムに基づく視覚変換器モデルの比較解析 A Comparative Analysis on Metaheuristic Algorithms Based Vision Transformer Model for Early Detection of Alzheimer's Disease ( http://arxiv.org/abs/2401.09795v1 ) ライセンス: Link先を確認 | Anuvab Sen, Udayon Sen and Subhabrata Roy | (参考訳) 神経変性疾患を脅かす多くの生命は、特に高齢者の生活の質を低下させた。
認知症は、早期に検出されないとアルツハイマー病と呼ばれる重篤な疾患につながる症状の一つである。
正常な段階からそのような病気の進行は、ヒトの脳内のいくつかのパラメータの変化に起因すると報告されている。
本稿では, 異なる段階で認知症を特定するために, 革新的メタヒューリスティックアルゴリズムに基づくViTモデルを提案する。
提案手法の検証には,かなりの数の試験データを用いている。
また,本モデルがf1-scoreと同様に精度,精度,リコールの面で優れた性能を示すことを実証した。 A number of life threatening neuro-degenerative disorders had degraded the quality of life for the older generation in particular. Dementia is one such symptom which may lead to a severe condition called Alzheimer's disease if not detected at an early stage. It has been reported that the progression of such disease from a normal stage is due to the change in several parameters inside the human brain. In this paper, an innovative metaheuristic algorithms based ViT model has been proposed for the identification of dementia at different stage. A sizeable number of test data have been utilized for the validation of the proposed scheme. It has also been demonstrated that our model exhibits superior performance in terms of accuracy, precision, recall as well as F1-score. | 翻訳日:2024-01-19 17:19:17 公開日:2024-01-18 |
# 拡散ベース画像編集におけるウェーブレット誘導テキストインバージョン高速化 Wavelet-Guided Acceleration of Text Inversion in Diffusion-Based Image Editing ( http://arxiv.org/abs/2401.09794v1 ) ライセンス: Link先を確認 | Gwanhyeong Koo, Sunjae Yoon, Chang D. Yoo | (参考訳) 画像編集の分野では、Null-text Inversion (NTI) は、DDIMサンプリングプロセス中にnull埋め込みを最適化することにより、元の画像の構造を保ちながら、きめ細かい編集を可能にする。
しかし、NTIプロセスは時間がかかり、1枚あたり2分以上かかる。
そこで我々は,画像編集プロセスの高速化を図りながら,NTIの原則を維持する革新的な手法を提案する。
周波数特性に基づいてテキスト最適化エンドポイントを決定するwaveopt-estimatorを提案する。
ウェーブレット変換解析を用いて画像の周波数特性を同定することにより、ddimサンプリングプロセス中に特定の時間ステップにテキスト最適化を制限できる。
負のprompt inversion (npi) の概念を採用することで、元の画像を表す目標プロンプトが最適化のための初期テキスト値となる。
このアプローチは、NTI法と比較して平均編集時間を80%以上削減しつつ、NTIに匹敵する性能を維持している。
本手法は拡散モデルに基づく効率的な高品質画像編集に有望な手法である。 In the field of image editing, Null-text Inversion (NTI) enables fine-grained editing while preserving the structure of the original image by optimizing null embeddings during the DDIM sampling process. However, the NTI process is time-consuming, taking more than two minutes per image. To address this, we introduce an innovative method that maintains the principles of the NTI while accelerating the image editing process. We propose the WaveOpt-Estimator, which determines the text optimization endpoint based on frequency characteristics. Utilizing wavelet transform analysis to identify the image's frequency characteristics, we can limit text optimization to specific timesteps during the DDIM sampling process. By adopting the Negative-Prompt Inversion (NPI) concept, a target prompt representing the original image serves as the initial text value for optimization. This approach maintains performance comparable to NTI while reducing the average editing time by over 80% compared to the NTI method. Our method presents a promising approach for efficient, high-quality image editing based on diffusion models. | 翻訳日:2024-01-19 17:19:07 公開日:2024-01-18 |
# 注意に基づくリカレントニューラルネットワークによるニワトリの自動行動認識 Attention-Based Recurrent Neural Network For Automatic Behavior Laying Hen Recognition ( http://arxiv.org/abs/2401.09880v1 ) ライセンス: Link先を確認 | Fr\'ejus A. A. Laleye and Mika\"el A. Mousse | (参考訳) 現代の養鶏の利益の一つは、健康行動に関する非常に有用な情報を含む産卵鶏の発声である。
この情報は、早急かつ効果的な介入のための問題の早期発見を含む産卵鶏のモニタリングに役立つ健康と幸福の指標として使用される。
そこで本研究では,産卵鶏の鳴き声のタイプ認識のための音響解析に焦点をあて,その行動のロバストな評価システムを提案する。
そこで我々はまず,産卵鶏の鳴き声信号の収集とアノテートを行い,時間領域と周波数領域の組合せに基づく最適な音響特性評価法を考案した。
次に、これらの特徴を用いて、繰り返しニューラルネットワークに基づくマルチラベル分類モデルを構築し、その振る舞いを特徴付ける発声に意味クラスを割り当てた。
その結果,f1-score (f1=92.75) の最高値を得た時間領域と周波数領域の特徴を組み合わせると,周波数領域特徴を用いたモデルで17%,リタクチャから比較したアプローチで8%の性能が得られた。 One of the interests of modern poultry farming is the vocalization of laying hens which contain very useful information on health behavior. This information is used as health and well-being indicators that help breeders better monitor laying hens, which involves early detection of problems for rapid and more effective intervention. In this work, we focus on the sound analysis for the recognition of the types of calls of the laying hens in order to propose a robust system of characterization of their behavior for a better monitoring. To do this, we first collected and annotated laying hen call signals, then designed an optimal acoustic characterization based on the combination of time and frequency domain features. We then used these features to build the multi-label classification models based on recurrent neural network to assign a semantic class to the vocalization that characterize the laying hen behavior. The results show an overall performance with our model based on the combination of time and frequency domain features that obtained the highest F1-score (F1=92.75) with a gain of 17% on the models using the frequency domain features and of 8% on the compared approaches from the litterature. | 翻訳日:2024-01-19 17:12:04 公開日:2024-01-18 |
# ゴール表現のための空間的・時間的抽象化の再構成 Reconciling Spatial and Temporal Abstractions for Goal Representation ( http://arxiv.org/abs/2401.09870v1 ) ライセンス: Link先を確認 | Mehdi Zadem, Sergio Mover, Sao Mai Nguyen | (参考訳) 目標表現は、複雑な学習問題をより簡単なサブタスクに分解することで階層強化学習(hrl)アルゴリズムの性能に影響する。
近年の研究では、時間的に抽象的な環境動態を保った表現が難題の解決に成功し、最適性の理論的保証が得られている。
しかし、これらの手法は複雑性が増大するタスク、すなわち時間的に抽象的な遷移関係は変数の数に依存するタスクにはスケールできない。
一方,従来の課題を緩和するために空間的抽象化を利用することも試みている。
その制限には、高次元環境へのスケーラビリティと、事前の知識への依存が含まれる。
本稿では,空間的および時間的目標抽象化の両面において,階層の異なるレベルにおいて,新しい3層HRLアルゴリズムを提案する。
我々は,学習した政策の後悔の限界に関する理論的研究を行う。
複雑な連続制御タスクに対するアプローチを評価し,このアプローチで学んだ空間的・時間的抽象化の有効性を実証する。 Goal representation affects the performance of Hierarchical Reinforcement Learning (HRL) algorithms by decomposing the complex learning problem into easier subtasks. Recent studies show that representations that preserve temporally abstract environment dynamics are successful in solving difficult problems and provide theoretical guarantees for optimality. These methods however cannot scale to tasks where environment dynamics increase in complexity i.e. the temporally abstract transition relations depend on larger number of variables. On the other hand, other efforts have tried to use spatial abstraction to mitigate the previous issues. Their limitations include scalability to high dimensional environments and dependency on prior knowledge. In this paper, we propose a novel three-layer HRL algorithm that introduces, at different levels of the hierarchy, both a spatial and a temporal goal abstraction. We provide a theoretical study of the regret bounds of the learned policies. We evaluate the approach on complex continuous control tasks, demonstrating the effectiveness of spatial and temporal abstractions learned by this approach. | 翻訳日:2024-01-19 17:11:41 公開日:2024-01-18 |
# インスタンス対応データ拡張とローカルコンセンサスガイドによるFew-Shotセグメンテーションの促進 Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and Local Consensus Guided Cross Attention ( http://arxiv.org/abs/2401.09866v1 ) ライセンス: Link先を確認 | Li Guo, Haoming Liu, Yuxuan Xia, Chengyu Zhang, Xiaochen Lu | (参考訳) 少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。
最近のモデルでは、数発の推論にプロトタイプベースのパラダイムを採用している。
これらのアプローチは、標準の1ショットや5ショット以上の一般化能力に制限がある。
本稿では,様々な基礎クラスで事前学習したディープセグメンテーションネットワークの分類層を微調整する微調整型学習手法について,精査と再評価を行う。
sparsely annotated sampleで最適化された分類層の一般化性を向上させるために,対象オブジェクトの相対サイズに基づいてサポート画像を拡張するインスタンスアウェアデータ拡張(ida)戦略を導入する。
提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
一方,問合せ画像とサポート画像の視覚差が大きいため,知識伝達が阻害され,セグメンテーション性能が低下する可能性がある。
この課題に対処するため,我々は,局所的コンセンサス誘導クロスアテンション (lcca) を導入することで,クエリの特徴を,その密接な相関に基づくサポート機能と整合させ,クエリ画像に対するモデルの一般化性をさらに向上させる。
PASCAL-$5^i$およびCOCO-$20^i$の標準ショットセグメンテーションベンチマークの性能改善は,提案手法の有効性を検証する。 Few-shot segmentation aims to train a segmentation model that can fast adapt to a novel task for which only a few annotated images are provided. Most recent models have adopted a prototype-based paradigm for few-shot inference. These approaches may have limited generalization capacity beyond the standard 1- or 5-shot settings. In this paper, we closely examine and reevaluate the fine-tuning based learning scheme that fine-tunes the classification layer of a deep segmentation network pre-trained on diverse base classes. To improve the generalizability of the classification layer optimized with sparsely annotated samples, we introduce an instance-aware data augmentation (IDA) strategy that augments the support images based on the relative sizes of the target objects. The proposed IDA effectively increases the support set's diversity and promotes the distribution consistency between support and query images. On the other hand, the large visual difference between query and support images may hinder knowledge transfer and cripple the segmentation performance. To cope with this challenge, we introduce the local consensus guided cross attention (LCCA) to align the query feature with support features based on their dense correlation, further improving the model's generalizability to the query image. The significant performance improvements on the standard few-shot segmentation benchmarks PASCAL-$5^i$ and COCO-$20^i$ verify the efficacy of our proposed method. | 翻訳日:2024-01-19 17:11:27 公開日:2024-01-18 |
# 画像テキスト事前学習におけるきめ細かい理解の改善 Improving fine-grained understanding in image-text pre-training ( http://arxiv.org/abs/2401.09865v1 ) ライセンス: Link先を確認 | Ioana Bica, Anastasija Ili\'c, Matthias Bauer, Goker Erdogan, Matko Bo\v{s}njak, Christos Kaplanis, Alexey A. Gritsenko, Matthias Minderer, Charles Blundell, Razvan Pascanu, Jovana Mitrovi\'c | (参考訳) SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かいマルチモーダル表現を事前学習するための単純な方法である。
複数の画像パッチが単一の単語に対応することが多いことを考慮し、キャプション内のトークン毎に画像パッチをグループ化することを提案する。
これを実現するために、画像パッチと言語トークン間の疎類似度測定を用いて、各トークンに対して、重み付けされたパッチの平均として言語群視覚埋め込みを演算する。
トークンと言語グループによる視覚埋め込みは、個々のサンプルにのみ依存し、他のバッチサンプルを負として必要としない、きめ細かなシーケンスワイズ損失によって対比される。
これにより、より詳細な情報を計算的に安価に学習することができる。
SPARCは、この微細な損失と、グローバルイメージとテキスト埋め込みの間の対照的な損失を組み合わせて、グローバルおよびローカル情報を同時にエンコードする表現を学ぶ。
提案手法を徹底的に評価し,粗粒度情報(分類など)に依存する画像レベルのタスクと,検索,オブジェクト検出,セグメンテーションなどの細粒度情報に依存する領域レベルのタスクの両方において,競合する手法よりも優れた性能を示す。
さらに、SPARCは基礎的な視覚言語モデルにおけるモデル忠実度とキャプションを改善している。 We introduce SPARse Fine-grained Contrastive Alignment (SPARC), a simple method for pretraining more fine-grained multimodal representations from image-text pairs. Given that multiple image patches often correspond to single words, we propose to learn a grouping of image patches for every token in the caption. To achieve this, we use a sparse similarity metric between image patches and language tokens and compute for each token a language-grouped vision embedding as the weighted average of patches. The token and language-grouped vision embeddings are then contrasted through a fine-grained sequence-wise loss that only depends on individual samples and does not require other batch samples as negatives. This enables more detailed information to be learned in a computationally inexpensive manner. SPARC combines this fine-grained loss with a contrastive loss between global image and text embeddings to learn representations that simultaneously encode global and local information. We thoroughly evaluate our proposed method and show improved performance over competing approaches both on image-level tasks relying on coarse-grained information, e.g. classification, as well as region-level tasks relying on fine-grained information, e.g. retrieval, object detection, and segmentation. Moreover, SPARC improves model faithfulness and captioning in foundational vision-language models. | 翻訳日:2024-01-19 17:11:04 公開日:2024-01-18 |
# バランス感覚のための大規模言語モデルの進化的多目的最適化 Evolutionary Multi-Objective Optimization of Large Language Model Prompts for Balancing Sentiments ( http://arxiv.org/abs/2401.09862v1 ) ライセンス: Link先を確認 | Jill Baumann and Oliver Kramer | (参考訳) ChatGPTのような大規模言語モデル(LLM)の出現は、その顕著な性能と汎用性から、様々な領域で大きな注目を集めている。
これらのモデルの使用が拡大し続けており、効果的なプロンプトエンジニアリングの重要性が注目されている。
モデルのパフォーマンスや関連する情報の抽出に直接影響するため、迅速な最適化は重要な課題として現れます。
近年、進化的アルゴリズム(EA)はこの問題に対処し、新しい最適化戦略の道を開くことを約束している。
本研究では、感情分析を事例として、EMO-Promptsと呼ばれる迅速な最適化に適した進化的多目的(EMO)アプローチを提案する。
感情分析機能を実験ターゲットとして使用しています。
EMO-Prompts は,2つの矛盾する感情を同時に具現化したテキストを生成するために LLM を誘導できるプロンプトを効果的に生成することを示した。 The advent of large language models (LLMs) such as ChatGPT has attracted considerable attention in various domains due to their remarkable performance and versatility. As the use of these models continues to grow, the importance of effective prompt engineering has come to the fore. Prompt optimization emerges as a crucial challenge, as it has a direct impact on model performance and the extraction of relevant information. Recently, evolutionary algorithms (EAs) have shown promise in addressing this issue, paving the way for novel optimization strategies. In this work, we propose a evolutionary multi-objective (EMO) approach specifically tailored for prompt optimization called EMO-Prompts, using sentiment analysis as a case study. We use sentiment analysis capabilities as our experimental targets. Our results demonstrate that EMO-Prompts effectively generates prompts capable of guiding the LLM to produce texts embodying two conflicting emotions simultaneously. | 翻訳日:2024-01-19 17:10:40 公開日:2024-01-18 |
# 説明可能なAIによるエッジカメラの公正性とパフォーマンス向上 Enhancing the Fairness and Performance of Edge Cameras with Explainable AI ( http://arxiv.org/abs/2401.09852v1 ) ライセンス: Link先を確認 | Truong Thanh Hung Nguyen, Vo Thanh Khang Nguyen, Quoc Hung Cao, Van Binh Truong, Quoc Khanh Nguyen, Hung Cao | (参考訳) エッジカメラシステムにおける人間の検出における人工知能(AI)の利用の増加は、正確だが複雑なモデルをもたらし、解釈とデバッグを困難にしている。
本研究では,モデルデバッギングに Explainable AI (XAI) を用いた診断手法を提案する。
実世界のオフィスエッジネットワークでBytetrackモデルを検証することで、トレーニングデータセットを主なバイアスソースとして見つけ、ソリューションとしてモデル拡張を提案しました。
私たちのアプローチは、公正で信頼できるモデルを達成するために不可欠なモデルバイアスを特定するのに役立ちます。 The rising use of Artificial Intelligence (AI) in human detection on Edge camera systems has led to accurate but complex models, challenging to interpret and debug. Our research presents a diagnostic method using Explainable AI (XAI) for model debugging, with expert-driven problem identification and solution creation. Validated on the Bytetrack model in a real-world office Edge network, we found the training dataset as the main bias source and suggested model augmentation as a solution. Our approach helps identify model biases, essential for achieving fair and trustworthy models. | 翻訳日:2024-01-19 17:10:24 公開日:2024-01-18 |
# 行動シミュレーション:科学の次のパラダイムを探る Behavioral Simulation: Exploring A Possible Next Paradigm for Science ( http://arxiv.org/abs/2401.09851v1 ) ライセンス: Link先を確認 | Cheng Wang, Chuwen Wang, Yu Zhao, Shirong Zeng, Wang Zhang, Ronghui Ning | (参考訳) シミュレーション技術は、天気予報、流体力学、生物集団など、多くの科学研究分野で広く利用されている。
これは、クローズドフォーム式が利用できず、表現空間のターゲット分布が複雑すぎてディープラーニング(dl)モデルによって完全に表現できない複雑なシステムで問題を扱うのに最適なツールである。
シミュレーション技術の発展は科学的パラダイムと一致していると考えています。
本稿では,データ,アルゴリズム,計算能力の観点から科学的パラダイムの進化を誘導する。
この観点から,新しいパラダイムの出現に合わせてシミュレーション技術を3段階に分け,先進的なシミュレーション技術がパラダイム統合の典型例であることを見出す。
さらに,行動シミュレーション(BS)の概念,特に高度な行動シミュレーション(SBS)を提案し,高度な人的戦略や行動を含む複雑な社会システムをシミュレートする基礎モデルに基づく,高度なパラダイム統合を表現する。
BSや他のSBSは、従来のエージェントベースモデリングシミュレーション(ABMS)の能力を超える複雑な人間のシステムに関する課題に取り組むように設計されており、これは科学の次のパラダイムと見なすことができる。
本研究を通じて、社会科学の科学研究分野におけるより強力なBSおよびSBS応用を期待する。 Simulation technologies have been widely utilized in many scientific research fields such as weather forecasting, fluid mechanics and biological populations. It is the best tool to handle problems in complex systems, where closed-form expressions are unavailable and the target distribution in the representation space is too complex to be fully represented by a deep learning (DL) model. We believe that the development of simulation technologies is consistent with scientific paradigms. This paper induces the evolution of scientific paradigms from the perspective of data, algorithms, and computational power. Building upon this perspective, we divide simulation technologies into three stages aligning with the emergence of new paradigms, and find that advanced simulation technologies are typical instances of paradigms integration. Moreover, we propose the concept of behavioral simulation (BS), specifically sophisticated behavioral simulation (SBS), representing a higher degree of paradigms integration based on foundation models to simulate complex social systems involving sophisticated human strategies and behaviors. BS and further SBS are designed to tackle challenges concerning the complex human system that surpasses the capacity of traditional agent-based modeling simulation (ABMS), which can be regarded as a possible next paradigm for science. Through this work, we look forward to more powerful BS and SBS applications in scientific research branches within social science. | 翻訳日:2024-01-19 17:10:14 公開日:2024-01-18 |
# ハイブリッドディジタルカウンテルダイアバティック量子最適化のベンチマーク Benchmarking hybrid digitized-counterdiabatic quantum optimization ( http://arxiv.org/abs/2401.09849v1 ) ライセンス: Link先を確認 | Ruoqian Xu, Jialiang Tang, Pranav Chandarana, Koushik Paul, Xusheng Xu, Manhong Yung, Xi Chen | (参考訳) ハイブリッドデジタルカウンタダイバティック量子コンピューティング(DCQC)は、反ダイバティックプロトコルで設計されたパラメータ化量子回路を利用して、短期量子コンピュータの能力を活用するための有望なアプローチである。
しかし、このアプローチの古典的な側面は注目されている。
本研究では,様々な古典的オプティマイザの収束挙動と解質を,デジタル化カウンタダイアバティックアプローチと組み合わせて体系的に解析する。
最大28キュービットのシステム上で、従来のQAOAと比較することにより、このハイブリッドアルゴリズムの有効性を実証する。
さらに, 主成分分析を用いてコスト景観を調査し, パラメタリゼーションが逆ダイアバティック・アンサッツの性能に与える影響について検討した。
本研究は,地域コストランドスケープ・ミニマが存在する場合のイテレーションは少なく,ハイブリッドDCQCのパラダイムとしてSPSAベースのBFGSオプティマイザが登場していることを示す。 Hybrid digitized-counterdiabatic quantum computing (DCQC) is a promising approach for leveraging the capabilities of near-term quantum computers, utilizing parameterized quantum circuits designed with counterdiabatic protocols. However, the classical aspect of this approach has received limited attention. In this study, we systematically analyze the convergence behavior and solution quality of various classical optimizers when used in conjunction with the digitized-counterdiabatic approach. We demonstrate the effectiveness of this hybrid algorithm by comparing its performance to the traditional QAOA on systems containing up to 28 qubits. Furthermore, we employ principal component analysis to investigate the cost landscape and explore the crucial influence of parameterization on the performance of the counterdiabatic ansatz. Our findings indicate that fewer iterations are required when local cost landscape minima are present, and the SPSA-based BFGS optimizer emerges as a standout choice for the hybrid DCQC paradigm. | 翻訳日:2024-01-19 17:09:54 公開日:2024-01-18 |
# FREED++: 粗再生によるフラグメントベースの分子生成のためのRLエージェントの改良 FREED++: Improving RL Agents for Fragment-Based Molecule Generation by Thorough Reproduction ( http://arxiv.org/abs/2401.09840v1 ) ライセンス: Link先を確認 | Alexander Telepov, Artem Tsypin, Kuzma Khrabrov, Sergey Yakukhnov, Pavel Strashnov, Petr Zhilyaev, Egor Rumiantsev, Daniel Ezhov, Manvel Avetisian, Olga Popova, Artur Kadurin | (参考訳) 新しい治療薬の合理的な設計は、特定のタンパク質を活性化または抑制する機能、例えば、特定の生物学的機能を持つ分子構造を見つけることを目的としている。
分子ドッキングはタンパク質と分子の相互作用を評価する一般的な手法である。
近年,ドッキングスコア(ds)を報酬とする分子生成への有望なアプローチとして強化学習(rl)が登場している。
本研究では,最近の分子生成のrlモデルであるfreed(arxiv:2110.01219)を再現し,精査し,改良する。
提案手法を広範囲に評価した結果,3つの標的タンパク質に対して優れた結果が得られたにもかかわらず,いくつかの限界と課題が明らかになった。
我々の貢献は、多数の実装バグを修正し、その品質を高めながらモデルを単純化すること、実験を著しく拡張すること、そしてタンパク質条件分子生成の最先端手法と正確な比較を行うことである。
得られた固定モデルにより, ドッキングスコアが優れた分子を生成可能であることを示す。 A rational design of new therapeutic drugs aims to find a molecular structure with desired biological functionality, e.g., an ability to activate or suppress a specific protein via binding to it. Molecular docking is a common technique for evaluating protein-molecule interactions. Recently, Reinforcement Learning (RL) has emerged as a promising approach to generating molecules with the docking score (DS) as a reward. In this work, we reproduce, scrutinize and improve the recent RL model for molecule generation called FREED (arXiv:2110.01219). Extensive evaluation of the proposed method reveals several limitations and challenges despite the outstanding results reported for three target proteins. Our contributions include fixing numerous implementation bugs and simplifying the model while increasing its quality, significantly extending experiments, and conducting an accurate comparison with current state-of-the-art methods for protein-conditioned molecule generation. We show that the resulting fixed model is capable of producing molecules with superior docking scores compared to alternative approaches. | 翻訳日:2024-01-19 17:09:36 公開日:2024-01-18 |
# MatScire: 材料科学知識ベース構築のためのエンティティと関係抽出を自動化するポインタネットワークを活用する MatSciRE: Leveraging Pointer Networks to Automate Entity and Relation Extraction for Material Science Knowledge-base Construction ( http://arxiv.org/abs/2401.09839v1 ) ライセンス: Link先を確認 | Ankan Mullick, Akash Ghosh, G Sai Chaitanya, Samir Ghui, Tapas Nayak, Seung-Cheol Lee, Satadeep Bhattacharjee, Pawan Goyal | (参考訳) 物質科学の文献は、様々な種類の実体(材料や組成など)とこれらの実体間の様々な関係(導電性、電圧など)に関する事実情報の豊富な情報源である。
物質科学知識ベースを生成するためにこの情報を自動抽出することは難しい課題である。
本稿では,ポインタネットワークを用いたエンコーダ・デコーダ・フレームワークであるMatSciRE(Material Science Relation Extractor)を提案する。
具体的には, 電池材料を対象とし, 導電率, クーロン効率, 容量, 電圧, エネルギーの5つの関係を同定する。
提案手法は,従来のChemDataExtractor (0.716) よりもはるかに優れたF1スコア(0.771)を実現した。
MatSciREの全体的なグラフィカルなフレームワークは、図1に示されています。
物質情報は、MatSciREを用いて、実体関係三重項の形で物質科学文献から抽出される。 Material science literature is a rich source of factual information about various categories of entities (like materials and compositions) and various relations between these entities, such as conductivity, voltage, etc. Automatically extracting this information to generate a material science knowledge base is a challenging task. In this paper, we propose MatSciRE (Material Science Relation Extractor), a Pointer Network-based encoder-decoder framework, to jointly extract entities and relations from material science articles as a triplet ($entity1, relation, entity2$). Specifically, we target the battery materials and identify five relations to work on - conductivity, coulombic efficiency, capacity, voltage, and energy. Our proposed approach achieved a much better F1-score (0.771) than a previous attempt using ChemDataExtractor (0.716). The overall graphical framework of MatSciRE is shown in Fig 1. The material information is extracted from material science literature in the form of entity-relation triplets using MatSciRE. | 翻訳日:2024-01-19 17:09:18 公開日:2024-01-18 |
# catma: マイクロサービスアプリケーションのためのコンフォーマンス分析ツール CATMA: Conformance Analysis Tool For Microservice Applications ( http://arxiv.org/abs/2401.09838v1 ) ライセンス: Link先を確認 | Clinton Cao, Simon Schneider, Nicol\'as E. D\'iaz Ferreyra, Sicco Verwer, Annibale Panichella, Riccardo Scandariato | (参考訳) マイクロサービスアーキテクチャにより、開発者はソフトウェアシステムのコア機能を複数の小さなサービスに分割できる。
しかし、このアーキテクチャスタイルは、システムのデプロイが実装に準拠しているかどうかをデバッグし、評価することを難しくする。
本稿では,システムデプロイメントと実装の非互換性を検出する自動ツールCATMAを提案する。
検出された不一致を自動的に可視化し、潜在的な解釈を生成する。
CATMAの評価は、性能の面で有望な結果を示し、有用な洞察を提供する。
CATMAは \url{https://cyber-analytics.nl/catma.github.io/} で利用可能であり、デモビデオは \url{https://youtu.be/WKP1hG-TDKc} で公開されている。 The microservice architecture allows developers to divide the core functionality of their software system into multiple smaller services. However, this architectural style also makes it harder for them to debug and assess whether the system's deployment conforms to its implementation. We present CATMA, an automated tool that detects non-conformances between the system's deployment and implementation. It automatically visualizes and generates potential interpretations for the detected discrepancies. Our evaluation of CATMA shows promising results in terms of performance and providing useful insights. CATMA is available at \url{https://cyber-analytics.nl/catma.github.io/}, and a demonstration video is available at \url{https://youtu.be/WKP1hG-TDKc}. | 翻訳日:2024-01-19 17:08:59 公開日:2024-01-18 |
# 拡散フレームワークを用いた高精度3次元ポーズ再構成のための潜伏クロスチャネル埋め込みの検討 Exploring Latent Cross-Channel Embedding for Accurate 3D Human Pose Reconstruction in a Diffusion Framework ( http://arxiv.org/abs/2401.09836v1 ) ライセンス: Link先を確認 | Junkun Jiang and Jie Chen | (参考訳) 単眼の3次元ポーズ推定は、2Dから3Dへの再投射過程において生じる深度あいまいさによって大きな課題を生じさせる。
オーバーフィットな投影行列の推定に依存する従来のアプローチは、これらの課題を効果的に解決するのに苦労し、しばしばノイズが発生する。
拡散モデルの最近の進歩は、再投射のあいまいさに対処するために構造的事前を組み込むことが約束されている。
しかし、2次元と3次元のジョイントレベルの特徴の相関をしばしば見落としているため、改善の余地は十分にある。
本研究では,3次元座標の接合レベル特徴と2次元投影との相関関係の解明を目的とした,新しいクロスチャネル埋め込みフレームワークを提案する。
さらに, 反復拡散過程において, 潜在チャネル間におけるジョイントグラフの注意の伝達を容易にするコンテキスト誘導機構を提案する。
提案手法の有効性を評価するため,Human3.6MとMPI-INF-3DHPという2つのベンチマークデータセットを用いて実験を行った。
その結果, 復元精度は最先端の手法に比べて有意に向上した。
私たちのメソッドのコードは、さらなる参照のためにオンラインで公開されます。 Monocular 3D human pose estimation poses significant challenges due to the inherent depth ambiguities that arise during the reprojection process from 2D to 3D. Conventional approaches that rely on estimating an over-fit projection matrix struggle to effectively address these challenges and often result in noisy outputs. Recent advancements in diffusion models have shown promise in incorporating structural priors to address reprojection ambiguities. However, there is still ample room for improvement as these methods often overlook the exploration of correlation between the 2D and 3D joint-level features. In this study, we propose a novel cross-channel embedding framework that aims to fully explore the correlation between joint-level features of 3D coordinates and their 2D projections. In addition, we introduce a context guidance mechanism to facilitate the propagation of joint graph attention across latent channels during the iterative diffusion process. To evaluate the effectiveness of our proposed method, we conduct experiments on two benchmark datasets, namely Human3.6M and MPI-INF-3DHP. Our results demonstrate a significant improvement in terms of reconstruction accuracy compared to state-of-the-art methods. The code for our method will be made available online for further reference. | 翻訳日:2024-01-19 17:08:45 公開日:2024-01-18 |
# スライサネットワーク Slicer Networks ( http://arxiv.org/abs/2401.09833v1 ) ライセンス: Link先を確認 | Hang Zhang, Xiang Chen, Rongguang Wang, Renjiu Hu, Dongdong Liu and Gaolei Li | (参考訳) 医用イメージングでは、スキャンによってコントラストは異なるが、内部強度やテクスチャが一貫した物体が明らかになることが多い。
この特性により、セグメンテーションや変形場推定などのタスクに低周波近似を用いることができる。
しかし、医療画像分析のためのニューラルネットワークアーキテクチャにこの概念を統合することは、まだ未定である。
本稿では,これらの特徴を利用した新しいアーキテクチャであるスライサネットワークを提案する。
特徴抽出にvision transformers等のモデルを利用するエンコーダと、学習可能なバイラテラルグリッドを用いたスライサとを含み、スライサネットワークは、スライティング・ブローリング・スライシングプロセスを介して特徴マップを戦略的に洗練し、アップサンプリングする。
これにより、ネットワーク結果に対するエッジ保存低周波近似を導入し、有効受容場を効果的に拡大する。
この拡張は計算の複雑さを軽減するだけでなく、全体的なパフォーマンスも向上させる。
教師なしおよびキーポイントベースの画像登録および病変分割を含む様々な医用画像応用の実験により、スライサネットワークの精度と効率性が向上した。 In medical imaging, scans often reveal objects with varied contrasts but consistent internal intensities or textures. This characteristic enables the use of low-frequency approximations for tasks such as segmentation and deformation field estimation. Yet, integrating this concept into neural network architectures for medical image analysis remains underexplored. In this paper, we propose the Slicer Network, a novel architecture designed to leverage these traits. Comprising an encoder utilizing models like vision transformers for feature extraction and a slicer employing a learnable bilateral grid, the Slicer Network strategically refines and upsamples feature maps via a splatting-blurring-slicing process. This introduces an edge-preserving low-frequency approximation for the network outcome, effectively enlarging the effective receptive field. The enhancement not only reduces computational complexity but also boosts overall performance. Experiments across different medical imaging applications, including unsupervised and keypoints-based image registration and lesion segmentation, have verified the Slicer Network's improved accuracy and efficiency. | 翻訳日:2024-01-19 17:08:25 公開日:2024-01-18 |
# 高分解能リモートセンシング画像におけるインタラクティブな建物セグメンテーションのための自動品質評価ネットワークの改良 Enhanced Automated Quality Assessment Network for Interactive Building Segmentation in High-Resolution Remote Sensing Imagery ( http://arxiv.org/abs/2401.09828v1 ) ライセンス: Link先を確認 | Zhili Zhang, Xiangyun Hu, and Jiabo Xu | (参考訳) 本研究では,高解像度リモートセンシング画像における対話型建物セグメンテーションの質を評価する革新的なソリューションとして,改良型自動品質評価ネットワーク(IBS-AQSNet)を導入する。
これはセグメンテーション品質評価における新しい課題であり、提案したIBS-AQSNetは、欠落したセグメント領域と誤検出セグメント領域を識別することでこれを緩和する。
まず,ロバストな画像特徴を取得するために,ロバストでトレーニング済みのバックボーンと,画像とセグメンテーション結果から包括的特徴抽出を行う軽量なバックボーンを組み合わせる。
これらの特徴は結合層、畳み込み層、残余接続の単純な組み合わせによって融合される。
さらに、ISR-AQSNetは、セグメント化結果の欠落や誤検出といったピンポイント領域に熟練したマルチスケールの差分品質評価デコーダを組み込んでいる。
39,198棟以上のビルを含むEVLab-BGZデータセットを新たに構築した実験により,セグメンテーション品質評価の自動化における提案手法の優位性を実証した。 In this research, we introduce the enhanced automated quality assessment network (IBS-AQSNet), an innovative solution for assessing the quality of interactive building segmentation within high-resolution remote sensing imagery. This is a new challenge in segmentation quality assessment, and our proposed IBS-AQSNet allievate this by identifying missed and mistaken segment areas. First of all, to acquire robust image features, our method combines a robust, pre-trained backbone with a lightweight counterpart for comprehensive feature extraction from imagery and segmentation results. These features are then fused through a simple combination of concatenation, convolution layers, and residual connections. Additionally, ISR-AQSNet incorporates a multi-scale differential quality assessment decoder, proficient in pinpointing areas where segmentation result is either missed or mistaken. Experiments on a newly-built EVLab-BGZ dataset, which includes over 39,198 buildings, demonstrate the superiority of the proposed method in automating segmentation quality assessment, thereby setting a new benchmark in the field. | 翻訳日:2024-01-19 17:08:07 公開日:2024-01-18 |
# BlenDA:拡散型ブレンディングによるドメイン適応オブジェクト検出 BlenDA: Domain Adaptive Object Detection through diffusion-based blending ( http://arxiv.org/abs/2401.09921v1 ) ライセンス: Link先を確認 | Tzuhsuan Huang, Chen-Che Huang, Chung-Hao Ku, Jun-Cheng Chen | (参考訳) Unsupervised domain adapt (UDA) は、ソースドメインからラベル付きデータを使用して学習したモデルを、ターゲットドメイン内のラベルなしデータに転送することを目的としている。
本稿では,対象領域間の大きな領域間ギャップ問題に対処するために,中間領域と対応するソフトドメインラベルの擬似サンプルを生成して適応学習を行う,ドメイン適応オブジェクト検出のための新しい正規化法であるbledaを提案する。
対象領域のテキストラベルを入力として、画像から画像への翻訳品質を良好に発揮した既成のテキストから画像への拡散モデルを用いて、ソース画像と対応する翻訳画像とを動的に混合して中間サンプルを生成する。
2つの適応ベンチマークによる実験結果に基づいて、提案手法は最先端のドメイン適応型オブジェクト検出器であるAdversarial Query Transformer(AQT)の性能を大幅に向上させることができる。
特に、都市景観から霧のような都市景観への適応では、フォギーな都市景観データセット上で53.4%の印象的なマップを達成し、以前の最先端を1.5%上回っています。
提案手法はドメイン適応オブジェクト検出の様々なパラダイムにも適用可能であることに注意が必要である。
コードは:https://github.com/aiiu-lab/blenda Unsupervised domain adaptation (UDA) aims to transfer a model learned using labeled data from the source domain to unlabeled data in the target domain. To address the large domain gap issue between the source and target domains, we propose a novel regularization method for domain adaptive object detection, BlenDA, by generating the pseudo samples of the intermediate domains and their corresponding soft domain labels for adaptation training. The intermediate samples are generated by dynamically blending the source images with their corresponding translated images using an off-the-shelf pre-trained text-to-image diffusion model which takes the text label of the target domain as input and has demonstrated superior image-to-image translation quality. Based on experimental results from two adaptation benchmarks, our proposed approach can significantly enhance the performance of the state-of-the-art domain adaptive object detector, Adversarial Query Transformer (AQT). Particularly, in the Cityscapes to Foggy Cityscapes adaptation, we achieve an impressive 53.4% mAP on the Foggy Cityscapes dataset, surpassing the previous state-of-the-art by 1.5%. It is worth noting that our proposed method is also applicable to various paradigms of domain adaptive object detection. The code is available at:https://github.com/aiiu-lab/BlenDA | 翻訳日:2024-01-19 17:01:07 公開日:2024-01-18 |
# 確率的真順序規則集合 Probabilistic Truly Unordered Rule Sets ( http://arxiv.org/abs/2401.09918v1 ) ライセンス: Link先を確認 | Lincen Yang, Matthijs van Leeuwen | (参考訳) ルールセット学習は、その解釈可能性のために最近頻繁に再検討されている。
既存の方法にはいくつかの欠点がある。
まず、既存のほとんどのメソッドは、明示的にも暗黙的にもルール間の順序を課すため、モデルは理解しにくくなります。
第二に、重複(例えば複数のルールでカバーされたインスタンス)による競合を扱うのが難しいため、既存のメソッドは確率的ルールを考慮しないことが多い。
Third, learning classification rules for multi-class target is understudied, as most existing methods focus on binary classification or multi-class classification via the ``one-versus-rest" approach. To address these shortcomings, we propose TURS, for Truly Unordered Rule Sets. To resolve conflicts caused by overlapping rules, we propose a novel model that exploits the probabilistic properties of our rule sets, with the intuition of only allowing rules to overlap if they have similar probabilistic outputs. We next formalize the problem of learning a TURS model based on the MDL principle and develop a carefully designed heuristic algorithm. We benchmark against a wide range of rule-based methods and demonstrate that our method learns rule sets that have lower model complexity and highly competitive predictive performance. In addition, we empirically show that rules in our model are empirically ``independent" and hence truly unordered. Rule set learning has recently been frequently revisited because of its interpretability. Existing methods have several shortcomings though. First, most existing methods impose orders among rules, either explicitly or implicitly, which makes the models less comprehensible. Second, due to the difficulty of handling conflicts caused by overlaps (i.e., instances covered by multiple rules), existing methods often do not consider probabilistic rules. Third, learning classification rules for multi-class target is understudied, as most existing methods focus on binary classification or multi-class classification via the ``one-versus-rest" approach. To address these shortcomings, we propose TURS, for Truly Unordered Rule Sets. To resolve conflicts caused by overlapping rules, we propose a novel model that exploits the probabilistic properties of our rule sets, with the intuition of only allowing rules to overlap if they have similar probabilistic outputs. We next formalize the problem of learning a TURS model based on the MDL principle and develop a carefully designed heuristic algorithm. We benchmark against a wide range of rule-based methods and demonstrate that our method learns rule sets that have lower model complexity and highly competitive predictive performance. In addition, we empirically show that rules in our model are empirically ``independent" and hence truly unordered. | 翻訳日:2024-01-19 17:00:41 公開日:2024-01-18 |
# バイナリニューラルネットワークによるオンデバイス連続学習の実現 Enabling On-device Continual Learning with Binary Neural Networks ( http://arxiv.org/abs/2401.09916v1 ) ライセンス: Link先を確認 | Lorenzo Vorabbi, Davide Maltoni, Guido Borghi, Stefano Santi | (参考訳) オンデバイス学習は、特に計算能力に制限のあるリソース制約のあるデバイスを扱う場合、依然として深刻な課題である。
第一に、組み込みデバイスで利用可能なメモリは、しばしば浮動小数点精度に依存するメモリ集約バックプロパゲーションアルゴリズムに対応するのに不十分である。
第二に、BNN(Binary Neural Networks)のような極端な量子化レベルを持つモデル上での学習アルゴリズムの開発は、ビット表現の劇的な減少のために重要である。
本研究では,連続学習(CL)とバイナリニューラルネットワークの分野における最近の進歩を組み合わせ,競争力を維持しつつデバイス上でのトレーニングを可能にするソリューションを提案する。
具体的には,二元潜在リプレイ(lr)のアクティベーションと,勾配計算に必要なビット数を大幅に削減する新しい量子化スキームを活用する。
実験による検証は、メモリ要件の顕著な削減と組み合わせて、実世界のシナリオにおけるディープラーニングの実践的応用を拡大するための我々のアプローチの適合性を確認するものである。 On-device learning remains a formidable challenge, especially when dealing with resource-constrained devices that have limited computational capabilities. This challenge is primarily rooted in two key issues: first, the memory available on embedded devices is typically insufficient to accommodate the memory-intensive back-propagation algorithm, which often relies on floating-point precision. Second, the development of learning algorithms on models with extreme quantization levels, such as Binary Neural Networks (BNNs), is critical due to the drastic reduction in bit representation. In this study, we propose a solution that combines recent advancements in the field of Continual Learning (CL) and Binary Neural Networks to enable on-device training while maintaining competitive performance. Specifically, our approach leverages binary latent replay (LR) activations and a novel quantization scheme that significantly reduces the number of bits required for gradient computation. The experimental validation demonstrates a significant accuracy improvement in combination with a noticeable reduction in memory requirement, confirming the suitability of our approach in expanding the practical applications of deep learning in real-world scenarios. | 翻訳日:2024-01-19 17:00:22 公開日:2024-01-18 |
# qadence: デジタルアナログプログラムのための微分可能なインタフェース Qadence: a differentiable interface for digital-analog programs ( http://arxiv.org/abs/2401.09915v1 ) ライセンス: Link先を確認 | Dominik Seitz, Niklas Heim, Jo\~ao P. Moutinho, Roland Guichard, Vytautas Abramavicius, Aleksander Wennersteen, Gert-Jan Both, Anton Quelle, Caroline de Groot, Gergana V. Velikova, Vincent E. Elfving, Mario Dagrada | (参考訳) digital-analog quantum computing (daqc) は、デジタル単一量子ビットゲートと相互作用する量子ビットのレジスタに作用するグローバルアナログ演算を組み合わせたユニバーサル量子計算の代替パラダイムである。
現在、DAQCパラダイム内でプログラムを表現、差別化、実行するために利用可能なオープンソースソフトウェアは存在しない。
本稿では,pasqalで開発された複雑なディジタルアナログ量子プログラムを構築するための高レベルプログラミングインタフェースであるqadenceについて述べる。
フレキシブルなインターフェース、ネイティブの微分可能性、および実デバイス実行に焦点を当てたQadenceは、Rydberg atom arraysのようなネイティブDAQCプラットフォーム用に構築された変動量子アルゴリズムの研究を進めることを目指している。 Digital-analog quantum computing (DAQC) is an alternative paradigm for universal quantum computation combining digital single-qubit gates with global analog operations acting on a register of interacting qubits. Currently, no available open-source software is tailored to express, differentiate, and execute programs within the DAQC paradigm. In this work, we address this shortfall by presenting Qadence, a high-level programming interface for building complex digital-analog quantum programs developed at Pasqal. Thanks to its flexible interface, native differentiability, and focus on real-device execution, Qadence aims at advancing research on variational quantum algorithms built for native DAQC platforms such as Rydberg atom arrays. | 翻訳日:2024-01-19 17:00:04 公開日:2024-01-18 |
# BUMP: 再現可能な依存関係更新のベンチマーク BUMP: A Benchmark of Reproducible Breaking Dependency Updates ( http://arxiv.org/abs/2401.09906v1 ) ライセンス: Link先を確認 | Frank Reyes, Yogya Gamage, Gabriel Skoglund, Benoit Baudry, Martin Monperrus | (参考訳) サードパーティの依存性更新は、新しい依存性バージョンが使用法と互換性のない変更を導入した場合、ビルドが失敗する可能性がある。
依存関係の更新を分解する研究は活発であり、更新のキャラクタリゼーション、理解、更新の自動修復、その他のソフトウェア工学的な側面に取り組んでいる。
これらの研究プロジェクトはすべて、以下の特性を持つアップデートのベンチマークを必要とする。
1)現実の破壊的アップデートを含む。
2) 更新更新は実行可能である。
3) このベンチマークは、更新を時間とともに破壊する安定した科学的成果物を提供する。
私たちの知る限りでは、そのようなベンチマークは欠落している。
この問題に対処するため、Mavenビルドシステムで構築されたJavaプロジェクトのコンテキストにおいて、再現可能な依存性更新を含む新しいベンチマークであるBUMPを紹介します。
BUMPには153のJavaプロジェクトから収集された571の依存性更新が含まれている。
BUMPは、さまざまなプラットフォームにおける依存関係更新の長期的な再現性を確保し、一貫したビルド障害を保証する。
我々はビルド破壊のさまざまな原因をbumpに分類し、今後のアップデートエンジニアリングの破壊に関する新しい知見を提供する。
私たちの知る限り、BUMPはその種の最初のもので、再現可能な何百もの現実世界の更新を提供する。 Third-party dependency updates can cause a build to fail if the new dependency version introduces a change that is incompatible with the usage: this is called a breaking dependency update. Research on breaking dependency updates is active, with works on characterization, understanding, automatic repair of breaking updates, and other software engineering aspects. All such research projects require a benchmark of breaking updates that has the following properties: 1) it contains real-world breaking updates; 2) the breaking updates can be executed; 3) the benchmark provides stable scientific artifacts of breaking updates over time, a property we call reproducibility. To the best of our knowledge, such a benchmark is missing. To address this problem, we present BUMP, a new benchmark that contains reproducible breaking dependency updates in the context of Java projects built with the Maven build system. BUMP contains 571 breaking dependency updates collected from 153 Java projects. BUMP ensures long-term reproducibility of dependency updates on different platforms, guaranteeing consistent build failures. We categorize the different causes of build breakage in BUMP, providing novel insights for future work on breaking update engineering. To our knowledge, BUMP is the first of its kind, providing hundreds of real-world breaking updates that have all been made reproducible. | 翻訳日:2024-01-19 16:59:48 公開日:2024-01-18 |
# 神経オデムの補間における深さと幅の相互作用 Interplay between depth and width for interpolation in neural ODEs ( http://arxiv.org/abs/2401.09902v1 ) ライセンス: Link先を確認 | Antonio \'Alvarez-L\'opez, Arselane Hadj Slimane, Enrique Zuazua Iriondo | (参考訳) ニューラル常微分方程式 (neural ODEs) は制御の観点から教師あり学習の自然な道具として登場したが、それらの最適アーキテクチャの完全な理解はいまだ解明されていない。
本研究では,その幅$p$と層遷移数$L$(事実上深さ$L+1$)の相互作用について検討する。
具体的には、ワッサーシュタイン誤差マージン$\varepsilon>0$の中で、N$の点対からなる有限データセット$D$または2つの確率測度を$\mathbb{R}^d$で補間する能力の観点からモデル表現性を評価する。
この結果から,データセット補間は$O(1+N/p)$,測定補間は$L=O\left(1+(p\varepsilon^d)^{-1}\right)$として,$L$が$O(1+N/p)$,$L$が$L$のバランスをとることが判明した。
自律的なケースでは、$l=0$の場合、データセットの補間に焦点を当てた別の研究が必要です。
我々は、$\varepsilon$-approximate controllabilityの緩和問題に対処し、$\varepsilon\sim O(\log(p)p^{-1/d})$の誤差崩壊を確立する。
この減衰率は、$d$を補間するカスタム構築リプシッツベクトル場に普遍近似定理を適用する結果である。
高次元設定では、$p=O(N)$ニューロンが正確な制御を達成するのに十分であることを示す。 Neural ordinary differential equations (neural ODEs) have emerged as a natural tool for supervised learning from a control perspective, yet a complete understanding of their optimal architecture remains elusive. In this work, we examine the interplay between their width $p$ and number of layer transitions $L$ (effectively the depth $L+1$). Specifically, we assess the model expressivity in terms of its capacity to interpolate either a finite dataset $D$ comprising $N$ pairs of points or two probability measures in $\mathbb{R}^d$ within a Wasserstein error margin $\varepsilon>0$. Our findings reveal a balancing trade-off between $p$ and $L$, with $L$ scaling as $O(1+N/p)$ for dataset interpolation, and $L=O\left(1+(p\varepsilon^d)^{-1}\right)$ for measure interpolation. In the autonomous case, where $L=0$, a separate study is required, which we undertake focusing on dataset interpolation. We address the relaxed problem of $\varepsilon$-approximate controllability and establish an error decay of $\varepsilon\sim O(\log(p)p^{-1/d})$. This decay rate is a consequence of applying a universal approximation theorem to a custom-built Lipschitz vector field that interpolates $D$. In the high-dimensional setting, we further demonstrate that $p=O(N)$ neurons are likely sufficient to achieve exact control. | 翻訳日:2024-01-19 16:59:30 公開日:2024-01-18 |
# 視覚品質検査のためのxai強調意味セグメンテーションモデル XAI-Enhanced Semantic Segmentation Models for Visual Quality Inspection ( http://arxiv.org/abs/2401.09900v1 ) ライセンス: Link先を確認 | Tobias Clement, Truong Thanh Hung Nguyen, Mohamed Abdelaal, Hung Cao | (参考訳) 製造や物流などの分野において重要な視覚品質検査システムは、精密で迅速な欠陥検出にコンピュータビジョンと機械学習を用いる。
しかし、その説明できない性質は、信頼、エラー識別、システム改善を妨げる可能性がある。
本稿では、CAMに基づく説明を用いて視覚的品質検査を促進させ、セマンティックセグメンテーションモデルを洗練させる枠組みを提案する。
私たちのアプローチは
1)モデルトレーニング
2)XAIに基づくモデル説明
3)XAI評価、及び
4) 説明及び専門家の知見により通知されたモデル強化のための注釈増強
XAI強化モデルは、特に複雑なオブジェクトセグメンテーションにおいて、オリジナルのDeepLabv3-ResNet101モデルを上回っている。 Visual quality inspection systems, crucial in sectors like manufacturing and logistics, employ computer vision and machine learning for precise, rapid defect detection. However, their unexplained nature can hinder trust, error identification, and system improvement. This paper presents a framework to bolster visual quality inspection by using CAM-based explanations to refine semantic segmentation models. Our approach consists of 1) Model Training, 2) XAI-based Model Explanation, 3) XAI Evaluation, and 4) Annotation Augmentation for Model Enhancement, informed by explanations and expert insights. Evaluations show XAI-enhanced models surpass original DeepLabv3-ResNet101 models, especially in intricate object segmentation. | 翻訳日:2024-01-19 16:58:58 公開日:2024-01-18 |
# meme-ingful analysis:マルチモーダルな説明によるmemeにおけるサイバーいじめの理解の強化 Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes Through Multimodal Explanations ( http://arxiv.org/abs/2401.09899v1 ) ライセンス: Link先を確認 | Prince Jha, Krishanu Maity, Raghav Jain, Apoorv Verma, Sriparna Saha, Pushpak Bhattacharyya | (参考訳) インターネットミームは政治的、心理学的、社会文化的アイデアを伝えることに大きな影響を与えている。
ミームはユーモラスなものが多いが、トロールやサイバーいじめにミームが使われるようになった。
攻撃的マルチモーダルミームを検出するために,多種多様な効果的な深層学習モデルが開発されているが,説明可能性に関する研究は少ない。
一般データ保護規則の「説明の権利」のような最近の法律は、パフォーマンスのみに焦点をあてるのではなく、解釈可能なモデルを開発する研究を刺激している。
そこで我々は,コード混在型サイバーいじめミームによるマルチモーダルな説明のための最初のベンチマークデータセットである {\em MultiBully-Ex} を紹介した。
ここで、視覚とテキストのモダリティが強調され、ミームがサイバーいじめである理由が説明される。
Contrastive Language-Image Pretraining (CLIP)プロジェクションに基づくマルチモーダルな共有プライベートマルチタスクアプローチが,ミームの視覚的およびテキスト的説明のために提案されている。
実験結果から,マルチモーダルな説明を用いたトレーニングにより,テキストの正当性の生成性能が向上することが示された。 Internet memes have gained significant influence in communicating political, psychological, and sociocultural ideas. While memes are often humorous, there has been a rise in the use of memes for trolling and cyberbullying. Although a wide variety of effective deep learning-based models have been developed for detecting offensive multimodal memes, only a few works have been done on explainability aspect. Recent laws like "right to explanations" of General Data Protection Regulation, have spurred research in developing interpretable models rather than only focusing on performance. Motivated by this, we introduce {\em MultiBully-Ex}, the first benchmark dataset for multimodal explanation from code-mixed cyberbullying memes. Here, both visual and textual modalities are highlighted to explain why a given meme is cyberbullying. A Contrastive Language-Image Pretraining (CLIP) projection-based multimodal shared-private multitask approach has been proposed for visual and textual explanation of a meme. Experimental results demonstrate that training with multimodal explanations improves performance in generating textual justifications and more accurately identifying the visual evidence supporting a decision with reliable performance improvements. | 翻訳日:2024-01-19 16:58:48 公開日:2024-01-18 |
# 時変媒体からの熱放射は半分類的に説明できるか? Can thermal emission from time-varying media be described semiclassically? ( http://arxiv.org/abs/2401.09897v1 ) ライセンス: Link先を確認 | I\~nigo Liberal, J. Enrique V\'azquez-Lozano, Antonio Ganfornina-Andrades | (参考訳) 時変媒体、すなわち動的に変化する特性を持つ材料は、エネルギー保存と相反性によって課される制限を解除し、非平衡力学へのアクセスを提供することで、熱放出工学の新たな可能性を開いた。
さらに、真空増幅やゼロ温度での放出のような量子効果は、時間変化のある媒体に対して予測され、熱放出の量子的性質に関する議論が再開された。
ここでは、変動電気力学に基づく時間変化媒体の熱放射に関する半古典理論を導出し、量子理論と比較する。
その結果、量子真空増幅効果の寄与を正しく捉えるためには量子理論が必要であり、室温や中赤外周波数においても関係していることがわかった。
最後に, 標準半古典理論の修正を提案し, 従来のツールによる時間変化媒体の熱放射の予測を可能にする。 Time-varying media, i.e., materials whose properties dynamically change in time, have opened new possibilities for thermal emission engineering by lifting the limitations imposed by energy conservation and reciprocity, and providing access to nonequilibrium dynamics. In addition, quantum effects, such as vacuum amplification and emission at zero temperature, have been predicted for time-varying media, reopening the debate on the quantum nature of thermal emission. Here, we derive a semiclassical theory to thermal emission from time-varying media based on fluctuational electrodynamics, and compare it to the quantum theory. Our results show that a quantum theory is needed to correctly capture the contribution from quantum vacuum amplifications effects, which can be relevant even at room temperature and mid-infrared frequencies. Finally, we propose corrections to the standard semiclassical theory that enable the prediction of thermal emission from time-varying media with classical tools. | 翻訳日:2024-01-19 16:58:28 公開日:2024-01-18 |
# 顕微鏡における細粒化セグメンテーションのための骨格誘導型インスタンス分離 Skeleton-Guided Instance Separation for Fine-Grained Segmentation in Microscopy ( http://arxiv.org/abs/2401.09895v1 ) ライセンス: Link先を確認 | Jun Wang, Chengfeng Zhou, Zhaoyan Ming, Lina Wei, Xudong Jiang, and Dahong Qian | (参考訳) 顕微鏡(MS)画像解析における基本的な課題の1つはインスタンスセグメンテーション(IS)であり、特にサイズや形状の異なる複数のオブジェクトが任意の向きに連結したり重なり合ったりする場合である。
既存のisメソッドは通常、キーポイントや水平境界ボックス(h-bboxes)といった粗いインスタンス表現に依存するため、そのようなシナリオを扱うのに失敗する。
本稿では,この課題に対処し,MS画像におけるISの精度を高めるために,A2B-ISという新しいワンステージフレームワークを提案する。
このアプローチは各インスタンスをピクセルレベルのマスクマップと回転したバウンディングボックス(r-bbox)で表現する。
セグメンテーションにボックスプロポーザルを使用する2段階の手法とは異なり、我々の手法はマスクとボックス予測を分離し、同時処理でモデルパイプラインを合理化することができる。
さらに,(1)アンカー配置をガイドし,計算コストを低減しつつ,背景領域からノイズを除去してRoI対応の特徴を学習する能力を向上させるという,ISタスクを支援するガウススケルトンマップを導入する。
2) インスタンス境界付近の誤ったボックス予測を正すことで,密集したインスタンスの正確な分離を実現する。
性能をさらに向上するため,(1)高精細なマルチスケール情報を持つ高精細な特徴マップを抽出するために設計されたA2B(Atrous Attention Block)と,(2)ラベル付き画像と未ラベル画像の両方をモデルトレーニングに活用するSemi-Supervised Learning(SSL)戦略の2つのモジュールをフレームワークに統合した。
本手法は,2つの大規模msデータセット上で徹底的に検証され,最先端手法よりも優れていることを示す。 One of the fundamental challenges in microscopy (MS) image analysis is instance segmentation (IS), particularly when segmenting cluster regions where multiple objects of varying sizes and shapes may be connected or even overlapped in arbitrary orientations. Existing IS methods usually fail in handling such scenarios, as they rely on coarse instance representations such as keypoints and horizontal bounding boxes (h-bboxes). In this paper, we propose a novel one-stage framework named A2B-IS to address this challenge and enhance the accuracy of IS in MS images. Our approach represents each instance with a pixel-level mask map and a rotated bounding box (r-bbox). Unlike two-stage methods that use box proposals for segmentations, our method decouples mask and box predictions, enabling simultaneous processing to streamline the model pipeline. Additionally, we introduce a Gaussian skeleton map to aid the IS task in two key ways: (1) It guides anchor placement, reducing computational costs while improving the model's capacity to learn RoI-aware features by filtering out noise from background regions. (2) It ensures accurate isolation of densely packed instances by rectifying erroneous box predictions near instance boundaries. To further enhance the performance, we integrate two modules into the framework: (1) An Atrous Attention Block (A2B) designed to extract high-resolution feature maps with fine-grained multiscale information, and (2) A Semi-Supervised Learning (SSL) strategy that leverages both labeled and unlabeled images for model training. Our method has been thoroughly validated on two large-scale MS datasets, demonstrating its superiority over most state-of-the-art approaches. | 翻訳日:2024-01-19 16:58:13 公開日:2024-01-18 |
# 大規模言語モデルのハードウェアアクセラレータに関する調査 A Survey on Hardware Accelerators for Large Language Models ( http://arxiv.org/abs/2401.09890v1 ) ライセンス: Link先を確認 | Christoforos Kachris | (参考訳) 大規模言語モデル(llm)は自然言語処理タスクのための強力なツールとして登場し、人間のようなテキストを理解し、生成する能力でこの分野に革命をもたらした。
より洗練されたLSMの需要が拡大し続けており、スケールや複雑さに関連する計算上の課題に対処する必要がある。
本稿では,大規模言語モデルの性能とエネルギー効率を向上させるハードウェアアクセラレータに関する総合的な調査を行う。
GPU,FPGA,カスタム設計アーキテクチャなど,さまざまな種類のアクセラレータを調べて,LLMのユニークな計算要求を満たすように最適化されたハードウェアソリューションの展望を探る。
この調査は、アーキテクチャ、パフォーマンスメトリクス、エネルギー効率の考慮事項を詳細に分析し、実際のアプリケーションにおけるllmの配置を最適化することを目的とした、研究者、エンジニア、意思決定者にとって貴重な洞察を提供する。 Large Language Models (LLMs) have emerged as powerful tools for natural language processing tasks, revolutionizing the field with their ability to understand and generate human-like text. As the demand for more sophisticated LLMs continues to grow, there is a pressing need to address the computational challenges associated with their scale and complexity. This paper presents a comprehensive survey on hardware accelerators designed to enhance the performance and energy efficiency of Large Language Models. By examining a diverse range of accelerators, including GPUs, FPGAs, and custom-designed architectures, we explore the landscape of hardware solutions tailored to meet the unique computational demands of LLMs. The survey encompasses an in-depth analysis of architecture, performance metrics, and energy efficiency considerations, providing valuable insights for researchers, engineers, and decision-makers aiming to optimize the deployment of LLMs in real-world applications. | 翻訳日:2024-01-19 16:57:41 公開日:2024-01-18 |
# 次世代ネットワークにおける弾性フェデレーションとマルチエージェント深部強化学習に基づく協調エッジキャッシング Cooperative Edge Caching Based on Elastic Federated and Multi-Agent Deep Reinforcement Learning in Next-Generation Network ( http://arxiv.org/abs/2401.09886v1 ) ライセンス: Link先を確認 | Qiong Wu, Wenhua Wang, Pingyi Fan, Qiang Fan, Huiling Zhu, Khaled B. Letaief | (参考訳) エッジキャッシュは、小型セルベースステーション(SBS)のキャッシュユニットを有効活用することで、次世代ネットワークにとって有望なソリューションである。
SBSは,ユーザの個人情報を保護しながら,学習を通じて正確な人気コンテンツを予測することが重要である。
従来のフェデレーション学習(FL)はユーザのプライバシを保護することができるが、UE間のデータ格差はモデル品質の低下につながる。
そのため、各UE毎に個別のローカルモデルをトレーニングし、人気コンテンツを正確に予測する必要がある。
さらに、次世代ネットワークにおいて、キャッシュされたコンテンツを隣接するSBS間で共有することができるため、予測された人気コンテンツを異なるSBSでキャッシュすることで、コンテンツを取得するコストに影響を与える可能性がある。
したがって、人気コンテンツが相互にキャッシュされる場所を決定することが重要である。
これらの問題に対処するために、ネットワークのコストを最適化するために、弾性フェデレーションとマルチエージェント深部強化学習(CEFMR)に基づく協調エッジキャッシュ方式を提案する。
まず,各UEのパーソナライズされたモデルをトレーニングするための弾力的FLアルゴリズムを提案する。そこでは,予測精度を向上させるために,対向オートエンコーダ(AAE)モデルを採用し,トレーニングされたAAEモデルに基づいて,SBS毎に人気コンテンツを予測するために,人気コンテンツ予測アルゴリズムを提案する。
最後に,マルチエージェント・ディープ・強化学習(MADRL)に基づくアルゴリズムを提案する。
提案手法が既存のベースラインキャッシュ方式よりも優れていることを示す実験結果を得た。 Edge caching is a promising solution for next-generation networks by empowering caching units in small-cell base stations (SBSs), which allows user equipments (UEs) to fetch users' requested contents that have been pre-cached in SBSs. It is crucial for SBSs to predict accurate popular contents through learning while protecting users' personal information. Traditional federated learning (FL) can protect users' privacy but the data discrepancies among UEs can lead to a degradation in model quality. Therefore, it is necessary to train personalized local models for each UE to predict popular contents accurately. In addition, the cached contents can be shared among adjacent SBSs in next-generation networks, thus caching predicted popular contents in different SBSs may affect the cost to fetch contents. Hence, it is critical to determine where the popular contents are cached cooperatively. To address these issues, we propose a cooperative edge caching scheme based on elastic federated and multi-agent deep reinforcement learning (CEFMR) to optimize the cost in the network. We first propose an elastic FL algorithm to train the personalized model for each UE, where adversarial autoencoder (AAE) model is adopted for training to improve the prediction accuracy, then {a popular} content prediction algorithm is proposed to predict the popular contents for each SBS based on the trained AAE model. Finally, we propose a multi-agent deep reinforcement learning (MADRL) based algorithm to decide where the predicted popular contents are collaboratively cached among SBSs. Our experimental results demonstrate the superiority of our proposed scheme to existing baseline caching schemes. | 翻訳日:2024-01-19 16:57:26 公開日:2024-01-18 |
# 教師なし類似度尺度を用いたソースコードクローン検出 Source Code Clone Detection Using Unsupervised Similarity Measures ( http://arxiv.org/abs/2401.09885v1 ) ライセンス: Link先を確認 | Jorge Martinez-Gil | (参考訳) 近年,クローン検出やコード検索,レコメンデーションといったソフトウェア工学タスクの重要性から,ソースコードの類似性の評価が注目されている。
本研究はソースコードクローン検出のための教師なし類似度尺度の比較分析を行う。
目標は、現在の最先端技術、その強み、弱点を概観することである。
そのため、既存の教師なし戦略をコンパイルし、ベンチマークデータセットでパフォーマンスを評価することで、ソフトウェアエンジニアが特定のユースケースに適した方法を選択するようにガイドします。
この研究のソースコードは \url{https://github.com/jorge-martinez-gil/codesim} で入手できる。 Assessing similarity in source code has gained significant attention in recent years due to its importance in software engineering tasks such as clone detection and code search and recommendation. This work presents a comparative analysis of unsupervised similarity measures for identifying source code clone detection. The goal is to overview the current state-of-the-art techniques, their strengths, and weaknesses. To do that, we compile the existing unsupervised strategies and evaluate their performance on a benchmark dataset to guide software engineers in selecting appropriate methods for their specific use cases. The source code of this study is available at \url{https://github.com/jorge-martinez-gil/codesim} | 翻訳日:2024-01-19 16:56:55 公開日:2024-01-18 |
# 弱教師付き意味セグメンテーションのための質問応答型クロス言語画像マッチング Question-Answer Cross Language Image Matching for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2401.09883v1 ) ライセンス: Link先を確認 | Songhe Deng, Wei Zhuo, Jinheng Xie, Linlin Shen | (参考訳) クラスアクティベーションマップ(CAM)は、イメージレベルのラベルのみを使用して画像内のオブジェクト領域のローカライズを可能にする、弱教師付きセマンティックセグメンテーション(WSSS)の一般的なツールとして登場した。
しかし,既存のCAM手法では,詳細な監視の欠如が,画像全体を理解する能力の障害となるため,対象領域の過失や背景領域の誤動作に悩まされている。
本稿では、画像のテキストベース理解を最大化し、アクティベーションマップの生成を導く視覚言語基礎モデルを活用した、wsss(qa-clims)のための新しい質問応答型クロス言語画像マッチングフレームワークを提案する。
まず,質問応答技術(QAPE)を用いたVQA(Visual Question Answering)モデルを用いて,質問対象オブジェクトと検索対象背景の両方のコーパスを生成する。
次に、得られた前景および背景領域と生成されたコーパスを比較するために、Regional Image Text Contrastive (RITC) ネットワークにおいてコントラスト学習を用いる。
このアプローチでは、オープン語彙からの豊富なテキスト情報を追加の監督として活用し、より完全なオブジェクト領域で高品質なカムを生成し、背景領域の誤動作を低減できる。
提案手法の有効性を検証し,提案手法がPASCAL VOC 2012とMS COCOデータセットの両方で最先端の処理を行うことを示す。
コードは、https://github.com/CVI-SZU/QA-CLIMSで入手できる。 Class Activation Map (CAM) has emerged as a popular tool for weakly supervised semantic segmentation (WSSS), allowing the localization of object regions in an image using only image-level labels. However, existing CAM methods suffer from under-activation of target object regions and false-activation of background regions due to the fact that a lack of detailed supervision can hinder the model's ability to understand the image as a whole. In this paper, we propose a novel Question-Answer Cross-Language-Image Matching framework for WSSS (QA-CLIMS), leveraging the vision-language foundation model to maximize the text-based understanding of images and guide the generation of activation maps. First, a series of carefully designed questions are posed to the VQA (Visual Question Answering) model with Question-Answer Prompt Engineering (QAPE) to generate a corpus of both foreground target objects and backgrounds that are adaptive to query images. We then employ contrastive learning in a Region Image Text Contrastive (RITC) network to compare the obtained foreground and background regions with the generated corpus. Our approach exploits the rich textual information from the open vocabulary as additional supervision, enabling the model to generate high-quality CAMs with a more complete object region and reduce false-activation of background regions. We conduct extensive analysis to validate the proposed method and show that our approach performs state-of-the-art on both PASCAL VOC 2012 and MS COCO datasets. Code is available at: https://github.com/CVI-SZU/QA-CLIMS | 翻訳日:2024-01-19 16:56:45 公開日:2024-01-18 |
# GA-SmaAt-GNet: 極端沈殿用生成逆小注意GNet GA-SmaAt-GNet: Generative Adversarial Small Attention GNet for Extreme Precipitation Nowcasting ( http://arxiv.org/abs/2401.09881v1 ) ライセンス: Link先を確認 | Eloy Reulen, Siamak Mehrkanoon | (参考訳) 近年、データ駆動モデリングのアプローチは様々な気象学の応用、特に天気予報の分野で大きな注目を集めている。
しかし、これらのアプローチは極端な気象条件を扱う際にしばしば困難に直面する。
そこで我々は,極度の降水量を考慮した深層学習モデルの性能向上を目的とした2つの手法を応用したGA-SmaAt-GNetを提案する。
まず、成功したSmaAt-UNetアーキテクチャをジェネレータとして構築した新しいSmaAt-GNetを使用する。
このネットワークは降水マスク(二値降水マップ)を付加的なデータソースとして組み込んで、貴重な情報を活用して予測を改善する。
さらにGA-SmaAt-GNetは、よく確立されたPix2Pixアーキテクチャにインスパイアされた注意増強された識別器を使用している。
さらに,オランダのリアルタイム降水データセットを用いてGA-SmaAt-GNetの性能を評価する。
実験結果から, 総合的および極端降水イベントにおいて, 顕著な改善が認められた。
さらに,提案したGA-SmaAt-GNetモデルと降水データセットについて不確実性解析を行い,モデルの予測能力についてさらなる知見を提供する。
最後に、Grad-CAMを用いた提案モデルの予測についてさらなる知見を提供する。
この視覚的説明技術は、ネットワークの様々な部分でより活性化された入力の領域である活性化ヒートマップを生成する。 In recent years, data-driven modeling approaches have gained considerable traction in various meteorological applications, particularly in the realm of weather forecasting. However, these approaches often encounter challenges when dealing with extreme weather conditions. In light of this, we propose GA-SmaAt-GNet, a novel generative adversarial architecture that makes use of two methodologies aimed at enhancing the performance of deep learning models for extreme precipitation nowcasting. Firstly, it uses a novel SmaAt-GNet built upon the successful SmaAt-UNet architecture as generator. This network incorporates precipitation masks (binarized precipitation maps) as an additional data source, leveraging valuable information for improved predictions. Additionally, GA-SmaAt-GNet utilizes an attention-augmented discriminator inspired by the well-established Pix2Pix architecture. Furthermore, we assess the performance of GA-SmaAt-GNet using real-life precipitation dataset from the Netherlands. Our experimental results reveal a notable improvement in both overall performance and for extreme precipitation events. Furthermore, we conduct uncertainty analysis on the proposed GA-SmaAt-GNet model as well as on the precipitation dataset, providing additional insights into the predictive capabilities of the model. Finally, we offer further insights into the predictions of our proposed model using Grad-CAM. This visual explanation technique generates activation heatmaps, illustrating areas of the input that are more activated for various parts of the network. | 翻訳日:2024-01-19 16:56:14 公開日:2024-01-18 |
# 近傍スクリーニングによるガウス図形モデルの偽発見率制御 False Discovery Rate Control for Gaussian Graphical Models via Neighborhood Screening ( http://arxiv.org/abs/2401.09979v1 ) ライセンス: Link先を確認 | Taulant Koka, Jasin Machkour, Michael Muma | (参考訳) ガウスのグラフィカルモデルは幅広い分野に出現する。
彼らは変数間の統計的関係をグラフとしてモデル化し、2つの変数間の辺が条件依存を表す。
残念なことに、グラフィカルラッソや近所の選択のような確立された推定者は、誤ったエッジ検出の頻度が高いことが知られている。
偽検出は不正確な科学的解釈を奨励し、バイオメディシンや医療などの応用に大きな影響を及ぼす。
本稿では,グラフ学習におけるノードワイズ変数の選択手法を導入し,選択したエッジセットの誤り発見率を自己推定レベルで確実に制御する。
個々の近傍の新しい融合方法は、無向グラフ推定を出力する。
提案手法はパラメータフリーであり,ユーザによるチューニングは不要である。
異なるグラフトポロジを考慮した数値実験における競合偽発見率制御法に対するベンチマークは、性能の大幅な向上を示している。 Gaussian graphical models emerge in a wide range of fields. They model the statistical relationships between variables as a graph, where an edge between two variables indicates conditional dependence. Unfortunately, well-established estimators, such as the graphical lasso or neighborhood selection, are known to be susceptible to a high prevalence of false edge detections. False detections may encourage inaccurate or even incorrect scientific interpretations, with major implications in applications, such as biomedicine or healthcare. In this paper, we introduce a nodewise variable selection approach to graph learning and provably control the false discovery rate of the selected edge set at a self-estimated level. A novel fusion method of the individual neighborhoods outputs an undirected graph estimate. The proposed method is parameter-free and does not require tuning by the user. Benchmarks against competing false discovery rate controlling methods in numerical experiments considering different graph topologies show a significant gain in performance. | 翻訳日:2024-01-19 16:52:08 公開日:2024-01-18 |
# dual-prism を通じて:グラフ分類のためのグラフデータ拡張に関するスペクトル視点 Through the Dual-Prism: A Spectral Perspective on Graph Data Augmentation for Graph Classification ( http://arxiv.org/abs/2401.09953v1 ) ライセンス: Link先を確認 | Yutong Xia, Runpeng Yu, Yuxuan Liang, Xavier Bresson, Xinchao Wang, Roger Zimmermann | (参考訳) グラフニューラルネットワーク(gnns)はグラフデータを処理するためのツールとして好まれており、グラフデータ拡張技術によってその効果が向上している。
拡張法の進化にもかかわらず、グラフ特性の歪みや制限された構造変化などの問題は続いている。
よりプロパティを保存し、構造に敏感な拡張方法を開発することは可能か?
スペクトルレンズを用いて, グラフ特性の相互作用, 拡張性, スペクトル挙動について検討し, 低周波固有値の維持は, 拡張グラフを生成する際に, 大規模に臨界特性を保存できることを見出した。
これらの結果から,DP-Noise と DP-Mask から構成されるDual-Prism (DP) 拡張手法の導入が示唆された。
大規模な実験により、我々のアプローチの効率が検証され、グラフデータ拡張のための新しい有望な方向が提供される。 Graph Neural Networks (GNNs) have become the preferred tool to process graph data, with their efficacy being boosted through graph data augmentation techniques. Despite the evolution of augmentation methods, issues like graph property distortions and restricted structural changes persist. This leads to the question: Is it possible to develop more property-conserving and structure-sensitive augmentation methods? Through a spectral lens, we investigate the interplay between graph properties, their augmentation, and their spectral behavior, and found that keeping the low-frequency eigenvalues unchanged can preserve the critical properties at a large scale when generating augmented graphs. These observations inform our introduction of the Dual-Prism (DP) augmentation method, comprising DP-Noise and DP-Mask, which adeptly retains essential graph properties while diversifying augmented graphs. Extensive experiments validate the efficiency of our approach, providing a new and promising direction for graph data augmentation. | 翻訳日:2024-01-19 16:51:55 公開日:2024-01-18 |
# symbolnet:適応動的プルーニングを用いたニューラルシンボリック回帰 SymbolNet: Neural Symbolic Regression with Adaptive Dynamic Pruning ( http://arxiv.org/abs/2401.09949v1 ) ライセンス: Link先を確認 | Ho Fung Tsoi, Vladimir Loncar, Sridhara Dasu, Philip Harris | (参考訳) 遺伝的プログラミングと対照的に、記号回帰に対するニューラルネットワークのアプローチは、高い入力次元でうまくスケールでき、より高速な方程式探索に勾配法を利用することができる。
表現複雑性を制約する一般的な方法は、微調整によるマルチステージプルーニング手法に依存しているが、これはしばしば大きなパフォーマンス損失をもたらす。
本稿では,モデル重み,入力特徴量,数理演算子を単一のトレーニングで動的にプルーニングし,トレーニング損失と表現複雑性を同時に最適化する,新たなフレームワークにおける,シンボリック回帰に対するニューラルネットワークアプローチであるsymbolnetを提案する。
そこで本研究では, プルーニングタイプ毎のスパルニティ正規化項を導入し, その強度を適応的に調整し, 目標スパルニティレベルに収束させる。
o$(10) 以上の入力を持つデータセットを効率的に処理できない既存の記号回帰法と対照的に, lhc jet tagging task (16 入力), mnist (784 入力), svhn (3072 入力) におけるモデルの有効性を実証した。 Contrary to the use of genetic programming, the neural network approach to symbolic regression can scale well with high input dimension and leverage gradient methods for faster equation searching. Common ways of constraining expression complexity have relied on multistage pruning methods with fine-tuning, but these often lead to significant performance loss. In this work, we propose SymbolNet, a neural network approach to symbolic regression in a novel framework that enables dynamic pruning of model weights, input features, and mathematical operators in a single training, where both training loss and expression complexity are optimized simultaneously. We introduce a sparsity regularization term per pruning type, which can adaptively adjust its own strength and lead to convergence to a target sparsity level. In contrast to most existing symbolic regression methods that cannot efficiently handle datasets with more than $O$(10) inputs, we demonstrate the effectiveness of our model on the LHC jet tagging task (16 inputs), MNIST (784 inputs), and SVHN (3072 inputs). | 翻訳日:2024-01-19 16:51:38 公開日:2024-01-18 |
# samplizerによる時間効率量子エントロピー推定器 Time-Efficient Quantum Entropy Estimator via Samplizer ( http://arxiv.org/abs/2401.09947v1 ) ライセンス: Link先を確認 | Qisheng Wang and Zhicheng Zhang | (参考訳) エントロピー(Entropy)は、システムのランダム性の尺度である。
量子状態のエントロピーの推定は、量子情報における基本的な問題である。
本稿では,von neumann エントロピー $s(\rho)$ と r\'enyi entropy $s_\alpha(\rho)$ と n 次元量子状態 $\rho$ を推定する時間効率の良い量子手法を提案する。
具体的には、以下の量子推定器を提供する。
1. A quantum estimator for $S(\rho)$ with time complexity $\widetilde O(N^2)$, improve the previous best time complexity $\widetilde O (N^6)$ by Acharya, Issa, Shende, and Wagner (2020) and Bavarian, Mehraba, and Wright (2016)。
2. S_\alpha(\rho)$ for $S_\alpha(\rho)$ with time complexity $\widetilde O(N^{4/\alpha-2})$ for $0 < \alpha < 1$ and $\widetilde O(N^{4-2/\alpha})$ for $\alpha > 1$, improve the prior best time complexity $\widetilde O(N^{6/\alpha})$ for $0 < \alpha < 1$ and $\widetilde O(N^6)$ for $\alpha > 1$ by Acharya, Issa, Shende, and Wagner (2020) は、より高額なサンプルである。
さらに、これらの推定子は低ランクの場合に対して自然に拡張可能である。
技術的には、この手法は、弱いschurサンプリングと若いダイアグラムに基づく以前の手法とは全く異なる。
量子状態のサンプルのみを使用して、同様の振る舞いを持つ量子アルゴリズムに対して、量子クエリアルゴリズムを"samplize"できる、samplizerと呼ばれる新しいツールが構築されている。
具体的には、量子oracle $u$が混合量子状態$\rho$をブロックエンコードするとき、$q$クエリを使用する量子クエリアルゴリズムは$\delta$-close(ダイアモンドノルム内で)量子アルゴリズムに$\widetilde \theta(q^2/\delta)$の$rho$のサンプルにサプリ化することができる。
さらに、このサンプリングは多対数因子まで最適であることが証明されている。 Entropy is a measure of the randomness of a system. Estimating the entropy of a quantum state is a basic problem in quantum information. In this paper, we introduce a time-efficient quantum approach to estimating the von Neumann entropy $S(\rho)$ and R\'enyi entropy $S_\alpha(\rho)$ of an $N$-dimensional quantum state $\rho$, given access to independent samples of $\rho$. Specifically, we provide the following quantum estimators. 1. A quantum estimator for $S(\rho)$ with time complexity $\widetilde O(N^2)$, improving the prior best time complexity $\widetilde O (N^6)$ by Acharya, Issa, Shende, and Wagner (2020) and Bavarian, Mehraba, and Wright (2016). 2. A quantum estimator for $S_\alpha(\rho)$ with time complexity $\widetilde O(N^{4/\alpha-2})$ for $0 < \alpha < 1$ and $\widetilde O(N^{4-2/\alpha})$ for $\alpha > 1$, improving the prior best time complexity $\widetilde O(N^{6/\alpha})$ for $0 < \alpha < 1$ and $\widetilde O(N^6)$ for $\alpha > 1$ by Acharya, Issa, Shende, and Wagner (2020), though at a cost of a slightly larger sample complexity. Moreover, these estimators are naturally extensible to the low-rank case. Technically, our method is quite different from the previous ones that are based on weak Schur sampling and Young diagrams. At the heart of our construction, is a novel tool called samplizer, which can "samplize" a quantum query algorithm to a quantum algorithm with similar behavior using only samples of quantum states; this suggests a unified framework for estimating quantum entropies. Specifically, when a quantum oracle $U$ block-encodes a mixed quantum state $\rho$, any quantum query algorithm using $Q$ queries to $U$ can be samplized to a $\delta$-close (in the diamond norm) quantum algorithm using $\widetilde \Theta(Q^2/\delta)$ samples of $\rho$. Moreover, this samplization is proven to be optimal, up to a polylogarithmic factor. | 翻訳日:2024-01-19 16:51:16 公開日:2024-01-18 |
# HGAttack: 転送可能な異種グラフ対逆攻撃 HGAttack: Transferable Heterogeneous Graph Adversarial Attack ( http://arxiv.org/abs/2401.09945v1 ) ライセンス: Link先を確認 | He Zhao, Zhiwei Zeng, Yongwei Wang, Deheng Ye and Chunyan Miao | (参考訳) Heterogeneous Graph Neural Networks(HGNN)は、Webやeコマースなどの分野において、敵の攻撃に対するレジリエンスが不可欠であるとして、そのパフォーマンスがますます認識されている。
しかし, HGNNの構造的, 意味的複雑さに対処する能力に制限があるため, HGNNに適用された場合, 主に均一グラフ用に設計された既存の逆攻撃手法は不足する。
本稿ではヘテロジニアスグラフに対する最初の専用グレーボックス回避手法であるHGAttackを紹介する。
我々は,対象HGNNの挙動によく似た新しい代理モデルを設計し,摂動発生のための勾配法を利用する。
具体的には、メタパス誘導サブグラフを抽出し、GNNを適用して各サブグラフから異なる意味を持つノード埋め込みを学習することにより、ヘテロジニアス情報を効果的に活用する。
このアプローチは、ターゲットHGNNに対する生成された攻撃の転送可能性を改善し、メモリコストを大幅に削減する。
摂動生成には,制約のある摂動予算内で幅広い関係において脆弱なエッジを自律的に識別するために,サブグラフ勾配情報を活用するセマンティクス・アウェア機構を導入する。
我々は,HGAttackの有効性を3つのデータセットの総合的な実験で検証し,生成した摂動の実験的解析を行った。
HGAttack法では,HGNNモデルの性能低下に有意な効果が認められ,HGNNの敵攻撃に対する堅牢性を評価する上でのアプローチの有効性が確認された。 Heterogeneous Graph Neural Networks (HGNNs) are increasingly recognized for their performance in areas like the web and e-commerce, where resilience against adversarial attacks is crucial. However, existing adversarial attack methods, which are primarily designed for homogeneous graphs, fall short when applied to HGNNs due to their limited ability to address the structural and semantic complexity of HGNNs. This paper introduces HGAttack, the first dedicated gray box evasion attack method for heterogeneous graphs. We design a novel surrogate model to closely resemble the behaviors of the target HGNN and utilize gradient-based methods for perturbation generation. Specifically, the proposed surrogate model effectively leverages heterogeneous information by extracting meta-path induced subgraphs and applying GNNs to learn node embeddings with distinct semantics from each subgraph. This approach improves the transferability of generated attacks on the target HGNN and significantly reduces memory costs. For perturbation generation, we introduce a semantics-aware mechanism that leverages subgraph gradient information to autonomously identify vulnerable edges across a wide range of relations within a constrained perturbation budget. We validate HGAttack's efficacy with comprehensive experiments on three datasets, providing empirical analyses of its generated perturbations. Outperforming baseline methods, HGAttack demonstrated significant efficacy in diminishing the performance of target HGNN models, affirming the effectiveness of our approach in evaluating the robustness of HGNNs against adversarial attacks. | 翻訳日:2024-01-19 16:50:08 公開日:2024-01-18 |
# WindSeer: 小さなUAV上の複雑な地形におけるリアルタイムの体積風速予測 WindSeer: Real-time volumetric wind prediction over complex terrain aboard a small UAV ( http://arxiv.org/abs/2401.09944v1 ) ライセンス: Link先を確認 | Florian Achermann, Thomas Stastny, Bogdan Danciu, Andrey Kolobov, Jen Jen Chung, Roland Siegwart, and Nicholas Lawrance | (参考訳) リアルタイム高解像度風速予測は、安全な有人飛行や無人飛行を含む様々な用途に有用である。
現在の気象モデルは計算量が多く、数キロと数時間のスケールでしか有効ではないため、必要な予測能力が欠如している。
我々の研究は、ごくわずかな測定データのみから、限られた計算装置上でリアルタイムで低高度風を予測できることを初めて実証した。
我々は,計算流体力学シミュレーションによる合成データのみを用いてニューラルネットワークであるwindseerを訓練し,幾つかの雑音と空間的に分布する風観測から,地形上の実際の風場を予測できることを示した。
WindSeerは、未確認の地形上で異なる解像度とドメインサイズで正確な予測を生成することができる。
このモデルは,気象観測所が収集した過去の風速データと,ドローンに搭載された風速データをうまく予測できることを実証する。 Real-time high-resolution wind predictions are beneficial for various applications including safe manned and unmanned aviation. Current weather models require too much compute and lack the necessary predictive capabilities as they are valid only at the scale of multiple kilometers and hours - much lower spatial and temporal resolutions than these applications require. Our work, for the first time, demonstrates the ability to predict low-altitude wind in real-time on limited-compute devices, from only sparse measurement data. We train a neural network, WindSeer, using only synthetic data from computational fluid dynamics simulations and show that it can successfully predict real wind fields over terrain with known topography from just a few noisy and spatially clustered wind measurements. WindSeer can generate accurate predictions at different resolutions and domain sizes on previously unseen topography without retraining. We demonstrate that the model successfully predicts historical wind data collected by weather stations and wind measured onboard drones. | 翻訳日:2024-01-19 16:49:41 公開日:2024-01-18 |
# Infinite-Horizon Graph Filters: スパース情報集約に電力系列を活用する Infinite-Horizon Graph Filters: Leveraging Power Series to Enhance Sparse Information Aggregation ( http://arxiv.org/abs/2401.09943v1 ) ライセンス: Link先を確認 | Ruizhe Zhang, Xinke Jiang, Yuchen Fang, Jiayuan Luo, Yongxin Xu, Yichen Zhu, Xu Chu, Junfeng Zhao and Yasha Zhao | (参考訳) グラフニューラルネットワーク(GNN)は、近年、特にメッセージパッシングアプローチに基づく様々なグラフ学習タスクにおいて、かなりの効果を示している。
しかし、それらの性能はしばしば限られた受容領域によって制限され、スパースグラフの存在下ではより鋭くなってしまう。
無限拡張能力を持つパワー系列を考慮し,パワー系列グラフフィルタを用いて受容場を拡大し,ノードの分類を向上する,新規なアンダーライン{G}raph \underline{P}ower \underline{F}ilter \underline{N}eural Network (GPFN)を提案する。
具体的には、GPFNは、スペクトル領域と空間領域で解析可能な収束電力系列に基づいて、無限の受容場を持つグラフフィルタを構築する新しい手法を設計する。
さらに、GPFNは任意のパワー系列を統合し、長距離依存を捕捉できる一般的なフレームワークであることを理論的に証明する。
最後に、3つのデータセットに対する実験の結果は、最先端のベースラインよりもGPFNの方が優れていることを示した。 Graph Neural Networks (GNNs) have shown considerable effectiveness in a variety of graph learning tasks, particularly those based on the message-passing approach in recent years. However, their performance is often constrained by a limited receptive field, a challenge that becomes more acute in the presence of sparse graphs. In light of the power series, which possesses infinite expansion capabilities, we propose a novel \underline{G}raph \underline{P}ower \underline{F}ilter \underline{N}eural Network (GPFN) that enhances node classification by employing a power series graph filter to augment the receptive field. Concretely, our GPFN designs a new way to build a graph filter with an infinite receptive field based on the convergence power series, which can be analyzed in the spectral and spatial domains. Besides, we theoretically prove that our GPFN is a general framework that can integrate any power series and capture long-range dependencies. Finally, experimental results on three datasets demonstrate the superiority of our GPFN over state-of-the-art baselines. | 翻訳日:2024-01-19 16:49:26 公開日:2024-01-18 |
# スポーツビジュアルトラッキングにおける共同認識, チーム提携, 役割分類のためのマルチタスク学習 Multi-task Learning for Joint Re-identification, Team Affiliation, and Role Classification for Sports Visual Tracking ( http://arxiv.org/abs/2401.09942v1 ) ライセンス: Link先を確認 | Amir M. Mansourian, Vladimir Somers, Christophe De Vleeschouwer, Shohreh Kasaei | (参考訳) サッカービデオの分析には選手の効果的な追跡と再同定が不可欠である。
しかし、これは選手の非直線的な動き、同じチームの選手の出現の類似性、そして度々排除されるため、難しい課題である。
したがって、プレイヤーを表現する意味のある埋め込みを抽出できる能力は、効果的なトラッキングと再識別システムを開発する上で重要である。
本稿では,役割分類,チーム所属,再同定の3つのタスクを同時に行う多目的部分に基づく人格表現手法prtreidを提案する。
利用可能な文献とは対照的に、1つのネットワークは3つのタスクを共同で解決するためにマルチタスクの監視で訓練される。
提案手法は共有バックボーンにより計算効率がよい。
また、マルチタスク学習は、量的および質的な結果の両方で示されるように、より豊かで差別的な表現をもたらす。
prtreidの有効性を示すために, 長期追跡を扱う部分的後処理モジュールを用いて, 最先端追跡手法と統合する。
提案手法はサッカーネット追跡データセットにおいて,既存のトラッキング手法よりも優れている。 Effective tracking and re-identification of players is essential for analyzing soccer videos. But, it is a challenging task due to the non-linear motion of players, the similarity in appearance of players from the same team, and frequent occlusions. Therefore, the ability to extract meaningful embeddings to represent players is crucial in developing an effective tracking and re-identification system. In this paper, a multi-purpose part-based person representation method, called PRTreID, is proposed that performs three tasks of role classification, team affiliation, and re-identification, simultaneously. In contrast to available literature, a single network is trained with multi-task supervision to solve all three tasks, jointly. The proposed joint method is computationally efficient due to the shared backbone. Also, the multi-task learning leads to richer and more discriminative representations, as demonstrated by both quantitative and qualitative results. To demonstrate the effectiveness of PRTreID, it is integrated with a state-of-the-art tracking method, using a part-based post-processing module to handle long-term tracking. The proposed tracking method outperforms all existing tracking methods on the challenging SoccerNet tracking dataset. | 翻訳日:2024-01-19 16:49:02 公開日:2024-01-18 |
# 効率的な量子状態トモグラフィーと量子プロセストモグラフィーのための新しい技術とその実験的実装 Novel techniques for efficient quantum state tomography and quantum process tomography and their experimental implementation ( http://arxiv.org/abs/2401.09941v1 ) ライセンス: Link先を確認 | Akshay Gaikwad | (参考訳) この論文は、NMRアンサンブル量子プロセッサと超伝導量子ビットベースのIBMクラウド量子プロセッサを用いた様々なQSTおよびQPTプロトコルの設計、分析、実験的実装に積極的に焦点を当てている。
論文の一部には双対性量子シミュレーションアルゴリズムとSz-NagyのNMRにおけるダイレーションアルゴリズムの研究も含まれており、いくつかの2量子ビットの非単位量子チャネルは単一のアンシラ量子ビットのみを用いてシミュレートされた。
論文における研究は、主に実験QSTおよびQPTにおけるいくつかの重要な問題に対処する。
一 制約凸最適化(CCO)法を用いた不正な実験密度(プロセス)行列の処理
二 圧縮センシング(CS)アルゴリズムと人工ニューラルネットワーク(ANN)技術による不完全測定を用いたスケーラブルQST及びQPT
三 量子二設計状態及び弱測定(wm)アプローチの概念と応用による未知の量子状態及び過程の選択的及び直接測定
iv)拡張法による開量子力学の量子シミュレーションとキャラクタリゼーション This thesis actively focuses on designing, analyzing, and experimentally implementing various QST and QPT protocols using an NMR ensemble quantum processor and superconducting qubit-based IBM cloud quantum processor. Part of the thesis also includes a study of duality quantum simulation algorithms and Sz-Nagy's dilation algorithm on NMR where several 2-qubit non-unitary quantum channels were simulated using only a single ancilla qubit. The work carried out in the thesis mainly addresses several important issues in experimental QST and QPT which include: i) dealing with invalid experimental density (process) matrices using constraint convex optimization (CCO) method, ii) scalable QST and QPT using incomplete measurements via compressed sensing (CS) algorithm and artificial neural network (ANN) technique, iii) selective and direct measurement of unknown quantum states and processes using the concept of quantum 2-design states and weak measurement (WM) approach and iv) quantum simulation and characterization of open quantum dynamics using the dilation technique. | 翻訳日:2024-01-19 16:48:40 公開日:2024-01-18 |
# 期待ゴールモデルにおけるバイアスとフィニッシュ能力 Biases in Expected Goals Models Confound Finishing Ability ( http://arxiv.org/abs/2401.09940v1 ) ライセンス: Link先を確認 | Jesse Davis and Pieter Robberechts | (参考訳) expected goal (xg) はサッカー分析におけるフィニッシュスキルを評価するための一般的なツールである。
プレイヤーの累積xGと実際のゴール出力を比較し、一貫したオーバーパフォーマンスが強いフィニッシュ能力を示す。
しかし,xGを用いたサッカーのフィニッシュスキルの評価は,選手の累積xGを一貫して上回ることの難しさから,いまだに論争の的となっている。
本稿では,xG統計を用いた仕上げ技術の評価に関する限界とニュアンスに対処することを目的とする。
具体的には,(1)実目標と期待目標の偏差は,ショット結果のばらつきとサンプルサイズの制限による不適切な指標である,(2)累積xg計算における全ショットの包含が不適切である,(3)xgモデルはスキル測定に影響するデータの相互依存性に起因するバイアスを含む,という3つの仮説を考察する。
累積xGの持続的オーバーパフォーマンスには高いショット量と例外的なフィニッシュの両方が必要であり、全てのショットタイプは熟練したストライカーのフィニッシュ能力を曖昧にし、実際のゴールと期待されるゴールを実際よりも優れたフィニッシャーに近づける永続的バイアスがあることを発見した。
分析の結果,AIフェアネスの手法を用いて,プレイヤーの複数のサブグループに対して校正されたxGモデルを学習するために,プレイヤーのフィニッシュ能力を調べるためには,より微妙な定量的アプローチが必要であることが示された。
具体的には,(1)標準偏差xGモデルがMessiのGAXを17%過小評価し,(2)MessiのGAXは一般のエリート・ハイショット・ボリューム・アタッカーよりも27%高い値を示し,Messiは一般的に信じられているよりもはるかに優れたフィニッシャーであることを示す。 Expected Goals (xG) has emerged as a popular tool for evaluating finishing skill in soccer analytics. It involves comparing a player's cumulative xG with their actual goal output, where consistent overperformance indicates strong finishing ability. However, the assessment of finishing skill in soccer using xG remains contentious due to players' difficulty in consistently outperforming their cumulative xG. In this paper, we aim to address the limitations and nuances surrounding the evaluation of finishing skill using xG statistics. Specifically, we explore three hypotheses: (1) the deviation between actual and expected goals is an inadequate metric due to the high variance of shot outcomes and limited sample sizes, (2) the inclusion of all shots in cumulative xG calculation may be inappropriate, and (3) xG models contain biases arising from interdependencies in the data that affect skill measurement. We found that sustained overperformance of cumulative xG requires both high shot volumes and exceptional finishing, including all shot types can obscure the finishing ability of proficient strikers, and that there is a persistent bias that makes the actual and expected goals closer for excellent finishers than it really is. Overall, our analysis indicates that we need more nuanced quantitative approaches for investigating a player's finishing ability, which we achieved using a technique from AI fairness to learn an xG model that is calibrated for multiple subgroups of players. As a concrete use case, we show that (1) the standard biased xG model underestimates Messi's GAX by 17% and (2) Messi's GAX is 27% higher than the typical elite high-shot-volume attacker, indicating that Messi is even a more exceptional finisher than people commonly believed. | 翻訳日:2024-01-19 16:48:10 公開日:2024-01-18 |
# icgnet:インスタンス中心の把握のための統一的アプローチ ICGNet: A Unified Approach for Instance-Centric Grasping ( http://arxiv.org/abs/2401.09939v1 ) ライセンス: Link先を確認 | Ren\'e Zurbr\"ugg, Yifan Liu, Francis Engelmann, Suryansh Kumar, Marco Hutter, Vaishakh Patil, Fisher Yu | (参考訳) 正確な把握は、組み立てや家庭用ロボットなど、いくつかのロボットタスクの鍵となる。
まず、ロボットは個々の物体の幾何学的性質を分析して、実現可能な把握方法を見つける必要があります。
これらの把握は局所オブジェクト幾何学に準拠する必要がある。
第二に、提案された各グリップに対して、ロボットはシーン内の他のオブジェクトとの相互作用を判断する必要がある。
最後に,ロボットは対象物体の形状を考慮しつつ,衝突のないグリップ軌跡を計算しなければならない。
ほとんどの把持検出アルゴリズムは、環境のコンポーザビリティを捉えないモノリシックな方法で把持ポーズを直接予測する。
本稿では,オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを提案する。
この方法は、任意の一方向からのポイントクラウドデータを入力として使用し、シーン内の各部分観察対象に対してインスタンス中心の表現を生成する。
この表現は、乱雑なテーブルトップシーンにおけるオブジェクトの再構成と把握検出にさらに用いられる。
提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価し,把握と再構築に優れた性能を示す。
さらに,様々なオブジェクトのシーンを分解することにより,実世界の適用性を示す。 Accurate grasping is the key to several robotic tasks including assembly and household robotics. Executing a successful grasp in a cluttered environment requires multiple levels of scene understanding: First, the robot needs to analyze the geometric properties of individual objects to find feasible grasps. These grasps need to be compliant with the local object geometry. Second, for each proposed grasp, the robot needs to reason about the interactions with other objects in the scene. Finally, the robot must compute a collision-free grasp trajectory while taking into account the geometry of the target object. Most grasp detection algorithms directly predict grasp poses in a monolithic fashion, which does not capture the composability of the environment. In this paper, we introduce an end-to-end architecture for object-centric grasping. The method uses pointcloud data from a single arbitrary viewing direction as an input and generates an instance-centric representation for each partially observed object in the scene. This representation is further used for object reconstruction and grasp detection in cluttered table-top scenes. We show the effectiveness of the proposed method by extensively evaluating it against state-of-the-art methods on synthetic datasets, indicating superior performance for grasping and reconstruction. Additionally, we demonstrate real-world applicability by decluttering scenes with varying numbers of objects. | 翻訳日:2024-01-19 16:47:14 公開日:2024-01-18 |
# キャッシュからキャッシュレスへ:インドにおけるUPIのスプレッディング行動への影響 From Cash to Cashless: UPI's Impact on Spending Behavior among Indian Users ( http://arxiv.org/abs/2401.09937v1 ) ライセンス: Link先を確認 | Harshal Dev, Raj Gupta, Dhruv Kumar | (参考訳) デジタル決済システムの出現は、個人が金融取引を行う方法を変え、利便性、セキュリティ、効率を提供する。
インド金融界に波を巻き起こす画期的な革新の1つは、インド国立決済公社(NPCI)が開発した統一支払インターフェース(UPI)である。
既存の研究は、デジタル支払いが国の経済とGDPにどのように貢献するかを探求してきた。
しかし,UPIの導入がインド人の「個人的」レベルでの消費行動に与える影響について検討した。
調査対象者は235名であり,調査対象者20名を対象に半構造化インタビューを行った。
調査対象者の約75%がUPIによる支出の増加を報告し、7%が削減した。
91.5%の回答者がUPIの使用に満足していると回答した。
また、調査回答者の95.2%がUPIによる支払いを便利だと回答している。
我々はまた、UPIアプリケーションや様々な利害関係者がデジタル決済システムを強化し、ユーザがインフォメーション決定を行い、責任ある財務管理を促進することを提案する。 The emergence of digital payment systems has transformed how individuals conduct financial transactions, offering convenience, security, and efficiency. One groundbreaking innovation making waves in the Indian financial landscape is the Unified Payments Interface (UPI), developed by the National Payments Corporation of India (NPCI). Existing work has explored how digital payments benefit a country's economy and GDP. However, our study explores how the introduction of UPI has influenced spending behavior among Indian users on an "individual" level. We gathered 235 valid survey responses encompassing diverse demographics and conducted semi-structured interviews with 20 survey respondents. Approximately 75% of the survey respondents reported increased spending due to UPI, with only 7% indicating reduced spending. Significantly, 91.5% of the respondents reported satisfaction with their UPI usage. Also 95.2% of the survey respondents found making payments via UPI convenient. Our research also provides suggestions for UPI applications and various stakeholders to enhance digital payment systems, enabling users to make informed decisions and fostering responsible financial management. | 翻訳日:2024-01-19 16:46:08 公開日:2024-01-18 |
# 最大エントロピー原理によるエントロピー生成:統一的アプローチ Entropy Production from Maximum Entropy Principle: a Unifying Approach ( http://arxiv.org/abs/2401.09936v1 ) ライセンス: Link先を確認 | Adalberto D. Varizi and Pedro S. Correia | (参考訳) エントロピー生成は、不可逆現象と熱力学の第2法則を特徴づける重要な量である。
しかし、ユビキタスな定義はコンセンサスを損なう。
エントロピー生産が情報への不完全なアクセスから生じることを考えれば、このレターではジェインズの最大エントロピー原理を用いて、顕著で矛盾する定義をまとめる枠組みを確立する。
より一般に、エントロピー生成の定義は、トモグラフィ的に不完全な量子測定や、システム上の量子チャネルの作用を扱う。 Entropy production is the crucial quantity characterizing irreversible phenomena and the second law of thermodynamics. Yet, a ubiquitous definition eludes consensus. Given that entropy production arises from incomplete access to information, in this Letter we use Jaynes' maximum entropy principle to establish a framework that brings together prominent and apparently conflicting definitions. More generally our definition of entropy production addresses any tomographically incomplete quantum measurement and/or the action of a quantum channel on a system. | 翻訳日:2024-01-19 16:45:19 公開日:2024-01-18 |
# 非整数フロッケサイドバンド分光 Non-integer Floquet Sidebands Spectroscopy ( http://arxiv.org/abs/2401.09933v1 ) ライセンス: Link先を確認 | Du-Yi Ou-Yang, Yan-Hua Zhou, Ya Zhang, Xiao-Tong Lu, Hong Chang, Tao Wang, and Xue-Feng Zhang | (参考訳) 周期変調中の量子系において、粒子は整数Floquet光子の助けを借りてレーザー光子を吸収することで励起され、Floquet側バンドが現れる。
ここでは、光学格子クロック系におけるプローブレーザの強度を増大させながら、整数間の非整数フロケットサイドバンド(NIFB)を実験的に観察する。
そこで本研究では,実験結果と数値結果の両方において,驚くほど定量的に一致するフロッケチャネル干渉仮説(fcih)を提案する。
その助けを借りて、RabiとRamseyのスペクトルはどちらも初期相に非常に敏感であり、さらに2つの対称性を示した。
より重要なことに、ramsey nifbsの高さは、摂動的記述を超えたエキゾチックな現象を示すより大きい$g/\omega_s$の整数値に匹敵する。
我々の研究は、フロケ系の分光に関する新たな洞察を与え、量子技術に潜在的な応用をもたらす。 In the quantum system under periodical modulation, the particle can be excited by absorbing the laser photon with the assistance of integer Floquet photons, so that the Floquet sidebands appear. Here, we experimentally observe non-integer Floquet sidebands (NIFBs) emerging between the integer ones while increasing the strength of the probe laser in the optical lattice clock system. Then, we propose the Floquet channel interference hypothesis (FCIH) which surprisingly matches quantitatively well with both experimental and numerical results. With its help, we found both Rabi and Ramsey spectra are very sensitive to the initial phase and exhibit additional two symmetries. More importantly, the height of Ramsey NIFBs is comparable to the integer one at larger $g/\omega_s$ which indicates an exotic phenomenon beyond the perturbative description. Our work provides new insight into the spectroscopy of the Floquet system and has potential application in quantum technology. | 翻訳日:2024-01-19 16:45:08 公開日:2024-01-18 |
# MAMBA:ビデオオブジェクト検出のためのメモリバンクによる多レベルアグリゲーション MAMBA: Multi-level Aggregation via Memory Bank for Video Object Detection ( http://arxiv.org/abs/2401.09923v1 ) ライセンス: Link先を確認 | Guanxiong Sun, Yang Hua, Guosheng Hu, Neil Robertson | (参考訳) 最先端のビデオオブジェクト検出手法は、スライディングウィンドウまたはメモリキューのメモリ構造を保持し、注意機構を用いて現在のフレームを強化する。
しかし、これらのメモリ構造は、(1)メモリの全ての特徴を集約して拡張し、計算コストを増大させ、(2)フレームワイドメモリの更新を行い、メモリがより時間的情報を取得するのを防ぐという2つの命令によって効率的あるいは十分ではない。
本稿では,MAMBAと呼ばれるメモリバンクを用いたマルチレベルアグリゲーションアーキテクチャを提案する。
具体的には,(1)計算コストを大幅に削減できる軽量キーセットの構築,(2)映像全体から知識を活用可能な細粒度機能更新戦略という,既存の手法の欠点を解消するために,2つの新手法を採用している。
特徴マップや提案といった相補的なレベルから機能を強化するために,多段階特徴を統一的に集約する汎用拡張演算(GEO)を提案する。
課題であるImageNetVIDデータセットについて広範な評価を行う。
従来の最先端手法と比較して,本手法は速度と精度の両面で優れた性能を実現する。
さらに驚くべきことに、MAMBAはResNet-101で83.7/84.6%のmAPを12.6/9.1 FPSで達成している。
コードはhttps://github.com/guanxiongsun/video_feature_enhancementで入手できる。 State-of-the-art video object detection methods maintain a memory structure, either a sliding window or a memory queue, to enhance the current frame using attention mechanisms. However, we argue that these memory structures are not efficient or sufficient because of two implied operations: (1) concatenating all features in memory for enhancement, leading to a heavy computational cost; (2) frame-wise memory updating, preventing the memory from capturing more temporal information. In this paper, we propose a multi-level aggregation architecture via memory bank called MAMBA. Specifically, our memory bank employs two novel operations to eliminate the disadvantages of existing methods: (1) light-weight key-set construction which can significantly reduce the computational cost; (2) fine-grained feature-wise updating strategy which enables our method to utilize knowledge from the whole video. To better enhance features from complementary levels, i.e., feature maps and proposals, we further propose a generalized enhancement operation (GEO) to aggregate multi-level features in a unified manner. We conduct extensive evaluations on the challenging ImageNetVID dataset. Compared with existing state-of-the-art methods, our method achieves superior performance in terms of both speed and accuracy. More remarkably, MAMBA achieves mAP of 83.7/84.6% at 12.6/9.1 FPS with ResNet-101. Code is available at https://github.com/guanxiongsun/video_feature_enhancement. | 翻訳日:2024-01-19 16:44:51 公開日:2024-01-18 |
# 心房細動に対するパス開発ネットワークによる薬効判定の最適化 Optimizing Medication Decisions for Patients with Atrial Fibrillation through Path Development Network ( http://arxiv.org/abs/2401.10014v1 ) ライセンス: Link先を確認 | Tian Xie | (参考訳) 心房細動(英: atrial fibrillation,AF)は、心房の急激な収縮を特徴とする一般的な不整脈である。
房室の血流が遅くなることによる脳卒中リスクが著しく高まり、特に左心房の付属物では血栓形成が起こりやすい。
このような血栓は脳動脈に移行し、脳卒中を引き起こす。
AF患者が所定の抗凝固剤であるかどうかを評価するために、医師はしばしばCHA2DS2-VAScスコアシステムを使用する。
しかし、凝固機能に影響を及ぼす可能性があるため、抗凝固剤の使用には注意が必要である。
本研究は,12誘導心電図データを用いた抗凝固療法を推奨すべきかどうかを予測する機械学習アルゴリズムを提案する。
このモデルでは、STOMEを用いて時系列データを拡張し、畳み込みニューラルネットワーク(CNN)を介して処理する。
経路発達層を組み込むことで、NPV1の条件下で30.6%の特異性が得られる。
対照的に、LSTMアルゴリズムはパス開発を含まないため、同じNPV条件下では2.7%の特異性しか得られない。 Atrial fibrillation (AF) is a common cardiac arrhythmia characterized by rapid and irregular contractions of the atria. It significantly elevates the risk of strokes due to slowed blood flow in the atria, especially in the left atrial appendage, which is prone to blood clot formation. Such clots can migrate into cerebral arteries, leading to ischemic stroke. To assess whether AF patients should be prescribed anticoagulants, doctors often use the CHA2DS2-VASc scoring system. However, anticoagulant use must be approached with caution as it can impact clotting functions. This study introduces a machine learning algorithm that predicts whether patients with AF should be recommended anticoagulant therapy using 12-lead ECG data. In this model, we use STOME to enhance time-series data and then process it through a Convolutional Neural Network (CNN). By incorporating a path development layer, the model achieves a specificity of 30.6% under the condition of an NPV of 1. In contrast, LSTM algorithms without path development yield a specificity of only 2.7% under the same NPV condition. | 翻訳日:2024-01-19 16:37:16 公開日:2024-01-18 |
# FLex&Chill:Logit Chillingによるローカルフェデレーションラーニングトレーニングの改善 FLex&Chill: Improving Local Federated Learning Training with Logit Chilling ( http://arxiv.org/abs/2401.09986v1 ) ライセンス: Link先を確認 | Kichang Lee, Songkuk Kim, JeongGil Ko | (参考訳) フェデレーション学習は、本質的にデータの不均一性によって阻害される: ローカルクライアント上の非iid分散トレーニングデータ。
本稿では,ロジット・チル化手法を利用した新しいモデル学習手法FLex&Chillを提案する。
広範な評価を通じて,フェデレーション学習システムに固有の非iidデータ特性の存在下では,モデル収束の迅速化と推論精度の向上が期待できることを示す。
本実験では,グローバルフェデレーション学習モデルの収束時間の最大6倍の改善と推論精度の3.37%向上を定量的に観察した。 Federated learning are inherently hampered by data heterogeneity: non-iid distributed training data over local clients. We propose a novel model training approach for federated learning, FLex&Chill, which exploits the Logit Chilling method. Through extensive evaluations, we demonstrate that, in the presence of non-iid data characteristics inherent in federated learning systems, this approach can expedite model convergence and improve inference accuracy. Quantitatively, from our experiments, we observe up to 6X improvement in the global federated learning model convergence time, and up to 3.37% improvement in inference accuracy. | 翻訳日:2024-01-19 16:37:00 公開日:2024-01-18 |
# WorldDreamer:Masked Tokensを予測してビデオ生成のための一般的な世界モデルを目指す WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens ( http://arxiv.org/abs/2401.09985v1 ) ライセンス: Link先を確認 | Xiaofeng Wang, Zheng Zhu, Guan Huang, Boyuan Wang, Xinze Chen, Jiwen Lu | (参考訳) 世界モデルは、ビデオ生成に不可欠な世界のダイナミクスを理解し予測する上で重要な役割を担っている。
しかし、既存の世界モデルはゲームや運転といった特定のシナリオに限定されており、一般的な世界の動的環境の複雑さを捉える能力を制限する。
そこで本研究では,一般的な世界物理と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介し,映像生成の能力を大幅に向上させる。
大規模な言語モデルの成功からインスピレーションを得たWorldDreamerは、世界モデリングを教師なしのビジュアルシーケンスモデリングの課題として捉えている。
これは、視覚的な入力を離散トークンにマッピングし、マスクされたトークンを予測することで達成される。
このプロセスの間、世界モデル内の相互作用を容易にするためにマルチモーダルプロンプトを組み込む。
我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
worlddreamerは、テキストからビデオへの変換、画像からビデオへの合成、ビデオ編集などのタスクの実行における汎用性を示している。
これらの結果は、様々な世界環境における動的要素の捕捉におけるWorldDreamerの有効性を裏付けるものである。 World models play a crucial role in understanding and predicting the dynamics of the world, which is essential for video generation. However, existing world models are confined to specific scenarios such as gaming or driving, limiting their ability to capture the complexity of general world dynamic environments. Therefore, we introduce WorldDreamer, a pioneering world model to foster a comprehensive comprehension of general world physics and motions, which significantly enhances the capabilities of video generation. Drawing inspiration from the success of large language models, WorldDreamer frames world modeling as an unsupervised visual sequence modeling challenge. This is achieved by mapping visual inputs to discrete tokens and predicting the masked ones. During this process, we incorporate multi-modal prompts to facilitate interaction within the world model. Our experiments show that WorldDreamer excels in generating videos across different scenarios, including natural scenes and driving environments. WorldDreamer showcases versatility in executing tasks such as text-to-video conversion, image-tovideo synthesis, and video editing. These results underscore WorldDreamer's effectiveness in capturing dynamic elements within diverse general world environments. | 翻訳日:2024-01-19 16:36:49 公開日:2024-01-18 |
# グラッドブルチャットGPT翻訳評価 Gradable ChatGPT Translation Evaluation ( http://arxiv.org/abs/2401.09984v1 ) ライセンス: Link先を確認 | Hui Jiao, Bei Peng, Lu Zong, Xiaojun Zhang, Xinwei Li | (参考訳) 大規模事前学習に基づく言語モデルであるChatGPTは,機械翻訳の領域に大きな影響を与えている。
ChatGPTでは、"Prompt"は、特定の応答カテゴリを生成するためにモデルを操るために使用されるテキストまたは命令のセグメントを指す。
翻訳の素早い設計は、翻訳のスタイル、精度、正確さなどの要因に影響を与えうる重要な側面として現れる。
しかし、翻訳プロンプトを設計し、選択する方法に関する共通の標準や方法論が欠如している。
そこで本研究では, 表現型, 翻訳スタイル, POS情報, 明示的なステートメントの観点から, 段階的な翻訳プロンプトを定義し, 様々な翻訳タスクに適した属性を付与したプロンプトの構築を容易にする。
本手法の有効性を検証するための具体的な実験と事例が選択される。 ChatGPT, as a language model based on large-scale pre-training, has exerted a profound influence on the domain of machine translation. In ChatGPT, a "Prompt" refers to a segment of text or instruction employed to steer the model towards generating a specific category of response. The design of the translation prompt emerges as a key aspect that can wield influence over factors such as the style, precision and accuracy of the translation to a certain extent. However, there is a lack of a common standard and methodology on how to design and select a translation prompt. Accordingly, this paper proposes a generic taxonomy, which defines gradable translation prompts in terms of expression type, translation style, POS information and explicit statement, thus facilitating the construction of prompts endowed with distinct attributes tailored for various translation tasks. Specific experiments and cases are selected to validate and illustrate the effectiveness of the method. | 翻訳日:2024-01-19 16:36:28 公開日:2024-01-18 |
# インフラストラクチャ・アズ・コード配置設定のための多目的最適化解析 Multiobjective Optimization Analysis for Finding Infrastructure-as-Code Deployment Configurations ( http://arxiv.org/abs/2401.09983v1 ) ライセンス: Link先を確認 | Eneko Osaba, Josu Diaz-de-Arcaya, Juncal Alonso, Jesus L. Lobo, Gorka Benguria and I\~naki Etxaniz | (参考訳) 多目的最適化は人工知能と運用研究コミュニティでホットな話題である。
多目的メソッドの設計と開発は、研究者や実践者にとって頻繁な作業である。
この活気ある活動の結果、これまでの文献では無数の技術が提案されており、幅広い現実世界の地域から来る状況に対処するための重要な効果を示している。
本稿では、Infrastructure-as-Codeデプロイメント構成の最適化に関連する多目的問題に焦点をあてる。
この問題を解決するために実装されたシステムはIaC Optimizer Platform (IOP) と呼ばれる。
IOPの原型バージョンが文献に紹介されているにもかかわらず、IOPに埋め込まれた最も適切な多目的手法はどれかを決定するために、問題の解決に焦点を当てたより深い分析が必要である。
この研究で実施された分析の背後にある主な動機は、可能な限りIOPのパフォーマンスを高めることである。
これは、H2020ヨーロッパプロジェクトの一部として開発されているため、実際の環境に展開されると考えられるこのシステムの重要な側面である。
さらに詳しくは、この論文を9つの異なる進化的計算に基づく多目的アルゴリズムに当てはめる。
検討した解法の品質を評価するために,実世界の設定に基づいて12種類の問題インスタンスが生成されている。
フリードマンの非パラメトリックテストを用いて, 独立ランニング後の各手法の結果を比較した。
テストから到達した発見は、ユーザのニーズに応じて異なるテクニックを適用することができるマルチアルゴリズムシステムの作成に遅れて行われた。 Multiobjective optimization is a hot topic in the artificial intelligence and operations research communities. The design and development of multiobjective methods is a frequent task for researchers and practitioners. As a result of this vibrant activity, a myriad of techniques have been proposed in the literature to date, demonstrating a significant effectiveness for dealing with situations coming from a wide range of real-world areas. This paper is focused on a multiobjective problem related to optimizing Infrastructure-as-Code deployment configurations. The system implemented for solving this problem has been coined as IaC Optimizer Platform (IOP). Despite the fact that a prototypical version of the IOP has been introduced in the literature before, a deeper analysis focused on the resolution of the problem is needed, in order to determine which is the most appropriate multiobjective method for embedding in the IOP. The main motivation behind the analysis conducted in this work is to enhance the IOP performance as much as possible. This is a crucial aspect of this system, deeming that it will be deployed in a real environment, as it is being developed as part of a H2020 European project. Going deeper, we resort in this paper to nine different evolutionary computation-based multiobjective algorithms. For assessing the quality of the considered solvers, 12 different problem instances have been generated based on real-world settings. Results obtained by each method after 10 independent runs have been compared using Friedman's non-parametric tests. Findings reached from the tests carried out lad to the creation of a multi-algorithm system, capable of applying different techniques according to the user's needs. | 翻訳日:2024-01-19 16:36:14 公開日:2024-01-18 |
# 心室分離 : U-Net誘導体の比較 Ventricular Segmentation: A Brief Comparison of U-Net Derivatives ( http://arxiv.org/abs/2401.09980v1 ) ライセンス: Link先を確認 | Ketan Suhaas Saichandran | (参考訳) 医用画像とは、医学的疾患の診断、監視、治療のために、人体とその内部を観察するために使用される技術や方法を指す。
本稿では, 心臓短軸MRI(Magnetic Resonance Imaging)画像のセグメンテーションにおける深層学習手法の適用について検討し, 心疾患の診断, モニタリング, 治療の促進を目的とする。
焦点は、u-netの派生である様々なアーキテクチャの実装に集中し、包括的解剖学的および機能的分析のために心臓の特定の部分を効果的に分離することである。
画像、グラフ、定量的指標の組み合わせによって、モデルの有効性とその予測が示される。
さらに,今後の課題に対処し,今後の改善戦略を概説する。
この要約は、深層学習を心臓画像分割に活用するための取り組みの簡潔な概要を提供し、その成果とさらなる改善のための領域の両方を強調している。 Medical imaging refers to the technologies and methods utilized to view the human body and its inside, in order to diagnose, monitor, or even treat medical disorders. This paper aims to explore the application of deep learning techniques in the semantic segmentation of Cardiac short-axis MRI (Magnetic Resonance Imaging) images, aiming to enhance the diagnosis, monitoring, and treatment of medical disorders related to the heart. The focus centers on implementing various architectures that are derivatives of U-Net, to effectively isolate specific parts of the heart for comprehensive anatomical and functional analysis. Through a combination of images, graphs, and quantitative metrics, the efficacy of the models and their predictions are showcased. Additionally, this paper addresses encountered challenges and outline strategies for future improvements. This abstract provides a concise overview of the efforts in utilizing deep learning for cardiac image segmentation, emphasizing both the accomplishments and areas for further refinement. | 翻訳日:2024-01-19 16:35:54 公開日:2024-01-18 |
# 量子トモグラフィと量子ラドン変換 Quantum Tomography and the Quantum Radon Transform ( http://arxiv.org/abs/2401.09978v1 ) ライセンス: Link先を確認 | Alberto Ibort and Alberto L\'opez-Yela | (参考訳) トモグラフィ的状態記述のための$C^*$-algebrasの設定における一般的な枠組みとして、他のトモグラフィ的スキーム、古典ラドン変換、量子状態トモグラフィ、グループ量子トモグラフィなどがある。
C^*$-代数が与えられたとき、その状態のトモグラフィ的記述の主要な材料は、一般化されたサンプリング理論と正の変換である。
双対トモグラフィー対の概念の一般化は、$c^*$-代数上のサンプリング理論の背景を提供し、正の型の函数、正の変換に対するボヒナーの定理の拡張を与える。
抽象理論は、力学系、すなわち$c^*$-代数上で表現される群を用いて実現される。
フィデューシャル状態と対応するGNS構成を用いて、対応するヒルベルトスペード上の密度演算子によって定義される状態に関連付けられたトモグラムの明示的な表現を得る。
特に、ラドン変換の古典的定義の一般的な量子バージョンが提示される。
この理論は、群の表現が二乗可積分であれば、表現そのものが双対トモグラフィ写像を定義し、フレームの理論を司法的に利用することによって明示的な再構成公式を得る。
理論の使用と範囲を示すいくつかの重要な例が議論されている。 A general framework in the setting of $C^*$-algebras for the tomographical description of states, that includes, among other tomographical schemes, the classical Radon transform, quantum state tomography and group quantum tomography, is presented. Given a $C^*$-algebra, the main ingredients for a tomographical description of its states are identified: A generalized sampling theory and a positive transform. A generalization of the notion of dual tomographic pair provides the background for a sampling theory on $C^*$-algebras and, an extension of Bochner's theorem for functions of positive type, the positive transform. The abstract theory is realized by using dynamical systems, that is, groups represented on $C^*$-algebra. Using a fiducial state and the corresponding GNS construction, explicit expressions for tomograms associated with states defined by density operators on the corresponding Hilbert spade are obtained. In particular a general quantum version of the classical definition of the Radon transform is presented. The theory is completed by proving that if the representation of the group is square integrable, the representation itself defines a dual tomographic map and explicit reconstruction formulas are obtained by making a judiciously use of the theory of frames. A few significant examples are discussed that illustrates the use and scope of the theory. | 翻訳日:2024-01-19 16:35:37 公開日:2024-01-18 |
# シュロディンガー方程式の解法による陽子-中性子共鳴状態 The proton-neutron resonance states by solving Schrodinger equation ( http://arxiv.org/abs/2401.09974v1 ) ライセンス: Link先を確認 | Bao-Xi Sun, Qin-Qin Cao and Ying-Tai Sun | (参考訳) 陽子-中性子相互作用は、陽子と中性子を交換する1つの陽子を持つ湯川型のポテンシャルが仮定されたシュロディンガー方程式を解いて研究される。
デウトロンはプロトン-ニュートロン系の一意な結合状態であるため、結合定数はデウトロンの結合エネルギーに応じて固定される。
放出波の状態を考慮すると、陽子と中性子の散乱過程が研究され、複素エネルギー平面上でそれぞれ1905-i13$MeVと2150-i342$MeVのシュロディンガー方程式を解くことにより、2つの陽子-中性子共鳴状態が得られる。
計算結果が将来の陽子-中性子相互作用の実験研究にいくつかのヒントを与えることは間違いない。 The proton-neutron interaction is investigated by solving the Schrodinger equation, where a Yukawa type of potential with one pion exchanging between the proton and the neutron is assumed. Since the deutron is the unique bound state of the proton-neutron system, the coupling constant is fixed according to the binding energy of the deutron. The scattering process of the proton and the neutron is studied when the outgoing wave condition is taken into account, and two proton-neutron resonance states are obtained by solving the Schrodinger equation, which lie at $1905-i13$MeV and $2150-i342$MeV on the complex energy plane, respectively. It is no doubt that the calculation results would give some hints on the experimental research on the proton-neutron interaction in future. | 翻訳日:2024-01-19 16:35:13 公開日:2024-01-18 |
# 重要情報を用いた説明変換器の改良 Better Explain Transformers by Illuminating Important Information ( http://arxiv.org/abs/2401.09972v1 ) ライセンス: Link先を確認 | Linxin Song, Yan Cui, Ao Luo, Freddy Lecue, Irene Li | (参考訳) トランスフォーマーベースのモデルは様々な自然言語処理(nlp)タスクに優れており、内部動作を説明するための無数の努力を惹きつけている。
従来の手法では,非関連情報が説明計算中によく考慮されるトークン属性スコアとして,生勾配と注目度に着目してトランスフォーマーを説明する。
本研究では,lrp(layer-wise associated propagation)手法上で,重要情報を強調表示し,無関係な情報を排除することを提案する。
具体的には,構文的頭部と位置的頭部を重要な注意点として同定し,これらの重要な頭部から得られる関連性に着目した。
実験結果から、無関係な情報が出力帰属スコアを歪め、説明計算中に隠蔽することを示した。
分類・問合せデータセットの8つのベースラインと比較すると,提案手法は説明指標の3倍から33倍に向上し,優れた説明性能が得られる。
私たちの匿名コードリポジトリは、https://github.com/LinxinS97/Mask-LRPで利用可能です。 Transformer-based models excel in various natural language processing (NLP) tasks, attracting countless efforts to explain their inner workings. Prior methods explain Transformers by focusing on the raw gradient and attention as token attribution scores, where non-relevant information is often considered during explanation computation, resulting in confusing results. In this work, we propose highlighting the important information and eliminating irrelevant information by a refined information flow on top of the layer-wise relevance propagation (LRP) method. Specifically, we consider identifying syntactic and positional heads as important attention heads and focus on the relevance obtained from these important heads. Experimental results demonstrate that irrelevant information does distort output attribution scores and then should be masked during explanation computation. Compared to eight baselines on both classification and question-answering datasets, our method consistently outperforms with over 3\% to 33\% improvement on explanation metrics, providing superior explanation performance. Our anonymous code repository is available at: https://github.com/LinxinS97/Mask-LRP | 翻訳日:2024-01-19 16:34:57 公開日:2024-01-18 |
# ログアクセス不要のブラックボックス大言語モデル強化のためのスケッチガイド付き制約付き復号法 Sketch-Guided Constrained Decoding for Boosting Blackbox Large Language Models without Logit Access ( http://arxiv.org/abs/2401.09967v1 ) ライセンス: Link先を確認 | Saibo Geng, Berkay D\"oner, Chris Wendler, Martin Josifoski, Robert West | (参考訳) 制約付きデコーディングは、言語モデルの出力に制約を強制するテクニックであり、再トレーニングやアーキテクチャの変更なしにテキスト生成を制御する方法を提供する。
しかし、そのアプリケーションは一般的に、blackbox large language model (llm) の制限となる次世代のディストリビューション(通常はsoftmax logits経由で)にアクセスできるモデルに限定されている。
本稿では,ブラックボックスLLMのロジットにアクセスせずに動作するブラックボックスLLMの制約付き復号法であるスケッチ誘導制約復号法(SGCD)を提案する。
SGCDは、ローカルにホストされた補助モデルを使用して、制約のないブラックボックスLSMの出力を洗練し、この初期出力を「スケッチ」として効果的に処理し、さらなる実験を行う。
このアプローチは従来のロジットベースのテクニックを補完するものであり、完全なモデルの透明性が利用できない設定で制約付きデコードを適用することができる。
sgcdの有効性をクローズド情報抽出と構成解析の実験を通して実証し,複雑なnlpタスクに対するblackbox llmの有用性と柔軟性をいかに高めているかを示した。 Constrained decoding, a technique for enforcing constraints on language model outputs, offers a way to control text generation without retraining or architectural modifications. Its application is, however, typically restricted to models that give users access to next-token distributions (usually via softmax logits), which poses a limitation with blackbox large language models (LLMs). This paper introduces sketch-guided constrained decoding (SGCD), a novel approach to constrained decoding for blackbox LLMs, which operates without access to the logits of the blackbox LLM. SGCD utilizes a locally hosted auxiliary model to refine the output of an unconstrained blackbox LLM, effectively treating this initial output as a "sketch" for further elaboration. This approach is complementary to traditional logit-based techniques and enables the application of constrained decoding in settings where full model transparency is unavailable. We demonstrate the efficacy of SGCD through experiments in closed information extraction and constituency parsing, showing how it enhances the utility and flexibility of blackbox LLMs for complex NLP tasks. | 翻訳日:2024-01-19 16:34:38 公開日:2024-01-18 |
# 生成的抽象推論に向けて:ルール抽象化と選択によるRavenのプログレッシブマトリックスの補完 Towards Generative Abstract Reasoning: Completing Raven's Progressive Matrix via Rule Abstraction and Selection ( http://arxiv.org/abs/2401.09966v1 ) ライセンス: Link先を確認 | Fan Shi, Bin Li, Xiangyang Xue | (参考訳) 抽象的推論能力を持つエンドウイングマシンは、人工知能における長期的な研究テーマである。
Ravenのプログレッシブマトリックス(RPM)は、マシンインテリジェンスにおける抽象的な視覚的推論を探索するために広く用いられている。
参加者は、基礎となる属性変更ルールを推測し、不足した画像を任意の位置に想像することで、強力な推論能力を示すことができる。
しかし、既存の解法は現実的なRPM問題においてそのような能力を示すことはほとんどできない。
本稿では,潜伏空間におけるルール抽象表現と選択(RAISE)を用いて,回答生成問題を解決する条件生成モデルを提案する。
RAISEはイメージ属性を潜在概念としてエンコードし、概念によって基本ルールをアトミックルールに分解し、グローバルな学習可能なパラメータとして抽象化する。
回答を生成する際、RAISEは概念ごとに設定されたグローバルな知識から適切な原子規則を選択し、それらをRPMの統合ルールに構成する。
ほとんどの構成では、upは、ボトム右と任意の位置の回答を生成するタスクにおいて比較生成ソルバよりも優れています。
我々はRAISEを奇抜なワンアウトタスクと2つのホールドアウト構成でテストし、学習が遅延概念とアトミックルールを分離して、基盤となるルールを破るイメージを見つけ出し、ルールと属性の見当たらない組み合わせでRPMを処理する方法を示す。 Endowing machines with abstract reasoning ability has been a long-term research topic in artificial intelligence. Raven's Progressive Matrix (RPM) is widely used to probe abstract visual reasoning in machine intelligence, where models need to understand the underlying rules and select the missing bottom-right images out of candidate sets to complete image matrices. The participators can display powerful reasoning ability by inferring the underlying attribute-changing rules and imagining the missing images at arbitrary positions. However, existing solvers can hardly manifest such an ability in realistic RPM problems. In this paper, we propose a conditional generative model to solve answer generation problems through Rule AbstractIon and SElection (RAISE) in the latent space. RAISE encodes image attributes as latent concepts and decomposes underlying rules into atomic rules by means of concepts, which are abstracted as global learnable parameters. When generating the answer, RAISE selects proper atomic rules out of the global knowledge set for each concept and composes them into the integrated rule of an RPM. In most configurations, RAISE outperforms the compared generative solvers in tasks of generating bottom-right and arbitrary-position answers. We test RAISE in the odd-one-out task and two held-out configurations to demonstrate how learning decoupled latent concepts and atomic rules helps find the image breaking the underlying rules and handle RPMs with unseen combinations of rules and attributes. | 翻訳日:2024-01-19 16:34:18 公開日:2024-01-18 |
# 負二項状態における位相空間局在作用素 A phase space localization operator in negative binomial states ( http://arxiv.org/abs/2401.09965v1 ) ライセンス: Link先を確認 | Zouhair Mouayn, Soumia Touhami | (参考訳) 我々は、半径 R < 1 の円板のインジケータ関数に対応する位相空間局在作用素 PR のスペクトル特性を扱う。
局所化手順は、複素単位円盤Dの点によってラベル付けされ、パラメータ2B > 1 に依存する負二項状態(NBS)の集合に対して達成される。
我々は、電位関数がbに依存する擬似調和振動子の関数としてprを表わす式を導出する。nbsに関連する光子計数確率分布を用いて、局在領域外の位相空間量を算出する。
NBS に付随するコヒーレント状態変換を用いて、作用素 PR の作用を B に依存する成長条件を満たす D 上の解析関数のベルグマン空間 AB(D) に転送し、R が 1 となる極限が AB(D) の再生核と一致するような積分核を明示的に与える。
これにより、このヒルベルト空間のパラメータ r に対する自然な一般化が導かれる。 We are dealing with some spectral properties of a phase space localization operator PR corresponding to the indicator function of a disk of radius R < 1. The localization procedure is achieved with respect to a set of negative binomial states (NBS) labeled by points of the complex unit disk D and depending on a parameter 2B > 1. We derive a formula expressing PR as function of the pseudo harmonic oscillator whose potential function depends on B. The phase space content outside the localization domain is estimated in terms of the photon counting probability distribution associated with the NBS. By using the coherent states transform attached to NBS, we transfer the action of the operator PR to a Bergman space AB(D) of analytic functions on D satisfying a growth condition depending on B and we explicitly give its integral kernel whose limit as R goes to 1 coincides with the reproducing kernel of AB(D). This leads to a natural generalization of this Hilbert space with respect to the parameter R. | 翻訳日:2024-01-19 16:33:48 公開日:2024-01-18 |
# ニューラルコード補完モデルが状況を拡大すると:動的モデル推論による安価で高速な補完を実現する When Neural Code Completion Models Size up the Situation: Attaining Cheaper and Faster Completion through Dynamic Model Inference ( http://arxiv.org/abs/2401.09964v1 ) ライセンス: Link先を確認 | Zhensu Sun, Xiaoning Du, Fu Song, Shangwen Wang, Li Li | (参考訳) 大規模言語モデルの最近の進歩を活用して、現代のニューラルコード補完モデルは、高精度なコード提案を生成する能力を示した。
しかし、その巨大なサイズは計算コストと環境への影響の点で問題を引き起こし、現実的なシナリオで広く採用されることを妨げる。
モデルのパフォーマンスを維持しながら推論中に最小の計算を割り当てるので、動的推論は有望なソリューションとして現れる。
本研究では,コード補完の文脈における動的推論について検討する。
まず,コード補完のための中間層の推論機能に着目し,GPT-2に関する実証的研究を行った。
その結果,第1層だけで54.4%のトークンを正確に生成できることが分かった。
さらに、全ての層を使用しても、モデルはまだ14.5%のトークンを正しく予測できず、それに続く完了は4.2%の受け入れ率でしか役に立たないと見なされない。
これらの発見は、コード補完における動的推論の探索を動機付け、誤ったコードの生成を阻止する意思決定メカニズムによってそれを強化するきっかけを与えてくれます。
そこで本稿では,コード補完モデルに特化した新しい動的推論手法を提案する。
本手法は,計算量を大幅に削減した正確な予測を生成するだけでなく,誤予測を積極的に防止することを目的とする。
我々の広範な評価によると、モデル内の16層のうち1.7層を平均スキップでき、11.2%のスピードアップとなり、ROUGE-Lはわずか1.1%削減された。 Leveraging recent advancements in large language models, modern neural code completion models have demonstrated the capability to generate highly accurate code suggestions. However, their massive size poses challenges in terms of computational costs and environmental impact, hindering their widespread adoption in practical scenarios. Dynamic inference emerges as a promising solution, as it allocates minimal computation during inference while maintaining the model's performance. In this research, we explore dynamic inference within the context of code completion. Initially, we conducted an empirical investigation on GPT-2, focusing on the inference capabilities of intermediate layers for code completion. We found that 54.4% of tokens can be accurately generated using just the first layer, signifying significant computational savings potential. Moreover, despite using all layers, the model still fails to predict 14.5% of tokens correctly, and the subsequent completions continued from them are rarely considered helpful, with only a 4.2% Acceptance Rate. These findings motivate our exploration of dynamic inference in code completion and inspire us to enhance it with a decision-making mechanism that stops the generation of incorrect code. We thus propose a novel dynamic inference method specifically tailored for code completion models. This method aims not only to produce correct predictions with largely reduced computation but also to prevent incorrect predictions proactively. Our extensive evaluation shows that it can averagely skip 1.7 layers out of 16 layers in the models, leading to an 11.2% speedup with only a marginal 1.1% reduction in ROUGE-L. | 翻訳日:2024-01-19 16:33:30 公開日:2024-01-18 |
# customvideo: 複数の主題によるテキスト対ビデオ生成のカスタマイズ CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects ( http://arxiv.org/abs/2401.09962v1 ) ライセンス: Link先を確認 | Zhao Wang, Aoxue Li, Enze Xie, Lingting Zhu, Yong Guo, Qi Dou, Zhenguo Li | (参考訳) カスタマイズされたテキストからビデオへの生成は、テキストプロンプトと主題参照による高品質なビデオの生成を目的としている。
単一被験者向けに設計された現在のアプローチは、複数の課題に取り組むのに苦しむ。
本研究は,マルチサブジェクトのテキストからビデオへのカスタマイズを促進することを目的とする。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
まず,複数の被験者の共起を一つの画像にまとめることによって促進する。
さらに,基本的テキスト・ビデオ拡散モデルに基づいて,潜時空間の拡散モデルにおいて,異なる被写体をアンタングルする簡易かつ効果的な注意制御戦略を設計する。
さらに、モデルが特定の対象領域に焦点を合わせるのを助けるために、与えられた参照画像から対象を分割し、注意学習のための対応するオブジェクトマスクを提供する。
また,69名の被験者と57名の有意義なペアからなる総合ベンチマークとして,マルチサブジェクトテキスト対ビデオ生成データセットを収集した。
定性的,定量的,ユーザスタディの結果は,従来の最先端手法と比較して,本手法の優位性を示している。 Customized text-to-video generation aims to generate high-quality videos guided by text prompts and subject references. Current approaches designed for single subjects suffer from tackling multiple subjects, which is a more challenging and practical scenario. In this work, we aim to promote multi-subject guided text-to-video customization. We propose CustomVideo, a novel framework that can generate identity-preserving videos with the guidance of multiple subjects. To be specific, firstly, we encourage the co-occurrence of multiple subjects via composing them in a single image. Further, upon a basic text-to-video diffusion model, we design a simple yet effective attention control strategy to disentangle different subjects in the latent space of diffusion model. Moreover, to help the model focus on the specific object area, we segment the object from given reference images and provide a corresponding object mask for attention learning. Also, we collect a multi-subject text-to-video generation dataset as a comprehensive benchmark, with 69 individual subjects and 57 meaningful pairs. Extensive qualitative, quantitative, and user study results demonstrate the superiority of our method, compared with the previous state-of-the-art approaches. | 翻訳日:2024-01-19 16:33:05 公開日:2024-01-18 |
# 自己回帰言語モデル Self-Rewarding Language Models ( http://arxiv.org/abs/2401.10020v1 ) ライセンス: Link先を確認 | Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, Jason Weston | (参考訳) 超人的エージェントを実現するために、将来のモデルは適切な訓練信号を提供するために超人的フィードバックを必要とすると仮定する。
現在のアプローチでは、人間の好みから報酬モデルをトレーニングするのが一般的で、人間のパフォーマンスレベルによってボトルネックになる可能性がある。
本研究では,言語モデル自体を LLM-as-a-Judge 経由で使用する自己回帰言語モデルについて検討する。
反復的dpo訓練では,指導追従能力が向上するだけでなく,質の高い報酬を提供する能力も向上することを示した。
Llama 2 70Bは、我々のアプローチの3つのイテレーションで、Claude 2、Gemini Pro、GPT-4 0613を含む、AlpacaEval 2.0のリーダーボード上の多くの既存のシステムを上回るパフォーマンスのモデルを生み出します。
予備的な研究にすぎないが、この研究は両方の軸で継続的に改善できるモデルの可能性への扉を開く。 We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal. Current approaches commonly train reward models from human preferences, which may then be bottlenecked by human performance level, and secondly these separate frozen reward models cannot then learn to improve during LLM training. In this work, we study Self-Rewarding Language Models, where the language model itself is used via LLM-as-a-Judge prompting to provide its own rewards during training. We show that during Iterative DPO training that not only does instruction following ability improve, but also the ability to provide high-quality rewards to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard, including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study, this work opens the door to the possibility of models that can continually improve in both axes. | 翻訳日:2024-01-19 16:26:13 公開日:2024-01-18 |
# R-Judge: LLMエージェントの安全リスク意識のベンチマーク R-Judge: Benchmarking Safety Risk Awareness for LLM Agents ( http://arxiv.org/abs/2401.10019v1 ) ライセンス: Link先を確認 | Tongxin Yuan, Zhiwei He, Lingzhong Dong, Yiming Wang, Ruijie Zhao, Tian Xia, Lizhen Xu, Binglin Zhou, Fangqi Li, Zhuosheng Zhang, Rui Wang, Gongshen Liu | (参考訳) 大規模言語モデル(LLM)は、現実世界のアプリケーション間で自律的にタスクを完了させる大きな可能性を示している。
それにもかかわらず、これらのllmエージェントは、対話環境での運用において予期せぬ安全性リスクをもたらす。
本研究は, LLM生成コンテンツの安全性を従来の研究で重視する代わりに, 多様な環境下でのLCMエージェントの行動安全のベンチマークの必要性に対処する。
エージェント間相互作用の記録から安全性リスクを判定する上で,LLMの熟練度を評価するためのベンチマークであるR-Judgeを紹介する。
R-Judgeは,7つのアプリケーションカテゴリと10のリスクタイプのうち,27の主要なリスクシナリオを含む162のエージェントインタラクションレコードで構成されている。
安全に関する人間のコンセンサスと、注釈付き安全リスクラベルと高品質のリスク記述が組み込まれている。
R-Judgeを用いて,エージェントのバックボーンとしてよく用いられる8種類のLDMの総合評価を行った。
最高のパフォーマンスモデルであるGPT-4は、89.38%の人間のスコアとは対照的に72.29%を達成し、LSMのリスク意識を高める余地がある。
特に、環境フィードバックとしてリスク記述を活用することにより、モデルパフォーマンスが大幅に向上し、健全な安全リスクフィードバックの重要性が明らかになる。
さらに,安全リスクの判断を支援する安全分析手法の効果的な連鎖をデザインし,今後の研究を促進するために詳細な事例研究を行う。
R-Judgeはhttps://github.com/Lordog/R-Judgeで公開されている。 Large language models (LLMs) have exhibited great potential in autonomously completing tasks across real-world applications. Despite this, these LLM agents introduce unexpected safety risks when operating in interactive environments. Instead of centering on LLM-generated content safety in most prior studies, this work addresses the imperative need for benchmarking the behavioral safety of LLM agents within diverse environments. We introduce R-Judge, a benchmark crafted to evaluate the proficiency of LLMs in judging safety risks given agent interaction records. R-Judge comprises 162 agent interaction records, encompassing 27 key risk scenarios among 7 application categories and 10 risk types. It incorporates human consensus on safety with annotated safety risk labels and high-quality risk descriptions. Utilizing R-Judge, we conduct a comprehensive evaluation of 8 prominent LLMs commonly employed as the backbone for agents. The best-performing model, GPT-4, achieves 72.29% in contrast to the human score of 89.38%, showing considerable room for enhancing the risk awareness of LLMs. Notably, leveraging risk descriptions as environment feedback significantly improves model performance, revealing the importance of salient safety risk feedback. Furthermore, we design an effective chain of safety analysis technique to help the judgment of safety risks and conduct an in-depth case study to facilitate future research. R-Judge is publicly available at https://github.com/Lordog/R-Judge. | 翻訳日:2024-01-19 16:25:56 公開日:2024-01-18 |
# シーンテキスト検出のためのテキスト領域多重情報知覚ネットワーク Text Region Multiple Information Perception Network for Scene Text Detection ( http://arxiv.org/abs/2401.10017v1 ) ライセンス: Link先を確認 | Jinzhi Zheng, Libo Zhang, Yanjun Wu, Chen Zhao | (参考訳) セグメンテーションに基づくシーンテキスト検出アルゴリズムは任意の形状のシーンテキストを処理でき、堅牢性と適応性が強く、注目されている。
既存のセグメンテーションに基づくシーンテキスト検出アルゴリズムは通常、テキストの中心領域のピクセルのみを分割するが、エッジ情報や距離情報などのテキスト領域の他の情報を無視して、シーンテキストのアルゴリズムの検出精度を制限する。
本稿では,セグメント化アルゴリズムの検出性能を高めるために,RMIPM (Regional Multiple Information Perception Module) と呼ばれるプラグアンドプレイモジュールを提案する。
具体的には,テキストフォアグラウンド分類マップ,距離マップ,方向マップなど,シーンテキスト領域に関する様々な情報を知覚できる改良されたモジュールを設計する。
MSRA-TD500およびTotalTextデータセットを用いた実験により,本手法が現在最先端のアルゴリズムと同等の性能を発揮することが示された。 Segmentation-based scene text detection algorithms can handle arbitrary shape scene texts and have strong robustness and adaptability, so it has attracted wide attention. Existing segmentation-based scene text detection algorithms usually only segment the pixels in the center region of the text, while ignoring other information of the text region, such as edge information, distance information, etc., thus limiting the detection accuracy of the algorithm for scene text. This paper proposes a plug-and-play module called the Region Multiple Information Perception Module (RMIPM) to enhance the detection performance of segmentation-based algorithms. Specifically, we design an improved module that can perceive various types of information about scene text regions, such as text foreground classification maps, distance maps, direction maps, etc. Experiments on MSRA-TD500 and TotalText datasets show that our method achieves comparable performance with current state-of-the-art algorithms. | 翻訳日:2024-01-19 16:25:32 公開日:2024-01-18 |
# 機械翻訳におけるジェンダーバイアスと大規模言語モデルの時代 Gender Bias in Machine Translation and The Era of Large Language Models ( http://arxiv.org/abs/2401.10016v1 ) ライセンス: Link先を確認 | Eva Vanmassenhove | (参考訳) 本章は、ジェンダーバイアスの継続における機械翻訳の役割を考察し、言語横断的設定と統計的依存関係によって生じる課題を強調する。
従来のニューラルマシン翻訳手法と、機械翻訳システムとして使用される生成事前学習トランスフォーマモデルの両方において、ジェンダーバイアスに関連する既存の作業の概要を概観する。
英語とイタリア語の翻訳文脈におけるChatGPT(GPT-3.5に基づく)を用いた実験を通じて、ChatGPTの男女バイアスに対処する能力をさらに評価する。
この発見は、機械翻訳システムにおけるバイアス軽減の継続的な必要性を強調し、言語技術における公正さと傾きを育むことの重要性を強調している。 This chapter examines the role of Machine Translation in perpetuating gender bias, highlighting the challenges posed by cross-linguistic settings and statistical dependencies. A comprehensive overview of relevant existing work related to gender bias in both conventional Neural Machine Translation approaches and Generative Pretrained Transformer models employed as Machine Translation systems is provided. Through an experiment using ChatGPT (based on GPT-3.5) in an English-Italian translation context, we further assess ChatGPT's current capacity to address gender bias. The findings emphasize the ongoing need for advancements in mitigating bias in Machine Translation systems and underscore the importance of fostering fairness and inclusivity in language technologies. | 翻訳日:2024-01-19 16:25:16 公開日:2024-01-18 |
# 階層型音声言語ディフルエンシーモデリングに向けて Towards Hierarchical Spoken Language Dysfluency Modeling ( http://arxiv.org/abs/2401.10015v1 ) ライセンス: Link先を確認 | Jiachen Lian and Gopala Anumanchipalli | (参考訳) 言語障害モデリングは、言語療法と言語学習の両方においてボトルネックとなる。
しかし、この問題に体系的に対処するAIソリューションは存在しない。
まず, ディフューレント音声の概念とディフューレント音声モデルの概念を定義することを提案する。
そこで我々は,広範囲な手動アノテーションの必要をなくすために,非拘束型非拘束型Dysfluency Modeling (H-UDM)アプローチを提案する。
さらに,音素転写におけるH-UDMの能力を高めるために,VCTK++と呼ばれる暗黙的データセットを導入した。
提案手法の有効性とロバスト性について検討し,本手法の有効性について検討した。 Speech dysfluency modeling is the bottleneck for both speech therapy and language learning. However, there is no AI solution to systematically tackle this problem. We first propose to define the concept of dysfluent speech and dysfluent speech modeling. We then present Hierarchical Unconstrained Dysfluency Modeling (H-UDM) approach that addresses both dysfluency transcription and detection to eliminate the need for extensive manual annotation. Furthermore, we introduce a simulated dysfluent dataset called VCTK++ to enhance the capabilities of H-UDM in phonetic transcription. Our experimental results demonstrate the effectiveness and robustness of our proposed methods in both transcription and detection tasks. | 翻訳日:2024-01-19 16:25:02 公開日:2024-01-18 |
# cpcl:弱い教師付きテキストに基づく人物再同定のためのクロスモーダル型コントラスト学習 CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly Supervised Text-based Person Re-Identification ( http://arxiv.org/abs/2401.10011v1 ) ライセンス: Link先を確認 | Yanwei Zheng, Xinpeng Zhao, Chuanlin Lan, Xiaowei Zhang, Bowen Huang, Jibin Yang, Dongxiao Yu | (参考訳) TPRe-ID (Weakly supervised text-based person re-identification) は、個人識別アノテーションに頼ることなく、テキスト記述を用いて対象者の画像を取得することを目的としており、より困難で実用的なものである。
主な課題はクラス内の違いであり、モーダル内特徴のバリエーションとクロスモーダルセマンティクスギャップを包含する。
先行研究はインスタンスレベルのサンプルに注目しており、内在的かつ不変な各人の原型的特徴を無視している。
そこで本研究では,CPCL(Cross-Modal Prototypeal Contrastive Learning)法を提案する。
実際には、CPCLはCLIPモデルを初めて弱教師付きTPRe-IDに導入し、ビジュアルインスタンスとテキストインスタンスを共有潜在空間にマッピングする。
提案したPMMモジュールは,Hybrid Cross-modal Matching(HCM)モジュールを多対多のマッピング方式で,同一人物に属する画像テキストペアの不均一なモダリティの関連を捉える。
さらに、OPLM(Outlier Pseudo Label Mining)モジュールは、画像とテキストのペア間の暗黙的な関係をマイニングすることによって、より信頼性の高いクラスタの作成を促進する。
実験の結果,提案したCPCLは,CUHK-PEDES,ICFG-PEDES,RSTPReidの3つの公開データセットに対して,それぞれ11.58%,8.77%,5.25%の精度向上を実現した。
コードはhttps://github.com/codeGallery24/CPCLで入手できる。 Weakly supervised text-based person re-identification (TPRe-ID) seeks to retrieve images of a target person using textual descriptions, without relying on identity annotations and is more challenging and practical. The primary challenge is the intra-class differences, encompassing intra-modal feature variations and cross-modal semantic gaps. Prior works have focused on instance-level samples and ignored prototypical features of each person which are intrinsic and invariant. Toward this, we propose a Cross-Modal Prototypical Contrastive Learning (CPCL) method. In practice, the CPCL introduces the CLIP model to weakly supervised TPRe-ID for the first time, mapping visual and textual instances into a shared latent space. Subsequently, the proposed Prototypical Multi-modal Memory (PMM) module captures associations between heterogeneous modalities of image-text pairs belonging to the same person through the Hybrid Cross-modal Matching (HCM) module in a many-to-many mapping fashion. Moreover, the Outlier Pseudo Label Mining (OPLM) module further distinguishes valuable outlier samples from each modality, enhancing the creation of more reliable clusters by mining implicit relationships between image-text pairs. Experimental results demonstrate that our proposed CPCL attains state-of-the-art performance on all three public datasets, with a significant improvement of 11.58%, 8.77% and 5.25% in Rank@1 accuracy on CUHK-PEDES, ICFG-PEDES and RSTPReid datasets, respectively. The code is available at https://github.com/codeGallery24/CPCL. | 翻訳日:2024-01-19 16:24:53 公開日:2024-01-18 |
# 非平衡定常状態ダイナミクスを記述する最適化に基づく平衡測度:カオスのエッジへの応用 An optimization-based equilibrium measure describes non-equilibrium steady state dynamics: application to edge of chaos ( http://arxiv.org/abs/2401.10009v1 ) ライセンス: Link先を確認 | Junbin Qiu and Haiping Huang | (参考訳) ニューラルダイナミクスを理解することは、機械学習、非線形物理学、神経科学において中心的なトピックである。
しかし、動力学は非線形であり、確率的であり、特に非線形であり、すなわち、駆動力はポテンシャルの勾配として書けない。
これらの特徴は分析研究を非常に困難にする。
一般的なツールは経路積分法や力学平均場理論を使うが、欠点は積分微分方程式や力学平均場方程式を解く必要があることである。
関連するフォッカー・プランク方程式の側面から、定常状態解は一般に未知である。
本稿では,定常状態の探索を最適化問題として扱い,動力学の速度と密接に関連した近似ポテンシャルを構築し,このポテンシャルの基底状態の探索は確率的勾配ダイナミクスの実行と等価であることを示す。
結果の定常状態は、正確に標準ボルツマン測度に従う。
この枠組み内では、ニューラルネットワークに固有の焼成障害をレプリカ法を適用して平均化することができる。
本理論はエッジ・オブ・カオスのよく知られた結果を再現し、さらに連続遷移を特徴付ける順序パラメータを導出し、遷移の両側の逆温度に対する異なるスケーリング挙動も明らかにした。
本手法は,決定論的・確率的高次元力学の定常景観を解析的に研究するための扉を開く。 Understanding neural dynamics is a central topic in machine learning, non-linear physics and neuroscience. However, the dynamics is non-linear, stochastic and particularly non-gradient, i.e., the driving force can not be written as gradient of a potential. These features make analytic studies very challenging. The common tool is to use path integral approach or dynamical mean-field theory, but the drawback is one has to solve the integro-differential or dynamical mean-field equations, which is computationally expensive and has no closed form solutions in general. From the aspect of associated Fokker-Planck equation, the steady state solution is generally unknown. Here, we treat searching for the steady state as an optimization problem, and construct an approximate potential closely related to the speed of the dynamics, and find that searching for the ground state of this potential is equivalent to running a stochastic gradient dynamics. The resultant stationary state follows exactly the canonical Boltzmann measure. Within this framework, the quenched disorder intrinsic in the neural networks can be averaged out by applying the replica method. Our theory reproduces the well-known result of edge-of-chaos, and further the order parameters characterizing the continuous transition are derived, and different scaling behavior with respect to inverse temperature in both sides of the transition is also revealed. Our method opens the door to analytically study the steady state landscape of the deterministic or stochastic high dimensional dynamics. | 翻訳日:2024-01-19 16:24:23 公開日:2024-01-18 |
# 明示的連鎖と視覚的質問生成による大規模マルチモーダルモデルの改善 Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation ( http://arxiv.org/abs/2401.10005v1 ) ライセンス: Link先を確認 | Kohei Uehara, Nabarun Goswami, Hanqin Wang, Toshiaki Baba, Kohtaro Tanaka, Tomohiro Hashimoto, Kai Wang, Rei Ito, Takagi Naoya, Ryo Umagami, Yingyi Wen, Tanachai Anakewat, Tatsuya Harada | (参考訳) 視覚コンテンツの解釈と推論が可能なインテリジェントなシステムに対する需要の増大は、精度だけでなく明確な推論能力を持つ大規模なマルチモーダルモデル(lmm)の開発を必要とする。
本稿では,視覚的内容とテキストによる指示に基づいて,明示的な推論を行う能力を備えたLMMを提案する。
必要な知識を得るために質問をすることができるシステムを導入し,推論プロセスの堅牢性と拡張性を高める。
本手法は,大規模言語モデル(llm)が生成する新しいデータセットの開発であり,質問応答機構と組み合わせて,思考の連鎖を促進することを意図したものである。
我々は、画像テキストアライメントの複雑な要件に対処するために、地域認識に高機能なLMMを設計した。
モデルは3段階のトレーニングフェーズを経て,大規模なデータセットを使用した大規模画像テキストアライメントから始まり,命令チューニング,チェーン・オブ・ソート推論による微調整を行う。
その結果、より堅牢で正確で解釈可能なLMMへの一歩が示され、曖昧な視覚的入力に直面したときに、情報を明確に推論し、積極的に情報を求めることができる。 The increasing demand for intelligent systems capable of interpreting and reasoning about visual content requires the development of Large Multi-Modal Models (LMMs) that are not only accurate but also have explicit reasoning capabilities. This paper presents a novel approach to imbue an LMM with the ability to conduct explicit reasoning based on visual content and textual instructions. We introduce a system that can ask a question to acquire necessary knowledge, thereby enhancing the robustness and explicability of the reasoning process. Our method comprises the development of a novel dataset generated by a Large Language Model (LLM), designed to promote chain-of-thought reasoning combined with a question-asking mechanism. We designed an LMM, which has high capabilities on region awareness to address the intricate requirements of image-text alignment. The model undergoes a three-stage training phase, starting with large-scale image-text alignment using a large-scale datasets, followed by instruction tuning, and fine-tuning with a focus on chain-of-thought reasoning. The results demonstrate a stride toward a more robust, accurate, and interpretable LMM, capable of reasoning explicitly and seeking information proactively when confronted with ambiguous visual input. | 翻訳日:2024-01-19 16:24:01 公開日:2024-01-18 |
# 加圧水素を用いた通信Oバンドへの周波数変換 Frequency conversion to the telecom O-band using pressurized hydrogen ( http://arxiv.org/abs/2401.10003v1 ) ライセンス: Link先を確認 | Anica Hamer, Seyed Mahdi Razavi Tabar, Priyanka Yashwantrao, Alireza Aghababaei, Frank Vewinger, and Simon Stellmer | (参考訳) 大規模量子ネットワークは光ファイバーネットワークと光子を情報伝達のいわゆるフライングキュービットとして依存している。
光ファイバの分散と吸収は赤外線通信波長で最小であるが、ほとんどの原子および固体プラットフォームは可視または近赤外波長で動作している。
量子周波数変換はこれらの2つの波長構造を橋渡しするために必要であり、非線形結晶が現在この過程に使われている。
本稿では,通信帯域への周波数変換の新しいアプローチについて報告する。
この相互作用は、高密度水素ガス中で共鳴的に強化された4波混合過程であるコヒーレントストークスラマン散乱(CSRS)に基づいている。
我々は、光子のSI{863}{\nano\meter}から通信Oバンドへの変換を示し、入力偏光状態が保存されていることを示す。
このプロセスは本質的に広帯域であり、他の波長に対応できる。 Large-scale quantum networks rely on optical fiber networks and photons as so-called flying qubits for information transport. While dispersion and absorption of optical fibers are minimum at the infrared telecom wavelengths, most atomic and solid state platforms operate at visible or near-infrared wavelengths. Quantum frequency conversion is required to bridge these two wavelength regimes, and nonlinear crystals are currently employed for this process. Here, we report on a novel approach of frequency conversion to the telecom band. This interaction is based on coherent Stokes Raman scattering (CSRS), a four-wave mixing process resonantly enhanced in a dense molecular hydrogen gas. We show the conversion of photons from \SI{863}{\nano\meter} to the telecom O-Band and demonstrate that the input polarization state is preserved. This process is intrinsically broad-band and can be adapted to any other wavelength. | 翻訳日:2024-01-19 16:23:39 公開日:2024-01-18 |
# 関係抽出のための遠隔監視型モーフォシンタクティックモデル Distantly Supervised Morpho-Syntactic Model for Relation Extraction ( http://arxiv.org/abs/2401.10002v1 ) ライセンス: Link先を確認 | Nicolas Gutehrl\'e, Iana Atanassova | (参考訳) 情報抽出タスク(ie)では、構造化されていないテキストコンテンツを自動的に構造化データに変換する。
この分野のほとんどの研究は、文書からすべての事実や特定の関係を抽出することに集中している。
本稿では,テキストから制約のない関係の抽出と分類を行う手法を提案する。
本手法は,遠隔指導法によって得られた形態素合成抽出パターンに基づき,候補グラフを抽出・分類するための構文的・意味的指標を作成する。
WikidataとWikipedia上に構築された6つのデータセットに対するアプローチを評価する。
評価の結果,提案手法の精度は最大0.85まで向上するが,リコールとF1は低かった。
本手法は、情報抽出のためのルールベースのシステムを簡単に作成し、機械学習およびディープラーニングベースの分類器を訓練するための注釈付きデータセットを構築することを可能にする。 The task of Information Extraction (IE) involves automatically converting unstructured textual content into structured data. Most research in this field concentrates on extracting all facts or a specific set of relationships from documents. In this paper, we present a method for the extraction and categorisation of an unrestricted set of relationships from text. Our method relies on morpho-syntactic extraction patterns obtained by a distant supervision method, and creates Syntactic and Semantic Indices to extract and classify candidate graphs. We evaluate our approach on six datasets built on Wikidata and Wikipedia. The evaluation shows that our approach can achieve Precision scores of up to 0.85, but with lower Recall and F1 scores. Our approach allows to quickly create rule-based systems for Information Extraction and to build annotated datasets to train machine-learning and deep-learning based classifiers. | 翻訳日:2024-01-19 16:23:26 公開日:2024-01-18 |
# シュロディンガー方程式を解くことで可能な$K \bar{K}^*$および$D \bar{D}^*$束縛状態と共鳴状態 The possible $K \bar{K}^*$ and $D \bar{D}^*$ bound and resonance states by solving Schrodinger equation ( http://arxiv.org/abs/2401.10000v1 ) ライセンス: Link先を確認 | Bao-Xi Sun, Qin-Qin Cao and Ying-Tai Sun | (参考訳) 湯川型ポテンシャルを持つシュロディンガー方程式を解析的に解く。
異なる境界条件を考慮すると、一連の解はベッセル関数、第一種ハンケル関数、第二種ハンケル関数として表される。
その後、$K \bar{K}^*$と$D \bar{D}^*$の散乱過程を検討した。
k \bar{k}^*$セクタにおいて、$f_1(1285)$粒子は$k \bar{k}^*$境界状態として処理されるので、$k \bar{k}^*$湯川ポテンシャルの結合定数は、$f_1(1285)$粒子の結合エネルギーに応じて固定することができる。
その結果、複素エネルギー平面上の1417-i18$MeVの波動条件でシュロディンガー方程式を解くことで、$K \bar{K}^*$共鳴状態が生成される。
117-i18$mev における $k \bar{k}^*$ 共鳴状態が particle data group (pdg) のレビューにおいて $f_1(1420)$ particle に対応すると仮定するのは理にかなっている。
$D \bar{D}^*$セクターでは、$X(3872)$粒子はほぼ$D \bar{D}^*$閾値にあるので、その結合エネルギーはほぼゼロである。
したがって、$D \bar{D}^*$ Yukawa ポテンシャルのカップリング定数が決定され、これは零次ベッセル関数の第1零点に関係している。
同様に、$K \bar{K}^*$の場合と同様に、4つの共鳴状態は、発散する波動条件を持つシュロディンガー方程式の解として生成される。
共鳴状態が3885-i1$MeV、4328-i191$MeV、および4772-i267$MeVは、それぞれ$Zc(3900)$、$\chi_{c1}(4274)$、$\chi_{c1}(4685)$粒子と関連していると仮定される。
4029-i108$ mevの状態では、pdgデータには対応するものが見つかっていない。
すべての解がアイソスピン上で独立であることに注意が必要である。 The Schrodinger equation with a Yukawa type of potential is solved analytically. When different boundary conditions are taken into account, a series of solutions are indicated as Bessel function, the first kind of Hankel function and the second kind of Hankel function, respectively. Subsequently, the scattering processes of $K \bar{K}^*$ and $D \bar{D}^*$ are investigated. In the $K \bar{K}^*$ sector, the $f_1(1285)$ particle is treated as a $K \bar{K}^*$ bound state, therefore, the coupling constant in the $K \bar{K}^*$ Yukawa potential can be fixed according to the binding energy of the $f_1(1285)$ particle. Consequently, a $K \bar{K}^*$ resonance state is generated by solving the Schrodinger equation with the outgoing wave condition, which lie at $1417-i18$MeV on the complex energy plane. It is reasonable to assume that the $K \bar{K}^*$ resonance state at $1417-i18$MeV might correspond to the $f_1(1420)$ particle in the review of Particle Data Group(PDG). In the $D \bar{D}^*$ sector, since the $X(3872)$ particle is almost located at the $D \bar{D}^*$ threshold, the binding energy of it equals to zero approximately. Therefore, the coupling constant in the $D \bar{D}^*$ Yukawa potential is determined, which is related to the first zero point of the zero order Bessel function. Similarly to the $K \bar{K}^*$ case, four resonance states are produced as solutions of the Schrodinger equation with the outgoing wave condition. It is assumed that the resonance states at $3885-i1$MeV, $4328-i191$MeV and $4772-i267$MeV might be associated with the $Zc(3900)$, the $\chi_{c1}(4274)$ and $\chi_{c1}(4685)$ particles, respectively. As to the state at $4029-i108$ MeV, no counterpart has been found in the PDG data. It is noted that all solutions are independent on the isospin. | 翻訳日:2024-01-19 16:23:11 公開日:2024-01-18 |
# BPDO:任意形状シーンテキスト検出のための境界点動的最適化 BPDO:Boundary Points Dynamic Optimization for Arbitrary Shape Scene Text Detection ( http://arxiv.org/abs/2401.09997v1 ) ライセンス: Link先を確認 | Jinzhi Zheng, Libo Zhang, Yanjun Wu, Chen Zhao | (参考訳) 任意形状シーンテキスト検出はシーン理解タスクにおいて非常に重要である。
自然シーンにおけるテキストの複雑さと多様性のため、既存のシーンテキストアルゴリズムは任意の形状テキストを検出する精度が限られている。
本稿では,境界点動的最適化(BPDO)を用いた任意の形状シーンテキスト検出手法を提案する。
提案モデルは,text aware module (tam) と boundary point dynamic optimization module (dom) を用いて設計されている。
具体的には、テキスト領域に関する優先順位情報を抽出することにより、テキストの中央領域を記述する境界点を得るために、セグメンテーションに基づくテキスト認識モジュールを設計する。
そこで, 変形性を考慮した境界点の動的最適化モデルを提案し, 各境界点の隣接領域の情報に基づいて, 境界点の正確な位置を徐々に最適化する。
ctw-1500、total-text、およびmsra-td500データセットの実験により、本論文で提案するモデルは最先端アルゴリズムよりも優れた性能を達成し、モデルの有効性を証明している。 Arbitrary shape scene text detection is of great importance in scene understanding tasks. Due to the complexity and diversity of text in natural scenes, existing scene text algorithms have limited accuracy for detecting arbitrary shape text. In this paper, we propose a novel arbitrary shape scene text detector through boundary points dynamic optimization(BPDO). The proposed model is designed with a text aware module (TAM) and a boundary point dynamic optimization module (DOM). Specifically, the model designs a text aware module based on segmentation to obtain boundary points describing the central region of the text by extracting a priori information about the text region. Then, based on the idea of deformable attention, it proposes a dynamic optimization model for boundary points, which gradually optimizes the exact position of the boundary points based on the information of the adjacent region of each boundary point. Experiments on CTW-1500, Total-Text, and MSRA-TD500 datasets show that the model proposed in this paper achieves a performance that is better than or comparable to the state-of-the-art algorithm, proving the effectiveness of the model. | 翻訳日:2024-01-19 16:22:24 公開日:2024-01-18 |
# ミツバチ健康評価のためのaiベース統合システムの開発 Developing an AI-based Integrated System for Bee Health Evaluation ( http://arxiv.org/abs/2401.09988v1 ) ライセンス: Link先を確認 | Andrew Liang | (参考訳) ハチは世界の食料供給の約3分の1を受粉するが、農薬や害虫などいくつかの要因により、過去10年間でハチのコロニーは40%近く減少した。
人間の検査など、伝統的なミツバチの観察方法は主観的、破壊的、時間的消費である。
これらの制限を克服するために、人工知能は蜂の健康を評価するために使われてきた。
しかし、これまでの研究ではエンドツーエンドのソリューションが欠けており、主に蜂の画像や音といった単一のソースのデータに依存している。
本研究は, ミツバチの物体検出と健康評価からなる総合的なシステムを提案する。
さらに、視覚信号と音声信号を組み合わせて蜂の行動を分析した。
A Attention-based Multimodal Neural Network (AMNN) を開発した。
AMNNは92.61%の精度を達成し、既存の8つのシングルシグナル畳み込みニューラルネットワークとリカレントニューラルネットワークを上回った。
最高のイメージベースモデルでは32.51%、トップサウンドベースモデルでは13.98%、効率的な処理時間を維持した。
さらに、予測の堅牢性を改善し、F1スコアが4つの評価された健康状態すべてで90%以上に達した。
研究によると、音声信号は蜂の健康を評価する画像よりも信頼性が高いという。
包括的な蜂の健康モニタリングシステムにおいて、AMNNと画像および音声データをシームレスに統合することにより、蜂病の早期発見と蜂コロニーの保存のための、より効率的で非侵襲的なソリューションを提供する。 Honey bees pollinate about one-third of the world's food supply, but bee colonies have alarmingly declined by nearly 40% over the past decade due to several factors, including pesticides and pests. Traditional methods for monitoring beehives, such as human inspection, are subjective, disruptive, and time-consuming. To overcome these limitations, artificial intelligence has been used to assess beehive health. However, previous studies have lacked an end-to-end solution and primarily relied on data from a single source, either bee images or sounds. This study introduces a comprehensive system consisting of bee object detection and health evaluation. Additionally, it utilized a combination of visual and audio signals to analyze bee behaviors. An Attention-based Multimodal Neural Network (AMNN) was developed to adaptively focus on key features from each type of signal for accurate bee health assessment. The AMNN achieved an overall accuracy of 92.61%, surpassing eight existing single-signal Convolutional Neural Networks and Recurrent Neural Networks. It outperformed the best image-based model by 32.51% and the top sound-based model by 13.98% while maintaining efficient processing times. Furthermore, it improved prediction robustness, attaining an F1-score higher than 90% across all four evaluated health conditions. The study also shows that audio signals are more reliable than images for assessing bee health. By seamlessly integrating AMNN with image and sound data in a comprehensive bee health monitoring system, this approach provides a more efficient and non-invasive solution for the early detection of bee diseases and the preservation of bee colonies. | 翻訳日:2024-01-19 16:22:03 公開日:2024-01-18 |
# A-KIT:適応カルマンインフォームドトランス A-KIT: Adaptive Kalman-Informed Transformer ( http://arxiv.org/abs/2401.09987v1 ) ライセンス: Link先を確認 | Nadav Cohen and Itzik Klein | (参考訳) 拡張カルマンフィルタ(ekf)は、ナビゲーションアプリケーションにおけるセンサー融合に広く採用されている方法である。
EKFの重要な側面は、モデルの不確実性を反映したプロセスノイズ共分散行列のオンライン決定である。
一般的なekf実装は一定のプロセスノイズを想定しているが、現実のシナリオではプロセスノイズは変化し、推定状態の精度が低下し、フィルタが分岐する可能性がある。
このような状況に対処するため、モデルベース適応型EKF法を提案し、性能改善を示し、ロバスト適応アプローチの必要性を強調した。
本稿では,適応カルマンインフォームドトランスであるA-KITを導入し,様々なプロセスノイズの共分散をオンラインで学習する。
A-KITフレームワークはあらゆる種類のセンサー融合に適用できる。
本稿では,慣性ナビゲーションシステムとドップラー速度ログを用いた非線形センサ融合について述べる。
自律型水中車両の実際の記録データを用いて、A-KITが従来のEKFを49.5%以上上回り、モデルベース適応型EKFを35.4%以上上回っていることを示す。 The extended Kalman filter (EKF) is a widely adopted method for sensor fusion in navigation applications. A crucial aspect of the EKF is the online determination of the process noise covariance matrix reflecting the model uncertainty. While common EKF implementation assumes a constant process noise, in real-world scenarios, the process noise varies, leading to inaccuracies in the estimated state and potentially causing the filter to diverge. To cope with such situations, model-based adaptive EKF methods were proposed and demonstrated performance improvements, highlighting the need for a robust adaptive approach. In this paper, we derive and introduce A-KIT, an adaptive Kalman-informed transformer to learn the varying process noise covariance online. The A-KIT framework is applicable to any type of sensor fusion. Here, we present our approach to nonlinear sensor fusion based on an inertial navigation system and Doppler velocity log. By employing real recorded data from an autonomous underwater vehicle, we show that A-KIT outperforms the conventional EKF by more than 49.5% and model-based adaptive EKF by an average of 35.4% in terms of position accuracy. | 翻訳日:2024-01-19 16:21:17 公開日:2024-01-18 |
# 準周期電位による局所化相のレベルスペーシング分布 Level spacing distribution of localized phases induced by quasiperiodic potentials ( http://arxiv.org/abs/2401.10067v1 ) ライセンス: Link先を確認 | Chao Yang and Yucheng Wang | (参考訳) レベル統計は局在物理学の探求において重要な道具である。
乱れた系における局在状態のレベル間隔分布はポアソン統計に従い、多くの研究は準周期ポテンシャルによって誘導される局在化に自然に適用する。
aubry-andr\'{e}モデルを例として,準周期ポテンシャルによる局所化相のレベル間隔分布について検討する。
解析的および数値的にそのレベル間隔分布を計算し、ポアソン統計に従わないことを示す。
さらに、このレベル統計に基づいて隣接するギャップの比率を導出し、1つのサンプルに対して$\delta-$function であることが判明し、数値研究とよく一致している。
さらに、乱れたシステムとは異なり、準周期系では、スペクトルの異なる領域にまたがるレベル間隔分布のばらつきがあり、サイズの増加とサンプルの増加は非同値である。
本研究は準周期系におけるレベル統計の再評価と、準周期ポテンシャルと障害誘発局在の異なる効果の深い理解に重要な意味を持つ。 Level statistics is a crucial tool in the exploration of localization physics. The level spacing distribution of localized states in disordered systems follows Poisson statistics, and many studies naturally apply it to the localization induced by quasiperiodic potentials. Taking the Aubry-Andr\'{e} model as an example, we investigate the level spacing distribution of the localized phase caused by quasiperiodic potential. We analytically and numerically calculate its level spacing distribution and find that it does not adhere to Poisson statistics. Moreover, based on this level statistics, we derive the ratio of adjacent gaps and find that for a single sample, it is a $\delta-$function, which is in excellent agreement with numerical studies. Additionally, unlike disordered systems, in quasiperiodic systems, there are variations in the level spacing distribution across different regions of the spectrum, and increasing the size and increasing the sample are non-equivalent. Our findings carry significant implications for the reevaluation of level statistics in quasiperiodic systems and a profound understanding of the distinct effects of quasiperiodic potentials and disorder-induced localization. | 翻訳日:2024-01-19 16:13:43 公開日:2024-01-18 |
# Text+Code LLMにおける条件推論能力のコードプロンプト Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs ( http://arxiv.org/abs/2401.10065v1 ) ライセンス: Link先を確認 | Haritz Puerto, Martin Tutek, Somak Aditya, Xiaodan Zhu, Iryna Gurevych | (参考訳) 推論は言語理解を達成するための基本的な要素である。
複数のタイプの推論、条件推論、ある条件によって異なる結論を引き出す能力は、大規模言語モデル(LLM)で検討されている。
思考の連鎖のような近年のプロンプト手法は推論タスクにおけるLLMを大幅に改善した。
しかしながら、LSMの推論能力の引き金となるものは、まだほとんど分かっていない。
我々は、コードプロンプトがテキストやコードで訓練されたLLMの条件推論をトリガーできると仮定する。
本稿では,自然言語問題をコードに変換する一連のプロンプトを提案し,生成したコードでLLMをプロンプトする。
実験の結果,GPT3.5では条件付き推論を必要とする複数のデータセットに対して,コードプロンプトのパフォーマンスが2.6から7.7ポイント向上していることがわかった。
次に、コードが条件付き推論能力をいかに促すか、どの機能を通すかを実験します。
我々は、インスタンステキストのセマンティクスを忠実に表現する高品質なコードを伴う自然言語テキストを含む必要があることを観察する。
さらに、コードプロンプトはより効率的で、デモを少なくし、変数やキーエンティティのより優れた状態追跡をトリガーすることを示す。 Reasoning is a fundamental component for achieving language understanding. Among the multiple types of reasoning, conditional reasoning, the ability to draw different conclusions depending on some condition, has been understudied in large language models (LLMs). Recent prompting methods, such as chain of thought, have significantly improved LLMs on reasoning tasks. Nevertheless, there is still little understanding of what triggers reasoning abilities in LLMs. We hypothesize that code prompts can trigger conditional reasoning in LLMs trained on text and code. We propose a chain of prompts that transforms a natural language problem into code and prompts the LLM with the generated code. Our experiments find that code prompts exhibit a performance boost between 2.6 and 7.7 points on GPT 3.5 across multiple datasets requiring conditional reasoning. We then conduct experiments to discover how code prompts elicit conditional reasoning abilities and through which features. We observe that prompts need to contain natural language text accompanied by high-quality code that closely represents the semantics of the instance text. Furthermore, we show that code prompts are more efficient, requiring fewer demonstrations, and that they trigger superior state tracking of variables or key entities. | 翻訳日:2024-01-19 16:13:25 公開日:2024-01-18 |
# DiffusionGPT:LLM駆動型テキスト画像生成システム DiffusionGPT: LLM-Driven Text-to-Image Generation System ( http://arxiv.org/abs/2401.10061v1 ) ライセンス: Link先を確認 | Jie Qin, Jie Wu, Weifeng Chen, Yuxi Ren, Huixia Li, Hefeng Wu, Xuefeng Xiao, Rui Wang, and Shilei Wen | (参考訳) 拡散モデルは画像生成の分野に新しい道を開き、オープンソースプラットフォームで共有される高品質なモデルが急増した。
しかし、現在のテキスト・画像システムでは、様々な入力を扱うことができず、単一のモデル結果に制限されることが多い。
現在の統一的な試みは、しばしば2つの直交的な側面に陥る。
一 入力段階における多様なプロンプトを解析すること。
二 出力する専門家モデルを活性化すること。
両世界の長所を組み合わせるために,DiffusionGPTを提案する。これはLarge Language Models (LLM) を利用して,様々な種類のプロンプトをシームレスに調整し,ドメインエキスパートモデルを統合可能な統一生成システムを提供する。
DiffusionGPTは、事前知識に基づく様々な生成モデルのためのドメイン固有ツリーを構築する。
入力が提供されると、LLMはプロンプトを解析し、Trees-of-Thoughtを使用して適切なモデルの選択をガイドし、入力制約を緩和し、さまざまなドメインで例外的なパフォーマンスを確保する。
さらに,Advantage Databasesを導入し,Tree-of-Thoughtは人間のフィードバックに富み,モデル選択プロセスと人間の好みを一致させる。
広範にわたる実験と比較を通じて,拡散GPTの有効性を実証し,様々な領域における画像合成の境界を押し上げる可能性を示した。 Diffusion models have opened up new avenues for the field of image generation, resulting in the proliferation of high-quality models shared on open-source platforms. However, a major challenge persists in current text-to-image systems are often unable to handle diverse inputs, or are limited to single model results. Current unified attempts often fall into two orthogonal aspects: i) parse Diverse Prompts in input stage; ii) activate expert model to output. To combine the best of both worlds, we propose DiffusionGPT, which leverages Large Language Models (LLM) to offer a unified generation system capable of seamlessly accommodating various types of prompts and integrating domain-expert models. DiffusionGPT constructs domain-specific Trees for various generative models based on prior knowledge. When provided with an input, the LLM parses the prompt and employs the Trees-of-Thought to guide the selection of an appropriate model, thereby relaxing input constraints and ensuring exceptional performance across diverse domains. Moreover, we introduce Advantage Databases, where the Tree-of-Thought is enriched with human feedback, aligning the model selection process with human preferences. Through extensive experiments and comparisons, we demonstrate the effectiveness of DiffusionGPT, showcasing its potential for pushing the boundaries of image synthesis in diverse domains. | 翻訳日:2024-01-19 16:13:07 公開日:2024-01-18 |
# ContextMix:産業用視覚検査システムのためのコンテキスト対応データ拡張手法 ContextMix: A context-aware data augmentation method for industrial visual inspection systems ( http://arxiv.org/abs/2401.10050v1 ) ライセンス: Link先を確認 | Hyungmin Kim, Donghun Kim, Pyunghwan Ahn, Sungho Suh, Hansang Cho, and Junmo Kim | (参考訳) ディープニューラルネットワークは目覚ましいパフォーマンスを達成したが、ネットワークパフォーマンスを過度に調整し強化するための重要な戦略として、データ拡張が登場した。
これらの技術は工業生産の文脈において特に重要である。
近年,イメージミキシングに基づく手法が導入され,公開ベンチマークデータセットのパフォーマンスが向上している。
しかし、産業業務への応用は依然として困難である。
製造環境は、異常なデータが発生する事例はごくわずかであり、毎日大量の未ラベルデータを生成する。
これは厳しいデータの不均衡につながる。
したがって、ラベル付けに伴う高コストのため、バランスのとれたデータセットの作成は簡単ではない。
それでも、これは生産性を高めるための重要なステップです。
このような理由から,産業アプリケーションやベンチマークデータセットに適したContextMixを導入する。
ContextMixは、画像全体をリサイズし、バッチ内の他の画像に統合することで、新しいデータを生成する。
提案手法は,画像サイズの変化に基づいて識別特徴を学習し,隠蔽画像を用いた物体認識のための情報二次特徴を訓練する。
画像リサイズの計算コストが最小限に抑えられ、contextmixは既存の拡張技術に比べて性能が向上する。
各種ネットワークアーキテクチャを用いて, 分類, 検出, セグメンテーションタスク間での有効性を評価する。
提案手法は, 各種ロバスト性タスクにおける改善結果を示す。
実産業環境での有効性は、受動的コンポーネントデータセットを用いて示されるように、特に注目に値する。 While deep neural networks have achieved remarkable performance, data augmentation has emerged as a crucial strategy to mitigate overfitting and enhance network performance. These techniques hold particular significance in industrial manufacturing contexts. Recently, image mixing-based methods have been introduced, exhibiting improved performance on public benchmark datasets. However, their application to industrial tasks remains challenging. The manufacturing environment generates massive amounts of unlabeled data on a daily basis, with only a few instances of abnormal data occurrences. This leads to severe data imbalance. Thus, creating well-balanced datasets is not straightforward due to the high costs associated with labeling. Nonetheless, this is a crucial step for enhancing productivity. For this reason, we introduce ContextMix, a method tailored for industrial applications and benchmark datasets. ContextMix generates novel data by resizing entire images and integrating them into other images within the batch. This approach enables our method to learn discriminative features based on varying sizes from resized images and train informative secondary features for object recognition using occluded images. With the minimal additional computation cost of image resizing, ContextMix enhances performance compared to existing augmentation techniques. We evaluate its effectiveness across classification, detection, and segmentation tasks using various network architectures on public benchmark datasets. Our proposed method demonstrates improved results across a range of robustness tasks. Its efficacy in real industrial environments is particularly noteworthy, as demonstrated using the passive component dataset. | 翻訳日:2024-01-19 16:12:44 公開日:2024-01-18 |
# InterlaCed Encoder NETworks (ICE-NET) を用いた匿名対同期識別 Antonym vs Synonym Distinction using InterlaCed Encoder NETworks (ICE-NET) ( http://arxiv.org/abs/2401.10045v1 ) ライセンス: Link先を確認 | Muhammad Asif Ali, Yan Hu, Jianbin Qin, Di Wang | (参考訳) 音韻対同義語区別は、語彙意味分析と自動語彙資源構築における中核的な課題である。
これらのペアは同様の分布コンテキストを共有しており、区別が難しい。
この分野における主要な研究は、関係対、すなわち対称性、推移性、遷移性の性質を捉えようとするものである。
しかし、関係性固有の特性を適切にモデル化できない既存の研究は、その性能を制限している。
本稿では,同義語と異義語の区別のためのインターレースエンコーダネットワーク(ice-net)を提案する。
ベンチマークデータセットを用いた実験的評価は、ICE-NETがF1尺度の1.8%までの相対スコアで既存の研究を上回っていることを示している。
ICE-NETのコードはhttps://github.com/asif6827/ICENETで公開しています。 Antonyms vs synonyms distinction is a core challenge in lexico-semantic analysis and automated lexical resource construction. These pairs share a similar distributional context which makes it harder to distinguish them. Leading research in this regard attempts to capture the properties of the relation pairs, i.e., symmetry, transitivity, and trans-transitivity. However, the inability of existing research to appropriately model the relation-specific properties limits their end performance. In this paper, we propose InterlaCed Encoder NETworks (i.e., ICE-NET) for antonym vs synonym distinction, that aim to capture and model the relation-specific properties of the antonyms and synonyms pairs in order to perform the classification task in a performance-enhanced manner. Experimental evaluation using the benchmark datasets shows that ICE-NET outperforms the existing research by a relative score of upto 1.8% in F1-measure. We release the codes for ICE-NET at https://github.com/asif6827/ICENET. | 翻訳日:2024-01-19 16:12:24 公開日:2024-01-18 |
# 深部空間文脈:注意に基づくモデルが空間回帰に適合する場合 Deep spatial context: when attention-based models meet spatial regression ( http://arxiv.org/abs/2401.10044v1 ) ライセンス: Link先を確認 | Paulina Tomaszewska, El\.zbieta Sienkiewicz, Mai P. Hoang, Przemys{\l}aw Biecek | (参考訳) 本研究では,空間コンテキストの概念を用いた注目型視覚モデルの研究を支援する「深部空間コンテキスト(DSCon)」手法を提案する。
病理学者にヒントを得たものであるが、様々な領域に応用できる。
dsconは、3つの空間的文脈尺度を用いて空間的文脈の役割を定量的に測定することができる: $scm_{features}$, $scm_{targets}$, $scm_{residuals}$ 空間的文脈が隣接する領域の特徴内で観測可能か、その目標値(アテンションスコア)か残差かを識別する。
パイプラインに空間回帰を統合することで実現される。
DSConは研究課題の検証を支援する。
実験の結果,正常組織よりも腫瘍病変の分類において空間的関係がはるかに大きいことが明らかとなった。
さらに,空間的回帰の中で考慮される近傍の大きさが大きいほど,価値の低い文脈情報が得られることが判明した。
さらに, 空間的文脈測度は, 対象や残差に対して, 特徴空間内で考える場合, 最大であることがわかった。 We propose 'Deep spatial context' (DSCon) method, which serves for investigation of the attention-based vision models using the concept of spatial context. It was inspired by histopathologists, however, the method can be applied to various domains. The DSCon allows for a quantitative measure of the spatial context's role using three Spatial Context Measures: $SCM_{features}$, $SCM_{targets}$, $SCM_{residuals}$ to distinguish whether the spatial context is observable within the features of neighboring regions, their target values (attention scores) or residuals, respectively. It is achieved by integrating spatial regression into the pipeline. The DSCon helps to verify research questions. The experiments reveal that spatial relationships are much bigger in the case of the classification of tumor lesions than normal tissues. Moreover, it turns out that the larger the size of the neighborhood taken into account within spatial regression, the less valuable contextual information is. Furthermore, it is observed that the spatial context measure is the largest when considered within the feature space as opposed to the targets and residuals. | 翻訳日:2024-01-19 16:12:08 公開日:2024-01-18 |
# cmfn:不規則テキスト認識のためのクロスモーダル融合ネットワーク CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition ( http://arxiv.org/abs/2401.10041v1 ) ライセンス: Link先を確認 | Jinzhi Zheng, Ruyi Ji, Libo Zhang, Yanjun Wu, Chen Zhao | (参考訳) 視覚とテキストを含むクロスモーダルなタスクとしてのシーンテキスト認識は、コンピュータビジョンにおいて重要な研究課題である。
既存の手法のほとんどは言語モデルを使用して、視覚認識の最適化のために意味情報を抽出する。
しかし、セマンティックマイニングの過程で視覚的手がかりのガイダンスは無視され、不規則なシーンテキストを認識するアルゴリズムの性能が制限される。
この問題に対処するために,視覚的手がかりを意味的なマイニングプロセスに組み込んだ不規則なシーンテキスト認識のための,新しいクロスモーダル融合ネットワーク(CMFN)を提案する。
具体的には、CMFNは、位置自己強調エンコーダ、視覚認識枝、反復意味認識枝からなる。
位置強調エンコーダは、視覚認識ブランチと反復意味認識ブランチの両方に対して文字シーケンス位置符号化を提供する。
視覚認識枝は、cnnによって抽出された視覚特徴と、位置自己強調エンコーダによって提供される位置符号化情報とに基づいて視覚認識を行う。
言語認識モジュールとクロスモーダル融合ゲートからなる反復的意味認識ブランチは、人間がシーンテキストを認識する方法をシミュレートし、テキスト認識のためのクロスモーダル視覚手がかりを統合する。
実験により,提案したCMFNアルゴリズムは最先端アルゴリズムに匹敵する性能を示し,その有効性を示した。 Scene text recognition, as a cross-modal task involving vision and text, is an important research topic in computer vision. Most existing methods use language models to extract semantic information for optimizing visual recognition. However, the guidance of visual cues is ignored in the process of semantic mining, which limits the performance of the algorithm in recognizing irregular scene text. To tackle this issue, we propose a novel cross-modal fusion network (CMFN) for irregular scene text recognition, which incorporates visual cues into the semantic mining process. Specifically, CMFN consists of a position self-enhanced encoder, a visual recognition branch and an iterative semantic recognition branch. The position self-enhanced encoder provides character sequence position encoding for both the visual recognition branch and the iterative semantic recognition branch. The visual recognition branch carries out visual recognition based on the visual features extracted by CNN and the position encoding information provided by the position self-enhanced encoder. The iterative semantic recognition branch, which consists of a language recognition module and a cross-modal fusion gate, simulates the way that human recognizes scene text and integrates cross-modal visual cues for text recognition. The experiments demonstrate that the proposed CMFN algorithm achieves comparable performance to state-of-the-art algorithms, indicating its effectiveness. | 翻訳日:2024-01-19 16:11:46 公開日:2024-01-18 |
# 科学的情報抽出のための大規模言語モデル:ウイルス学の実証的研究 Large Language Models for Scientific Information Extraction: An Empirical Study for Virology ( http://arxiv.org/abs/2401.10040v1 ) ライセンス: Link先を確認 | Mahsa Shamsabadi and Jennifer D'Souza and S\"oren Auer | (参考訳) 本稿では,wikipedia infoboxes や structured amazon product descriptions といったツールに触発された,談話に基づく学術的コミュニケーションの構造化および意味的コンテンツ表現の利用を促進する。
これらの表現は、高密度の学術的景観をナビゲートする科学者を支援する、簡潔な概要を提供する。
我々の新しい自動的アプローチは、LLMの頑健なテキスト生成能力を活用して構造化された学術的コントリビューションサマリーを生成し、LLMの創発的能力に関する実用的な解決策と洞察を提供する。
LLMにとって、主な焦点は会話エージェントとしての一般知性の向上である。
我々は、これらのモデルは情報抽出(ie)、特に科学のようなterseドメイン内の複雑なieタスクにも効果的に適用できると主張する。
このパラダイムシフトは、従来のモジュラーでパイプライン化された機械学習アプローチを、命令を通じて表現されるより単純な目的に置き換えるものだ。
以上の結果から,FLAN-T5のパラメータは現状のGPT-davinciよりも1000倍少ないことがわかった。 In this paper, we champion the use of structured and semantic content representation of discourse-based scholarly communication, inspired by tools like Wikipedia infoboxes or structured Amazon product descriptions. These representations provide users with a concise overview, aiding scientists in navigating the dense academic landscape. Our novel automated approach leverages the robust text generation capabilities of LLMs to produce structured scholarly contribution summaries, offering both a practical solution and insights into LLMs' emergent abilities. For LLMs, the prime focus is on improving their general intelligence as conversational agents. We argue that these models can also be applied effectively in information extraction (IE), specifically in complex IE tasks within terse domains like Science. This paradigm shift replaces the traditional modular, pipelined machine learning approach with a simpler objective expressed through instructions. Our results show that finetuned FLAN-T5 with 1000x fewer parameters than the state-of-the-art GPT-davinci is competitive for the task. | 翻訳日:2024-01-19 16:11:22 公開日:2024-01-18 |
# GPT4Ego:ゼロショットエゴセントリック行動認識のための事前学習モデルの可能性 GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition ( http://arxiv.org/abs/2401.10039v1 ) ライセンス: Link先を確認 | Guangzhao Dai, Xiangbo Shu, Wenhao Wu | (参考訳) 大規模データセットで事前トレーニングされた視覚言語モデル(VLM)は、様々な視覚認識タスクにおいて印象的なパフォーマンスを示している。
この進歩は、ZES-EAR(Zero-Shot Egocentric Action Recognition)における顕著なパフォーマンスの道を開く。
典型的には、vlmはzs-earをグローバルなビデオテキストマッチングタスクとして扱い、視覚と言語知識を最適化する。
VLMを用いたZS-EARの洗練されたアプローチを提案し、エゴセントリックなビデオにおけるリッチなセマンティクスとコンテキストの詳細を活かした、きめ細かな概念記述アライメントを強調した。
本稿では,視覚と言語間の概念や記述の微妙な整合性を高めることを目的とした,ZS-EAR のための直感的で驚くほど強力な VLM フレームワークである GPT4Ego を紹介する。
GPT4Egoは、EPIC-KITCHENS-100(33.2%、+9.4%)、EGTEA(39.6%、+5.5%)、CharadesEgo(31.5%、+2.6%)の3つの大規模なビデオベンチマークにおいて、既存のVLMを著しく上回っている。 Vision-Language Models (VLMs), pre-trained on large-scale datasets, have shown impressive performance in various visual recognition tasks. This advancement paves the way for notable performance in Zero-Shot Egocentric Action Recognition (ZS-EAR). Typically, VLMs handle ZS-EAR as a global video-text matching task, which often leads to suboptimal alignment of vision and linguistic knowledge. We propose a refined approach for ZS-EAR using VLMs, emphasizing fine-grained concept-description alignment that capitalizes on the rich semantic and contextual details in egocentric videos. In this paper, we introduce GPT4Ego, a straightforward yet remarkably potent VLM framework for ZS-EAR, designed to enhance the fine-grained alignment of concept and description between vision and language. Extensive experiments demonstrate GPT4Ego significantly outperforms existing VLMs on three large-scale egocentric video benchmarks, i.e., EPIC-KITCHENS-100 (33.2%, +9.4%), EGTEA (39.6%, +5.5%), and CharadesEgo (31.5%, +2.6%). | 翻訳日:2024-01-19 16:11:06 公開日:2024-01-18 |
# depth over rgb: depth cameraを用いた開手術スキルの自動評価 Depth Over RGB: Automatic Evaluation of Open Surgery Skills Using Depth Camera ( http://arxiv.org/abs/2401.10037v1 ) ライセンス: Link先を確認 | Ido Zuckerman, Nicole Werner, Jonathan Kouchly, Emma Huston, Shannon DiMarco, Paul DiMusto, Shlomi Laufer | (参考訳) 目的:本論文では,深度カメラを用いた開手術スキルの自動評価のための新しいアプローチを提案する。
本研究は, 開腹術式の自動評価において一般的な方法であるRGBカメラと, 奥行きカメラが類似した結果が得られることを示すものである。
さらに、ディープカメラは、照明のバリエーションに対する堅牢性、カメラの位置決め、データ圧縮の簡略化、プライバシーの強化といった利点があり、RGBカメラの代替として有望である。
方法:専門医と初心者の外科医が2つの縫合シミュレーターを完成させた。
縫合術における手・道具検出とアクションセグメンテーションに焦点をあてた。
YOLOv8はRGBとディープビデオのツール検出に使用された。
さらに、UVASTとMSTCN++はアクションセグメンテーションに使われた。
私たちの研究には、Azure Kinectで記録されたデータセットの収集とアノテーションが含まれています。
結果: 物体検出およびアクションセグメンテーションにおける深度カメラの使用はRGBカメラに匹敵する結果が得られた。
さらに,3dハンドパス長を解析し,専門医と初心者外科医の間に有意な差を認め,手術スキル獲得における奥行きカメラの可能性を強調した。
また,計測精度に及ぼすカメラ角度の影響についても検討し,手の動きをより正確に表現できる3dカメラの利点を明らかにした。
結論: 本研究は, より信頼性の高いプライバシー評価に奥行きカメラを活用し, 外科的スキル評価の進歩に寄与する。
この結果から,深度カメラは外科的スキルの評価に有用であり,今後の研究の基盤となる可能性が示唆された。 Purpose: In this paper, we present a novel approach to the automatic evaluation of open surgery skills using depth cameras. This work is intended to show that depth cameras achieve similar results to RGB cameras, which is the common method in the automatic evaluation of open surgery skills. Moreover, depth cameras offer advantages such as robustness to lighting variations, camera positioning, simplified data compression, and enhanced privacy, making them a promising alternative to RGB cameras. Methods: Experts and novice surgeons completed two simulators of open suturing. We focused on hand and tool detection, and action segmentation in suturing procedures. YOLOv8 was used for tool detection in RGB and depth videos. Furthermore, UVAST and MSTCN++ were used for action segmentation. Our study includes the collection and annotation of a dataset recorded with Azure Kinect. Results: We demonstrated that using depth cameras in object detection and action segmentation achieves comparable results to RGB cameras. Furthermore, we analyzed 3D hand path length, revealing significant differences between experts and novice surgeons, emphasizing the potential of depth cameras in capturing surgical skills. We also investigated the influence of camera angles on measurement accuracy, highlighting the advantages of 3D cameras in providing a more accurate representation of hand movements. Conclusion: Our research contributes to advancing the field of surgical skill assessment by leveraging depth cameras for more reliable and privacy evaluations. The findings suggest that depth cameras can be valuable in assessing surgical skills and provide a foundation for future research in this area. | 翻訳日:2024-01-19 16:10:42 公開日:2024-01-18 |
# LOCALINTEL:グローバルおよびローカルなサイバー知識から組織的脅威インテリジェンスを生成する LOCALINTEL: Generating Organizational Threat Intelligence from Global and Local Cyber Knowledge ( http://arxiv.org/abs/2401.10036v1 ) ライセンス: Link先を確認 | Shaswata Mitra, Subash Neupane, Trisha Chakraborty, Sudip Mittal, Aritran Piplai, Manas Gaur, Shahram Rahimi | (参考訳) security operations center(soc)のアナリストは、オープンアクセス可能なグローバル脅威データベースから脅威レポートを収集し、特定の組織のニーズに合わせて手動でカスタマイズする。
これらのアナリストは、組織のためのプライベートなローカル知識データベースとして機能する内部リポジトリにも依存している。
信頼できるサイバーインテリジェンス、重要な運用詳細、関連する組織情報は、すべてローカルの知識データベースに保存されている。
アナリストは、これらのグローバルおよびローカルの知識データベースを使用して、組織固有の脅威応答と緩和戦略を手作業で作成する、労働集約的なタスクを引き受ける。
近年,Large Language Models (LLM) は多種多様な知識ソースを効率的に処理する能力を示している。
この能力を利用して、グローバルおよびローカルな知識データベースを処理し、組織固有の脅威インテリジェンスの生成を自動化する。
本研究では,グローバルな脅威リポジトリから脅威レポートを抽出し,そのローカルな知識データベースを用いて,特定の組織に対してコンテキスト化を行う,新しい知識コンテキスト化システムであるLOCALINTELを提案する。
LOCALINTELは、グローバル脅威情報検索、ローカル知識検索、コンテキスト化された完了生成の3つの重要なフェーズから構成される。
前者はグローバルな脅威リポジトリからインテリジェンスを取得し、後者はローカルな知識データベースから関連する知識を取得する。
最後に、これらの知識ソースの融合は、ジェネレータを通してオーケストレーションされ、コンテキスト化された補完を生成する。 Security Operations Center (SoC) analysts gather threat reports from openly accessible global threat databases and customize them manually to suit a particular organization's needs. These analysts also depend on internal repositories, which act as private local knowledge database for an organization. Credible cyber intelligence, critical operational details, and relevant organizational information are all stored in these local knowledge databases. Analysts undertake a labor intensive task utilizing these global and local knowledge databases to manually create organization's unique threat response and mitigation strategies. Recently, Large Language Models (LLMs) have shown the capability to efficiently process large diverse knowledge sources. We leverage this ability to process global and local knowledge databases to automate the generation of organization-specific threat intelligence. In this work, we present LOCALINTEL, a novel automated knowledge contextualization system that, upon prompting, retrieves threat reports from the global threat repositories and uses its local knowledge database to contextualize them for a specific organization. LOCALINTEL comprises of three key phases: global threat intelligence retrieval, local knowledge retrieval, and contextualized completion generation. The former retrieves intelligence from global threat repositories, while the second retrieves pertinent knowledge from the local knowledge database. Finally, the fusion of these knowledge sources is orchestrated through a generator to produce a contextualized completion. | 翻訳日:2024-01-19 16:10:17 公開日:2024-01-18 |
# 大規模言語モデル時代の進化的計算:調査とロードマップ Evolutionary Computation in the Era of Large Language Model: Survey and Roadmap ( http://arxiv.org/abs/2401.10034v1 ) ライセンス: Link先を確認 | Xingyu Wu, Sheng-hao Wu, Jibin Wu, Liang Feng, Kay Chen Tan | (参考訳) 大規模言語モデル(llm)は、多種多様なデータに大量の事前学習を持つトランスフォーマーベースのアーキテクチャを基盤として構築されており、自然言語処理に革命をもたらしただけでなく、様々な領域にその能力を拡大し、人工知能への大きな一歩を踏み出した。
LLMと進化的アルゴリズム(EA)の相互作用は、目的や方法論が異なるが、特に共通最適化特性、ブラックボックス特性、複雑な問題を扱う習熟度など、興味深い並列性を示している。
一方、EAは、ブラックボックス設定下でのLLMのさらなる拡張のための最適化フレームワークを提供するだけでなく、アプリケーションにおけるフレキシブルなグローバル検索と反復機構によってLLMに権限を与えることができる。
一方、LLMの豊富なドメイン知識により、EAはよりスマートな検索が可能となり、テキスト処理能力は様々なタスクにまたがってEAをデプロイするのに役立つ。
本稿では,LLMによる進化的最適化とEAによるLLMへの相互のインスピレーションを分類し,その相補的優位性に基づき,総合的なレビューと前向きなロードマップを示す。
神経アーキテクチャ探索、コード生成、ソフトウェア工学、テキスト生成など、様々なアプリケーションシナリオにおけるllmとeasの融合を例示するために、いくつかの統合的なシナジー法が導入された。
LLM時代のEA研究に特に焦点をあてた最初の総合的なレビューとして,本論文は,LLMとEAの協調的可能性を理解し,活用するための基礎的な足場を提供する。
包括的レビュー,分類,批判的分析を行い,これら2つの強力なパラダイムの学際研究の現在進行中の談話に寄与する。
特定された課題と今後の方向性は、この革新的なコラボレーションの可能性を解き放つためのガイダンスを提供する。 Large Language Models (LLMs), built upon Transformer-based architectures with massive pretraining on diverse data, have not only revolutionized natural language processing but also extended their prowess to various domains, marking a significant stride towards artificial general intelligence. The interplay between LLMs and Evolutionary Algorithms (EAs), despite differing in objectives and methodologies, reveals intriguing parallels, especially in their shared optimization nature, black-box characteristics, and proficiency in handling complex problems. Meanwhile, EA can not only provide an optimization framework for LLM's further enhancement under black-box settings but also empower LLM with flexible global search and iterative mechanism in applications. On the other hand, LLM's abundant domain knowledge enables EA to perform smarter searches, while its text processing capability assist in deploying EA across various tasks. Based on their complementary advantages, this paper presents a comprehensive review and forward-looking roadmap, categorizing their mutual inspiration into LLM-enhanced evolutionary optimization and EA-enhanced LLM. Some integrated synergy methods are further introduced to exemplify the amalgamation of LLMs and EAs in various application scenarios, including neural architecture search, code generation, software engineering, and text generation. As the first comprehensive review specifically focused on the EA research in the era of LLMs, this paper provides a foundational stepping stone for understanding and harnessing the collaborative potential of LLMs and EAs. By presenting a comprehensive review, categorization, and critical analysis, we contribute to the ongoing discourse on the cross-disciplinary study of these two powerful paradigms. The identified challenges and future directions offer guidance to unlock the full potential of this innovative collaboration. | 翻訳日:2024-01-19 16:09:53 公開日:2024-01-18 |
# FreGrad:軽量かつ高速な周波数対応拡散ボコーダ FreGrad: Lightweight and Fast Frequency-aware Diffusion Vocoder ( http://arxiv.org/abs/2401.10032v1 ) ライセンス: Link先を確認 | Tan Dat Nguyen, Ji-Hoon Kim, Youngjoon Jang, Jaehun Kim, Joon Son Chung | (参考訳) 本稿では,FreGradという軽量かつ高速な拡散型ボコーダを用いて,現実的な音声を生成することを目的とする。
本フレームワークは,(1)複雑な波形をサブバンドウェーブレットに分解する離散ウェーブレット変換を用い,FreGradが単純かつ簡潔な特徴空間で動作できるようにする。(2)周波数認識を高くし,正確な周波数情報で音声を生成する周波数認識拡張畳み込みを設計し,(3)提案モデルの生成品質を高めるトリックの袋を導入する。
実験では、FreGradはトレーニング時間3.7倍、ベースライン2.2倍の推論速度を実現し、出力品質を犠牲にすることなくモデルサイズを0.6倍(パラメータは1.78M)削減した。
オーディオサンプルは以下の通りである。 The goal of this paper is to generate realistic audio with a lightweight and fast diffusion-based vocoder, named FreGrad. Our framework consists of the following three key components: (1) We employ discrete wavelet transform that decomposes a complicated waveform into sub-band wavelets, which helps FreGrad to operate on a simple and concise feature space, (2) We design a frequency-aware dilated convolution that elevates frequency awareness, resulting in generating speech with accurate frequency information, and (3) We introduce a bag of tricks that boosts the generation quality of the proposed model. In our experiments, FreGrad achieves 3.7 times faster training time and 2.2 times faster inference speed compared to our baseline while reducing the model size by 0.6 times (only 1.78M parameters) without sacrificing the output quality. Audio samples are available at: https://mm.kaist.ac.kr/projects/FreGrad. | 翻訳日:2024-01-19 16:09:21 公開日:2024-01-18 |
# 健康関連物語のフレーミング分析:共謀と主流メディア Framing Analysis of Health-Related Narratives: Conspiracy versus Mainstream Media ( http://arxiv.org/abs/2401.10030v1 ) ライセンス: Link先を確認 | Markus Reiter-Haas, Beate Kl\"osch, Markus Hadler, Elisabeth Lex | (参考訳) オンラインメディアのフレーム化の問題を理解することは、世論に影響を与えるため重要である。
自然言語処理技術を用いたフレーミングの研究は、主にメッセージの特定のコンテンツの特徴に注目し、そのナラティブ要素を無視する。
また、異なるソースにおけるフレーミングの区別は未検討の問題である。
これらの問題に対処し、新型コロナウイルスやその他の疾患などの健康関連トピックのフレーミングが、陰謀と主流のウェブサイトの間でどのように異なるかを調べる。
セマンティックグラフに基づく新しいフレーム抽出手法を導入することにより、物語情報をフレーミング分析に組み込む。
共謀メディアの健康に関する物語は、主に信念の枠組みで表現されているのに対し、主流メディアは科学の観点で表現する傾向にある。
私たちは、より微妙なフレーム分析のための新しい方法を提供することを願っています。 Understanding how online media frame issues is crucial due to their impact on public opinion. Research on framing using natural language processing techniques mainly focuses on specific content features in messages and neglects their narrative elements. Also, the distinction between framing in different sources remains an understudied problem. We address those issues and investigate how the framing of health-related topics, such as COVID-19 and other diseases, differs between conspiracy and mainstream websites. We incorporate narrative information into the framing analysis by introducing a novel frame extraction approach based on semantic graphs. We find that health-related narratives in conspiracy media are predominantly framed in terms of beliefs, while mainstream media tend to present them in terms of science. We hope our work offers new ways for a more nuanced frame analysis. | 翻訳日:2024-01-19 16:09:02 公開日:2024-01-18 |
# 量子リセットモデルのエントロピー生成 Entropy Production of Quantum Reset Models ( http://arxiv.org/abs/2401.10022v1 ) ライセンス: Link先を確認 | G\'eraldine Haack and Alain Joye | (参考訳) リンドブラジアンが駆動する量子力学半群に対応する量子リセットモデル(qrms)のエントロピー生成を,外部環境における散逸の確率論的記述によって解析する。
qrmの和として与えられるリンドブラジアンに対するエントロピー生成の厳密な肯定性について検討し、リンドブラジアン全体のハミルトニアンを個々のqrmのハミルトニアンとのアフィン結合として分割する。
この設定では、組み合わせの係数と、正のエントロピー生成またはゼロのエントロピー生成を保証するリセット状態の条件を導出する。
第二に、2つの独立なQRMと弱い結合ハミルトニアンに三部系を末尾に扱う。
後者は個々のハミルトニアンのアフィン結合として分割され、エントロピー生成の厳密な正性を保証する必要十分条件を1つのアフィン結合を除いて提供する。
これらの結果を物理的動機付けモデルに適用し, 先行定常解, エントロピー生成, エントロピーフラックスに対する明示的な表現を示す。
さらに、これらの近似は期待される体制を超えて成り立つことが数値的に示される。 We analyze the entropy production of Quantum Reset Models (QRMs) corresponding to quantum dynamical semigroups driven by Lindbladians motivated by a probabilistic description of dissipation in an external environment. We investigate the strict positivity of entropy production for Lindbladians given as sums of QRMs, when the Hamiltonian of the total Lindbladian is split as an affine combination of Hamiltonians of the individual QRMs. In this setup, we derive conditions on the coefficients of the combination and on the reset states ensuring either positive or zero entropy production. Second, we deal with a tri-partite system subject at its ends to two independent QRMs and a weak coupling Hamiltonian. The latter is split as an affine combination of individual Hamiltonians, and we provide necessary and sufficient conditions ensuring strict positivity of the entropy production to leading order, with the possible exception of one affine combination. We apply these results to a physically motivated model and exhibit explicit expressions for the leading orders steady-state solution, entropy production and entropy fluxes. Moreover, these approximations are numerically shown to hold beyond the expected regimes. | 翻訳日:2024-01-19 16:08:49 公開日:2024-01-18 |
# 変分量子アルゴリズムの新しいノイズ対応古典最適化法 A Novel Noise-Aware Classical Optimizer for Variational Quantum Algorithms ( http://arxiv.org/abs/2401.10121v1 ) ライセンス: Link先を確認 | Jeffrey Larson and Matt Menickelly and Jiahao Shi | (参考訳) 変分量子アルゴリズム(vqas)の重要な構成要素は、アンサッツのパラメータ化の更新に使用される古典最適化器の選択である。
量子アルゴリズムは、近い将来、ノイズの多いデバイス上で動作し、フィデリティが制限されることは認識されている。
これにより、古典的最適化器が要求する目的関数(例えば、量子近似最適化アルゴリズム(qaoa)における誘導関数や変分量子固有解法(vqe)における電子ハミルトニアンの期待値)の評価は、期待値の推定から確率誤差だけでなく、断続的なハードウェアノイズによる誤差にも影響する。
モデルに基づく微分自由最適化法は、経験的研究に基づいて、ノイズの多いVQA設定における古典最適化の一般的な選択として登場した。
しかし、これらの最適化手法はノイズを考慮した設計ではなかった。
本研究では,「ノイズ認識型数値最適化」の文献から,これらの微分自由モデルに基づく手法への最近の発展を適応する。
本稿では,これらを標準モデルベース手法から切り離す新しいノイズ対応微分モデルベース手法のキーとなる特徴を紹介する。
本稿では,このようなノイズ対応微分モデルに基づく手法の実装について検討し,実証的なVQAシミュレーションにおける性能を,古典的解法であるtexttt{scikit-quant} にパッケージ化したものと比較する。 A key component of variational quantum algorithms (VQAs) is the choice of classical optimizer employed to update the parameterization of an ansatz. It is well recognized that quantum algorithms will, for the foreseeable future, necessarily be run on noisy devices with limited fidelities. Thus, the evaluation of an objective function (e.g., the guiding function in the quantum approximate optimization algorithm (QAOA) or the expectation of the electronic Hamiltonian in variational quantum eigensolver (VQE)) required by a classical optimizer is subject not only to stochastic error from estimating an expected value but also to error resulting from intermittent hardware noise. Model-based derivative-free optimization methods have emerged as popular choices of a classical optimizer in the noisy VQA setting, based on empirical studies. However, these optimization methods were not explicitly designed with the consideration of noise. In this work we adapt recent developments from the ``noise-aware numerical optimization'' literature to these commonly used derivative-free model-based methods. We introduce the key defining characteristics of these novel noise-aware derivative-free model-based methods that separate them from standard model-based methods. We study an implementation of such noise-aware derivative-free model-based methods and compare its performance on demonstrative VQA simulations to classical solvers packaged in \texttt{scikit-quant}. | 翻訳日:2024-01-19 16:01:41 公開日:2024-01-18 |
# 不確かさを持つハミルトニアンのバイナリ量子制御最適化 Binary Quantum Control Optimization with Uncertain Hamiltonians ( http://arxiv.org/abs/2401.10120v1 ) ライセンス: Link先を確認 | Xinyu Fei and Lucas T. Brady and Jeffrey Larson and Sven Leyffer and Siqian Shen | (参考訳) 量子システムの制御の最適化は、量子技術の進歩において重要な役割を果たす。
量子系における時変ノイズと不均一量子アンサンブルの広範な使用は、不確実性の下で高品質な量子制御の必要性を増大させる。
本稿では,予測可能な不確実性を持つハミルトン系を含む二元最適量子制御問題の確率的離散最適化を定式化する。
本稿では,リスクニュートラルとリスクアバースの両制御ポリシを最適化したサンプルベース改質法を提案する。
さらに,目的関数の微分可能性について議論し,二元制御問題に対する最適解と連続緩和との間のギャップの上限を証明した。
量子パルス最適化の2つの応用に基づいて、様々な問題インスタンスについて数値的研究を行い、量子システムにおける不確実性の影響を緩和するための異なる戦略を評価した。
確率最適化モデルの制御は, 決定論的モデルの制御と比較して, 極めて高い品質と頑健性が得られることを示す。 Optimizing the controls of quantum systems plays a crucial role in advancing quantum technologies. The time-varying noises in quantum systems and the widespread use of inhomogeneous quantum ensembles raise the need for high-quality quantum controls under uncertainties. In this paper, we consider a stochastic discrete optimization formulation of a binary optimal quantum control problem involving Hamiltonians with predictable uncertainties. We propose a sample-based reformulation that optimizes both risk-neutral and risk-averse measurements of control policies, and solve these with two gradient-based algorithms using sum-up-rounding approaches. Furthermore, we discuss the differentiability of the objective function and prove upper bounds of the gaps between the optimal solutions to binary control problems and their continuous relaxations. We conduct numerical studies on various sized problem instances based of two applications of quantum pulse optimization; we evaluate different strategies to mitigate the impact of uncertainties in quantum systems. We demonstrate that the controls of our stochastic optimization model achieve significantly higher quality and robustness compared to the controls of a deterministic model. | 翻訳日:2024-01-19 16:01:14 公開日:2024-01-18 |
# 原理グラフトランスフォーマーを目指して Towards Principled Graph Transformers ( http://arxiv.org/abs/2401.10119v1 ) ライセンス: Link先を確認 | Luis M\"uller and Christopher Morris | (参考訳) k次元Weisfeiler-Leman(k-WL)階層に基づくグラフ学習アーキテクチャは、理論的によく理解された表現力を提供する。
しかし、そのようなアーキテクチャは現実のタスクにしっかりとした予測性能を持たず、実際の影響を限定することが多い。
対照的に、グラフトランスフォーマーのようなグローバルな注意に基づくモデルは、実際には強力なパフォーマンスを示しているが、表現力とk-wl階層との比較は、特にこれらのアーキテクチャが表現力と予測性能のために位置エンコーディングや構造エンコーディングに依存しているため、依然として困難である。
そこで本研究では,ノードではなくノードペアで動作するグローバルアテンションモデルであるEdge Transformerが,少なくとも3WLの表現力を持つことを示す。
実験的に、Edge Transformerは、位置や構造的エンコーディングを頼らずに、予測性能に関する他の理論的に整合したアーキテクチャを上回ることを実証する。 Graph learning architectures based on the k-dimensional Weisfeiler-Leman (k-WL) hierarchy offer a theoretically well-understood expressive power. However, such architectures often fail to deliver solid predictive performance on real-world tasks, limiting their practical impact. In contrast, global attention-based models such as graph transformers demonstrate strong performance in practice, but comparing their expressive power with the k-WL hierarchy remains challenging, particularly since these architectures rely on positional or structural encodings for their expressivity and predictive performance. To address this, we show that the recently proposed Edge Transformer, a global attention model operating on node pairs instead of nodes, has at least 3-WL expressive power. Empirically, we demonstrate that the Edge Transformer surpasses other theoretically aligned architectures regarding predictive performance while not relying on positional or structural encodings. | 翻訳日:2024-01-19 16:01:01 公開日:2024-01-18 |
# 口内不一致による口唇同期ディープフェイクの暴露 Exposing Lip-syncing Deepfakes from Mouth Inconsistencies ( http://arxiv.org/abs/2401.10113v1 ) ライセンス: Link先を確認 | Soumyya Kanti Datta, Shan Jia, Siwei Lyu | (参考訳) リップシンクのディープフェイク(英: Lip-syncing Deepfake)は、人の唇の動きをAIモデルを使って説得力のある方法で生成し、修正された音声や全く新しい音声にマッチさせるデジタル操作されたビデオである。
リップ同期ディープフェイクは、人工物がリップ領域に限定され、識別が難しいため、危険なタイプのディープフェイクである。
本稿では,口内領域の時間的不整合を同定し,口内不一致(lipinc)に基づくリップ同期検出法を提案する。
これらの矛盾は、隣接するフレームやビデオ全体に見られる。
我々のモデルはこれらの不規則性をうまく捉え、いくつかのベンチマークディープフェイクデータセットで最先端の手法より優れている。 A lip-syncing deepfake is a digitally manipulated video in which a person's lip movements are created convincingly using AI models to match altered or entirely new audio. Lip-syncing deepfakes are a dangerous type of deepfakes as the artifacts are limited to the lip region and more difficult to discern. In this paper, we describe a novel approach, LIP-syncing detection based on mouth INConsistency (LIPINC), for lip-syncing deepfake detection by identifying temporal inconsistencies in the mouth region. These inconsistencies are seen in the adjacent frames and throughout the video. Our model can successfully capture these irregularities and outperforms the state-of-the-art methods on several benchmark deepfake datasets. | 翻訳日:2024-01-19 16:00:42 公開日:2024-01-18 |
# テキスト分類のための事前学習言語モデルの適応的ロバスト性を効果的に向上する適応と混合 Marrying Adapters and Mixup to Efficiently Enhance the Adversarial Robustness of Pre-Trained Language Models for Text Classification ( http://arxiv.org/abs/2401.10111v1 ) ライセンス: Link先を確認 | Tuc Nguyen and Thai Le | (参考訳) 既存の研究によると、クリーンな例と敵の例の両方を使ってニューラルネットワークのトレーニングデータを増強することで、敵の攻撃下での一般化性が向上する。
しかし、このトレーニングアプローチはクリーンな入力の性能低下につながることが多い。
さらに、新たな攻撃タイプを説明するために、モデル全体の頻繁な再トレーニングが必要であるため、大幅な計算コストがかかる。
このような制限により、複雑な事前訓練言語モデル(PLM)において、数百万から数十億のパラメータを持つ敵の訓練機構がより実用的になる。
これらの課題を克服するために,(1)パラメータ効率の良い微調整が可能なアダプタ,(2)ペアデータペアの凸結合によるNNの学習を行うMixupという2つの概念を併用した。
直感的には、非データ組の細調整アダプタの凸結合による細調整 PLM を提案し、一方はクリーンで、もう一方は逆の例で訓練した。
提案手法は, 各種下流タスクにおける他のベースラインと比較して, 攻撃の有無にかかわらず, トレーニング効率と予測性能の最良のトレードオフを実現する。 Existing works show that augmenting training data of neural networks using both clean and adversarial examples can enhance their generalizability under adversarial attacks. However, this training approach often leads to performance degradation on clean inputs. Additionally, it requires frequent re-training of the entire model to account for new attack types, resulting in significant and costly computations. Such limitations make adversarial training mechanisms less practical, particularly for complex Pre-trained Language Models (PLMs) with millions or even billions of parameters. To overcome these challenges while still harnessing the theoretical benefits of adversarial training, this study combines two concepts: (1) adapters, which enable parameter-efficient fine-tuning, and (2) Mixup, which train NNs via convex combinations of pairs data pairs. Intuitively, we propose to fine-tune PLMs through convex combinations of non-data pairs of fine-tuned adapters, one trained with clean and another trained with adversarial examples. Our experiments show that the proposed method achieves the best trade-off between training efficiency and predictive performance, both with and without attacks compared to other baselines on a variety of downstream tasks. | 翻訳日:2024-01-19 16:00:28 公開日:2024-01-18 |
# VIPTR: 高速かつ高能率なシーンテキスト認識のための視覚可変エクストラクタ VIPTR: A Vision Permutable Extractor for Fast and Efficient Scene Text Recognition ( http://arxiv.org/abs/2401.10110v1 ) ライセンス: Link先を確認 | Xianfu Cheng, Weixiao Zhou, Xiang Li, Xiaoming Chen, Jian Yang, Tongliang Li, Zhoujun Li | (参考訳) シーンテキスト認識(STR)は、自然のシーンの画像内のテキストを認識するという課題である。
現在のSTRの最先端モデルは高い性能を示すが、一般的にはビジュアルエンコーダとシーケンスデコーダで構成されるハイブリッドアーキテクチャに依存するため、推論効率が低い。
本研究では,高速かつ効率的なシーンテキスト認識(VIPTR)のためのVIsion Permutable extractorを提案する。
具体的には、VIPTRは、伝統的なシークエンスデコーダをエシェレーションしながら、複数の自己アテンション層を特徴とするピラミッド構造を持つ視覚的意味抽出器を利用する。
この設計選択は、様々なサイズの入力を処理できる軽量で効率的なモデルをもたらす。
中国語と英語のテキスト認識のための様々な標準データセットに関する広範囲な実験結果がviptrの優位性を検証している。
特に、VIPTR-T(Tiny)は、他の軽量モデルと同等の高い競争精度を提供し、SOTA推論速度を達成する。
一方、VIPTR-L(Large)変異は、低いパラメータ数と好ましい推論速度を維持しつつ、より高い認識精度を実現する。
提案手法は,高い精度と効率をブレンドし,高速で信頼性の高いテキスト認識を必要とする実世界のアプリケーションに多大な恩恵を与える。
コードはhttps://github.com/cxfyxl/VIPTRで公開されている。 Scene Text Recognition (STR) is a challenging task that involves recognizing text within images of natural scenes. Although current state-of-the-art models for STR exhibit high performance, they typically suffer from low inference efficiency due to their reliance on hybrid architectures comprised of visual encoders and sequence decoders. In this work, we propose the VIsion Permutable extractor for fast and efficient scene Text Recognition (VIPTR), which achieves an impressive balance between high performance and rapid inference speeds in the domain of STR. Specifically, VIPTR leverages a visual-semantic extractor with a pyramid structure, characterized by multiple self-attention layers, while eschewing the traditional sequence decoder. This design choice results in a lightweight and efficient model capable of handling inputs of varying sizes. Extensive experimental results on various standard datasets for both Chinese and English scene text recognition validate the superiority of VIPTR. Notably, the VIPTR-T (Tiny) variant delivers highly competitive accuracy on par with other lightweight models and achieves SOTA inference speeds. Meanwhile, the VIPTR-L (Large) variant attains greater recognition accuracy, while maintaining a low parameter count and favorable inference speed. Our proposed method provides a compelling solution for the STR challenge, which blends high accuracy with efficiency and greatly benefits real-world applications requiring fast and reliable text recognition. The code is publicly available at https://github.com/cxfyxl/VIPTR. | 翻訳日:2024-01-19 16:00:06 公開日:2024-01-18 |
# 標準ポリソノグラフィーデータと耳内EEG信号の比較分析:予備的検討 Comparison analysis between standard polysomnographic data and in-ear-EEG signals: A preliminary study ( http://arxiv.org/abs/2401.10107v1 ) ライセンス: Link先を確認 | Gianpaolo Palo, Luigi Fiorillo, Giuliana Monachino, Michal Bechny, Mark Melnykowycz, Athina Tzovara, Valentina Agostini, and Francesca Dalia Faraci | (参考訳) 研究目的: ポリソムノグラフィ(psg)は現在、睡眠障害の評価基準となっている。
その不快さ、家庭利用の非現実性、および睡眠品質評価におけるバイアスの導入は、より侵襲的で費用対効果の低いポータブルな代替品の探索を必要とする。
このセンサーは、快適さ、固定電極位置、電磁干渉に対する耐性、ユーザーフレンドリー性といった面で利点がある。
本研究は,耳内EEG信号と標準PSGの類似性を評価する手法を確立することを目的とする。
方法:PSGと初期EEG由来のハイドノグラムの一致を評価した。
時間領域と周波数領域の特徴をPSGとEEG内30秒のエポックから抽出する。
われわれはPSG-scorersとear-EEG-scorersが合意に達した時期についてのみ検討する。
我々はPSG導出と単一チャネル内EEGの類似性を定量化する手法を提案する。
このアプローチは、Jensen-Shannon Divergence Feature-based similarity Index (JSD-FSI)を介して、選択された機能(各睡眠段階に抽出され、PSGと内EEG信号の両方を対象とする)の分布の比較に依存する。
結果: 内耳波信号の評価において, スコアラーが有していた不確かさが主な原因と考えられた。
覚醒時のPSG信号と耳内EEG信号の類似度は高い(JSD-FSI: 0.61 +/0.06、NREMでは 0.60 +/- 0.07、REMでは 0.51 +/- 0.08)。
結論: In-ear-EEGは在宅睡眠モニタリングに有用なソリューションであるが、より大きく異質なデータセットによるさらなる研究が必要である。 Study Objectives: Polysomnography (PSG) currently serves as the benchmark for evaluating sleep disorders. Its discomfort, impracticality for home-use, and introduction of bias in sleep quality assessment necessitate the exploration of less invasive, cost-effective, and portable alternatives. One promising contender is the in-ear-EEG sensor, which offers advantages in terms of comfort, fixed electrode positions, resistance to electromagnetic interference, and user-friendliness. This study aims to establish a methodology to assess the similarity between the in-ear-EEG signal and standard PSG. Methods: We assess the agreement between the PSG and in-ear-EEG derived hypnograms. We extract features in the time- and frequency- domain from PSG and in-ear-EEG 30-second epochs. We only consider the epochs where the PSG-scorers and the in-ear-EEG-scorers were in agreement. We introduce a methodology to quantify the similarity between PSG derivations and the single-channel in-ear-EEG. The approach relies on a comparison of distributions of selected features -- extracted for each sleep stage and subject on both PSG and the in-ear-EEG signals -- via a Jensen-Shannon Divergence Feature-based Similarity Index (JSD-FSI). Results: We found a high intra-scorer variability, mainly due to the uncertainty the scorers had in evaluating the in-ear-EEG signals. We show that the similarity between PSG and in-ear-EEG signals is high (JSD-FSI: 0.61 +/- 0.06 in awake, 0.60 +/- 0.07 in NREM and 0.51 +/- 0.08 in REM), and in line with the similarity values computed independently on standard PSG-channel-combinations. Conclusions: In-ear-EEG is a valuable solution for home-based sleep monitoring, however further studies with a larger and more heterogeneous dataset are needed. | 翻訳日:2024-01-19 15:59:40 公開日:2024-01-18 |
# 確率論的グラフィカルモデルによる社会生態システムの解析 Counterfactual Reasoning with Probabilistic Graphical Models for Analyzing Socioecological Systems ( http://arxiv.org/abs/2401.10101v1 ) ライセンス: Link先を確認 | Rafael Caba\~nas, Ana D. Maldonado, Mar\'ia Morales, Pedro A. Aguilera, Antonio Salmer\'on | (参考訳) 因果推論と反事実推論は、仮説的なシナリオを推論できるデータサイエンスの新たな方向に向かっている。
これは実験データが通常利用できない領域で特に有用である。
環境と生態学の文脈において、因果関係は例えば、生態系が仮説上の介入にどう反応するかを予測することができる。
構造因果モデルは因果関係の確率的グラフィカルモデルの一種であり、直感的な性質から複数の分野の専門家によって容易に理解することができる。
しかし、特定不能と呼ばれる特定のクエリは、正確かつ正確な方法では計算できない。
本稿では,社会生態学の分野において,未知のクエリをバウンディングするための新しい手法を提案する。
その結果,確率的グラフィカルモデルを含む従来の統計解析では,変数間の影響を識別できることがわかった。
しかし、そのような手法は関係の性質、特に必要か十分かについての洞察を与えていない。
ここで反事実推論の価値が高まる。 Causal and counterfactual reasoning are emerging directions in data science that allow us to reason about hypothetical scenarios. This is particularly useful in domains where experimental data are usually not available. In the context of environmental and ecological sciences, causality enables us, for example, to predict how an ecosystem would respond to hypothetical interventions. A structural causal model is a class of probabilistic graphical models for causality, which, due to its intuitive nature, can be easily understood by experts in multiple fields. However, certain queries, called unidentifiable, cannot be calculated in an exact and precise manner. This paper proposes applying a novel and recent technique for bounding unidentifiable queries within the domain of socioecological systems. Our findings indicate that traditional statistical analysis, including probabilistic graphical models, can identify the influence between variables. However, such methods do not offer insights into the nature of the relationship, specifically whether it involves necessity or sufficiency. This is where counterfactual reasoning becomes valuable. | 翻訳日:2024-01-19 15:59:06 公開日:2024-01-18 |
# 開量子ビットの時間最適状態転送 Time-optimal state transfer for an open qubit ( http://arxiv.org/abs/2401.10099v1 ) ライセンス: Link先を確認 | L.V. Lokutsievskiy, A.N. Pechen, M.I. Zelikin | (参考訳) 最小限の時間を求め、量子システムの与えられた初期状態を所定のターゲット状態に転送できる最適制御の構造を確立することは、量子制御の重要な問題である。
本研究では、様々な量子技術プロセスの基本コンポーネントである環境と相互作用し、任意の時間依存コヒーレントな運転を経験する量子ビットに対して、この問題を解く。
最小のステアリング時間に対して上と下の両方の見積もりを厳格に導き出す。
意外なことに、最適制御は非常に特殊な形式であり、制御期間の初めと終わりに2つのインパルスから成り、その間にスムーズな時間依存制御によって助けられる。
さらに、4つのインパルスのみで構成され、ほぼ最適な動作時間を与える、明示的な準最適状態転送プロトコルが実用上重要である。
この結果は、量子技術における状態制御の究極の限界を推定するための様々な実験状況に直接適用することができる。 Finding minimal time and establishing the structure of the corresponding optimal controls which can transfer a given initial state of a quantum system into a given target state is a key problem of quantum control. In this work, this problem is solved for a basic component of various quantum technology processes -- a qubit interacting with the environment and experiencing an arbitrary time-dependent coherent driving. We rigorously derive both upper and lower estimates for the minimal steering time. Surprisingly, we discover that the optimal controls have a very special form -- they consist of two impulses, at the beginning and at the end of the control period, which can be assisted by a smooth time-dependent control in between. Moreover, an important for practical applications explicit almost optimal state transfer protocol is provided which only consists of four impulses and gives an almost optimal time of motion. The results can be directly applied to a variety of experimental situations for estimation of the ultimate limits of state control for quantum technologies. | 翻訳日:2024-01-19 15:58:51 公開日:2024-01-18 |
# 浅い量子回路の学習 Learning shallow quantum circuits ( http://arxiv.org/abs/2401.10095v1 ) ライセンス: Link先を確認 | Hsin-Yuan Huang, Yunchao Liu, Michael Broughton, Isaac Kim, Anurag Anshu, Zeph Landau, Jarrod R. McClean | (参考訳) 量子回路の学習に根本的な関心があるにもかかわらず、浅い量子回路を学習するための計算効率の高いアルゴリズムの存在は、まだ未解決の問題である。
浅い量子回路は古典的にサンプルが難しい分布を生成するので、既存の学習アルゴリズムは適用されない。
本研究では,未知の$n$-qubit浅量子回路$U$(任意の未知のアーキテクチャを持つ)を,出力状態の単一量子ビット計測データを用いて,小さなダイヤモンド距離内で記述する多項式時間古典的アルゴリズムを提案する。
また、未知の$n$-qubit状態 $\lvert \psi \rangle = U \lvert 0^n \rangle$ について、小さなトレース距離において、$\lvert \psi \rangle$ のコピーの単一量子ビット計測を用いて、浅い量子回路 $U$ (2D格子上で) で作成する多項式時間古典的アルゴリズムも提供する。
本手法は局所反転に基づく量子回路表現とこれらの反転を結合する手法を用いる。
この回路表現は、効率よくナビゲートでき、古典的にシミュレートが難しい量子回路の効率的な学習を可能にする最適化ランドスケープをもたらす。 Despite fundamental interests in learning quantum circuits, the existence of a computationally efficient algorithm for learning shallow quantum circuits remains an open question. Because shallow quantum circuits can generate distributions that are classically hard to sample from, existing learning algorithms do not apply. In this work, we present a polynomial-time classical algorithm for learning the description of any unknown $n$-qubit shallow quantum circuit $U$ (with arbitrary unknown architecture) within a small diamond distance using single-qubit measurement data on the output states of $U$. We also provide a polynomial-time classical algorithm for learning the description of any unknown $n$-qubit state $\lvert \psi \rangle = U \lvert 0^n \rangle$ prepared by a shallow quantum circuit $U$ (on a 2D lattice) within a small trace distance using single-qubit measurements on copies of $\lvert \psi \rangle$. Our approach uses a quantum circuit representation based on local inversions and a technique to combine these inversions. This circuit representation yields an optimization landscape that can be efficiently navigated and enables efficient learning of quantum circuits that are classically hard to simulate. | 翻訳日:2024-01-19 15:58:35 公開日:2024-01-18 |
# 数における力: 例の4つの逆文による微調整によるロバスト読解 Power in Numbers: Robust reading comprehension by finetuning with four adversarial sentences per example ( http://arxiv.org/abs/2401.10091v1 ) ライセンス: Link先を確認 | Ariel Marcus | (参考訳) 近年のStanford Question Answering Datasetでは,F1スコアを用いた読解作業の評価において,人間レベルの評価が達成されている。
しかし,テキスト理解のための機械の指導は一般には行われていない。
文脈段落に1つの逆文を付加することにより、過去の研究では、F1が読解モデルから得られるスコアがほぼ半分に低下することを示した。
本稿では,新しいモデルであるELECTRA-Smallを用いて過去の敵研究を再現し,新しいモデルのF1スコアが83.9%から29.2%に低下することを示す。
この攻撃に対するELECTRA-Smallの抵抗性を改善するため、SQuAD v1.1トレーニング例のモデルを、文脈段落に付加された1対5の逆文で微調整する。
過去の研究と同様に、ある逆数文の微調整モデルは、評価データセット間でうまく一般化していないことが分かりました。
しかし、4つまたは5つの逆文を微調整すると、多くの評価データセットにおいて、複数の副詞と前置された逆文で70%以上のf1スコアが得られる。
その結果、十分な例があれば、モデルが敵の攻撃に対して堅牢になることが示唆されます。 Recent models have achieved human level performance on the Stanford Question Answering Dataset when using F1 scores to evaluate the reading comprehension task. Yet, teaching machines to comprehend text has not been solved in the general case. By appending one adversarial sentence to the context paragraph, past research has shown that the F1 scores from reading comprehension models drop almost in half. In this paper, I replicate past adversarial research with a new model, ELECTRA-Small, and demonstrate that the new model's F1 score drops from 83.9% to 29.2%. To improve ELECTRA-Small's resistance to this attack, I finetune the model on SQuAD v1.1 training examples with one to five adversarial sentences appended to the context paragraph. Like past research, I find that the finetuned model on one adversarial sentence does not generalize well across evaluation datasets. However, when finetuned on four or five adversarial sentences the model attains an F1 score of more than 70% on most evaluation datasets with multiple appended and prepended adversarial sentences. The results suggest that with enough examples we can make models robust to adversarial attacks. | 翻訳日:2024-01-19 15:58:16 公開日:2024-01-18 |
# 人物再識別のためのクロスモーダル摂動シナジー攻撃 Cross-Modality Perturbation Synergy Attack for Person Re-identification ( http://arxiv.org/abs/2401.10090v1 ) ライセンス: Link先を確認 | Yunpeng Gong and others | (参考訳) 近年,rgb画像に基づくreid(single-modal person re-identification)システムにおいて,セキュリティ上の懸念に対処する研究が盛んに行われている。
しかし、赤外線カメラで撮影された画像を含む実用的な用途で一般的に見られるクロスモダリティシナリオの安全性は十分に注目されていない。
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
例えば、赤外線画像は、色情報を含む可視画像とは異なり、通常グレースケールである。
既存の攻撃方法は、可視画像モダリティの特徴に重点を置いており、他のモダリティの特徴や異なるモダリティ間のデータ分布の変化を見渡している。
この監視は、様々なモードにわたる画像検索におけるこれらの手法の有効性を損なう可能性がある。
本研究は, クロスモダリティReIDモデルの安全性に関する最初の調査であり, クロスモダリティReIDに特化して設計された普遍的摂動攻撃を提案する。
この攻撃は、多様なモダリティデータからの勾配を利用して摂動を最適化し、判別器を乱し、モダリティ間の差異を補強する。
regdbとsysuという2つの多種多様なクロスモダリティデータセットについて実験を行い,本手法の有効性を実証するとともに,今後のクロスモダリティreidシステムのロバスト性向上に向けた知見を提供した。 In recent years, there has been significant research focusing on addressing security concerns in single-modal person re-identification (ReID) systems that are based on RGB images. However, the safety of cross-modality scenarios, which are more commonly encountered in practical applications involving images captured by infrared cameras, has not received adequate attention. The main challenge in cross-modality ReID lies in effectively dealing with visual differences between different modalities. For instance, infrared images are typically grayscale, unlike visible images that contain color information. Existing attack methods have primarily focused on the characteristics of the visible image modality, overlooking the features of other modalities and the variations in data distribution among different modalities. This oversight can potentially undermine the effectiveness of these methods in image retrieval across diverse modalities. This study represents the first exploration into the security of cross-modality ReID models and proposes a universal perturbation attack specifically designed for cross-modality ReID. This attack optimizes perturbations by leveraging gradients from diverse modality data, thereby disrupting the discriminator and reinforcing the differences between modalities. We conducted experiments on two widely used cross-modality datasets, namely RegDB and SYSU, which not only demonstrated the effectiveness of our method but also provided insights for future enhancements in the robustness of cross-modality ReID systems. | 翻訳日:2024-01-19 15:57:55 公開日:2024-01-18 |
# yz平面計測に基づく量子コンピューティングとしてのパリティ量子コンピューティング Parity Quantum Computing as YZ-Plane Measurement-Based Quantum Computing ( http://arxiv.org/abs/2401.10079v1 ) ライセンス: Link先を確認 | Isaac D. Smith, Hendrik Poulsen Nautrup, and Hans J. Briegel | (参考訳) 最近導入された定数深度復号法を応用した普遍パリティ量子コンピューティングは,YZ平面計測のみを用いた二部グラフ上の測定ベース量子計算(MBQC)と等価であることを示す。
さらに,yz平面計測のみを用いた統一mbqcは2成分グラフ上では発生しないことを示す。 We show that universal parity quantum computing employing a recently introduced constant depth decoding procedure is equivalent to measurement-based quantum computation (MBQC) on a bipartite graph using only YZ-plane measurements. We further show that any unitary MBQC using only YZ-plane measurements must occur on a bipartite graph. | 翻訳日:2024-01-19 15:57:33 公開日:2024-01-18 |
# 局所フェルミオンモードの量子ビット符号化の局所性について On the locality of qubit encodings of local fermionic modes ( http://arxiv.org/abs/2401.10077v1 ) ライセンス: Link先を確認 | Tommaso Guaita | (参考訳) フェルミオンモードをボゾン量子ビット系に符号化する既知の写像は非局所変換である。
この論文では、局所性グラフが十分複雑である場合(通常の2$d$格子の場合など)、これは必ずしもそうでなければならない。
特に、正確な符号化の場合、局所性グラフが木である場合に限り、完全局所写像が可能であることを示す。
代わりに、量子ビットヒルベルト空間の部分空間上でのみフェルミオン的に作用する作用素を考えることができるならば、この部分空間は、局所性グラフが少なくとも2つの重複するサイクルを含む場合、長い範囲の絡み合った状態からなる必要がある。
これは、例えば、2$d$格子上ではフェルミオンの観点からは単純である状態が存在し、任意のエンコーディングでは、準備されるシステムサイズに少なくとも比例する深さの回路を必要とすることを意味する。 Known mappings that encode fermionic modes into a bosonic qubit system are non-local transformations. In this paper we establish that this must necessarily be the case, if the locality graph is complex enough (for example for regular 2$d$ lattices). In particular we show that, in case of exact encodings, a fully local mapping is possible if and only if the locality graph is a tree. If instead we allow ourselves to also consider operators that only act fermionically on a subspace of the qubit Hilbert space, then we show that this subspace must be composed of long range entangled states, if the locality graph contains at least two overlapping cycles. This implies, for instance, that on 2$d$ lattices there exist states that are simple from the fermionic point of view, while in any encoding require a circuit of depth at least proportional to the system size to be prepared. | 翻訳日:2024-01-19 15:57:27 公開日:2024-01-18 |
# 音声テキストタスクのためのコミュニケーション効率の良い個人化フェデレーション学習 Communication-Efficient Personalized Federated Learning for Speech-to-Text Tasks ( http://arxiv.org/abs/2401.10070v1 ) ライセンス: Link先を確認 | Yichao Du, Zhirui Zhang, Linan Yue, Xu Huang, Yuqing Zhang, Tong Xu, Linli Xu and Enhong Chen | (参考訳) プライバシー保護と法的規制を満たすために、自動音声認識(ASR)や音声翻訳(ST)を含むS2Tシステムの訓練において、連邦学習(FL)が注目されている。
However, the commonly used FL approach (i.e., \textsc{FedAvg}) in S2T tasks typically suffers from extensive communication overhead due to multi-round interactions based on the whole model and performance degradation caused by data heterogeneity among clients.To address these issues, we propose a personalized federated S2T framework that introduces \textsc{FedLoRA}, a lightweight LoRA module for client-side tuning and interaction with the server to minimize communication overhead, and \textsc{FedMem}, a global model equipped with a $k$-nearest-neighbor ($k$NN) classifier that captures client-specific distributional shifts to achieve personalization and overcome data heterogeneity.
CoVoST および GigaSpeech ベンチマークにおける Conformer と Whisper のバックボーンモデルに基づく大規模な実験により,本手法は全 S2T タスクにおける通信オーバーヘッドを大幅に低減し,データ不均一性を克服するためにグローバルモデルを効果的にパーソナライズすることを示す。 To protect privacy and meet legal regulations, federated learning (FL) has gained significant attention for training speech-to-text (S2T) systems, including automatic speech recognition (ASR) and speech translation (ST). However, the commonly used FL approach (i.e., \textsc{FedAvg}) in S2T tasks typically suffers from extensive communication overhead due to multi-round interactions based on the whole model and performance degradation caused by data heterogeneity among clients.To address these issues, we propose a personalized federated S2T framework that introduces \textsc{FedLoRA}, a lightweight LoRA module for client-side tuning and interaction with the server to minimize communication overhead, and \textsc{FedMem}, a global model equipped with a $k$-nearest-neighbor ($k$NN) classifier that captures client-specific distributional shifts to achieve personalization and overcome data heterogeneity. Extensive experiments based on Conformer and Whisper backbone models on CoVoST and GigaSpeech benchmarks show that our approach significantly reduces the communication overhead on all S2T tasks and effectively personalizes the global model to overcome data heterogeneity. | 翻訳日:2024-01-19 15:57:11 公開日:2024-01-18 |
# 基準に基づくメトリクスを超えて:データ-テキスト生成におけるオープンLLMの挙動の解析 Beyond Reference-Based Metrics: Analyzing Behaviors of Open LLMs on Data-to-Text Generation ( http://arxiv.org/abs/2401.10186v1 ) ライセンス: Link先を確認 | Zden\v{e}k Kasner, Ond\v{r}ej Du\v{s}ek | (参考訳) オープン大言語モデル(LLM)が構造化データから一貫性のある関連テキストをどの程度生成できるかを検討する。
llmトレーニングデータにリークされたベンチマークのバイアスを防止するために、公開apiから収集した標準フォーマットの構造化データレコードで構成される、5つのデータツーテキスト生成タスクのためのアドホックなベンチマークであるquintd-1を収集した。
参照フリーの評価メトリクスとllmsのコンテキスト内学習機能を活用し、人間が書いた参照なしでモデルをテストできます。
本評価では, トークンレベルの意味的精度誤差のアノテートに着目し, GPT-4に基づくアノテータとメトリクスを組み合わせる。
ドメインとタスク間でのモデルの振る舞いを体系的に検討した結果、7bパラメータを持つ最先端のオープンllmは、ゼロショット設定で様々な標準データフォーマットから、流れる、一貫性のあるテキストを生成することができることが示唆された。
しかし,出力のセマンティックな精度は依然として大きな問題であり,我々のベンチマークではオープン LLM の出力の80%が人間のアノテータによるセマンティックエラーを含む(GPT-4 では 91%)。
私たちのコード、データ、モデルの出力は、https://d2t-llm.github.ioで利用可能です。 We investigate to which extent open large language models (LLMs) can generate coherent and relevant text from structured data. To prevent bias from benchmarks leaked into LLM training data, we collect Quintd-1: an ad-hoc benchmark for five data-to-text (D2T) generation tasks, consisting of structured data records in standard formats gathered from public APIs. We leverage reference-free evaluation metrics and LLMs' in-context learning capabilities, allowing us to test the models with no human-written references. Our evaluation focuses on annotating semantic accuracy errors on token-level, combining human annotators and a metric based on GPT-4. Our systematic examination of the models' behavior across domains and tasks suggests that state-of-the-art open LLMs with 7B parameters can generate fluent and coherent text from various standard data formats in zero-shot settings. However, we also show that semantic accuracy of the outputs remains a major issue: on our benchmark, 80% of outputs of open LLMs contain a semantic error according to human annotators (91% according to GPT-4). Our code, data, and model outputs are available at https://d2t-llm.github.io. | 翻訳日:2024-01-19 15:51:14 公開日:2024-01-18 |
# Motion-Zero:拡散映像生成のためのゼロショット移動物体制御フレームワーク Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation ( http://arxiv.org/abs/2401.10150v1 ) ライセンス: Link先を確認 | Changgu Chen, Junwei Shu, Lianggangxu Chen, Gaoqi He, Changbo Wang and Yang Li | (参考訳) 最近の大規模事前学習拡散モデルは、詳細なテキスト記述から高品質のビデオを生成する強力な生成能力を示している。
しかし、ビデオ拡散モデルによって生成されたビデオにおける物体の動きを制御することは難しい問題である。
本稿では,ゼロショット移動物体軌道制御フレームワークであるMotion-Zeroを提案し,移動物体の外観の安定性と位置の精度を向上させるために,初期ノイズ先行モジュールを設計する。
さらに、U-netの注意マップに基づいて、拡散モデルの復調過程に空間的制約を直接適用することにより、推論中の移動物体の位置的および空間的整合性を確保する。
さらに、シフト時間注意機構により、時間整合性が保証される。
本手法は, 訓練過程を必要とせず, 様々な映像拡散モデルに適用できる。
提案手法は,物体の運動軌跡を制御し,高品質な映像を生成できることを示す。 Recent large-scale pre-trained diffusion models have demonstrated a powerful generative ability to produce high-quality videos from detailed text descriptions. However, exerting control over the motion of objects in videos generated by any video diffusion model is a challenging problem. In this paper, we propose a novel zero-shot moving object trajectory control framework, Motion-Zero, to enable a bounding-box-trajectories-controlled text-to-video diffusion model.To this end, an initial noise prior module is designed to provide a position-based prior to improve the stability of the appearance of the moving object and the accuracy of position. In addition, based on the attention map of the U-net, spatial constraints are directly applied to the denoising process of diffusion models, which further ensures the positional and spatial consistency of moving objects during the inference. Furthermore, temporal consistency is guaranteed with a proposed shift temporal attention mechanism. Our method can be flexibly applied to various state-of-the-art video diffusion models without any training process. Extensive experiments demonstrate our proposed method can control the motion trajectories of objects and generate high-quality videos. | 翻訳日:2024-01-19 15:49:35 公開日:2024-01-18 |
# 海上技術サイバーセキュリティのためのマルチエージェント強化学習 Multi-Agent Reinforcement Learning for Maritime Operational Technology Cyber Security ( http://arxiv.org/abs/2401.10149v1 ) ライセンス: Link先を確認 | Alec Wilson, Ryan Menzies, Neela Morarji, David Foster, Marco Casassa Mont, Esin Turkbeyler, Lisa Gralewski | (参考訳) 本稿では,産業用制御システムに適用可能な自律的サイバー防衛の可能性を示し,マルチエージェント強化学習(marl)をこの問題領域に適用するためのベースライン環境を提供する。
汎用統合プラットフォーム管理システム(IPMS)のシミュレーション環境であるIMMSRLを導入し、汎用海事ベースのIPMS運用技術(OT)上での自律的なサイバー防衛決定にMARLを使用することを検討する。
OTサイバー防御アクションは、エンタープライズITよりも成熟していない。
これは、レガシーシステムの使用、設計時のエンジニアリング上の前提、そして本格的なセキュリティ制御の欠如に由来する、otインフラストラクチャの比較的不安定な性質に起因する。
サイバー攻撃の高度化と、従来のIT中心のサイバー防衛ソリューションの限界により、サイバーの状況に対処すべき障害が数多く存在する。
従来のITコントロールがOTインフラストラクチャにデプロイされることはめったにありません。
実験では,マルチエージェント・近位政策最適化 (mappo) の批判が,独立近位政策最適化 (ippo) よりも優れていた。
MAPPOは800Kの時間経過後, 最適ポリシー(エピソード結果平均値1)に到達したが, IPPOは100万の時間経過後, 0.966のエピソード結果にしか達しなかった。
ハイパーパラメータチューニングはトレーニング性能を大幅に向上させた。
調整されたハイパーパラメータは100万回にわたって最適なポリシーに達し、デフォルトのハイパーパラメータは散発的にのみ勝利し、ほとんどのシミュレーションは引き分けにつながった。
我々は現実世界の制約をテストし、攻撃検知による警告の成功を検知し、警告成功確率を0.75または0.9に下げると、MARLディフェンダーたちはそれぞれ97.5%または99.5%のエピソードで勝利することができた。 This paper demonstrates the potential for autonomous cyber defence to be applied on industrial control systems and provides a baseline environment to further explore Multi-Agent Reinforcement Learning's (MARL) application to this problem domain. It introduces a simulation environment, IPMSRL, of a generic Integrated Platform Management System (IPMS) and explores the use of MARL for autonomous cyber defence decision-making on generic maritime based IPMS Operational Technology (OT). OT cyber defensive actions are less mature than they are for Enterprise IT. This is due to the relatively brittle nature of OT infrastructure originating from the use of legacy systems, design-time engineering assumptions, and lack of full-scale modern security controls. There are many obstacles to be tackled across the cyber landscape due to continually increasing cyber-attack sophistication and the limitations of traditional IT-centric cyber defence solutions. Traditional IT controls are rarely deployed on OT infrastructure, and where they are, some threats aren't fully addressed. In our experiments, a shared critic implementation of Multi Agent Proximal Policy Optimisation (MAPPO) outperformed Independent Proximal Policy Optimisation (IPPO). MAPPO reached an optimal policy (episode outcome mean of 1) after 800K timesteps, whereas IPPO was only able to reach an episode outcome mean of 0.966 after one million timesteps. Hyperparameter tuning greatly improved training performance. Across one million timesteps the tuned hyperparameters reached an optimal policy whereas the default hyperparameters only managed to win sporadically, with most simulations resulting in a draw. We tested a real-world constraint, attack detection alert success, and found that when alert success probability is reduced to 0.75 or 0.9, the MARL defenders were still able to win in over 97.5% or 99.5% of episodes, respectively. | 翻訳日:2024-01-19 15:49:18 公開日:2024-01-18 |
# オブジェクト中心学習における明示的アンタングル表現 Explicitly Disentangled Representations in Object-Centric Learning ( http://arxiv.org/abs/2401.10148v1 ) ライセンス: Link先を確認 | Riccardo Majellaro, Jonathan Collu, Aske Plaat, Thomas M. Moerland | (参考訳) 生の視覚データから構造化表現を抽出することは、機械学習における重要かつ長年にわたる課題である。
近年,オブジェクト中心表現の教師なし学習技術が注目されている。
この文脈では、潜在機能の堅牢性を高めることによって、下流タスクのトレーニングの効率と効率が向上する。
この方向への有望なステップは、データの変化を引き起こす要因を分離することだ。
以前は、Invariant Slot Attentionは残りの特徴から位置、スケール、方向を歪めていた。
このアプローチを拡張して、形状とテクスチャコンポーネントの分離にフォーカスします。
特に,物体中心モデルに対して,形状やテクスチャ成分を潜在空間次元の重複しない2つの部分集合に分離する新しいアーキテクチャを提案する。
これらのサブセットは、トレーニングプロセスの前にプリオリとして知られています。
対象中心のベンチマーク実験により,提案手法は所望の絡み合いを達成し,ほとんどの場合,ベースライン性能を数値的に向上させる。
また, 特定の物体に対して新たなテクスチャを生成したり, 異なる形状の物体間でテクスチャを転送したりできることを示した。 Extracting structured representations from raw visual data is an important and long-standing challenge in machine learning. Recently, techniques for unsupervised learning of object-centric representations have raised growing interest. In this context, enhancing the robustness of the latent features can improve the efficiency and effectiveness of the training of downstream tasks. A promising step in this direction is to disentangle the factors that cause variation in the data. Previously, Invariant Slot Attention disentangled position, scale, and orientation from the remaining features. Extending this approach, we focus on separating the shape and texture components. In particular, we propose a novel architecture that biases object-centric models toward disentangling shape and texture components into two non-overlapping subsets of the latent space dimensions. These subsets are known a priori, hence before the training process. Experiments on a range of object-centric benchmarks reveal that our approach achieves the desired disentanglement while also numerically improving baseline performance in most cases. In addition, we show that our method can generate novel textures for a specific object or transfer textures between objects with distinct shapes. | 翻訳日:2024-01-19 15:48:44 公開日:2024-01-18 |
# 任意の次元におけるギブス状態の相関の強い崩壊 Strong decay of correlations for Gibbs states in any dimension ( http://arxiv.org/abs/2401.10147v1 ) ライセンス: Link先を確認 | Andreas Bluhm, \'Angela Capel, Antonio P\'erez-Hern\'andez | (参考訳) 熱平衡の量子系はギブス状態を用いて記述される。
このような状態の相関は、それらの記述やシミュレートがどれほど難しいかを決定する。
本稿では、臨界温度以上の短距離相互作用を持つ系が混合条件を満たすことを示し、これは任意の領域に対して$A$,$C$、還元状態の距離$\rho_{AC}$のこれらの領域を、その限界値の積である$$\| \rho_A^{-1} \otimes \rho_C^{-1} - \mathbf{1}_{AC}\| \, ,$$$は、A$と$C$の間の距離と指数関数的に崩壊することを意味する。
この混合条件は他のよく研究されている相関式よりも強い。
特に、遠方の領域間の相互情報の指数的減衰を意味する。
例えば、混合条件は正のログソボレフ定数を証明するために用いられてきた。
その過程で、量子多体系における相関の減衰の他の概念との関係を調べ、それらの多くが局所実効ハミルトニアンが存在するという仮定の下で同値であることを示す。
この証明はアラキの展開や量子信念伝播といった様々なツールを用いている。 Quantum systems in thermal equilibrium are described using Gibbs states. The correlations in such states determine how difficult it is to describe or simulate them. In this article, we show that systems with short-range interactions that are above a critical temperature satisfy a mixing condition, that is that for any regions $A$, $C$ the distance of the reduced state $\rho_{AC}$ on these regions to the product of its marginals, $$\| \rho_{AC} \rho_A^{-1} \otimes \rho_C^{-1} - \mathbf{1}_{AC}\| \, ,$$ decays exponentially with the distance between regions $A$ and $C$. This mixing condition is stronger than other commonly studied measures of correlation. In particular, it implies the exponential decay of the mutual information between distant regions. The mixing condition has been used, for example, to prove positive log-Sobolev constants. On the way, we investigate the relations to other notions of decay of correlations in quantum many-body systems and show that many of them are equivalent under the assumption that there exists a local effective Hamiltonian. The proof employs a variety of tools such as Araki's expansionals and quantum belief propagation. | 翻訳日:2024-01-19 15:48:26 公開日:2024-01-18 |
# 非リバイバルの資源理論と量子多体スカーへの応用 Resource Theory of Non-Revivals with Applications to Quantum Many-Body Scars ( http://arxiv.org/abs/2401.10142v1 ) ライセンス: Link先を確認 | Roy J. Garcia, Kaifeng Bu, Liyuan Chen, Anton M. Graf | (参考訳) 状態回復の研究は力学系において長い歴史を持つ。
我々は、量子物理学、特に量子多体散乱系における状態回復の利用を理解するために、資源理論を導入する。
この理論では、ある一元的進化の下で完全な復活を経験すれば、状態は資源を含まないと言われる。
他の全ての州は資源に恵まれていると言われている。
このリソースが情報をスクランブルすることを示す。
さらに,量子多体スカーレッドダイナミクスは,hayden-preskillデコーディングプロトコルで再生し,損傷した量子情報の復元にも利用できることを示した。
この理論は、情報検索とその量子多体物理学への応用を研究する枠組みを確立している。 The study of state revivals has a long history in dynamical systems. We introduce a resource theory to understand the use of state revivals in quantum physics, especially in quantum many-body scarred systems. In this theory, a state is said to contain no amount of resource if it experiences perfect revivals under some unitary evolution. All other states are said to be resourceful. We show that this resource bounds information scrambling. Furthermore, we show that quantum many-body scarred dynamics can produce revivals in the Hayden-Preskill decoding protocol and can also be used to recover damaged quantum information. Our theory establishes a framework to study information retrieval and its applications in quantum many-body physics. | 翻訳日:2024-01-19 15:47:33 公開日:2024-01-18 |
# バイオメトリックス応用におけるモデル圧縮技術:調査 Model Compression Techniques in Biometrics Applications: A Survey ( http://arxiv.org/abs/2401.10139v1 ) ライセンス: Link先を確認 | Eduarda Caldeira, Pedro C. Neto, Marco Huber, Naser Damer, Ana F. Sequeira | (参考訳) ディープラーニングアルゴリズムの開発は、人類のタスク自動化能力を大きく強化してきた。
しかし、これらのモデルの性能の大幅な改善は、その複雑さのレベルの増加と非常に相関しており、通常リソースに制約されたデバイスにデプロイされる人間指向のアプリケーションでは有用性を制限している。
これにより、性能を著しく低下させることなく、ディープラーニングモデルの計算コストとメモリコストを大幅に削減する圧縮技術の開発につながった。
本稿では, バイオメトリックス応用におけるモデル圧縮技術, 量子化, 知識蒸留, プルーニングに関する包括的調査を行い, 現状の文献を体系化することを目的とする。
我々は,これらの手法の比較価値を批判的に分析し,その利点と欠点に着目し,現在の方法を改善する可能性のある今後の作業方向の提案を行う。
さらに,モデルバイアスとモデル圧縮の関係を考察し,今後の作業におけるモデル公平性に対するモデル圧縮研究の方向性を強調する。 The development of deep learning algorithms has extensively empowered humanity's task automatization capacity. However, the huge improvement in the performance of these models is highly correlated with their increasing level of complexity, limiting their usefulness in human-oriented applications, which are usually deployed in resource-constrained devices. This led to the development of compression techniques that drastically reduce the computational and memory costs of deep learning models without significant performance degradation. This paper aims to systematize the current literature on this topic by presenting a comprehensive survey of model compression techniques in biometrics applications, namely quantization, knowledge distillation and pruning. We conduct a critical analysis of the comparative value of these techniques, focusing on their advantages and disadvantages and presenting suggestions for future work directions that can potentially improve the current methods. Additionally, we discuss and analyze the link between model bias and model compression, highlighting the need to direct compression research toward model fairness in future works. | 翻訳日:2024-01-19 15:47:21 公開日:2024-01-18 |
# 量子スーパーマップ変換を用いた等尺演算の普遍的随伴 Universal adjointation of isometry operations using transformation of quantum supermaps ( http://arxiv.org/abs/2401.10137v1 ) ライセンス: Link先を確認 | Satoshi Yoshida, Akihito Soeda, Mio Murao | (参考訳) 量子演算の可能な変換の完全な特徴付けは、関数型プログラミングの量子バージョンである高階量子計算のアルゴリズムを開発するのに不可欠である。
ユニタリ操作の普遍変換はよく研究されているが、いくつかの例を除いて、ユニタリ操作への拡張はまだ欠けている。
ここでは,入力アイソメトリ演算をその随伴演算に変換する<emph{isometry adjointation} プロトコルを構築する。
このタスクはユニタリ操作の変換や特別な場合の量子状態の変換に還元される。
並列およびシーケンシャルアイソメトリ共役プロトコルは、量子コムの合成を用いてユニタリ反転プロトコルを変換することによって構成される。
この構成は最適近似誤差を達成し、最適性能は等長演算の出力次元に依存しないことを意味する。
特に、近似誤差 $\epsilon = \theta(d^2/n)$ を達成する漸近的最適並列プロトコルを明示的に求め、ここで $d$ は等長演算の入力次元、$n$ は等長演算の呼び出し数である。
また,Isometry inversionとユニバーサルエラー検出という,関連するタスクのプロトコルを構築した。
非定型因果順序プロトコルを含む一般的なプロトコルを用いてタスクの最適性能を調べるために半定型プログラミングを行う。
数値計算の結果, 一般的なプロトコルの最適性能は, 並列およびシーケンシャルプロトコルに対して解析的に示される等尺交叉および普遍誤差検出の等尺演算の出力次元に依存しないことがわかった。
また、等尺反転と普遍誤差検出のためのシーケンシャルプロトコルよりも不確定因数順序プロトコルの利点を示す。 The full characterization of the possible transformations of quantum operations is indispensable to developing algorithms in higher-order quantum computation, which is the quantum version of functional programming. Although universal transformations of unitary operations have been well investigated, their extensions to non-unitary operations are still missing, except for a few examples. Here we construct \emph{isometry adjointation} protocols, transforming an input isometry operation into its adjoint operation. This task reduces to the transformation of unitary operation or that of quantum states in special cases. Parallel and sequential isometry adjointation protocols are constructed by transforming unitary inversion protocols using the composition of quantum combs. This construction achieves the optimal approximation error, which implies that the optimal performance does not depend on the output dimension of the isometry operation. In particular, we explicitly obtain the asymptotically optimal parallel protocol achieving the approximation error $\epsilon = \Theta(d^2/n)$, where $d$ is the input dimension of the isometry operation and $n$ is the number of calls of the isometry operation. We also construct the protocols for the related tasks called isometry inversion and universal error detection. We conduct semidefinite programming to investigate the optimal performances of the tasks using general protocols including indefinite causal order protocols. The numerical results show that the optimal performances of general protocols do not depend on the output dimension of the isometry operation for isometry adjointation and universal error detection, which is shown analytically for parallel and sequential protocols. They also exhibit the advantage of indefinite causal order protocols over sequential protocols for isometry inversion and universal error detection. | 翻訳日:2024-01-19 15:47:04 公開日:2024-01-18 |
# オープンソースソフトウェアランキングと選択におけるデータフィルタリングの役割 The Role of Data Filtering in Open Source Software Ranking and Selection ( http://arxiv.org/abs/2401.10136v1 ) ライセンス: Link先を確認 | Addi Malviya-Thakur, Audris Mockus | (参考訳) 100万以上のオープンソースプロジェクトに直面した経験的調査のほとんどは、サブセットを選択する。
主要な会場のほとんどの研究論文は、不人気なプロジェクトは興味がない、"本物の"ソフトウェアプロジェクトを表すことさえできない、あるいはあまり人気がないプロジェクトは研究に値するものではない、という明示的あるいは暗黙的な議論によって、プロジェクトをフィルタリングすることを調査した。
しかし、このようなフィルタリングは、求める応答や予測がフィルタリング基準と何らかの関係があるため、研究結果に大きな影響を及ぼす可能性がある。
私たちは、このプラクティスが研究結果に与える影響を例示している: githubにリストされたプロジェクトのフィルタリングが、彼らの人気評価にどのように影響するか。
10万を超えるレポジトリをランダムにサンプリングし、コミット数、プロジェクトの期間、著者数、コア開発者数に基づいて、スター数(人気を表すプロキシ)をモデル化するために複数のレグレッションを使用します。
データセット全体の制御と10人以上の著者を持つフィルタリングモデルプロジェクトを比較すると,リポジトリの特定の特性が常に人気を予測しているのに対して,フィルタリングプロセスはこれらの特性と応答の関係を著しく変化させることがわかった。
コミット数とコントロールサンプルの人気度は正の相関を示したが,フィルタ標本では負の相関を示した。
これらの知見は、データフィルタリングによってもたらされる潜在的なバイアスを強調し、マイニングソフトウェアリポジトリの実験的研究において、慎重にサンプルを選択する必要性を強調している。
実験的な作業では、コードの世界のような完全なデータセットを分析するか、フィルタリングが結果に偏らないよう、完全なデータセットから階層化されたランダムサンプリングを使用することを推奨する。 Faced with over 100M open source projects most empirical investigations select a subset. Most research papers in leading venues investigated filtering projects by some measure of popularity with explicit or implicit arguments that unpopular projects are not of interest, may not even represent "real" software projects, or that less popular projects are not worthy of study. However, such filtering may have enormous effects on the results of the studies if and precisely because the sought-out response or prediction is in any way related to the filtering criteria. We exemplify the impact of this practice on research outcomes: how filtering of projects listed on GitHub affects the assessment of their popularity. We randomly sample over 100,000 repositories and use multiple regression to model the number of stars (a proxy for popularity) based on the number of commits, the duration of the project, the number of authors, and the number of core developers. Comparing control with the entire dataset with a filtered model projects having ten or more authors we find that while certain characteristics of the repository consistently predict popularity, the filtering process significantly alters the relation ships between these characteristics and the response. The number of commits exhibited a positive correlation with popularity in the control sample but showed a negative correlation in the filtered sample. These findings highlight the potential biases introduced by data filtering and emphasize the need for careful sample selection in empirical research of mining software repositories. We recommend that empirical work should either analyze complete datasets such as World of Code, or employ stratified random sampling from a complete dataset to ensure that filtering is not biasing the results. | 翻訳日:2024-01-19 15:46:35 公開日:2024-01-18 |
# 交通予測のための時空間大言語モデル Spatial-Temporal Large Language Model for Traffic Prediction ( http://arxiv.org/abs/2401.10134v1 ) ライセンス: Link先を確認 | Chenxi Liu, Sun Yang, Qianxiong Xu, Zhishuai Li, Cheng Long, Ziyue Li, Rui Zhao | (参考訳) 知的交通システムにとって重要な要素である交通予測は、歴史的データを用いて特定の場所における将来の交通を予測しようとしている。
既存のトラフィック予測モデルでは、複雑なニューラルネットワーク構造の開発が強調されることが多いが、その精度は改善されていない。
近年,Large Language Models (LLM) は時系列解析において優れた機能を示している。
既存のモデルと異なり、LLMは主にパラメータ拡張と広範な事前学習を通じて、基本構造を維持しながら進行する。
本稿では,交通予測のための時空間大言語モデル(ST-LLM)を提案する。
具体的には、st-llmは各場所の時間ステップをトークンとして再定義し、空間的-時間的埋め込みモジュールを組み込んでトークンの空間的位置と全体的時間的表現を学ぶ。
次にこれらの表現を融合して各トークンに空間情報と時間情報を統一する。
さらに,交通予測のための空間的時間的依存関係を捉えることを目的とした,LLMの新たな部分凍結注意戦略を提案する。
実際のトラフィックデータセットに関する包括的な実験は、st-llmが最先端モデルを上回る証拠を提供する。
特にST-LLMは、少数ショットとゼロショットの予測シナリオで堅牢なパフォーマンスを示す。 Traffic prediction, a critical component for intelligent transportation systems, endeavors to foresee future traffic at specific locations using historical data. Although existing traffic prediction models often emphasize developing complex neural network structures, their accuracy has not seen improvements accordingly. Recently, Large Language Models (LLMs) have shown outstanding capabilities in time series analysis. Differing from existing models, LLMs progress mainly through parameter expansion and extensive pre-training while maintaining their fundamental structures. In this paper, we propose a Spatial-Temporal Large Language Model (ST-LLM) for traffic prediction. Specifically, ST-LLM redefines the timesteps at each location as tokens and incorporates a spatial-temporal embedding module to learn the spatial location and global temporal representations of tokens. Then these representations are fused to provide each token with unified spatial and temporal information. Furthermore, we propose a novel partially frozen attention strategy of the LLM, which is designed to capture spatial-temporal dependencies for traffic prediction. Comprehensive experiments on real traffic datasets offer evidence that ST-LLM outperforms state-of-the-art models. Notably, the ST-LLM also exhibits robust performance in both few-shot and zero-shot prediction scenarios. | 翻訳日:2024-01-19 15:46:08 公開日:2024-01-18 |
# 不均衡データを用いたcovid-19胸部x線分類のための少数撮影学習--ドメイン間比較研究 Few-shot learning for COVID-19 Chest X-Ray Classification with Imbalanced Data: An Inter vs. Intra Domain Study ( http://arxiv.org/abs/2401.10129v1 ) ライセンス: Link先を確認 | Alejandro Gal\'an-Cuenca, Antonio Javier Gallego, Marcelo Saval-Calvo, Antonio Pertusa | (参考訳) 医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
しかし、データ分散の可変性、データ不足、ジェネリックイメージから事前トレーニングされたモデルを使用する際のトランスファー学習の問題など、これらのデータセットにはいくつかの課題がある。
本研究は,厳格なデータ不均衡を伴う単発学習シナリオにおける,ドメイン内およびドメイン間レベルでの課題の効果について検討する。
そこで本研究では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
具体的には、異なる初期化法とデータ拡張法を解析し、データバランスと重み付き損失を含む不均衡データを扱うソリューションのシームズネットワークへの4つの適応と、ペアリング比の異なるバランスを導入している。
さらに,Histogram,$k$NN,SVM,Random Forestの4つの分類子を考慮した推論プロセスの評価を行った。
3つの胸部X線データセットで陽性と陰性の両方の診断を行った場合の評価を行った。
siameseアーキテクチャで提案する各手法の精度を別々に解析し,その結果を最先端cnnの等価手法を用いて求めた手法と比較した。
提案手法は, ほぼすべての事例において, ベースラインよりも有望な改善をもたらすとともに, 利用可能なデータ量や不均衡度によって, 技術の選択が変化する可能性がある。 Medical image datasets are essential for training models used in computer-aided diagnosis, treatment planning, and medical research. However, some challenges are associated with these datasets, including variability in data distribution, data scarcity, and transfer learning issues when using models pre-trained from generic images. This work studies the effect of these challenges at the intra- and inter-domain level in few-shot learning scenarios with severe data imbalance. For this, we propose a methodology based on Siamese neural networks in which a series of techniques are integrated to mitigate the effects of data scarcity and distribution imbalance. Specifically, different initialization and data augmentation methods are analyzed, and four adaptations to Siamese networks of solutions to deal with imbalanced data are introduced, including data balancing and weighted loss, both separately and combined, and with a different balance of pairing ratios. Moreover, we also assess the inference process considering four classifiers, namely Histogram, $k$NN, SVM, and Random Forest. Evaluation is performed on three chest X-ray datasets with annotated cases of both positive and negative COVID-19 diagnoses. The accuracy of each technique proposed for the Siamese architecture is analyzed separately and their results are compared to those obtained using equivalent methods on a state-of-the-art CNN. We conclude that the introduced techniques offer promising improvements over the baseline in almost all cases, and that the selection of the technique may vary depending on the amount of data available and the level of imbalance. | 翻訳日:2024-01-19 15:45:50 公開日:2024-01-18 |
# Sub2Full: クリーンデータなしでOCTの切り離しを促進するスプリットスペクトル Sub2Full: split spectrum to boost OCT despeckling without clean data ( http://arxiv.org/abs/2401.10128v1 ) ライセンス: Link先を確認 | Lingyun Wang, Jose A Sahel, Shaohua Pi | (参考訳) 光コヒーレンストモグラフィ(OCT)はスペックルノイズに悩まされ、特に可視光OCT(vis-OCT)のような高解像度のモードでは画質が劣化する。
従来の教師付き深層学習手法の可能性は,クリーンなデータを得ることの困難さによって制限される。
そこで我々は, クリーンデータのないOCT復号化のための, Sub2Full (S2F) と呼ばれる革新的な自己管理戦略を提案した。
このアプローチは、2つの繰り返しBスキャンを取得し、第1繰り返しのスペクトルを低分解能入力として分割し、第2繰り返しのスペクトルを高分解能ターゲットとして利用する。
提案手法は,視床下構造を視認する vis-oct 網膜画像で検証され,従来の noise2noise および noise2void 法よりも優れた性能を示した。
コードはhttps://github.com/PittOCT/Sub2Full-OCT-Denoisingで公開されている。 Optical coherence tomography (OCT) suffers from speckle noise, causing the deterioration of image quality, especially in high-resolution modalities like visible light OCT (vis-OCT). The potential of conventional supervised deep learning denoising methods is limited by the difficulty of obtaining clean data. Here, we proposed an innovative self-supervised strategy called Sub2Full (S2F) for OCT despeckling without clean data. This approach works by acquiring two repeated B-scans, splitting the spectrum of the first repeat as a low-resolution input, and utilizing the full spectrum of the second repeat as the high-resolution target. The proposed method was validated on vis-OCT retinal images visualizing sublaminar structures in outer retina and demonstrated superior performance over conventional Noise2Noise and Noise2Void schemes. The code is available at https://github.com/PittOCT/Sub2Full-OCT-Denoising. | 翻訳日:2024-01-19 15:45:24 公開日:2024-01-18 |
# 最大容量離散メモリレスチャネル識別 Maximal-Capacity Discrete Memoryless Channel Identification ( http://arxiv.org/abs/2401.10204v1 ) ライセンス: Link先を確認 | Maximilian Egger, Rawad Bitar, Antonia Wachter-Zeh, Deniz G\"und\"uz and Nir Weinberger | (参考訳) 複数の離散メモリレスチャネル (DMC) の中で, 最大容量のチャネルを識別することの問題点を考察する。
この問題は純粋に探索的なマルチアームバンディット問題であり、通信チャネル統計を検知するためにトレーニングシーケンスを実践的に利用している。
容量推定器が提案され、推定器誤差の厳密な信頼境界が導出される。
このキャパシティ推定法に基づいて,最大容量のdmc出力を所望の信頼性で保証する,キャパシティ推定アルゴリズムであるbestchanidを提案する。
さらに、最大に近いキャパシティを持つDMCを一定の信頼性で出力する2つの追加アルゴリズムであるNaiveChanSelとMedianChanElを導入する。
これらのアルゴリズムはそれぞれ異なる方法で有効であり、BestChanIDのサブルーチンとして使用できる。
全てのアルゴリズムのサンプル複雑性は、所望の信頼度パラメータ、チャネル数、チャネルの入力と出力のアルファベットサイズの関数として分析される。
最良チャネル識別のコストはアルファベットサイズと2次的にスケールすることが示され、信頼度のある最良チャネルを識別するために必要なチャネル感覚の数に対する基礎的な下限が導出される。 The problem of identifying the channel with the highest capacity among several discrete memoryless channels (DMCs) is considered. The problem is cast as a pure-exploration multi-armed bandit problem, which follows the practical use of training sequences to sense the communication channel statistics. A capacity estimator is proposed and tight confidence bounds on the estimator error are derived. Based on this capacity estimator, a gap-elimination algorithm termed BestChanID is proposed, which is oblivious to the capacity-achieving input distribution and is guaranteed to output the DMC with the largest capacity, with a desired confidence. Furthermore, two additional algorithms NaiveChanSel and MedianChanEl, that output with certain confidence a DMC with capacity close to the maximal, are introduced. Each of those algorithms is beneficial in a different regime and can be used as a subroutine in BestChanID. The sample complexity of all algorithms is analyzed as a function of the desired confidence parameter, the number of channels, and the channels' input and output alphabet sizes. The cost of best channel identification is shown to scale quadratically with the alphabet size, and a fundamental lower bound for the required number of channel senses to identify the best channel with a certain confidence is derived. | 翻訳日:2024-01-19 15:38:29 公開日:2024-01-18 |
# 古典的なオラクルからの量子状態難読化 Quantum State Obfuscation from Classical Oracles ( http://arxiv.org/abs/2401.10200v1 ) ライセンス: Link先を確認 | James Bartusek, Zvika Brakerski, Vinod Vaikuntanathan | (参考訳) 量子暗号における主要な未解決問題は、任意の量子計算を省略できるかどうかである。
実際、古典的なオラクルモデルでさえ量子難読化の可能性については理解されていないが、古典的な回路を難読化する能力は自由に与えられる。
本研究は,Coladangelo と Gunn (arXiv:2311.07794) によって最近定式化された強力な概念である量子状態オブファスケータを構築するために,我々は新しい手法を開発した。
量子状態難読化(quantum state obfuscation)とは、古典的な記述を持つ量子回路$C$と補助量子状態$\ket{\psi}$からなる量子プログラムを、可能な限り$C$と$\ket{\psi}$を隠蔽する機能的に等価な難読化量子プログラムにコンパイルするタスクである。
我々は、任意の疑似決定論的量子プログラム、すなわち(ほぼ)決定論的古典的入力/古典的出力関数を計算するとき、オブフューシエータの安全性を証明する。
我々のセキュリティ証明は、古典回路の量子セキュアな識別不能な難読化を用いてヒューリスティックにインスタンス化される、効率的な古典オラクルに関するものである。
この結果は,古典的オラクルモデルにおける擬似決定論的量子回路の難解化を実証したBartusek, Kitagawa, Nishimaki, Yamakawa (STOC 2023) の最近の研究によって改善されている。
さらに,量子神託に関して量子状態の区別不能な難読化の構成を提供するcolladangeloとgunnの質問にも回答した。
実際、我々の量子状態観測器はcolladangelo-gunnとともに、すべての多項式時間機能に対する ``best-possible'' コピー保護スキームの最初の候補となる。 A major unresolved question in quantum cryptography is whether it is possible to obfuscate arbitrary quantum computation. Indeed, there is much yet to understand about the feasibility of quantum obfuscation even in the classical oracle model, where one is given for free the ability to obfuscate any classical circuit. In this work, we develop a new array of techniques that we use to construct a quantum state obfuscator, a powerful notion formalized recently by Coladangelo and Gunn (arXiv:2311.07794) in their pursuit of better software copy-protection schemes. Quantum state obfuscation refers to the task of compiling a quantum program, consisting of a quantum circuit $C$ with a classical description and an auxiliary quantum state $\ket{\psi}$, into a functionally-equivalent obfuscated quantum program that hides as much as possible about $C$ and $\ket{\psi}$. We prove the security of our obfuscator when applied to any pseudo-deterministic quantum program, i.e. one that computes a (nearly) deterministic classical input / classical output functionality. Our security proof is with respect to an efficient classical oracle, which may be heuristically instantiated using quantum-secure indistinguishability obfuscation for classical circuits. Our result improves upon the recent work of Bartusek, Kitagawa, Nishimaki and Yamakawa (STOC 2023) who also showed how to obfuscate pseudo-deterministic quantum circuits in the classical oracle model, but only ones with a completely classical description. Furthermore, our result answers a question of Coladangelo and Gunn, who provide a construction of quantum state indistinguishability obfuscation with respect to a quantum oracle. Indeed, our quantum state obfuscator together with Coladangelo-Gunn gives the first candidate realization of a ``best-possible'' copy-protection scheme for all polynomial-time functionalities. | 翻訳日:2024-01-19 15:38:07 公開日:2024-01-18 |
# 完全パルスインライン式インライン式ツインビームスクレーサ Perfect pulsed inline twin-beam squeezers ( http://arxiv.org/abs/2401.10197v1 ) ライセンス: Link先を確認 | Martin Houde and Nicol\'as Quesada | (参考訳) 完全なインラインスクイーサーは、スペクトル的に純粋であり、同じ入力と出力の時間モードを持ち、デバイスが振る舞う唯一の入力モードで任意の入力量子状態を絞ることができるが、他のどのモードの量子状態も影響を受けない。
ツインビームシステムにおける完全パルスインラインスクイーサーの取得法を理論的に検討し,未補間シングルパス,極付きシングルパス,極付きダブルパスの3つの構成について検討した。
離散ハイゼンベルク・ピクチャプロパゲータのブロッホ・メシア分解から入力と出力の時間モードとの解析関係を得ることにより、周波数の縮退した対称群速度整合型-ii 構成で操作すると、二重パス構造が完全なパルスインラインスクイーサを生成することを見出した。 Perfect inline squeezers are both spectrally pure and have identical input and output temporal modes, allowing one to squeeze an arbitrary input quantum state in the sole input mode on which the device acts, while the quantum states of any other modes are unaffected. We study theoretically how to obtain a perfect pulsed inline squeezer in twin-beam systems by considering three commonly used configurations: unpoled single pass, poled single pass, and poled double pass. By obtaining analytical relations between the input and output temporal modes from the Bloch-Messiah decomposition of the discretized Heisenberg-picture propagator, we find that a double pass structure produces a perfect pulsed inline squeezer when operated in a frequency degenerate, symmetric group-velocity matched type-II configuration. | 翻訳日:2024-01-19 15:37:28 公開日:2024-01-18 |
# 分断は忘れず--連続学習における選択訓練専門家の集まり Divide and not forget: Ensemble of selectively trained experts in Continual Learning ( http://arxiv.org/abs/2401.10191v1 ) ライセンス: Link先を確認 | Grzegorz Rype\'s\'c, Sebastian Cygert, Valeriya Khan, Tomasz Trzci\'nski, Bartosz Zieli\'nski, Bart{\l}omiej Twardowski | (参考訳) クラス増分学習は、モデルがすでに知っていることを忘れずに適用範囲を広げるのに役立つため、人気が高まっている。
この領域のトレンドは、異なるモデルがタスクを解決するために一緒に働く、エキスパートの混合技術を使うことである。
しかし、専門家は通常、すべてのタスクデータを使って一度に訓練されるため、計算負荷を忘れて増大する傾向があります。
この制限に対処するために,SEEDという新しいアプローチを導入する。
SEEDは、考慮されたタスクに対して最も最適な専門家である1人だけを選択し、このタスクからのデータを使用して、この専門家のみを微調整する。
この目的のために、各専門家は各クラスをガウス分布で表現し、それらの分布の類似性に基づいて最適な専門家を選択する。
その結果、SEEDはアンサンブル法の安定性を維持しつつ、専門家の多様性と不均一性を高める。
この実験により、SEEDは様々なシナリオにまたがる模範のない設定において最先端のパフォーマンスを実現し、連続学習におけるデータによる専門家の多様化の可能性を示している。 Class-incremental learning is becoming more popular as it helps models widen their applicability while not forgetting what they already know. A trend in this area is to use a mixture-of-expert technique, where different models work together to solve the task. However, the experts are usually trained all at once using whole task data, which makes them all prone to forgetting and increasing computational burden. To address this limitation, we introduce a novel approach named SEED. SEED selects only one, the most optimal expert for a considered task, and uses data from this task to fine-tune only this expert. For this purpose, each expert represents each class with a Gaussian distribution, and the optimal expert is selected based on the similarity of those distributions. Consequently, SEED increases diversity and heterogeneity within the experts while maintaining the high stability of this ensemble method. The extensive experiments demonstrate that SEED achieves state-of-the-art performance in exemplar-free settings across various scenarios, showing the potential of expert diversification through data in continual learning. | 翻訳日:2024-01-19 15:36:37 公開日:2024-01-18 |
# Kaczmarzにヒントを得たニューラルネットワーク波動関数の最適化 A Kaczmarz-inspired approach to accelerate the optimization of neural network wavefunctions ( http://arxiv.org/abs/2401.10190v1 ) ライセンス: Link先を確認 | Gil Goldshlager, Nilin Abrahamsen, Lin Lin | (参考訳) 変動モンテカルロ法を用いて最適化されたニューラルネットワークの波動関数は、原子や小さな分子の電子構造に対して高精度な結果をもたらすことが示されているが、そのような波動関数を最適化するコストが高いため、より大きなシステムへの応用が妨げられる。
このボトルネックを低減すべく,springオプティマイザ(subsampled projected-increment natural gradient descent)を提案する。
springは、最近導入されたminimum-step stochastic reconfiguration optimizer(minsr)と、線形最小二乗問題を解く古典的なランダム化kaczmarzメソッドのアイデアを組み合わせる。
SPRing は MinSR と Kronecker-Factored Approximate Curvature 法 (KFAC) を多数の小原子および分子で比較し,全ての手法の学習速度が最適に調整されていることを実証した。
例えば、酸素原子上では、SPRINGは4万回のトレーニングを繰り返した後に化学的精度を得るが、MinSRとKFACは1万回のトレーニングの後にもそれを行うことができない。 Neural network wavefunctions optimized using the variational Monte Carlo method have been shown to produce highly accurate results for the electronic structure of atoms and small molecules, but the high cost of optimizing such wavefunctions prevents their application to larger systems. We propose the Subsampled Projected-Increment Natural Gradient Descent (SPRING) optimizer to reduce this bottleneck. SPRING combines ideas from the recently introduced minimum-step stochastic reconfiguration optimizer (MinSR) and the classical randomized Kaczmarz method for solving linear least-squares problems. We demonstrate that SPRING outperforms both MinSR and the popular Kronecker-Factored Approximate Curvature method (KFAC) across a number of small atoms and molecules, given that the learning rates of all methods are optimally tuned. For example, on the oxygen atom, SPRING attains chemical accuracy after forty thousand training iterations, whereas both MinSR and KFAC fail to do so even after one hundred thousand iterations. | 翻訳日:2024-01-19 15:36:18 公開日:2024-01-18 |
# Chem-FINESE:テキスト再構成によるファインショット要素抽出の検証 Chem-FINESE: Validating Fine-Grained Few-shot Entity Extraction through Text Reconstruction ( http://arxiv.org/abs/2401.10189v1 ) ライセンス: Link先を確認 | Qingyun Wang, Zixuan Zhang, Hongxiang Li, Xuan Liu, Jiawei Han, Heng Ji, Huimin Zhao | (参考訳) 化学領域における粒度の少ないエンティティ抽出には、2つのユニークな課題がある。
第一に、一般ドメインのエンティティ抽出タスクと比較して、化学論文からの文は、通常より多くのエンティティを含んでいる。
さらに、エンティティ抽出モデルは通常、長い尾型のエンティティを抽出することが困難である。
本稿では,これら2つの課題に対処するために,シークエンス・ツー・シーケンス(seq2seq)をベースとした複数ショットエンティティ抽出手法であるChem-FINESEを提案する。
本発明のchem-fineseは、入力文から名前付きエンティティを抽出するseq2seqエンティティ抽出器と、抽出されたエンティティから元の入力文を再構築するseq2seq自己評価モジュールである。
優れたエンティティ抽出システムがエンティティを忠実に抽出する必要があるという事実に触発されて、新しい自己検証モジュールはエンティティ抽出結果を活用して元の入力文を再構築する。
さらに, 抽出過程での過剰コピーを減らすために, コントラスト損失を新たに設計する。
最後に、ChemNERスキーマでドメインの専門家によって注釈付けされた、新しいきめ細かい化学エンティティ抽出データセットであるChemNER+をリリースする。
ChemNER+とCHEMETのデータセットによる数ショット設定の実験では、新たに提案したフレームワークは、それぞれ8.26%と6.84%の絶対F1スコアゲインに寄与している。 Fine-grained few-shot entity extraction in the chemical domain faces two unique challenges. First, compared with entity extraction tasks in the general domain, sentences from chemical papers usually contain more entities. Moreover, entity extraction models usually have difficulty extracting entities of long-tailed types. In this paper, we propose Chem-FINESE, a novel sequence-to-sequence (seq2seq) based few-shot entity extraction approach, to address these two challenges. Our Chem-FINESE has two components: a seq2seq entity extractor to extract named entities from the input sentence and a seq2seq self-validation module to reconstruct the original input sentence from extracted entities. Inspired by the fact that a good entity extraction system needs to extract entities faithfully, our new self-validation module leverages entity extraction results to reconstruct the original input sentence. Besides, we design a new contrastive loss to reduce excessive copying during the extraction process. Finally, we release ChemNER+, a new fine-grained chemical entity extraction dataset that is annotated by domain experts with the ChemNER schema. Experiments in few-shot settings with both ChemNER+ and CHEMET datasets show that our newly proposed framework has contributed up to 8.26% and 6.84% absolute F1-score gains respectively. | 翻訳日:2024-01-19 15:35:56 公開日:2024-01-18 |
# 人間活動認識における伝達学習 : 調査 Transfer Learning in Human Activity Recognition: A Survey ( http://arxiv.org/abs/2401.10185v1 ) ライセンス: Link先を確認 | Sourish Gunesh Dhekane, Thomas Ploetz | (参考訳) センサベースのヒューマンアクティビティ認識(HAR)は、スマート環境、生活支援、フィットネス、ヘルスケアなどへの応用により、活発な研究領域となっている。
近年、ディープラーニングに基づくエンドツーエンドトレーニングにより、大量の注釈付きデータが利用できるコンピュータビジョンや自然言語などの分野における最先端のパフォーマンスが向上している。
しかし、センサーベースのHARでは、大量の注釈付きデータが利用できない。
さらに、HARが実行される現実世界の設定は、センサーのモダリティ、分類タスク、ターゲットユーザによって異なる。
この問題に対処するために、転送学習が広く採用されている。
本研究では、スマートホームとウェアラブルベースのHARのアプリケーション領域におけるこれらの伝達学習手法に焦点を当てた。
特に,本研究の成果と課題を分類し,提示することで,問題解決の視点を提供する。
また、両方のアプリケーションドメインに対する最先端のビューも更新します。
205論文の分析に基づいて、文献のギャップを強調し、それに対処するためのロードマップを提供する。
この調査は、既存の作業を要約し、有望な研究課題を提供することにより、HARコミュニティへの言及を提供する。 Sensor-based human activity recognition (HAR) has been an active research area, owing to its applications in smart environments, assisted living, fitness, healthcare, etc. Recently, deep learning based end-to-end training has resulted in state-of-the-art performance in domains such as computer vision and natural language, where large amounts of annotated data are available. However, large quantities of annotated data are not available for sensor-based HAR. Moreover, the real-world settings on which the HAR is performed differ in terms of sensor modalities, classification tasks, and target users. To address this problem, transfer learning has been employed extensively. In this survey, we focus on these transfer learning methods in the application domains of smart home and wearables-based HAR. In particular, we provide a problem-solution perspective by categorizing and presenting the works in terms of their contributions and the challenges they address. We also present an updated view of the state-of-the-art for both application domains. Based on our analysis of 205 papers, we highlight the gaps in the literature and provide a roadmap for addressing them. This survey provides a reference to the HAR community, by summarizing the existing works and providing a promising research agenda. | 翻訳日:2024-01-19 15:35:29 公開日:2024-01-18 |
# 偏光共役光子対とCHSH値を用いた量子照明の実験的研究 Experimental demonstration of quantum illumination using polarization-entangled photon pairs and CHSH value as measure ( http://arxiv.org/abs/2401.10182v1 ) ライセンス: Link先を確認 | Kanad Sengupta, K. Muhammed Shafi, Soumya Asokan, C. M. Chandrashekar | (参考訳) 照明対象物の絡み合った光源は、反射対象の検出感度を高めることにより従来の照明方法よりも有利である。
量子優位性の欠如は、実際に量子相関を利用して背景ノイズを分離し、低反射率物体を検出する方法にある。
本研究は,光子対の偏光による量子照明の利点を実験的に実証し,CHSH値を用いた量子相関測定が背景雑音や損失に対して堅牢であることを示す。
また, 量子相関の残差は, 0.05 以下の反射率対象の同定に寄与し, 信号対雑音比が 0.003 で$\eta=0.7$ の場合には, 先行した結果を超えることを示した。
大気中における光子減衰と相関測定のロバスト性を分析し,実時間適用の可能性を示した。 Entangled light sources for illuminating objects offers advantages over conventional illumination methods by enhancing the detection sensitivity of a reflecting object. The crux of the quantum advantage lies in way we can practically leverage quantum correlations to isolate the background noise and detect the low reflectivity object. In this work we experimentally demonstrated the advantages of using polarization-entangled photon pairs for quantum illumination and show that the quantum correlation measure using CHSH value is robust against background noise and losses. We also show that the residual of quantum correlations help in identifying the object of reflectivity, $\eta$ as low as 0.05 and when signal-to-noise ratio is as low as 0.003 for $\eta=0.7$, surpassing the earlier demonstrated results. Robustness of correlation measure with photon attenuation in atmospheric condition is analysed to show the practical feasibility of the real time application. | 翻訳日:2024-01-19 15:35:13 公開日:2024-01-18 |
# ニューラルエコー:生物学的受容場を再現する奥行き畳み込みフィルタ Neural Echos: Depthwise Convolutional Filters Replicate Biological Receptive Fields ( http://arxiv.org/abs/2401.10178v1 ) ライセンス: Link先を確認 | Zahra Babaiee, Peyman M. Kiasari, Daniela Rus, Radu Grosu | (参考訳) 本研究では,哺乳類網膜で観察される生体受容野の構造的複雑さを,深部核が効果的に複製していることを示す。
我々は、この証拠を裏付ける様々な最先端モデルから訓練されたカーネルの分析を行う。
この興味深い発見に触発されて,生物受容分野からインスピレーションを得る初期化手法を提案する。
奥行きの畳み込みを特徴とする複数のCNNアーキテクチャを用いたImageNetデータセットの実験的解析により,生物由来の重みによる初期化において,学習モデルの精度が著しく向上したことが明らかになった。
これにより、生物学的にインスパイアされた計算モデルが視覚処理システムの理解を深め、畳み込みネットワークの有効性を向上させる可能性を秘めている。 In this study, we present evidence suggesting that depthwise convolutional kernels are effectively replicating the structural intricacies of the biological receptive fields observed in the mammalian retina. We provide analytics of trained kernels from various state-of-the-art models substantiating this evidence. Inspired by this intriguing discovery, we propose an initialization scheme that draws inspiration from the biological receptive fields. Experimental analysis of the ImageNet dataset with multiple CNN architectures featuring depthwise convolutions reveals a marked enhancement in the accuracy of the learned model when initialized with biologically derived weights. This underlies the potential for biologically inspired computational models to further our understanding of vision processing systems and to improve the efficacy of convolutional networks. | 翻訳日:2024-01-19 15:34:55 公開日:2024-01-18 |
# 総合的なOOD検出の改善 Comprehensive OOD Detection Improvements ( http://arxiv.org/abs/2401.10176v1 ) ライセンス: Link先を確認 | Anish Lakkapragada, Amol Khanna, Edward Raff, Nathan Inkawhich | (参考訳) マシンラーニングが影響力のある意思決定で普及するにつれ、推論データがモデルが期待する入力分布外にある場合の認識が、予測にコンテキストを与える上で最重要となる。
このタスクのためにout-of-distribution (ood) 検出手法が作成されている。
このような方法は,OOD検出にモデルの埋め込みや予測をそれぞれ利用するかどうかから,表現ベースあるいはロジットベースに分割することができる。
このようなグループにのみ焦点をあてるほとんどの論文とは対照的に、我々は両方に対処する。
我々は,時間短縮と性能向上の両立のために,表現ベース手法における特徴埋め込みの次元性低減を用いる。
また,一般的なロジットベース手法であるDirected Sparsification (DICE) を改良したDICE-COLを提案する。
我々は,openoodv1.5ベンチマークフレームワークにおける提案手法の有効性を実証する。 As machine learning becomes increasingly prevalent in impactful decisions, recognizing when inference data is outside the model's expected input distribution is paramount for giving context to predictions. Out-of-distribution (OOD) detection methods have been created for this task. Such methods can be split into representation-based or logit-based methods from whether they respectively utilize the model's embeddings or predictions for OOD detection. In contrast to most papers which solely focus on one such group, we address both. We employ dimensionality reduction on feature embeddings in representation-based methods for both time speedups and improved performance. Additionally, we propose DICE-COL, a modification of the popular logit-based method Directed Sparsification (DICE) that resolves an unnoticed flaw. We demonstrate the effectiveness of our methods on the OpenOODv1.5 benchmark framework, where they significantly improve performance and set state-of-the-art results. | 翻訳日:2024-01-19 15:34:41 公開日:2024-01-18 |
# 篠尾:BRDF最適化によるニューラルネットワークによる形状と照明 SHINOBI: Shape and Illumination using Neural Object Decomposition via BRDF Optimization In-the-wild ( http://arxiv.org/abs/2401.10171v1 ) ライセンス: Link先を確認 | Andreas Engelhardt, Amit Raj, Mark Boss, Yunzhi Zhang, Abhishek Kar, Yuanzhen Li, Deqing Sun, Ricardo Martin Brualla, Jonathan T. Barron, Hendrik P. A. Lensch, Varun Jampani | (参考訳) 本稿では,照明,ポーズ,背景の異なる物体画像から形状,材質,照明を復元するためのエンドツーエンドの枠組みであるシノビを提案する。
制約のない画像コレクションに基づくオブジェクトの逆レンダリングは、コンピュータビジョンとグラフィックスにおける長年の課題であり、形状、放射率、ポーズに対する共同最適化が必要である。
本研究では,マルチレゾリューションハッシュ符号化に基づく暗黙的形状表現により,先行作業に匹敵するジョイントカメラアライメント最適化により,高速かつ堅牢な形状再構成が可能となることを示す。
さらに,照明と物体反射率(素材)の編集を可能にするため,brdfと照明と物体の形状を共同で最適化する。
そこで本手法では,AR/VR,映画,ゲームなどいくつかのユースケースを対象とした3Dアセットを作成するために,オブジェクトの中間画像の収集を行う。
プロジェクトページ: https://shinobi.aengelhardt.com Video: https://www.youtube.com/watch?
v=iFENQ6AcYd8&feature=youtu.be We present SHINOBI, an end-to-end framework for the reconstruction of shape, material, and illumination from object images captured with varying lighting, pose, and background. Inverse rendering of an object based on unconstrained image collections is a long-standing challenge in computer vision and graphics and requires a joint optimization over shape, radiance, and pose. We show that an implicit shape representation based on a multi-resolution hash encoding enables faster and robust shape reconstruction with joint camera alignment optimization that outperforms prior work. Further, to enable the editing of illumination and object reflectance (i.e. material) we jointly optimize BRDF and illumination together with the object's shape. Our method is class-agnostic and works on in-the-wild image collections of objects to produce relightable 3D assets for several use cases such as AR/VR, movies, games, etc. Project page: https://shinobi.aengelhardt.com Video: https://www.youtube.com/watch?v=iFENQ6AcYd8&feature=youtu.be | 翻訳日:2024-01-19 15:34:26 公開日:2024-01-18 |
# vmamba: 視覚状態空間モデル VMamba: Visual State Space Model ( http://arxiv.org/abs/2401.10166v1 ) ライセンス: Link先を確認 | Yue Liu and Yunjie Tian and Yuzhong Zhao and Hongtian Yu and Lingxi Xie and Yaowei Wang and Qixiang Ye and Yunfan Liu | (参考訳) 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習の最も一般的な2つの基礎モデルである。
CNNは2次複雑性と競合するにも拘わらず、画像解像度が線形であるのに対して、ViTは2次複雑性に勝っている。
より綿密な検査により,大域的受容場と動的重み付けを組み込むことにより,ViTの視覚的モデリング性能が向上することが明らかとなった。
この観察は、計算効率を高めつつ、これらのコンポーネントを継承する新しいアーキテクチャを提案する動機となった。
この目的のために,最近導入された状態空間モデルから着想を得て,グローバル受容場を犠牲にすることなく線形複雑化を実現する視覚状態空間モデル(vmamba)を提案する。
そこで我々はCSM(Cross-Scan Module)を導入し,空間領域を横切り,任意の非因果的視覚画像を整列配列に変換する。
広範な実験の結果、vmambaは様々な視覚知覚タスクにまたがる有望な能力を示すだけでなく、画像の解像度が上がるにつれて確立されたベンチマークよりも明確な利点を示すことが判明した。
ソースコードはhttps://github.com/mzeromiko/vmambaで入手できる。 Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) stand as the two most popular foundation models for visual representation learning. While CNNs exhibit remarkable scalability with linear complexity w.r.t. image resolution, ViTs surpass them in fitting capabilities despite contending with quadratic complexity. A closer inspection reveals that ViTs achieve superior visual modeling performance through the incorporation of global receptive fields and dynamic weights. This observation motivates us to propose a novel architecture that inherits these components while enhancing computational efficiency. To this end, we draw inspiration from the recently introduced state space model and propose the Visual State Space Model (VMamba), which achieves linear complexity without sacrificing global receptive fields. To address the encountered direction-sensitive issue, we introduce the Cross-Scan Module (CSM) to traverse the spatial domain and convert any non-causal visual image into order patch sequences. Extensive experimental results substantiate that VMamba not only demonstrates promising capabilities across various visual perception tasks, but also exhibits more pronounced advantages over established benchmarks as the image resolution increases. Source code has been available at https://github.com/MzeroMiko/VMamba. | 翻訳日:2024-01-19 15:34:11 公開日:2024-01-18 |
# parahome:人間と物体の相互作用の3次元生成モデリングに向けての日常生活活動のパラメータ化 ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative Modeling of Human-Object Interactions ( http://arxiv.org/abs/2401.10232v1 ) ライセンス: Link先を確認 | Jeonghwan Kim, Jisoo Kim, Jeonghyeon Na, Hanbyul Joo | (参考訳) 機械が人間の日常活動における物理的世界との相互作用を学習するためには、人間の3d動きと学習可能な3d表現における物体の動きを包含する豊かなデータを提供することが重要である。
理想的には、このデータは自然な設定で収集され、人間と物体の相互作用の間、本物のダイナミックな3D信号をキャプチャする。
この課題に対処するために,人間や物体の動的3次元運動を,共通のホーム環境内で捕捉・パラメータ化するParaHomeシステムを提案する。
本システムは70台のRGBカメラを搭載した多視点カメラと、IMUベースのボディスーツとハンドモーションキャプチャグローブを備えたウェアラブルモーションキャプチャー装置で構成されている。
ParaHomeシステムを利用することで、人間と物体の相互作用の大規模なデータセットを収集する。
特筆すべき点は,(1)自然活動中の文脈的家庭環境内における3次元物体移動に並行して3次元身体とデクタラスハンド操作動作をキャプチャすること,(2)テキスト中の対応する記述を伴う様々なエピソディクスシナリオにおける複数の物体とのヒューマンインタラクションを包含すること,(3)パラメータ化された調音で表現された複数の部分を持つ調音オブジェクトを含むこと,の3つである。
実世界の室内環境下での人間と物体の相互作用を学習・合成するための生成モデルの構築を目的とした新しい研究課題を提案する。 To enable machines to learn how humans interact with the physical world in our daily activities, it is crucial to provide rich data that encompasses the 3D motion of humans as well as the motion of objects in a learnable 3D representation. Ideally, this data should be collected in a natural setup, capturing the authentic dynamic 3D signals during human-object interactions. To address this challenge, we introduce the ParaHome system, designed to capture and parameterize dynamic 3D movements of humans and objects within a common home environment. Our system consists of a multi-view setup with 70 synchronized RGB cameras, as well as wearable motion capture devices equipped with an IMU-based body suit and hand motion capture gloves. By leveraging the ParaHome system, we collect a novel large-scale dataset of human-object interaction. Notably, our dataset offers key advancement over existing datasets in three main aspects: (1) capturing 3D body and dexterous hand manipulation motion alongside 3D object movement within a contextual home environment during natural activities; (2) encompassing human interaction with multiple objects in various episodic scenarios with corresponding descriptions in texts; (3) including articulated objects with multiple parts expressed with parameterized articulations. Building upon our dataset, we introduce new research tasks aimed at building a generative model for learning and synthesizing human-object interactions in a real-world room setting. | 翻訳日:2024-01-19 15:25:51 公開日:2024-01-18 |
# OMG-Seg: 1つのモデルはすべてのセグメンテーションに十分か? OMG-Seg: Is One Model Good Enough For All Segmentation? ( http://arxiv.org/abs/2401.10229v1 ) ライセンス: Link先を確認 | Xiangtai Li, Haobo Yuan, Wei Li, Henghui Ding, Size Wu, Wenwei Zhang, Yining Li, Kai Chen, Chen Change Loy | (参考訳) 本研究では,伝統的に異なる,あるいは部分的に統一されたモデルによって取り組まれる,様々なセグメンテーションタスクに対処する。
画像のセグメンテーション,例,パノプティックセグメンテーション,ビデオのセグメンテーション,オープンボキャブラリ設定,SAMのようなインタラクティブなセグメンテーション,ビデオオブジェクトセグメンテーションなど,すべてのセグメンテーションタスクを効率的かつ効果的に処理できるOMG-Segを提案する。
私たちの知る限り、これはこれらのタスクを1つのモデルで処理し、満足なパフォーマンスを達成する最初のモデルです。
タスク固有のクエリとアウトプットを備えたトランスフォーマーベースのエンコーダデコーダアーキテクチャであるOMG-Segは,10以上のセグメンテーションタスクをサポートしながら,さまざまなタスクやデータセットの計算およびパラメータオーバーヘッドを大幅に削減できることを示す。
協調学習中のタスク間の影響と相関を厳密に評価する。
コードとモデルはhttps://github.com/lxtgh/omg-segで入手できる。 In this work, we address various segmentation tasks, each traditionally tackled by distinct or partially unified models. We propose OMG-Seg, One Model that is Good enough to efficiently and effectively handle all the segmentation tasks, including image semantic, instance, and panoptic segmentation, as well as their video counterparts, open vocabulary settings, prompt-driven, interactive segmentation like SAM, and video object segmentation. To our knowledge, this is the first model to handle all these tasks in one model and achieve satisfactory performance. We show that OMG-Seg, a transformer-based encoder-decoder architecture with task-specific queries and outputs, can support over ten distinct segmentation tasks and yet significantly reduce computational and parameter overhead across various tasks and datasets. We rigorously evaluate the inter-task influences and correlations during co-training. Code and models are available at https://github.com/lxtGH/OMG-Seg. | 翻訳日:2024-01-19 15:25:19 公開日:2024-01-18 |
# RAP-SAM: リアルタイム全目的セグメンテーションを目指す RAP-SAM: Towards Real-Time All-Purpose Segment Anything ( http://arxiv.org/abs/2401.10228v1 ) ライセンス: Link先を確認 | Shilin Xu, Haobo Yuan, Qingyu Shi, Lu Qi, Jingbo Wang, Yibo Yang, Yining Li, Kai Chen, Yunhai Tong, Bernard Ghanem, Xiangtai Li, Ming-Hsuan Yang | (参考訳) トランスフォーマーアーキテクチャにより、視覚基礎モデル(VFM)は、性能と一般化能力の著しい進歩を達成する。
Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。
しかしながら、ほとんどのVFMはリアルタイムで動作できないため、複数の製品に転送することは困難である。
一方、現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。
実際のアプリケーションには多様なアウトプットが必要です。
そこで本研究では,リアルタイムにVFMを転送する全目的セグメンテーションという,新たなリアルタイムセグメンテーション設定を提案する。
インタラクティブセグメンテーション、パン光学セグメンテーション、ビデオセグメンテーションを含む3つの異なるタスクを含む。
1つのモデルを使用して、上記のタスクをリアルタイムで達成することを目指している。
まず、いくつかの強力なベースラインをベンチマークします。
次に、実時間全目的SAM(RAP-SAM)を提案する。
効率的なエンコーダと、プロンプト駆動デコーダを実行するための効率的なデカップリングデコーダを含む。
さらに,コトレーニング性能を高めるために,異なるトレーニング戦略やチューニング手法についても検討する。
私たちのコードとモデルはhttps://github.com/xushilin1/RAP-SAM/で公開されています。 Advanced by transformer architecture, vision foundation models (VFMs) achieve remarkable progress in performance and generalization ability. Segment Anything Model (SAM) is one remarkable model that can achieve generalized segmentation. However, most VFMs cannot run in realtime, which makes it difficult to transfer them into several products. On the other hand, current real-time segmentation mainly has one purpose, such as semantic segmentation on the driving scene. We argue that diverse outputs are needed for real applications. Thus, this work explores a new real-time segmentation setting, named all-purpose segmentation in real-time, to transfer VFMs in real-time deployment. It contains three different tasks, including interactive segmentation, panoptic segmentation, and video segmentation. We aim to use one model to achieve the above tasks in real-time. We first benchmark several strong baselines. Then, we present Real-Time All Purpose SAM (RAP-SAM). It contains an efficient encoder and an efficient decoupled decoder to perform prompt-driven decoding. Moreover, we further explore different training strategies and tuning methods to boost co-training performance further. Our code and model are available at https://github.com/xushilin1/RAP-SAM/. | 翻訳日:2024-01-19 15:24:57 公開日:2024-01-18 |
# パンオプティカルセグメンテーションとマスクインパインティングのための簡易な潜伏拡散法 A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting ( http://arxiv.org/abs/2401.10227v1 ) ライセンス: Link先を確認 | Wouter Van Gansbeke, Bert De Brabandere | (参考訳) panopticとインスタンスセグメンテーションネットワークは、しばしば特別なオブジェクト検出モジュール、複雑な損失関数、インスタンスマスクの置換不分散を処理するアドホックな後処理ステップで訓練される。
この研究は安定拡散を基盤とし、パンオプティカルセグメンテーションの潜在拡散アプローチを提案し、これらの複雑さを省略する単純なアーキテクチャを生み出している。
トレーニングプロセスは,(1)部分分割マスクを潜時空間に投影する浅層オートエンコーダの訓練,(2)潜時空間における画像条件付きサンプリングを可能にする拡散モデルの訓練,の2段階からなる。
生成モデルの使用は、対話的なセグメンテーションに応用できるマスク補完やインペインティングの探求を解き放ちます。
実験による検証は、panoptic segmentation と mask inpainting の両方に有望な結果をもたらす。
新たな最先端を設定できないが、モデルの単純さ、汎用性、マスク補完能力は望ましい特性である。 Panoptic and instance segmentation networks are often trained with specialized object detection modules, complex loss functions, and ad-hoc post-processing steps to handle the permutation-invariance of the instance masks. This work builds upon Stable Diffusion and proposes a latent diffusion approach for panoptic segmentation, resulting in a simple architecture which omits these complexities. Our training process consists of two steps: (1) training a shallow autoencoder to project the segmentation masks to latent space; (2) training a diffusion model to allow image-conditioned sampling in latent space. The use of a generative model unlocks the exploration of mask completion or inpainting, which has applications in interactive segmentation. The experimental validation yields promising results for both panoptic segmentation and mask inpainting. While not setting a new state-of-the-art, our model's simplicity, generality, and mask completion capability are desirable properties. | 翻訳日:2024-01-19 15:24:40 公開日:2024-01-18 |
# マルチモーダル大規模言語モデルによる言語駆動型ビデオインペインティング Towards Language-Driven Video Inpainting via Multimodal Large Language Models ( http://arxiv.org/abs/2401.10226v1 ) ライセンス: Link先を確認 | Jianzong Wu, Xiangtai Li, Chenyang Si, Shangchen Zhou, Jingkang Yang, Jiangning Zhang, Yining Li, Kai Chen, Yunhai Tong, Ziwei Liu, Chen Change Loy | (参考訳) 我々は,新しいタスク -- 言語駆動型ビデオインペインティングを紹介し,自然言語命令を用いてインペインティングプロセスをガイドする。
このアプローチは、手作業でラベル付けされたバイナリマスクに依存する従来のビデオインペインティング方法の制限を克服する。
本稿では,5,650本の動画と9,091枚の塗装結果を含むROVI(Remove Objects from Videos by Instructions)データセットを提案する。
また,このタスクのエンド・ツー・エンドのベースラインとして,多モーダルな大規模言語モデルを統合することで,複雑な言語ベースのインパインティング要求を効果的に理解し,実行できるようにする。
総合的な結果から,データセットの汎用性とモデルの有効性が,様々な言語によるインペインティングシナリオで示される。
データセット、コード、モデルを公開します。 We introduce a new task -- language-driven video inpainting, which uses natural language instructions to guide the inpainting process. This approach overcomes the limitations of traditional video inpainting methods that depend on manually labeled binary masks, a process often tedious and labor-intensive. We present the Remove Objects from Videos by Instructions (ROVI) dataset, containing 5,650 videos and 9,091 inpainting results, to support training and evaluation for this task. We also propose a novel diffusion-based language-driven video inpainting framework, the first end-to-end baseline for this task, integrating Multimodal Large Language Models to understand and execute complex language-based inpainting requests effectively. Our comprehensive results showcase the dataset's versatility and the model's effectiveness in various language-instructed inpainting scenarios. We will make datasets, code, and models publicly available. | 翻訳日:2024-01-19 15:24:20 公開日:2024-01-18 |
# ChatQA: GPT-4レベルの会話型QAモデルの構築 ChatQA: Building GPT-4 Level Conversational QA Models ( http://arxiv.org/abs/2401.10225v1 ) ライセンス: Link先を確認 | Zihan Liu, Wei Ping, Rajarshi Roy, Peng Xu, Mohammad Shoeybi, Bryan Catanzaro | (参考訳) 本稿では,対話型質問応答(QA)モデルであるChatQAを紹介し,GPT-4レベルの精度を得る。
具体的には,大規模言語モデル(LLM)からゼロショット対話型QA結果を大幅に改善する2段階の命令チューニング手法を提案する。
対話型QAにおける検索処理を行うため,多ターンQAデータセット上で高密度検索を微調整し,最先端のクエリ書き換えモデルに匹敵する結果を得るとともに,デプロイメントコストを大幅に削減する。
特に、私たちのChatQA-70Bは、OpenAI GPTモデルの合成データに頼ることなく、10の会話型QAデータセット(54.14 vs. 53.90)の平均スコアでGPT-4を上回ります。 In this work, we introduce ChatQA, a family of conversational question answering (QA) models, that obtain GPT-4 level accuracies. Specifically, we propose a two-stage instruction tuning method that can significantly improve the zero-shot conversational QA results from large language models (LLMs). To handle retrieval in conversational QA, we fine-tune a dense retriever on a multi-turn QA dataset, which provides comparable results to using the state-of-the-art query rewriting model while largely reducing deployment cost. Notably, our ChatQA-70B can outperform GPT-4 in terms of average score on 10 conversational QA datasets (54.14 vs. 53.90), without relying on any synthetic data from OpenAI GPT models. | 翻訳日:2024-01-19 15:24:02 公開日:2024-01-18 |
# The Manga Whisperer:コミックの書き起こしを自動的に生成する The Manga Whisperer: Automatically Generating Transcriptions for Comics ( http://arxiv.org/abs/2401.10224v1 ) ライセンス: Link先を確認 | Ragav Sachdeva and Andrew Zisserman | (参考訳) 過去数十年間、日本の漫画は、一般的にマンガと呼ばれ、文化と言語の境界を超越し、真の世界的なセンセーションとなった。
しかし、マンガの視覚的手がかりやイラストに固有の依存は、視覚障害のある個人にはほとんどアクセスできない。
本研究は,マンガが誰にでも評価され,積極的に関与できることを保証することを目的として,この大きな障壁に対処することを目的とする。
具体的には、ダイアリゼーションの問題、すなわち、何をいつ、いつ、完全に自動で書き起こしたかの書き起こしを生成する。
この目的のために、我々は以下の貢献をする: (1) 統一されたモデル Magi を提示する。
(a)パネル、テキストボックス、文字ボックスを検出する。
(b)同一性によるクラスタ文字(クラスタの数を知らずに)、及び
c) 会話を話者に関連付ける。(2) 検出されたテキストボックスを読み出し順にソートし、対話の書き起こしを生成するための新しいアプローチを提案する。(3) 公開の[英語]マンガページを用いて、このタスクの評価ベンチマークを注釈する。
コード、評価データセット、事前トレーニングされたモデルは以下の通りである。 In the past few decades, Japanese comics, commonly referred to as Manga, have transcended both cultural and linguistic boundaries to become a true worldwide sensation. Yet, the inherent reliance on visual cues and illustration within manga renders it largely inaccessible to individuals with visual impairments. In this work, we seek to address this substantial barrier, with the aim of ensuring that manga can be appreciated and actively engaged by everyone. Specifically, we tackle the problem of diarisation i.e. generating a transcription of who said what and when, in a fully automatic way. To this end, we make the following contributions: (1) we present a unified model, Magi, that is able to (a) detect panels, text boxes and character boxes, (b) cluster characters by identity (without knowing the number of clusters apriori), and (c) associate dialogues to their speakers; (2) we propose a novel approach that is able to sort the detected text boxes in their reading order and generate a dialogue transcript; (3) we annotate an evaluation benchmark for this task using publicly available [English] manga pages. The code, evaluation datasets and the pre-trained model can be found at: https://github.com/ragavsachdeva/magi. | 翻訳日:2024-01-19 15:23:44 公開日:2024-01-18 |
# 教師付き微調整がvisual foundationモデルを改善する Supervised Fine-tuning in turn Improves Visual Foundation Models ( http://arxiv.org/abs/2401.10222v1 ) ライセンス: Link先を確認 | Xiaohu Jiang, Yixiao Ge, Yuying Ge, Chun Yuan, Ying Shan | (参考訳) CLIPのような画像テキストトレーニングは、近年ビジョン基礎モデルの事前トレーニングを支配している。
その後の取り組みでは、CLIPの事前トレーニングにリージョンレベルのビジュアル学習を導入するが、大規模なリージョンレベルのデータセットが不足しているため、スケーラビリティ上の課題に直面している。
指導調律などの自然言語処理における教師付き微調整(SFT)からインスピレーションを得て,事前訓練後の視覚基盤モデル生成におけるきめ細かいSFTの可能性を探る。
したがって、視覚基盤モデルの微細な知識を解き放つために、2段階のViSFT(Vision SFT)を提案する。
ViSFTでは、いくつかのドメイン内タスクで視覚的な共同学習を実行し、ドメイン外のベンチマークでテストすることで、ビジョンファウンデーションモデルが強化される。
8V100 GPU上のViSFTを2日以内で更新することで、4.4B以上のパラメータを持つビジョントランスフォーマーは、ビジョンやビジョン言語的なシナリオを含む、さまざまな外部ベンチマークの改善を示す。 Image-text training like CLIP has dominated the pretraining of vision foundation models in recent years. Subsequent efforts have been made to introduce region-level visual learning into CLIP's pretraining but face scalability challenges due to the lack of large-scale region-level datasets. Drawing inspiration from supervised fine-tuning (SFT) in natural language processing such as instruction tuning, we explore the potential of fine-grained SFT in enhancing the generation of vision foundation models after their pretraining. Thus a two-stage method ViSFT (Vision SFT) is proposed to unleash the fine-grained knowledge of vision foundation models. In ViSFT, the vision foundation model is enhanced by performing visual joint learning on some in-domain tasks and then tested on out-of-domain benchmarks. With updating using ViSFT on 8 V100 GPUs in less than 2 days, a vision transformer with over 4.4B parameters shows improvements across various out-of-domain benchmarks including vision and vision-linguistic scenarios. | 翻訳日:2024-01-19 15:23:17 公開日:2024-01-18 |
# AutoFT:OODデータ上でのハイパーパラメータ最適化によるロバストファインチューニング AutoFT: Robust Fine-Tuning by Optimizing Hyperparameters on OOD Data ( http://arxiv.org/abs/2401.10220v1 ) ライセンス: Link先を確認 | Caroline Choi, Yoonho Lee, Annie Chen, Allan Zhou, Aditi Raghunathan, Chelsea Finn | (参考訳) ファンデーションモデルは、タスク固有のデータを微調整することで、望ましいタスクに適応できるリッチな表現をエンコードする。
しかし、ある特定のデータ分布でモデルを微調整することは、しばしば他の分布におけるモデルの本来の性能を損なう。
強靭な微調整法は手作りの正則化技術を用いて基礎モデルに向けて微調整過程を制限している。
しかし,事前学習,微調整,評価データ分布が相互にどのように関連しているかによって,微調整時に保持すべき基礎モデルの特性を正確に特定することは困難である。
基礎モデルの微調整を行うためのデータ駆動アプローチであるautoftを提案する。
AutoFTは微調整ハイパーパラメータを最適化し、小さなアウト・オブ・ディストリビューション(OOD)検証セットの性能を最大化する。
微調整を粒度よく導くため、オートフトは学習速度や減量値に加えて、多くの異なる損失に対する重み係数を含む高表現のハイパーパラメータ空間を探索する。
ドメインシフトとサブポピュレーションシフトを含む9つの自然分布シフトのオートフトを評価する。
実験の結果,AutoFTは新たなOODデータへの一般化を著しく改善し,既存の堅牢な微調整法よりも優れていた。
特にautoftはwilds-iwildcamとwilds-fmowベンチマークで新たな最先端性能を達成し、以前のベストメソッドをそれぞれ$6.0\%$と$1.5\%$で上回った。 Foundation models encode rich representations that can be adapted to a desired task by fine-tuning on task-specific data. However, fine-tuning a model on one particular data distribution often compromises the model's original performance on other distributions. Current methods for robust fine-tuning utilize hand-crafted regularization techniques to constrain the fine-tuning process towards the base foundation model. Yet, it is hard to precisely specify what characteristics of the foundation model to retain during fine-tuning, as this depends on how the pre-training, fine-tuning, and evaluation data distributions relate to each other. We propose AutoFT, a data-driven approach for guiding foundation model fine-tuning. AutoFT optimizes fine-tuning hyperparameters to maximize performance on a small out-of-distribution (OOD) validation set. To guide fine-tuning in a granular way, AutoFT searches a highly expressive hyperparameter space that includes weight coefficients for many different losses, in addition to learning rate and weight decay values. We evaluate AutoFT on nine natural distribution shifts which include domain shifts and subpopulation shifts. Our experiments show that AutoFT significantly improves generalization to new OOD data, outperforming existing robust fine-tuning methods. Notably, AutoFT achieves new state-of-the-art performance on the WILDS-iWildCam and WILDS-FMoW benchmarks, outperforming the previous best methods by $6.0\%$ and $1.5\%$, respectively. | 翻訳日:2024-01-19 15:22:58 公開日:2024-01-18 |
# Edit One for All:インタラクティブバッチ画像編集 Edit One for All: Interactive Batch Image Editing ( http://arxiv.org/abs/2401.10219v1 ) ライセンス: Link先を確認 | Thao Nguyen, Utkarsh Ojha, Yuheng Li, Haotian Liu, Yong Jae Lee | (参考訳) 近年,画像編集が著しく進歩している。
人間のコントロールが強化されたことにより、テキストで変更したいものを指定することから、インタラクティブなポイントベースで画像の内容のドラッグアップまで、さまざまな方法で画像を編集することが可能になった。
しかし、ほとんどは一度に1枚の画像の編集に焦点が当てられている。
大規模な画像のバッチを同時に編集する方法は、まだ検討されていない。
本稿では,編集過程における人間の監督を最小化する目的で,StyleGANを媒体としたインタラクティブなバッチ画像編集手法を提案する。
サンプル画像中のユーザが指定した編集(例えば、顔の正面)が与えられた場合、我々の方法は自動的に他のテスト画像に編集を転送できるので、初期状態(目的)に関わらず、全員が同じ最終状態(例えば、すべての正面)に到達する。
広汎な実験により,既存の単一画像編集手法と視覚的品質が類似し,視覚的一貫性が向上し,時間と労力の節約が図られた。 In recent years, image editing has advanced remarkably. With increased human control, it is now possible to edit an image in a plethora of ways; from specifying in text what we want to change, to straight up dragging the contents of the image in an interactive point-based manner. However, most of the focus has remained on editing single images at a time. Whether and how we can simultaneously edit large batches of images has remained understudied. With the goal of minimizing human supervision in the editing process, this paper presents a novel method for interactive batch image editing using StyleGAN as the medium. Given an edit specified by users in an example image (e.g., make the face frontal), our method can automatically transfer that edit to other test images, so that regardless of their initial state (pose), they all arrive at the same final state (e.g., all facing front). Extensive experiments demonstrate that edits performed using our method have similar visual quality to existing single-image-editing methods, while having more visual consistency and saving significant time and human effort. | 翻訳日:2024-01-19 15:22:29 公開日:2024-01-18 |
# 暗黙のニューラルキャンバスを説明する: その貢献をトレースしてピクセルとニューロンをつなぐ Explaining the Implicit Neural Canvas: Connecting Pixels to Neurons by Tracing their Contributions ( http://arxiv.org/abs/2401.10217v1 ) ライセンス: Link先を確認 | Namitha Padmanabhan, Matthew Gwilliam, Pulkit Kumar, Shishira R Maiya, Max Ehrlich, Abhinav Shrivastava | (参考訳) ニューラルネットワークが信号の連続的な表現として訓練されるインプリシトニューラルネットワーク表現(INR)の多くのバリエーションは、新しいビュー合成、ビデオ圧縮、画像超解像といった下流のタスクに極めて実用的である。
残念なことに、これらのネットワークの内部構造は、あまり研究されていない。
我々の研究であるeXplaining the Implicit Neural Canvas (XINC)は、各ニューロンの出力画素への寄与の強さを調べることによって、INRの特性を説明する統一的なフレームワークである。
これらのコントリビューションの集合をImplicit Neural Canvasと呼び、この概念を使って、私たちが研究しているINRが、それらが驚くべき方法で表すフレームを「見る」ことを学ぶことを実証します。
例えば、INRは高度に分散した表現を持つ傾向がある。
高レベルのオブジェクトセマンティクスを欠いているが、色とエッジには大きなバイアスがあり、ほとんど完全に空間に依存しない。
ビデオインサーでオブジェクトが時間にまたがってどのように表現され、クラスタリングを使ってレイヤやアーキテクチャにまたがる類似したニューロンを視覚化し、これが運動によって支配されていることを示すことで、結論に到達しました。
これらの知見は分析フレームワークの汎用性を示している。
私たちのプロジェクトページはhttps://namithap10.github.io/xincで閲覧できます。 The many variations of Implicit Neural Representations (INRs), where a neural network is trained as a continuous representation of a signal, have tremendous practical utility for downstream tasks including novel view synthesis, video compression, and image superresolution. Unfortunately, the inner workings of these networks are seriously under-studied. Our work, eXplaining the Implicit Neural Canvas (XINC), is a unified framework for explaining properties of INRs by examining the strength of each neuron's contribution to each output pixel. We call the aggregate of these contribution maps the Implicit Neural Canvas and we use this concept to demonstrate that the INRs which we study learn to ''see'' the frames they represent in surprising ways. For example, INRs tend to have highly distributed representations. While lacking high-level object semantics, they have a significant bias for color and edges, and are almost entirely space-agnostic. We arrive at our conclusions by examining how objects are represented across time in video INRs, using clustering to visualize similar neurons across layers and architectures, and show that this is dominated by motion. These insights demonstrate the general usefulness of our analysis framework. Our project page is available at https://namithap10.github.io/xinc. | 翻訳日:2024-01-19 15:22:09 公開日:2024-01-18 |
# ガウントテンソル生成物によるフーリエ基底の効率的な等価操作 Enabling Efficient Equivariant Operations in the Fourier Basis via Gaunt Tensor Products ( http://arxiv.org/abs/2401.10216v1 ) ライセンス: Link先を確認 | Shengjie Luo, Tianlang Chen, Aditi S. Krishnapriyan | (参考訳) E(3)グループのための同変ニューラルネットワークの開発は、現実世界のアプリケーション間での3Dデータのモデリングにおいて重要な役割を果たす。
この等分散を強制することは、主に既約表現(irrep)のテンソル積を含む。
しかし、そのような演算の計算複雑性は高次テンソルを使用するにつれて著しく増大する。
そこで本研究では,無数のテンソル積の計算を大幅に高速化する体系的手法を提案する。
我々は、よく用いられるクレブシュ・ゴルダン係数を、3つの球面調和系の積の積分であるガント係数に数学的に接続する。
ゴート係数を通じて、アーレップのテンソル積は球面調和で表される球関数の間の乗法と等価となる。
この観点からさらに、同変演算の基底を球面高調波から2次元フーリエ基底に変更することができる。
したがって、2次元フーリエ基底で表される球関数間の乗算は、畳み込み定理と高速フーリエ変換によって効率的に計算できる。
この変換は、イリップスの完全テンソル積の複雑さを$\mathcal{O}(L^6)$から$\mathcal{O}(L^3)$へ還元する。
このアプローチを取り入れたGaunt Tensor Productを導入し、異なるモデルアーキテクチャ間で効率的な同変演算を構築する新しい方法として機能する。
オープン触媒プロジェクトと3BPAデータセットに関する実験は、我々のアプローチの効率向上と性能向上を実証している。 Developing equivariant neural networks for the E(3) group plays an important role in modeling 3D data across real-world applications. Enforcing this equivariance primarily involves the tensor products of irreducible representations (irreps). However, the computational complexity of such operations increases significantly as higher-order tensors are used. In this work, we propose a systematic approach to substantially accelerate the computation of the tensor products of irreps. We mathematically connect the commonly used Clebsch-Gordan coefficients to the Gaunt coefficients, which are integrals of products of three spherical harmonics. Through Gaunt coefficients, the tensor product of irreps becomes equivalent to the multiplication between spherical functions represented by spherical harmonics. This perspective further allows us to change the basis for the equivariant operations from spherical harmonics to a 2D Fourier basis. Consequently, the multiplication between spherical functions represented by a 2D Fourier basis can be efficiently computed via the convolution theorem and Fast Fourier Transforms. This transformation reduces the complexity of full tensor products of irreps from $\mathcal{O}(L^6)$ to $\mathcal{O}(L^3)$, where $L$ is the max degree of irreps. Leveraging this approach, we introduce the Gaunt Tensor Product, which serves as a new method to construct efficient equivariant operations across different model architectures. Our experiments on the Open Catalyst Project and 3BPA datasets demonstrate both the increased efficiency and improved performance of our approach. | 翻訳日:2024-01-19 15:21:45 公開日:2024-01-18 |
# gpavatar:画像による頭部アバターの一般化と高精度化 GPAvatar: Generalizable and Precise Head Avatar from Image(s) ( http://arxiv.org/abs/2401.10215v1 ) ライセンス: Link先を確認 | Xuangeng Chu, Yu Li, Ailing Zeng, Tianyu Yang, Lijian Lin, Yunfei Liu, Tatsuya Harada | (参考訳) 仮想現実、オンライン会議、ゲーム、映画産業のアプリケーションで不可欠なヘッドアバターの再構築は、コンピュータビジョンコミュニティでかなりの注目を集めている。
この分野の基本的な目的は、頭部アバターを忠実に再現し、表現と姿勢を正確に制御することである。
既存の手法は、2Dベースのワープ、メッシュベース、ニューラルレンダリングアプローチに分類され、マルチビューの一貫性維持、非インターフェース情報の導入、新しいアイデンティティへの一般化といった課題を提示している。
本稿では,1回または複数の画像から3d頭部アバターを1回のフォワードパスで再構築するgpavatarというフレームワークを提案する。
この研究の重要なアイデアは、ポイントクラウドによって駆動される動的ポイントベースの表現フィールドを導入し、正確に効果的に表現をキャプチャすることである。
さらに,マルチ・トライプレーンズ・アテンション(mta)融合モジュールをトリプレーンズ・カノニカル・フィールドに導入し,複数の入力画像からの情報を活用した。
提案手法は, 忠実なアイデンティティ再構築, 正確な表現制御, マルチビュー整合性を実現し, 自由視点レンダリングと新規ビュー合成のための有望な結果を示す。 Head avatar reconstruction, crucial for applications in virtual reality, online meetings, gaming, and film industries, has garnered substantial attention within the computer vision community. The fundamental objective of this field is to faithfully recreate the head avatar and precisely control expressions and postures. Existing methods, categorized into 2D-based warping, mesh-based, and neural rendering approaches, present challenges in maintaining multi-view consistency, incorporating non-facial information, and generalizing to new identities. In this paper, we propose a framework named GPAvatar that reconstructs 3D head avatars from one or several images in a single forward pass. The key idea of this work is to introduce a dynamic point-based expression field driven by a point cloud to precisely and effectively capture expressions. Furthermore, we use a Multi Tri-planes Attention (MTA) fusion module in the tri-planes canonical field to leverage information from multiple input images. The proposed method achieves faithful identity reconstruction, precise expression control, and multi-view consistency, demonstrating promising results for free-viewpoint rendering and novel view synthesis. | 翻訳日:2024-01-19 15:21:20 公開日:2024-01-18 |
# mm-interleaved:マルチモーダル特徴同期によるインターリーブ画像テキスト生成モデリング MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer ( http://arxiv.org/abs/2401.10208v1 ) ライセンス: Link先を確認 | Changyao Tian, Xizhou Zhu, Yuwen Xiong, Weiyun Wang, Zhe Chen, Wenhai Wang, Yuntao Chen, Lewei Lu, Tong Lu, Jie Zhou, Hongsheng Li, Yu Qiao, Jifeng Dai | (参考訳) インターリーブ画像テキストデータの生成モデルの開発には,研究と実践の両方の価値がある。
インターリーブされたシーケンスを理解し、その後に画像とテキストを生成するモデルが必要となる。
しかし、既存の試行は、固定数の視覚トークンが画像の詳細を効率的にキャプチャできないという問題によって制限されており、特にマルチイメージのシナリオでは問題となる。
そこで本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、生成プロセス中に前のコンテキストできめ細かい画像機能に直接アクセスすることができる。
MM-Interleavedは、ペアとインターリーブの両方の画像テキストコーパスで、エンドツーエンドで事前訓練される。
教師付き微調整フェーズによってさらに強化され、複雑なマルチモーダル命令に従う能力が改善される。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
コードとモデルは \url{https://github.com/OpenGVLab/MM-Interleaved} で公開されている。 Developing generative models for interleaved image-text data has both research and practical value. It requires models to understand the interleaved sequences and subsequently generate images and text. However, existing attempts are limited by the issue that the fixed number of visual tokens cannot efficiently capture image details, which is particularly problematic in the multi-image scenarios. To address this, this paper presents MM-Interleaved, an end-to-end generative model for interleaved image-text data. It introduces a multi-scale and multi-image feature synchronizer module, allowing direct access to fine-grained image features in the previous context during the generation process. MM-Interleaved is end-to-end pre-trained on both paired and interleaved image-text corpora. It is further enhanced through a supervised fine-tuning phase, wherein the model improves its ability to follow complex multi-modal instructions. Experiments demonstrate the versatility of MM-Interleaved in recognizing visual details following multi-modal instructions and generating consistent images following both textual and visual conditions. Code and models are available at \url{https://github.com/OpenGVLab/MM-Interleaved}. | 翻訳日:2024-01-19 15:20:58 公開日:2024-01-18 |
# 深層ニューラルネットワークに基づく侵入検知システムの説明可能性のための折返し規則抽出 Eclectic Rule Extraction for Explainability of Deep Neural Network based Intrusion Detection Systems ( http://arxiv.org/abs/2401.10207v1 ) ライセンス: Link先を確認 | Jesse Ables, Nathaniel Childers, William Anderson, Sudip Mittal, Shahram Rahimi, Ioana Banicescu, Maria Seale | (参考訳) 本稿では, 説明可能な侵入検知システム (X-IDS) におけるブラックボックスアルゴリズムとサロゲート説明器の多用性から生じる信頼問題に対処する。
説明可能な人工知能(XAI)は透明性を高めることを目的としているが、ローカル解釈可能なモデル非依存説明(LIME)やSHAP(SHAP)のようなブラックボックスサロゲートの説明器は信頼できない。
これらのサロゲートの説明器のブラックボックスの性質は、説明生成の不透明で理解しづらくなる。
この問題を回避するために、ルール抽出(RE)のような透明なホワイトボックスアルゴリズムを使用することができる。
reアルゴリズムには3つのタイプがある: 教育的、分解的、折返し的。
教育的手法は高速だが信頼できないホワイトボックスの説明を提供するが、分解的REはスケーラビリティの低い信頼できる説明を提供する。
この研究は、スケーラビリティと信頼性のバランスを崩すエクレクティックなルール抽出を探求する。
教育的アプローチと分解的アプローチのテクニックを組み合わせることで、エクレクティックルール抽出は両方の利点を生かし、その欠点のいくつかを緩和する。
提案したHybrid X-IDSアーキテクチャは、ブラックボックスディープニューラルネットワーク(DNN)のためのホワイトボックスサロゲート説明器として、エクレクティックREを備えている。
提案するreアルゴリズムは,人間が読みやすいルールを隠れたレイヤから抽出し,説明可能かつ信頼性の高いルールセットを促進する。
UNSW-NB15とCIC-IDS-2017データセットの評価は、DNN出力を模倣して99.9%の精度でルールセットを生成するアルゴリズムの能力を示している。
この研究の貢献には、ハイブリッドx-idsアーキテクチャ、侵入検出データセットに適用可能な折衝規則抽出アルゴリズム、および、ルール抽出速度と精度に関わるトレードオフを実証する性能と説明可能性の徹底的な分析が含まれる。 This paper addresses trust issues created from the ubiquity of black box algorithms and surrogate explainers in Explainable Intrusion Detection Systems (X-IDS). While Explainable Artificial Intelligence (XAI) aims to enhance transparency, black box surrogate explainers, such as Local Interpretable Model-Agnostic Explanation (LIME) and SHapley Additive exPlanation (SHAP), are difficult to trust. The black box nature of these surrogate explainers makes the process behind explanation generation opaque and difficult to understand. To avoid this problem, one can use transparent white box algorithms such as Rule Extraction (RE). There are three types of RE algorithms: pedagogical, decompositional, and eclectic. Pedagogical methods offer fast but untrustworthy white-box explanations, while decompositional RE provides trustworthy explanations with poor scalability. This work explores eclectic rule extraction, which strikes a balance between scalability and trustworthiness. By combining techniques from pedagogical and decompositional approaches, eclectic rule extraction leverages the advantages of both, while mitigating some of their drawbacks. The proposed Hybrid X-IDS architecture features eclectic RE as a white box surrogate explainer for black box Deep Neural Networks (DNN). The presented eclectic RE algorithm extracts human-readable rules from hidden layers, facilitating explainable and trustworthy rulesets. Evaluations on UNSW-NB15 and CIC-IDS-2017 datasets demonstrate the algorithm's ability to generate rulesets with 99.9% accuracy, mimicking DNN outputs. The contributions of this work include the hybrid X-IDS architecture, the eclectic rule extraction algorithm applicable to intrusion detection datasets, and a thorough analysis of performance and explainability, demonstrating the trade-offs involved in rule extraction speed and accuracy. | 翻訳日:2024-01-19 15:20:40 公開日:2024-01-18 |
# 多段拡散モデルを用いた階層型ファッションデザイン Hierarchical Fashion Design with Multi-stage Diffusion Models ( http://arxiv.org/abs/2401.07450v2 ) ライセンス: Link先を確認 | Zhifeng Xie, Hao li, Huiming Ding, Mengtian Li, Ying Cao | (参考訳) Cross-modal fashion synthesis and editing offer intelligent support to fashion designers by enabling the automatic generation and local modification of design drafts.While current diffusion models demonstrate commendable stability and controllability in image synthesis,they still face significant challenges in generating fashion design from abstract design elements and fine-grained editing.Abstract sensory expressions, \eg office, business, and party, form the high-level design concepts, while measurable aspects like sleeve length, collar type, and pant length are considered the low-level attributes of clothing.Controlling and editing fashion images using lengthy text descriptions poses a difficulty.In this paper, we propose HieraFashDiff,a novel fashion design method using the shared multi-stage diffusion model encompassing high-level design concepts and low-level clothing attributes in a hierarchical structure.Specifically, we categorized the input text into different levels and fed them in different time step to the diffusion model according to the criteria of professional clothing designers.HieraFashDiff allows designers to add low-level attributes after high-level prompts for interactive editing incrementally.In addition, we design a differentiable loss function in the sampling process with a mask to keep non-edit areas.Comprehensive experiments performed on our newly conducted Hierarchical fashion dataset,demonstrate that our proposed method outperforms other state-of-the-art competitors. Cross-modal fashion synthesis and editing offer intelligent support to fashion designers by enabling the automatic generation and local modification of design drafts.While current diffusion models demonstrate commendable stability and controllability in image synthesis,they still face significant challenges in generating fashion design from abstract design elements and fine-grained editing.Abstract sensory expressions, \eg office, business, and party, form the high-level design concepts, while measurable aspects like sleeve length, collar type, and pant length are considered the low-level attributes of clothing.Controlling and editing fashion images using lengthy text descriptions poses a difficulty.In this paper, we propose HieraFashDiff,a novel fashion design method using the shared multi-stage diffusion model encompassing high-level design concepts and low-level clothing attributes in a hierarchical structure.Specifically, we categorized the input text into different levels and fed them in different time step to the diffusion model according to the criteria of professional clothing designers.HieraFashDiff allows designers to add low-level attributes after high-level prompts for interactive editing incrementally.In addition, we design a differentiable loss function in the sampling process with a mask to keep non-edit areas.Comprehensive experiments performed on our newly conducted Hierarchical fashion dataset,demonstrate that our proposed method outperforms other state-of-the-art competitors. | 翻訳日:2024-01-19 13:28:51 公開日:2024-01-18 |
# フーリエベース再パラメータ化トレーニングによる暗黙的神経表現の改善 Improved Implicity Neural Representation with Fourier Bases Reparameterized Training ( http://arxiv.org/abs/2401.07402v2 ) ライセンス: Link先を確認 | Kexuan Shi and Xingyu Zhou and Shuhang Gu | (参考訳) Inlicit Neural Representation (INR)は、近年様々なコンピュータビジョンタスクにおいて、強力な表現パラダイムとして成功している。
バニラ多層パーセプトロン(MLP)の低周波バイアス問題により、位置符号化や周期的アクティベーション関数といった高度な技術を用いてINRの精度を向上させる方法が研究されている。
本稿では,ネットワークトレーニングバイアスと再パラメータ化手法を結合し,重み付け再パラメータ化がMDPのスペクトルバイアスを軽減することができることを理論的に証明する。
理論解析に基づき,固定されたフーリエ基底の係数行列を学習し,MLPの重みを構成するフーリエ再パラメータ化法を提案する。
本稿では,バニラ型MLP,位置符号化型MLP,高度なアクティベーション機能付きMLPなど,様々なMLPアーキテクチャを用いたINRタスクに対するフーリエ再パラメータ化手法の評価を行った。
異なるMLPアーキテクチャ上での優越性近似は,提案手法の利点を明らかに証明する。
フーリエのパラメータ化手法によって、より多くのテクスチャと少ないアーティファクトを持つより優れたINRをトレーニングデータから学べる。 Implicit Neural Representation (INR) as a mighty representation paradigm has achieved success in various computer vision tasks recently. Due to the low-frequency bias issue of vanilla multi-layer perceptron (MLP), existing methods have investigated advanced techniques, such as positional encoding and periodic activation function, to improve the accuracy of INR. In this paper, we connect the network training bias with the reparameterization technique and theoretically prove that weight reparameterization could provide us a chance to alleviate the spectral bias of MLP. Based on our theoretical analysis, we propose a Fourier reparameterization method which learns coefficient matrix of fixed Fourier bases to compose the weights of MLP. We evaluate the proposed Fourier reparameterization method on different INR tasks with various MLP architectures, including vanilla MLP, MLP with positional encoding and MLP with advanced activation function, etc. The superiority approximation results on different MLP architectures clearly validate the advantage of our proposed method. Armed with our Fourier reparameterization method, better INR with more textures and less artifacts can be learned from the training data. | 翻訳日:2024-01-19 13:28:33 公開日:2024-01-18 |
# 拡張テキスト読解によるドメイン適応の改善 Improving Domain Adaptation through Extended-Text Reading Comprehension ( http://arxiv.org/abs/2401.07284v2 ) ライセンス: Link先を確認 | Ting Jiang, Shaohan Huang, Shengyue Luo, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang | (参考訳) 大規模言語モデルのドメイン特化能力を高めるため、ドメイン特化コーパスでの事前学習が一般的である。
最近の研究は、Regexベースのパターンでフォーマットされた読解データを用いてモデルを適用することで、ドメイン固有のタスクのパフォーマンスが大幅に向上することを示した。
しかし、regexベースのパターンはドメイン固有の知識を使って生のコーパスを解析できない。
さらに、質問と回答のペアは、事前に定義された形式でコーパスから直接抽出され、コンテキストが限定される。
この制限に対処するため,LLMとクラスタリングによる読解理解を改善した。
LLMは、理解段階を洗練させるためにコーパス内のドメイン知識を活用することに焦点を当て、クラスタリングは、コンテキストを読書段階に拡張することで関連する知識を提供する。
さらに,パラメータ効率の高い微調整を取り入れ,ドメイン適応の効率化を図る。
AdaptLLMと比較して、ドメイン固有のタスクで5%以上の改善を実現している。
私たちのコードはhttps://github.com/microsoft/LMOpsで公開されます。 To enhance the domain-specific capabilities of large language models, continued pre-training on a domain-specific corpus is a prevalent method. Recent work demonstrates that adapting models using reading comprehension data formatted by regex-based patterns can significantly improve performance on domain-specific tasks. However, regex-based patterns are incapable of parsing raw corpora using domain-specific knowledge. Furthermore, the question and answer pairs are extracted directly from the corpus in predefined formats offers limited context. To address this limitation, we improve reading comprehension via LLM and clustering. LLM focuses on leveraging domain knowledge within the corpus to refine comprehension stage, while clustering supplies relevant knowledge by extending the context to enrich reading stage. Additionally, our method incorporates parameter-efficient fine-tuning to improve the efficiency of domain adaptation. In comparison to AdaptLLM, our method achieves an improvement exceeding 5% in domain-specific tasks. Our code will available at https://github.com/microsoft/LMOps. | 翻訳日:2024-01-19 13:28:11 公開日:2024-01-18 |
# 先行知識を用いた非観測変数付き因果加法モデルの発見とその時系列データへの応用 Use of Prior Knowledge to Discover Causal Additive Models with Unobserved Variables and its Application to Time Series Data ( http://arxiv.org/abs/2401.07231v3 ) ライセンス: Link先を確認 | Takashi Nicholas Maeda, Shohei Shimizu | (参考訳) 本稿では,無観測変数 (CAM-UV) を持つ因果加法モデルの2つの手法を提案する。
CAM-UV は、因果関数が一般化加法モデルの形式をとり、潜在的共同設立者が存在すると仮定する。
まず,先行知識を活用した効率的な因果発見手法を提案する。
次に,時系列データの因果関係を推定する手法の拡張を提案する。
元のCAM-UVアルゴリズムは、観測変数間の因果順序を求めるのではなく、観測変数ごとに原因を特定することを目的としているという点で、既存の因果関数モデルとは異なる。
したがって,本論文で最初に提案する手法は,特定の変数が他の変数の原因になり得ないことを理解するなど,事前の知識を活用できる。
さらに,時間的影響に先行する先行知識を組み込むことで,時系列データにおける因果発見のための第1のアルゴリズムを第2の手法に拡張する。
提案手法をシミュレーションデータを用いて検証し,先行知識の蓄積に伴って因果発見の精度が向上することを示す。
さらに, シミュレーションデータと実世界データの両方を用いて, 既存の時系列因果発見法と比較し, 第二の手法を検証した。 This paper proposes two methods for causal additive models with unobserved variables (CAM-UV). CAM-UV assumes that the causal functions take the form of generalized additive models and that latent confounders are present. First, we propose a method that leverages prior knowledge for efficient causal discovery. Then, we propose an extension of this method for inferring causality in time series data. The original CAM-UV algorithm differs from other existing causal function models in that it does not seek the causal order between observed variables, but rather aims to identify the causes for each observed variable. Therefore, the first proposed method in this paper utilizes prior knowledge, such as understanding that certain variables cannot be causes of specific others. Moreover, by incorporating the prior knowledge that causes precedes their effects in time, we extend the first algorithm to the second method for causal discovery in time series data. We validate the first proposed method by using simulated data to demonstrate that the accuracy of causal discovery increases as more prior knowledge is accumulated. Additionally, we test the second proposed method by comparing it with existing time series causal discovery methods, using both simulated data and real-world data. | 翻訳日:2024-01-19 13:27:57 公開日:2024-01-18 |
# 平均場下減衰ランゲヴィンダイナミクスとその時空離散化 Mean-field underdamped Langevin dynamics and its spacetime discretization ( http://arxiv.org/abs/2312.16360v4 ) ライセンス: Link先を確認 | Qiang Fu, Ashia Wilson | (参考訳) 確率測度空間上で定義された非線形汎函数の特殊クラスを最適化するN-粒子アンダーダム化ランゲヴィンアルゴリズムを提案する。
この定式化に関する問題の例としては、平均場ニューラルネットワークのトレーニング、最大平均離散性最小化、カーネルスタイン離散性最小化などがある。
我々のアルゴリズムは、平均場下にあるランゲヴィン力学の時空離散化に基づいており、新しい高速混合保証を提供する。
さらに,本アルゴリズムは全変動距離においてグローバルに収束し,ダイナミクスと実用的実装との理論的ギャップを橋渡しすることを示した。 We propose a new method called the N-particle underdamped Langevin algorithm for optimizing a special class of non-linear functionals defined over the space of probability measures. Examples of problems with this formulation include training mean-field neural networks, maximum mean discrepancy minimization and kernel Stein discrepancy minimization. Our algorithm is based on a novel spacetime discretization of the mean-field underdamped Langevin dynamics, for which we provide a new, fast mixing guarantee. In addition, we demonstrate that our algorithm converges globally in total variation distance, bridging the theoretical gap between the dynamics and its practical implementation. | 翻訳日:2024-01-19 13:27:37 公開日:2024-01-18 |
# 責任あるAIメトリックのカタログに向けて:AIアカウンタビリティのためのメトリクスのコレクション Towards a Responsible AI Metrics Catalogue: A Collection of Metrics for AI Accountability ( http://arxiv.org/abs/2311.13158v3 ) ライセンス: Link先を確認 | Boming Xia, Qinghua Lu, Liming Zhu, Sung Une Lee, Yue Liu, Zhenchang Xing | (参考訳) 人工知能(AI)、特にLarge Language Models(LLMs)のような大規模生成AI(GenAI)モデルの出現により、現代技術における変革的要素となった。
これらのモデルは新たな可能性を解き放ちましたが、データプライバシに関する懸念や、誤解を招くようなコンテンツを生成する傾向など、重大な課題も提示しています。
責任あるai(rai)のための現在のフレームワークは、特に説明責任のために、具体的なアプリケーションに必要な粒度のガイダンスを提供するのに不足することが多い。
本研究は,学術文献と灰色文献の両方の知見を統合した,体系的多言語文献レビュー(MLR)を通じて策定された総合的なメトリクスカタログへの取り組みによって,説明責任ギャップを埋めるものである。
我々のカタログは、手続き的整合性を支えるプロセスメトリクス、必要なツールやフレームワークを提供するリソースメトリクス、AIシステムのアウトプットを反映する製品メトリクスを記述しています。
この三部構成のフレームワークは、AIのアカウンタビリティを運用するために設計されており、特にGenAIの複雑さに対処することに焦点を当てている。 Artificial Intelligence (AI), particularly through the advent of large-scale generative AI (GenAI) models such as Large Language Models (LLMs), has become a transformative element in contemporary technology. While these models have unlocked new possibilities, they simultaneously present significant challenges, such as concerns over data privacy and the propensity to generate misleading or fabricated content. Current frameworks for Responsible AI (RAI) often fall short in providing the granular guidance necessary for tangible application, especially for Accountability-a principle that is pivotal for ensuring transparent and auditable decision-making, bolstering public trust, and meeting increasing regulatory expectations. This study bridges the accountability gap by introducing our effort towards a comprehensive metrics catalogue, formulated through a systematic multivocal literature review (MLR) that integrates findings from both academic and grey literature. Our catalogue delineates process metrics that underpin procedural integrity, resource metrics that provide necessary tools and frameworks, and product metrics that reflect the outputs of AI systems. This tripartite framework is designed to operationalize Accountability in AI, with a special emphasis on addressing the intricacies of GenAI. | 翻訳日:2024-01-19 13:27:26 公開日:2024-01-18 |
# FIKIT:カーネル同定による優先度に基づくリアルタイムGPUマルチタスクスケジューリング FIKIT: Priority-Based Real-time GPU Multi-tasking Scheduling with Kernel Identification ( http://arxiv.org/abs/2311.10359v4 ) ライセンス: Link先を確認 | Wenqing Wu | (参考訳) 機械学習トレーニングや推論、一般的なHPCタスクといった高度な並列処理は、GPUデバイスを使用して大幅に高速化される。
クラウドコンピューティングクラスタでは、マルチタスク共有を通じてgpuの計算能力を提供するには、利用可能なgpuの数よりもタスク要求が常に多いため、非常に要求される。
既存のGPU共有ソリューションでは、単一のGPUで競合する複数のジョブのタスクレベルの待ち時間やタスクレベルの切り替えコストの削減に重点を置いている。
非停止計算要求は、異なる優先順位を持ち、gpuデバイスを共有するためにqosに非対称な影響を与える。
既存の作業はこの設定によってもたらされたカーネルレベルの最適化の機会を逃した。
そこで本研究では, FIKIT: Filling Inter-kernel Idle Timeというカーネルレベルのスケジューリング手法を提案する。
FIKITはタスクレベルの優先度情報、きめ細かいカーネル識別、カーネル計測を組み込んでおり、優先度の高いタスクのカーネル間アイドル時間内での優先度の低いタスクの実行を可能にする。
これにより、GPUのデバイスランタイムを完全に満たし、クラウドサービスに対する全体的なGPU共有の影響を低減することができる。
一連のMLモデル全体で、FIKITベースの推論システムは、GPU共有モードのJCTに比べて優先度の高いタスクを1.33倍から14.87倍に加速し、ケースの半数以上が3.5倍以上加速した。
あるいは、プリエンプティブ共有の下では、低優先度タスクはデフォルトのGPU共有モード JCTと同等で、0.84から1倍である。
さらにカーネル計測と実行時の細粒度カーネルスケジューリングのオーバーヘッドを5%未満に制限した。 Highly parallelized workloads like machine learning training, inferences and general HPC tasks are greatly accelerated using GPU devices. In a cloud computing cluster, serving a GPU's computation power through multi-tasks sharing is highly demanded since there are always more task requests than the number of GPU available. Existing GPU sharing solutions focus on reducing task-level waiting time or task-level switching costs when multiple jobs competing for a single GPU. Non-stopped computation requests come with different priorities, having non-symmetric impact on QoS for sharing a GPU device. Existing work missed the kernel-level optimization opportunity brought by this setting. To address this problem, we present a novel kernel-level scheduling strategy called FIKIT: Filling Inter-kernel Idle Time. FIKIT incorporates task-level priority information, fine-grained kernel identification, and kernel measurement, allowing low priorities task's execution during high priority task's inter-kernel idle time. Thereby, filling the GPU's device runtime fully, and reduce overall GPU sharing impact to cloud services. Across a set of ML models, the FIKIT based inference system accelerated high priority tasks by 1.33 to 14.87 times compared to the JCT in GPU sharing mode, and more than half of the cases are accelerated by more than 3.5 times. Alternatively, under preemptive sharing, the low-priority tasks have a comparable to default GPU sharing mode JCT, with a 0.84 to 1 times ratio. We further limit the kernel measurement and runtime fine-grained kernel scheduling overhead to less than 5%. | 翻訳日:2024-01-19 13:27:02 公開日:2024-01-18 |
# MolCA: クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリング MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter ( http://arxiv.org/abs/2310.12798v4 ) ライセンス: Link先を確認 | Zhiyuan Liu, Sihang Li, Yanchen Luo, Hao Fei, Yixin Cao, Kenji Kawaguchi, Xiang Wang, Tat-Seng Chua | (参考訳) 言語モデル(LM)は、様々な1Dテキスト関連タスクにおいて、印象的な分子理解能力を示す。
しかし、それらは本質的に2dグラフ知覚を欠いている - 分子のトポロジー構造を理解するための人間専門家の批判的な能力である。
このギャップを埋めるために,MolCA: クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリングを提案する。
MolCAは、LM(例えばGalactica)が、クロスモーダルプロジェクターを介してテキストおよびグラフベースの分子内容を理解することを可能にする。
具体的には、クロスモーダルプロジェクタをQ-Formerとして実装し、グラフエンコーダの表現空間とLMのテキスト空間を接続する。
さらに molca は lm の下流タスクへの効率的な適応のために uni-modal adapter (すなわち lora) を採用している。
クロスモーダルなコントラスト学習によってlmとグラフエンコーダを結合する以前の研究とは異なり、molcaはlmのオープンエンドテキスト生成能力を保ち、2dグラフ情報で拡張する。
提案手法の有効性を示すため,分子キャプション,IUPAC名予測,分子テキスト検索のタスクにおいてMomolCAを広範囲にベンチマークした。
私たちのコードとチェックポイントはhttps://github.com/acharkq/MolCA.orgで確認できます。 Language Models (LMs) have demonstrated impressive molecule understanding ability on various 1D text-related tasks. However, they inherently lack 2D graph perception - a critical ability of human professionals in comprehending molecules' topological structures. To bridge this gap, we propose MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter. MolCA enables an LM (e.g., Galactica) to understand both text- and graph-based molecular contents via the cross-modal projector. Specifically, the cross-modal projector is implemented as a Q-Former to connect a graph encoder's representation space and an LM's text space. Further, MolCA employs a uni-modal adapter (i.e., LoRA) for the LM's efficient adaptation to downstream tasks. Unlike previous studies that couple an LM with a graph encoder via cross-modal contrastive learning, MolCA retains the LM's ability of open-ended text generation and augments it with 2D graph information. To showcase its effectiveness, we extensively benchmark MolCA on tasks of molecule captioning, IUPAC name prediction, and molecule-text retrieval, on which MolCA significantly outperforms the baselines. Our codes and checkpoints can be found at https://github.com/acharkq/MolCA. | 翻訳日:2024-01-19 13:26:34 公開日:2024-01-18 |
# 画素ワイドグレーディエントクリッピングによる高分解能3次元生成の促進 Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping ( http://arxiv.org/abs/2310.12474v4 ) ライセンス: Link先を確認 | Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang | (参考訳) 高解像度の3Dオブジェクト生成は、主に包括的な注釈付きトレーニングデータの可用性が限られているため、依然として難しい課題である。
最近の進歩は、Score Distillation Sampling (SDS)のような知識伝達技術を用いて、広範囲のキュレートされたWebデータセットで事前訓練された画像生成モデルを活用することで、この制約を克服することを目的としている。
高分解能レンダリングの要求に効率的に対処するためには、しばしば潜伏拡散モデル(ldm)のような潜伏表現ベースのモデルを採用する必要がある。
このフレームワークでは、個々の画像画素の勾配を計算するには、LCMで使用されるVAEエンコーダのような画像モデルの凍ったコンポーネントを通して、指定された潜在空間から勾配をバックプロパゲートする必要がある。
しかし、この勾配伝播経路は最適化されておらず、訓練中は制御されていない。
画像生成モデルからテクスチャ関連情報を取得する際に,非規制勾配が3次元モデルの能力に悪影響を及ぼすことが判明した。
そこで本研究では,既存の3次元生成モデルへのシームレスな統合を実現するため,画素方向勾配クリッピング (pgc) と呼ばれる革新的な操作を提案する。
具体的には,ピクセル毎の勾配を効率的にクリップし,テクスチャ関連勾配方向を維持しながら,確率的勾配の大きさを制御する。
このシンプルさと最小限の余剰コストにもかかわらず、高解像度オブジェクトレンダリングのための既存の3次元生成モデルの性能向上にPGCの有効性を実証する広範な実験を行った。 High-resolution 3D object generation remains a challenging task primarily due to the limited availability of comprehensive annotated training data. Recent advancements have aimed to overcome this constraint by harnessing image generative models, pretrained on extensive curated web datasets, using knowledge transfer techniques like Score Distillation Sampling (SDS). Efficiently addressing the requirements of high-resolution rendering often necessitates the adoption of latent representation-based models, such as the Latent Diffusion Model (LDM). In this framework, a significant challenge arises: To compute gradients for individual image pixels, it is necessary to backpropagate gradients from the designated latent space through the frozen components of the image model, such as the VAE encoder used within LDM. However, this gradient propagation pathway has never been optimized, remaining uncontrolled during training. We find that the unregulated gradients adversely affect the 3D model's capacity in acquiring texture-related information from the image generative model, leading to poor quality appearance synthesis. To address this overarching challenge, we propose an innovative operation termed Pixel-wise Gradient Clipping (PGC) designed for seamless integration into existing 3D generative models, thereby enhancing their synthesis quality. Specifically, we control the magnitude of stochastic gradients by clipping the pixel-wise gradients efficiently, while preserving crucial texture-related gradient directions. Despite this simplicity and minimal extra cost, extensive experiments demonstrate the efficacy of our PGC in enhancing the performance of existing 3D generative models for high-resolution object rendering. | 翻訳日:2024-01-19 13:26:10 公開日:2024-01-18 |
# 決定ダイアグラムに基づくキャッシングによる支配とサブオプティリティ検出 Decision Diagram-Based Branch-and-Bound with Caching for Dominance and Suboptimality Detection ( http://arxiv.org/abs/2211.13118v5 ) ライセンス: Link先を確認 | Vianney Copp\'e, Xavier Gillard, Pierre Schaus | (参考訳) 2016年にBergmanらによって導入された決定図に基づく分岐とバウンドのアルゴリズムは、動的プログラミングの定式化によって離散最適化問題を解決するためのフレームワークである。
これは、任意の部分問題に対して下限と上限を提供する一連の有界幅決定ダイアグラムをコンパイルすることで機能する。
最終的には、検索空間のすべての部分がアルゴリズムによって探索または切断されるため、最適性が証明される。
本稿では動的プログラミングモデルの構造を利用して探索を高速化する新しい要素を提案する。
鍵となる考え方は、検索中にキャッシュされた拡張しきい値に問い合わせることで、同じ動的プログラミング状態に対応するノードの繰り返し拡張を防止することである。
これらのしきい値は、以前に発見された部分解と2021年にギラードらが導入したフィルタリング手法の不等式との間の支配関係に基づいている。
計算実験により、このキャッシング機構によって引き起こされるプルーニングにより、アルゴリズムによって拡張されたノードの数を大幅に削減できることが示された。
これにより、より狭い決定ダイアグラムを使いながら、より少ない時間で難しい最適化問題のベンチマークインスタンスが解決される。 The branch-and-bound algorithm based on decision diagrams introduced by Bergman et al. in 2016 is a framework for solving discrete optimization problems with a dynamic programming formulation. It works by compiling a series of bounded-width decision diagrams that can provide lower and upper bounds for any given subproblem. Eventually, every part of the search space will be either explored or pruned by the algorithm, thus proving optimality. This paper presents new ingredients to speed up the search by exploiting the structure of dynamic programming models. The key idea is to prevent the repeated expansion of nodes corresponding to the same dynamic programming states by querying expansion thresholds cached throughout the search. These thresholds are based on dominance relations between partial solutions previously found and on the pruning inequalities of the filtering techniques introduced by Gillard et al. in 2021. Computational experiments show that the pruning brought by this caching mechanism allows significantly reducing the number of nodes expanded by the algorithm. This results in more benchmark instances of difficult optimization problems being solved in less time while using narrower decision diagrams. | 翻訳日:2024-01-19 13:25:43 公開日:2024-01-18 |
# 多重ボソニックまたはフェルミオン環境に対する拡張系-バス絡み合い定理 Extended system-bath entanglement theorem for multiple bosonic or fermionic environments ( http://arxiv.org/abs/2401.09228v2 ) ライセンス: Link先を確認 | Yu Su, Hao-Yang Qi, Zi-Hao Chen, Yao Wang, Rui-Xue Xu, YiJing Yan | (参考訳) システムバス絡み合い定理 (SBET) は線形応答関数 (J. Chem. Phys. 152, 034102 (2020)) で確立され、我々の以前の研究で相関関数 (arXiv: 2312.13618 (2023)) に一般化された。
この定理は、絡み合った系バスの性質を局所系と素浴に結びつける。
本研究では,まずSBETを,異なる温度で複数のボソニック・ガウス環境を持つ場状条件に拡張する。
システムだけでなく環境も、実際のように光学的偏光性を持つと考えられている。
ここで開発された拡張スベットの助けにより、ポンププローブなどの非線形分光の評価のために、ある量子散逸法によるシステム進化の低減により、絡み合ったシステム・バスの寄与が得られる。
フィールド自由条件における拡張SBETと古典的極限における拡張SBETも提示される。
フェルミオン環境のためのSBETは、完全性のための輸送シナリオの中で詳しく説明されている。 The system-bath entanglement theorem (SBET) was established in terms of linear response functions [J. Chem. Phys. 152, 034102 (2020)] and generalized to correlation functions [arXiv: 2312.13618 (2023)] in our previous works. This theorem connects the entangled system-bath properties to the local system and bare bath ones. In this work, firstly we extend the SBET to field-dressed conditions with multiple bosonic Gaussian environments at different temperatures. Not only the system but also environments are considered to be of optical polarizability, as in reality. With the aid of the extended SBET developed here, for the evaluation of the nonlinear spectroscopy such as the pump-probe, the entangled system-bath contributions can be obtained upon reduced system evolutions via certain quantum dissipative methods. The extended SBET in the field-free condition and its counterpart in the classical limit is also presented. The SBET for fermionic environments is elaborated within the transport scenarios for completeness. | 翻訳日:2024-01-19 13:11:48 公開日:2024-01-18 |
# 言語モデルによるプログレッシブトレーニングのための準備 Preparing Lessons for Progressive Training on Language Models ( http://arxiv.org/abs/2401.09192v2 ) ライセンス: Link先を確認 | Yu Pan, Ye Yuan, Yichun Yin, Jiaxin Shi, Zenglin Xu, Ming Zhang, Lifeng Shang, Xin Jiang, Qun Liu | (参考訳) 人工知能におけるトランスフォーマーの急速な進歩は、モデルサイズの増加による資源消費の増大と温室効果ガス排出の増大によるコストを伴っている。
事前の作業は、トレーニング効率を改善するために事前訓練された小さなモデルを使うことを推奨するが、このアプローチは新しいモデル構造には適さないかもしれない。
一方、スクラッチからのトレーニングは遅くなり、層を段階的に積み重ねることはしばしば大きな加速を達成できない。
これらの課題に対処するために、我々は、低層トレーニング中の高テキストbf{l}ayer functi\textbf{o}nality によるex\textbf{p}anding \textbf{o}perationの授業をprep\textbf{a}resするapolloという新しい手法を提案する。
提案手法では,低値優先サンプリング (lvps) を用いて異なる深さと重み付けを訓練し,効率的な拡張を促進する。
また,安定なモデル深度拡張のための補間法を提案する。
実験の結果、アポロ計画が最先端の加速比を達成し、事前訓練されたモデルを使った方法に匹敵する結果となり、時間、財政、環境コストを削減しながら深層モデルのトレーニングを行うための普遍的で効率的なソリューションとなった。 The rapid progress of Transformers in artificial intelligence has come at the cost of increased resource consumption and greenhouse gas emissions due to growing model sizes. Prior work suggests using pretrained small models to improve training efficiency, but this approach may not be suitable for new model structures. On the other hand, training from scratch can be slow, and progressively stacking layers often fails to achieve significant acceleration. To address these challenges, we propose a novel method called Apollo, which prep\textbf{a}res lessons for ex\textbf{p}anding \textbf{o}perations by \textbf{l}earning high-\textbf{l}ayer functi\textbf{o}nality during training of low layers. Our approach involves low-value-prioritized sampling (LVPS) to train different depths and weight sharing to facilitate efficient expansion. We also introduce an interpolation method for stable model depth extension. Experiments demonstrate that Apollo achieves state-of-the-art acceleration ratios, even rivaling methods using pretrained models, making it a universal and efficient solution for training deep models while reducing time, financial, and environmental costs. | 翻訳日:2024-01-19 13:11:28 公開日:2024-01-18 |
# 変分オートエンコーダにおける非教師なし多重ドメイン変換 Unsupervised Multiple Domain Translation through Controlled Disentanglement in Variational Autoencoder ( http://arxiv.org/abs/2401.09180v2 ) ライセンス: Link先を確認 | Antonio Almud\'evar and Th\'eo Mariotte and Alfonso Ortega and Marie Tahon | (参考訳) 教師なし多重ドメイン変換(unsupervised multiple domain translation)は、1つのドメインから別のドメインにデータを変換するタスクである。
通常、GAN(Generative Adversarial Networks)に基づく手法がこの課題に対処するために用いられる。
しかし,提案手法は変分オートエンコーダの修正版にのみ依存する。
この修正は、2つの潜在変数を設計によって制御された方法で分離することから成り立っている。
この潜伏変数の1つはドメインにのみ依存するように強制され、もう1つはデータの他の変数因子に依存しなければならない。
さらに、ドメイン潜在変数に課される条件は、潜在空間の制御と理解をより良くすることができる。
我々のアプローチが異なるビジョンデータセットで動作し、他のよく知られた方法のパフォーマンスを改善することを実証的に実証する。
最後に、潜在変数の1つはドメインに関連するすべての情報を格納し、もう1つはドメイン情報を含んでいないことを証明します。 Unsupervised Multiple Domain Translation is the task of transforming data from one domain to other domains without having paired data to train the systems. Typically, methods based on Generative Adversarial Networks (GANs) are used to address this task. However, our proposal exclusively relies on a modified version of a Variational Autoencoder. This modification consists of the use of two latent variables disentangled in a controlled way by design. One of this latent variables is imposed to depend exclusively on the domain, while the other one must depend on the rest of the variability factors of the data. Additionally, the conditions imposed over the domain latent variable allow for better control and understanding of the latent space. We empirically demonstrate that our approach works on different vision datasets improving the performance of other well known methods. Finally, we prove that, indeed, one of the latent variables stores all the information related to the domain and the other one hardly contains any domain information. | 翻訳日:2024-01-19 13:10:59 公開日:2024-01-18 |
# ベクトル化HDマップ構築のためのストリームクエリDenoising Stream Query Denoising for Vectorized HD Map Construction ( http://arxiv.org/abs/2401.09112v2 ) ライセンス: Link先を確認 | Shuo Wang, Fan Jia, Yingfei Liu, Yucheng Zhao, Zehui Chen, Tiancai Wang, Chi Zhang, Xiangyu Zhang, Feng Zhao | (参考訳) 自律運転の領域における複雑で広範なシナリオにおける知覚性能を高めるために、特にストリーミング手法に焦点を当てた時間的モデリングに注目が集まっている。
ストリーミングモデルにおける一般的なトレンドは、時間情報の伝搬にストリームクエリを利用することである。
このアプローチが普及しているにもかかわらず、ベクトル化ハイデフィニションマップ(HD-maps)の構築へのストリーミングパラダイムの直接的な適用は、時間情報の固有ポテンシャルを完全に活用することができない。
本稿では,HDマップ構築における時間的モデリングのための新しいアプローチとして,ストリームクエリデノイング(SQD)戦略を紹介する。
SQDはストリーミングモデル内のマップ要素間の時間的一貫性の学習を容易にするように設計されている。
提案手法は,前のフレームからの接地情報に対するノイズの追加によりゆるめられたクエリを特徴付けるものである。
このノイズ除去プロセスは、現在のフレームの基底情報を再構築し、ストリームクエリに固有の予測プロセスをシミュレートすることを目的としている。
SQD戦略は、時間的モデリングを強化するために、ストリーミングメソッド(StreamMapNetなど)に適用することができる。
提案されているSQD-MapNetはSQDを備えたStreamMapNetである。
ヌッセンとアルゴバース2を広範囲に実験した結果,近距離と遠距離のすべての設定において,既存の手法よりも優れた方法が得られた。
コードはもうすぐ入手できる。 To enhance perception performance in complex and extensive scenarios within the realm of autonomous driving, there has been a noteworthy focus on temporal modeling, with a particular emphasis on streaming methods. The prevailing trend in streaming models involves the utilization of stream queries for the propagation of temporal information. Despite the prevalence of this approach, the direct application of the streaming paradigm to the construction of vectorized high-definition maps (HD-maps) fails to fully harness the inherent potential of temporal information. This paper introduces the Stream Query Denoising (SQD) strategy as a novel approach for temporal modeling in high-definition map (HD-map) construction. SQD is designed to facilitate the learning of temporal consistency among map elements within the streaming model. The methodology involves denoising the queries that have been perturbed by the addition of noise to the ground-truth information from the preceding frame. This denoising process aims to reconstruct the ground-truth information for the current frame, thereby simulating the prediction process inherent in stream queries. The SQD strategy can be applied to those streaming methods (e.g., StreamMapNet) to enhance the temporal modeling. The proposed SQD-MapNet is the StreamMapNet equipped with SQD. Extensive experiments on nuScenes and Argoverse2 show that our method is remarkably superior to other existing methods across all settings of close range and long range. The code will be available soon. | 翻訳日:2024-01-19 13:10:45 公開日:2024-01-18 |
# B-Cosアライメント変換器は人間の解釈可能な特徴を学習する B-Cos Aligned Transformers Learn Human-Interpretable Features ( http://arxiv.org/abs/2401.08868v2 ) ライセンス: Link先を確認 | Manuel Tran and Amal Lahiani and Yashin Dicente Cid and Melanie Boxberg and Peter Lienemann and Christian Matek and Sophia J. Wagner and Fabian J. Theis and Eldad Klaiman and Tingying Peng | (参考訳) Vision Transformers (ViT) と Swin Transformers (Swin) は現在、計算病理学の最先端にある。
しかし、ドメインの専門家は解釈可能性の欠如のため、これらのモデルの使用をいまだに控えている。
重要な決定は透明で理解しなくてはならないため、これは驚くべきことではない。
トランスフォーマーを理解する最も一般的なアプローチは、彼らの注意を可視化することだ。
しかし、ViTの注意マップはしばしば断片化され、不満足な説明につながる。
本稿では,B-cos Vision Transformer (BvT) と呼ばれる,より解釈可能なアーキテクチャを提案する。
すべての線形変換をB-cos変換に置き換え、重み-入力アライメントを促進する。
盲目な調査では、医療専門家が明らかにBvTsをViTsより上位にランク付けし、我々のネットワークは生医学的な関連構造を捉えるのに優れていることを示唆している。
これはB-cos Swin Transformer (Bwin)にも当てはまる。
swin transformerと比較して、2つの公開データセットでf1-scoreを最大4.7%改善している。 Vision Transformers (ViTs) and Swin Transformers (Swin) are currently state-of-the-art in computational pathology. However, domain experts are still reluctant to use these models due to their lack of interpretability. This is not surprising, as critical decisions need to be transparent and understandable. The most common approach to understanding transformers is to visualize their attention. However, attention maps of ViTs are often fragmented, leading to unsatisfactory explanations. Here, we introduce a novel architecture called the B-cos Vision Transformer (BvT) that is designed to be more interpretable. It replaces all linear transformations with the B-cos transform to promote weight-input alignment. In a blinded study, medical experts clearly ranked BvTs above ViTs, suggesting that our network is better at capturing biomedically relevant structures. This is also true for the B-cos Swin Transformer (Bwin). Compared to the Swin Transformer, it even improves the F1-score by up to 4.7% on two public datasets. | 翻訳日:2024-01-19 13:10:23 公開日:2024-01-18 |
# MA2GCN:トラジェクトリデータを用いた交通予測のための複数隣接関係注意グラフ畳み込みネットワーク MA2GCN: Multi Adjacency relationship Attention Graph Convolutional Networks for Traffic Prediction using Trajectory data ( http://arxiv.org/abs/2401.08727v2 ) ライセンス: Link先を確認 | Zhengke Sun, Yuliang Ma | (参考訳) 交通渋滞の問題は、大量の経済的損失を引き起こすだけでなく、都市環境を深刻な危険にさらす。
交通渋滞の予測は重要な実践的重要性を持つ。
これまでのところ、ほとんどの研究は、異なる道路に設置されたセンサーによる過去のデータに基づいて、将来の交通の流れと速度を予測し、特定の道路区間の交通渋滞状況を分析する。
しかし,センサの位置が一定であるため,新たな情報をマイニングすることは困難である。
一方、車両軌道データはより柔軟であり、必要に応じて交通情報を抽出することができる。
そこで我々は,新しい交通渋滞予測モデルであるマルチアジャシエンス関係アテンショングラフ畳み込みネットワーク(MA2GCN)を提案する。
このモデルは、車両の軌道データをグリッド形式でグラフ構造化データに変換し、異なるグリッド間の移動性に基づく車両の進入行列を提案した。
同時に,モデルの性能を向上させるため,適応行列生成法と隣接行列アテンションモジュールを新たに構築した。
このモデルは主に、時間情報と空間情報を抽出するために、ゲート時間畳み込みとグラフ畳み込みを用いた。
複数のベースラインと比較すると,上海タクシーのGPSトラジェクトリデータセットで最高の性能を示した。
コードはhttps://github.com/zachysun/taxi_traffic_benchmarkで入手できる。 The problem of traffic congestion not only causes a large amount of economic losses, but also seriously endangers the urban environment. Predicting traffic congestion has important practical significance. So far, most studies have been based on historical data from sensors placed on different roads to predict future traffic flow and speed, to analyze the traffic congestion conditions of a certain road segment. However, due to the fixed position of sensors, it is difficult to mine new information. On the other hand, vehicle trajectory data is more flexible and can extract traffic information as needed. Therefore, we proposed a new traffic congestion prediction model - Multi Adjacency relationship Attention Graph Convolutional Networks(MA2GCN). This model transformed vehicle trajectory data into graph structured data in grid form, and proposed a vehicle entry and exit matrix based on the mobility between different grids. At the same time, in order to improve the performance of the model, this paper also built a new adaptive adjacency matrix generation method and adjacency matrix attention module. This model mainly used gated temporal convolution and graph convolution to extract temporal and spatial information, respectively. Compared with multiple baselines, our model achieved the best performance on Shanghai taxi GPS trajectory dataset. The code is available at https://github.com/zachysun/Taxi_Traffic_Benchmark. | 翻訳日:2024-01-19 13:10:07 公開日:2024-01-18 |
# PlayMyData:マルチプラットフォームビデオゲームのキュレートされたデータセット PlayMyData: a curated dataset of multi-platform video games ( http://arxiv.org/abs/2401.08561v2 ) ライセンス: Link先を確認 | Andrea D'Angelo, Claudio Di Sipio, Cristiano Politowski, and Riccardo Rubei | (参考訳) 何十年にもわたってデジタルエンタテインメントで優勢なビデオゲームは、ソフトウェアエンジニアリング(se)コミュニティによって価値あるソフトウェアアーティファクトとして認識されてきた。
このような認識は、経験的研究から分類タスクへのAI技術の適用まで、いくつかの研究機会を明らかにしている。
この点において、収集されたデータは高度なモデルの適用や学際的な研究を可能にするには不十分であるにもかかわらず、研究目的でいくつかのキュレートされたゲームデータセットが開示されている。
さらに、ほとんどのゲームはpcゲームに限られており、playstation、xbox、nintendoなど、悪名高いゲームプラットフォームは除外されている。
本稿では,IGDB ウェブサイトが収集した 99,864 個のマルチプラットフォームゲームからなるキュレートデータセット PlayMyData を提案する。
専用APIを利用することで、説明、ジャンル、評価、ゲームプレイビデオURL、スクリーンショットなど、各ゲームに関連するメタデータを収集する。
さらに,HLTB Webサイトをマイニングすることで,各ゲームを完成させるために必要なタイミングでPlayMyDataを充実させる。
私たちの知る限りでは、これはSEのさまざまな自動化タスクをサポートするために使用できる、ドメインで最も包括的なデータセットです。
さらに重要なことに、playmydataは、提供されるマルチメディアデータの上に構築されたクロスドメインな調査を促進するために使用できる。 Being predominant in digital entertainment for decades, video games have been recognized as valuable software artifacts by the software engineering (SE) community just recently. Such an acknowledgment has unveiled several research opportunities, spanning from empirical studies to the application of AI techniques for classification tasks. In this respect, several curated game datasets have been disclosed for research purposes even though the collected data are insufficient to support the application of advanced models or to enable interdisciplinary studies. Moreover, the majority of those are limited to PC games, thus excluding notorious gaming platforms, e.g., PlayStation, Xbox, and Nintendo. In this paper, we propose PlayMyData, a curated dataset composed of 99,864 multi-platform games gathered by IGDB website. By exploiting a dedicated API, we collect relevant metadata for each game, e.g., description, genre, rating, gameplay video URLs, and screenshots. Furthermore, we enrich PlayMyData with the timing needed to complete each game by mining the HLTB website. To the best of our knowledge, this is the most comprehensive dataset in the domain that can be used to support different automated tasks in SE. More importantly, PlayMyData can be used to foster cross-domain investigations built on top of the provided multimedia data. | 翻訳日:2024-01-19 13:09:45 公開日:2024-01-18 |
# コントラスト優先最適化:機械翻訳におけるLLM性能の境界を押し上げる Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation ( http://arxiv.org/abs/2401.08417v2 ) ライセンス: Link先を確認 | Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim | (参考訳) 7Bまたは13Bパラメータを持つモデレートサイズの大規模言語モデル(LLM)は、有望な機械翻訳(MT)性能を示す。
しかし、ALMAのようなトップパフォーマンスの13B LLMベースの翻訳モデルでさえ、最先端のエンコーダ・デコーダ翻訳モデルや、GPT-4のような大規模LLMの性能とは一致しない。
本研究では,この性能ギャップを橋渡しする。
MTタスクにおけるLLMの教師付き微調整の欠点をまず評価し,人為的に生成されているにもかかわらず,参照データに存在する品質問題を強調した。
そして、参照翻訳を模倣するsftとは対照的に、適切なが完全ではない翻訳を生成するのを避けるためにモデルを訓練する新しいアプローチであるコントラスト優先最適化(cpo)を導入する。
22Kパラレル文と12Mパラメータしか持たないALMAモデルへのCPOの適用は、大幅な改善をもたらす。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者と、WMT'21、WMT'22、WMT'23テストデータセットのGPT-4のパフォーマンスを一致または超過することができる。 Moderate-sized large language models (LLMs) -- those with 7B or 13B parameters -- exhibit promising machine translation (MT) performance. However, even the top-performing 13B LLM-based translation models, like ALMA, does not match the performance of state-of-the-art conventional encoder-decoder translation models or larger-scale LLMs such as GPT-4. In this study, we bridge this performance gap. We first assess the shortcomings of supervised fine-tuning for LLMs in the MT task, emphasizing the quality issues present in the reference data, despite being human-generated. Then, in contrast to SFT which mimics reference translations, we introduce Contrastive Preference Optimization (CPO), a novel approach that trains models to avoid generating adequate but not perfect translations. Applying CPO to ALMA models with only 22K parallel sentences and 12M parameters yields significant improvements. The resulting model, called ALMA-R, can match or exceed the performance of the WMT competition winners and GPT-4 on WMT'21, WMT'22 and WMT'23 test datasets. | 翻訳日:2024-01-19 13:09:26 公開日:2024-01-18 |
# ローカルウィンドウの限界を超越する:適応トークン辞書を用いた高度超解像トランス Transcending the Limit of Local Window: Advanced Super-Resolution Transformer with Adaptive Token Dictionary ( http://arxiv.org/abs/2401.08209v2 ) ライセンス: Link先を確認 | Leheng Zhang, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu | (参考訳) Single Image Super-Resolutionは、高解像度(HR)画像を低解像度(LR)画像から推定する古典的なコンピュータビジョン問題である。
ディープニューラルネットワーク(DNN)、特に超解像度のトランスフォーマーは近年大きな進歩を遂げているが、特にウィンドウベースの自己認識によって引き起こされる限定的な受容領域において、課題は依然として残っている。
これらの問題に対処するため、SR Transformerに補助的なAdaptive Token Dictionaryを導入し、ATD-SR法を確立する。
導入されたトークン辞書は、トレーニングデータから事前情報を学習し、適応的な改良ステップを通じて、特定のテストイメージに先行して学習を適応させることができる。
改良戦略は、すべての入力トークンにグローバル情報を提供するだけでなく、イメージトークンをカテゴリにグループ化する。
さらに,カテゴリ分割に基づいて,遠距離だが類似したトークンを活用して入力機能を向上させるカテゴリベースの自己照応機構を提案する。
実験結果から,本手法は様々な単一画像超解像ベンチマークにおいて最高の性能が得られることがわかった。 Single Image Super-Resolution is a classic computer vision problem that involves estimating high-resolution (HR) images from low-resolution (LR) ones. Although deep neural networks (DNNs), especially Transformers for super-resolution, have seen significant advancements in recent years, challenges still remain, particularly in limited receptive field caused by window-based self-attention. To address these issues, we introduce a group of auxiliary Adaptive Token Dictionary to SR Transformer and establish an ATD-SR method. The introduced token dictionary could learn prior information from training data and adapt the learned prior to specific testing image through an adaptive refinement step. The refinement strategy could not only provide global information to all input tokens but also group image tokens into categories. Based on category partitions, we further propose a category-based self-attention mechanism designed to leverage distant but similar tokens for enhancing input features. The experimental results show that our method achieves the best performance on various single image super-resolution benchmarks. | 翻訳日:2024-01-19 13:07:51 公開日:2024-01-18 |
# ProvNeRF: 確率過程としてのNeRFにおける点間隔のモデリング ProvNeRF: Modeling per Point Provenance in NeRFs as a Stochastic Process ( http://arxiv.org/abs/2401.08140v2 ) ライセンス: Link先を確認 | Kiyohiro Nakayama, Mikaela Angelina Uy, Yang You, Ke Li, Leonidas Guibas | (参考訳) neural radiance field (nerfs) は様々なアプリケーションで人気を集めている。
しかし、ボリュームレンダリングの十分な制約を欠いたスパースビュー設定では課題に直面している。
スパースカメラと非拘束カメラから3Dシーンを再構成し、理解することは、様々な応用の古典的コンピュータビジョンにおける長年の問題である。
最近の研究は、疎密で制約のないビューシナリオでNeRFを探索しているが、その焦点は主に再構築と新規ビュー合成の強化である。
私たちのアプローチは,“各ポイントがどこにあるのか?”という疑問を提起することで,より広い視点で捉えています。
言い換えれば、各3次元点の起源や証明とその関連情報を、スパースで制約のない視点の下で決定することを目指している。
ProvNeRF(ProvNeRF)は,各点のソース位置をモデル化し,点ごとの証明を組み込むことで従来のNeRF表現を強化するモデルである。
確率過程に対する暗黙的最大推定(IMLE)を拡張することでこれを実現できる。
特に,本手法は,トレーニング済みのNeRFモデルと関連するトレーニングカメラのポーズと互換性がある。
本研究では,不確実性推定,基準に基づくビュー選択,新しいビュー合成の改善など,ポイント前処理のモデリングにいくつかの利点があることを実証する。
プロジェクトページはhttps://provnerf.github.io Neural radiance fields (NeRFs) have gained popularity across various applications. However, they face challenges in the sparse view setting, lacking sufficient constraints from volume rendering. Reconstructing and understanding a 3D scene from sparse and unconstrained cameras is a long-standing problem in classical computer vision with diverse applications. While recent works have explored NeRFs in sparse, unconstrained view scenarios, their focus has been primarily on enhancing reconstruction and novel view synthesis. Our approach takes a broader perspective by posing the question: "from where has each point been seen?" -- which gates how well we can understand and reconstruct it. In other words, we aim to determine the origin or provenance of each 3D point and its associated information under sparse, unconstrained views. We introduce ProvNeRF, a model that enriches a traditional NeRF representation by incorporating per-point provenance, modeling likely source locations for each point. We achieve this by extending implicit maximum likelihood estimation (IMLE) for stochastic processes. Notably, our method is compatible with any pre-trained NeRF model and the associated training camera poses. We demonstrate that modeling per-point provenance offers several advantages, including uncertainty estimation, criteria-based view selection, and improved novel view synthesis, compared to state-of-the-art methods. Please visit our project page at https://provnerf.github.io | 翻訳日:2024-01-19 13:07:31 公開日:2024-01-18 |
# ChatGPT for Biology and Medicine: a Complete Review of Biomedical Question Answering Developing ChatGPT for Biology and Medicine: A Complete Review of Biomedical Question Answering ( http://arxiv.org/abs/2401.07510v2 ) ライセンス: Link先を確認 | Qing Li, Lei Li, Yu Li | (参考訳) ChatGPTは、医療診断、治療レコメンデーション、その他の医療支援の提供において、QA(QA)の戦略的青写真を探っている。
これは、自然言語処理(NLP)とマルチモーダルパラダイムによる医療領域データの取り込みの増加によって達成される。
テキスト,画像,ビデオ,その他のモダリティの分布を一般ドメインから医療ドメインに移行することにより,これらの手法は医療ドメイン質問応答(MDQA)の進展を早めた。
人間の自然言語と高度な医学領域知識や専門家の手動アノテーションの間のギャップを橋渡しし、大規模で多様で、バランスのとれない、あるいはラベルのないデータ分析シナリオを医療現場で扱う。
本研究の焦点は, 言語モデルとマルチモーダルパラダイムを医療質問応答に活用することであり, 特定の医学研究要求に対して適切なメカニズムを選択することを目的としている。
視覚的質問応答,イメージキャプション,クロスモーダル検索,レポート要約,生成といったマルチモーダル関連タスクだけでなく,一助詞関連質問応答,読解理解,推論,診断,関係抽出,確率モデリングなどの特殊タスクについても詳細に論じる。
各セクションは、考慮中の各メソッドの複雑な仕様に分解する。
本稿では,一般的なドメインメソッドに対する医学領域探索の構造と進歩について述べ,さまざまなタスクやデータセットにまたがってその応用を強調する。
また、今後の医学領域研究の課題と機会を概説し、この急速に発展する分野における継続的なイノベーションと応用への道を開く。 ChatGPT explores a strategic blueprint of question answering (QA) in delivering medical diagnosis, treatment recommendations, and other healthcare support. This is achieved through the increasing incorporation of medical domain data via natural language processing (NLP) and multimodal paradigms. By transitioning the distribution of text, images, videos, and other modalities from the general domain to the medical domain, these techniques have expedited the progress of medical domain question answering (MDQA). They bridge the gap between human natural language and sophisticated medical domain knowledge or expert manual annotations, handling large-scale, diverse, unbalanced, or even unlabeled data analysis scenarios in medical contexts. Central to our focus is the utilizing of language models and multimodal paradigms for medical question answering, aiming to guide the research community in selecting appropriate mechanisms for their specific medical research requirements. Specialized tasks such as unimodal-related question answering, reading comprehension, reasoning, diagnosis, relation extraction, probability modeling, and others, as well as multimodal-related tasks like vision question answering, image caption, cross-modal retrieval, report summarization, and generation, are discussed in detail. Each section delves into the intricate specifics of the respective method under consideration. This paper highlights the structures and advancements of medical domain explorations against general domain methods, emphasizing their applications across different tasks and datasets. It also outlines current challenges and opportunities for future medical domain research, paving the way for continued innovation and application in this rapidly evolving field. | 翻訳日:2024-01-19 13:06:25 公開日:2024-01-18 |