このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231004となっている論文です。

PDF登録状況(公開日: 20231004)

TitleAuthorsAbstract論文公表日・翻訳日
# Fuzz on the Beach: ソラナスマートコントラクトのファジィング

Fuzz on the Beach: Fuzzing Solana Smart Contracts ( http://arxiv.org/abs/2309.03006v2 )

ライセンス: Link先を確認
Sven Smolka, Jens-Rene Giesen, Pascal Winkler, Oussama Draissi, Lucas Davi, Ghassan Karame, Klaus Pohl, (参考訳) Solanaはすぐに、非Fungible tokens(NFT)のマーケットプレイスなど、分散アプリケーション(DApps)を構築するための人気のあるプラットフォームとして登場した。 その成功の主な理由は、Solaraの低いトランザクション手数料と高いパフォーマンスであり、その一部はステートレスプログラミングモデルによって達成されている。 文献にはスマートコントラクトセキュリティのための広範囲なツーリングサポートがあるが、現在のソリューションはEthereum仮想マシンにほぼ適している。 残念ながら、Solanaの実行環境の非常にステートレスな性質は、脆弱性分析手法を構築するための再考を必要とするSolana特有の新しい攻撃パターンを導入している。 本稿では,このギャップに対処し,Solaraスマートコントラクトのためのバイナリのみのカバレッジ誘導型ファジリングアーキテクチャであるFuzzDelSolを提案する。 FuzzDelSolは、スマートコントラクトインタラクションのようなランタイム仕様を忠実にモデル化します。 さらに、ソースコードはSolana契約の大部分で利用できないため、FuzzDelSolは契約のバイナリコードで動作する。 そのため,意味情報がないため,我々は低レベルのプログラムと状態情報を慎重に抽出し,Solanaのすべての主要なバグクラスをカバーする多様なバグオーラクルを開発した。 6049のスマートコントラクトに対する広範な評価は、FuzzDelSolのバグオーラクルが、高い精度でバグを見つけ、リコールしていることを示している。 私たちの知る限りでは、これはSolanaのメインネットにおけるセキュリティの状況に関する最大の評価です。

Solana has quickly emerged as a popular platform for building decentralized applications (DApps), such as marketplaces for non-fungible tokens (NFTs). A key reason for its success are Solana's low transaction fees and high performance, which is achieved in part due to its stateless programming model. Although the literature features extensive tooling support for smart contract security, current solutions are largely tailored for the Ethereum Virtual Machine. Unfortunately, the very stateless nature of Solana's execution environment introduces novel attack patterns specific to Solana requiring a rethinking for building vulnerability analysis methods. In this paper, we address this gap and propose FuzzDelSol, the first binary-only coverage-guided fuzzing architecture for Solana smart contracts. FuzzDelSol faithfully models runtime specifics such as smart contract interactions. Moreover, since source code is not available for the large majority of Solana contracts, FuzzDelSol operates on the contract's binary code. Hence, due to the lack of semantic information, we carefully extracted low-level program and state information to develop a diverse set of bug oracles covering all major bug classes in Solana. Our extensive evaluation on 6049 smart contracts shows that FuzzDelSol's bug oracles find bugs with a high precision and recall. To the best of our knowledge, this is the largest evaluation of the security landscape on the Solana mainnet.
翻訳日:2024-03-25 23:09:29 公開日:2023-10-04
# AgEncID: クラウド上のFPGA Bitstream IPコアの暗号化個別復号化

AgEncID: Aggregate Encryption Individual Decryption of Key for FPGA Bitstream IP Cores in Cloud ( http://arxiv.org/abs/2309.16282v2 )

ライセンス: Link先を確認
Mukta Debnath, Krishnendu Guha, Debasri Saha, Susmita Sur-Kolay, (参考訳) クラウドコンピューティングプラットフォームは、特定の計算タスクのための特別なハードウェアアクセラレータをデプロイするために、Field Programmable Gate Arraysを徐々に採用している。 しかし、Intellectual PropertyのためのFPGAベースのビットストリームのセキュリティ、クラウド環境における不正なインターセプションからのIPコアは、依然として大きな懸念点である。 このようなビットストリームを保護するための既存の方法には、多数のキーを必要とすること、特定のFPGAにビットストリームを結び付けること、信頼できるサードパーティに依存することなど、いくつかの制限がある。 本稿では,鍵集約に基づく暗号システムであるAggregate EncryptionとPersonal Decryptionを提案する。 提案方式では,SのFPGAボード上で直接ビットストリームを復号化可能な,FPGAボードのセットSの単一キーでビットストリームを暗号化することができる。 提案方式は主にZynq FPGAを用いて評価する。 その結果、我々の暗号システムは、リソース、時間、エネルギーに関して既存の技術よりも優れているだけでなく、堅牢なセキュリティ保証を保っていることが示される。

Cloud computing platforms are progressively adopting Field Programmable Gate Arrays to deploy specialized hardware accelerators for specific computational tasks. However, the security of FPGA-based bitstream for Intellectual Property, IP cores from unauthorized interception in cloud environments remains a prominent concern. Existing methodologies for protection of such bitstreams possess several limitations, such as requiring a large number of keys, tying bitstreams to specific FPGAs, and relying on trusted third parties. This paper proposes Aggregate Encryption and Individual Decryption, a cryptosystem based on key aggregation to enhance the security of FPGA-based bitstream for IP cores and to address the pitfalls of previous related works. In our proposed scheme, IP providers can encrypt their bitstreams with a single key for a set S of FPGA boards, with which the bitstreams can directly be decrypted on any of the FPGA boards in S. Aggregate encryption of the key is performed in a way which ensures that the key can solely be obtained onboard through individual decryption employing the board's private key, thus facilitating secure key provisioning. The proposed cryptosystem is evaluated mainly on Zynq FPGAs. The outcomes demonstrate that our cryptosystem not only outperforms existing techniques with respect to resource, time and energy significantly but also upholds robust security assurances.
翻訳日:2024-03-25 14:25:03 公開日:2023-10-04
# コードコミッタの包括的変更コンテキストによる脆弱性パッチの特定

Identifying Vulnerability Patches by Comprehending Code Commits with Comprehensive Change Contexts ( http://arxiv.org/abs/2310.02530v1 )

ライセンス: Link先を確認
Tianyu Chen, Lin Li, Taotao Qian, Zeyu Wang, Guangtai Liang, Ding Li, Qianxiang Wang, Tao Xie, (参考訳) アプリケーション開発者がタイムリーに脆弱性パッチを適用するのを助けるため、セキュリティ研究者はNational Vulnerability Database (NVD)のような脆弱性データベースを維持している。 NVDを使用済みライブラリの名前で直接監視することで、アプリケーション開発者は脆弱性とそのパッチを認識することができる。 NVDのパッチ不完全性のため、脆弱性パッチの監視結果は信頼性が低いため、既存のアプローチでは、コードコミットが脆弱性を修正するかどうかを判断することで、追加の脆弱性パッチを特定するためにディープラーニング(DL)モデルを採用している。 しかしながら、これらのアプローチは、制御/データフローコンテキストやメソッド呼び出しコンテキストといったコードコミットの包括的なコンテキストを考慮していないため、低い精度で悩まされる。 そこで我々は,大言語モデル(LLM)であるStarCoderを微調整し,包括的なコンテキストでコードコミットを理解することで,脆弱性の特定を行うCompVPDを設計した。 包括的コンテキストを含むと、LLMのコンテキストサイズとトレーニングコストのバランスをとる必要があることを考慮し、CompVPDは、関係のないコンポーネント(ファイル、メソッド、ステートメント)を削除し、各コンテキストを適応的に拡張することで、与えられたウィンドウサイズ内で包括的なコンテキストを生成する2つの新しいアルゴリズムを含む。 CompVPDと、脆弱性のパッチを特定する4つのSOTA(State-of-the-art/practice)アプローチを実証的に比較する。 その結果,CompVPDはAUCスコアを11%改善し,F1スコアを30%改善した。 さらに、CompVPDは、人気の高い5つのオープンソースプロジェクトの2500のコードコミットから、20の脆弱性パッチと18のリスクの高いバグの修正を見つけることを支援することで、セキュリティプラクティスに高い価値を提供する。

To help application developers apply vulnerability patches timely, security researchers maintain vulnerability databases such as National Vulnerability Database (NVD). By directly monitoring NVD with the name of each used library, application developers can be aware of vulnerabilities and their patches. Given that the monitoring results of vulnerability patches are unreliable due to patch incompleteness of NVD, existing approaches employ deep-learning (DL) models to identify additional vulnerability patches by determining whether a code commit fixes a vulnerability. However, these approaches suffer from low accuracy due to not considering code commits' comprehensive contexts such as control/data-flow contexts or method-invocation contexts. To improve accuracy, we design CompVPD, the first approach to identify vulnerability patches by fine-tuning a large language model (LLM) named StarCoder to comprehend code commits with comprehensive contexts. Considering that including comprehensive contexts needs to balance the context size and the training costs of LLM, CompVPD includes our two novel algorithms to generate comprehensive contexts within the given window size by removing irrelevant components (i.e., files, methods, and statements) and adaptively expanding each context. We empirically compare CompVPD with four state-of-the-art/practice (SOTA) approaches that identify vulnerability patches. The results show that CompVPD improves the AUC score by 11% and the F1 score by 30% when compared with the best scores of the SOTA approaches. Additionally, CompVPD provides high value to security practice by helping identify 20 vulnerability patches and 18 fixes of high-risk bugs from 2,500 recent code commits of five highly popular open-source projects.
翻訳日:2024-03-19 03:21:56 公開日:2023-10-04
# 難読化の鍵は、暗号化を克服するのではなく、人生のパターンである

The Key to Deobfuscation is Pattern of Life, not Overcoming Encryption ( http://arxiv.org/abs/2310.02536v1 )

ライセンス: Link先を確認
Taylor Henderson, Eric Osterweil, Pavan Kumar Dinesh, Robert Simon, (参考訳) プライバシーを守ることは、オンラインユーザーにとって不確実な利点だ。 しかし、この利点(残念なことに)は、サイバー攻撃やその他の種類の不正行為を行う人々にも及んでいる。 本研究は,プライバシ保護技術(PPT)が,オンラインコミュニケーションを行うユーザの意図の悪さを解消するために用いられているシナリオについて考察する。 本稿では,プロトコルのトランザクションパスに沿ったキー位置から測定値を合成することにより,そのようなソースのデオブファスティングに有効な新しい手法を提案する。 提案手法は,オンラインペルソナと元のIPアドレスをPartern of Life (PoL)分析に基づいて関連付ける。 インターネット上の正しい場所での監視では、DNS over HTTPS (DoH) と DNS over TLS (DoT) が100%の精度で非障害化可能である。 本評価では,複数年にわたるソーシャル・ネットワーク・メッセージ・ボードから複数のモニタリング・ポイントとコミュニケーションをサンプリングし,実際のユーザの振る舞いを再現した。 評価では, 従来のDNS, DoH, DoT, VPNを比較検討し, プライバシー保護能力の定量化と, 最適なパフォーマンスを達成するために, インターネット上に理想的な監視ポイントが存在するかの推奨を行った。 提案手法の有効性を説明するため,提案手法は,検索エンジンインターフェースを用いた概念実証型サイバーセキュリティアナリストダッシュボード(バックエンド処理基盤を含む)を構築した。

Preserving privacy is an undeniable benefit to users online. However, this benefit (unfortunately) also extends to those who conduct cyber attacks and other types of malfeasance. In this work, we consider the scenario in which Privacy Preserving Technologies (PPTs) have been used to obfuscate users who are communicating online with ill intentions. We present a novel methodology that is effective at deobfuscating such sources by synthesizing measurements from key locations along protocol transaction paths. Our approach links online personas with their origin IP addresses based on a Pattern of Life (PoL) analysis, and is successful even when different PPTs are used. We show that, when monitoring in the correct places on the Internet, DNS over HTTPS (DoH) and DNS over TLS (DoT) can be deobfuscated with up to 100% accuracy, when they are the only privacy-preserving technologies used. Our evaluation used multiple simulated monitoring points and communications are sampled from an actual multiyear-long social network message board to replay actual user behavior. Our evaluation compared plain old DNS, DoH, DoT, and VPN in order to quantify their relative privacy-preserving abilities and provide recommendations for where ideal monitoring vantage points would be in the Internet to achieve the best performance. To illustrate the utility of our methodology, we created a proof-of-concept cybersecurity analyst dashboard (with backend processing infrastructure) that uses a search engine interface to allow analysts to deobfuscate sources based on observed screen names and by providing packet captures from subsets of vantage points.
翻訳日:2024-03-19 03:21:56 公開日:2023-10-04
# RLTrace: OSファズテストのための高品質システムコールトレースの合成

RLTrace: Synthesizing High-Quality System Call Traces for OS Fuzz Testing ( http://arxiv.org/abs/2310.02609v1 )

ライセンス: Link先を確認
Wei Chen, Huaijin Wang, Weixi Gu, Shuai Wang, (参考訳) オペレーティングシステム(OS)カーネルのセキュア化は,今日のサイバーセキュリティの状況において重要な課題のひとつだ。 OSカーネルの最先端テスト技術はソフトウェアファズテストである。 プログラム入力をイテレーションのランダムなバリエーションで変更することで、ファズテストはプログラムのクラッシュと、入力によって悪用される可能性のある潜在的なバグによって引き起こされるハングをトリガーすることを目的としている。 OSのコードカバレッジを高めるために、デファクトOSファジィザは通常、OSカーネルを変更・操作するための入力シードとしてシステムコールトレースを構成する。 したがって、OSファジィ化の有効性を決定する上で、採用するシステムコールトレースの品質と多様性が重要な要素となる。 しかし、これらのシステムコールトレースは、手書きのルールやOSユーティリティプログラムのシステムコールログの分析によって生成される。 我々の観察では、そのようなシステムコールトレースはOSシステムコールの一般的な使用シナリオをサブスクライブするだけであり、隠れたバグを省く可能性がある。 本研究では,多種多様なシステムコールトレースをファズOSカーネルへのシードとして合成する,RLTraceと呼ばれる深層強化学習ベースのソリューションを提案する。 モデルトレーニングの間、ディープラーニングモデルはOSカーネルと相互作用し、学習目標であるカーネルコードカバレッジを最大化する最適なシステムコールトレースを推論する。 RLTraceは,より包括的なシステムコールトレースを生成し,システムコールコーナーの使用事例と微妙な依存関係を仮定することにより,他のシードジェネレータよりも優れていることを示す。 RLTrace が生成したシステムコールトレースを,事実上の OS ファザである SYZKALLER に供給することにより,SYZKALLER が Linux カーネルのテストにおいて高いコードカバレッジを達成可能であることを示す。 さらに、RLTraceはLinuxカーネルに1つの脆弱性(バージョン5.5-rc6)を発見した。

Securing operating system (OS) kernel is one central challenge in today's cyber security landscape. The cutting-edge testing technique of OS kernel is software fuzz testing. By mutating the program inputs with random variations for iterations, fuzz testing aims to trigger program crashes and hangs caused by potential bugs that can be abused by the inputs. To achieve high OS code coverage, the de facto OS fuzzer typically composes system call traces as the input seed to mutate and to interact with OS kernels. Hence, quality and diversity of the employed system call traces become the prominent factor to decide the effectiveness of OS fuzzing. However, these system call traces to date are generated with hand-coded rules, or by analyzing system call logs of OS utility programs. Our observation shows that such system call traces can only subsume common usage scenarios of OS system calls, and likely omit hidden bugs. In this research, we propose a deep reinforcement learning-based solution, called RLTrace, to synthesize diverse and comprehensive system call traces as the seed to fuzz OS kernels. During model training, the deep learning model interacts with OS kernels and infers optimal system call traces w.r.t. our learning goal -- maximizing kernel code coverage. Our evaluation shows that RLTrace outperforms other seed generators by producing more comprehensive system call traces, subsuming system call corner usage cases and subtle dependencies. By feeding the de facto OS fuzzer, SYZKALLER, with system call traces synthesized by RLTrace, we show that SYZKALLER can achieve higher code coverage for testing Linux kernels. Furthermore, RLTrace found one vulnerability in the Linux kernel (version 5.5-rc6), which is publicly unknown to the best of our knowledge by the time of writing.
翻訳日:2024-03-19 03:21:56 公開日:2023-10-04
# No Forking Way:Intel SGXアプリケーションにおけるクローン攻撃の検出

No Forking Way: Detecting Cloning Attacks on Intel SGX Applications ( http://arxiv.org/abs/2310.03002v1 )

ライセンス: Link先を確認
Samira Briongos, Ghassan Karame, Claudio Soriente, Annika Wilde, (参考訳) Intel SGXのようなTEEに対する攻撃は、アプリケーションを以前の状態にロールバックするか、アプリケーションをクローンし、そのインプットをクローンインスタンスに分割することで実行できる。 フォーキング攻撃に対する現在の解決策は、現実世界のデプロイメントでは見つからないTTP(Trusted Third Parties)を必要とする。 TTPがなければ、多くのTEEアプリケーションは、ロールバックに基づくフォーク攻撃を緩和するためにモノトニックカウンタに依存するが、クローンに基づくフォーク攻撃に対する防御機構はない。 本稿では,72個のSGXアプリケーションを分析し,その約20%がクローンによる攻撃に対して脆弱であることを示す。 この問題に対処するため,TTPに依存しないIntel SGXの最初の実用的なクローン検出機構であるCloneBusterを提案する。 CloneBusterはエンクレーブが同じバイナリを持つ別のエンクレーブが同じプラットフォーム上で実行されているかどうかを(自分自身で)検出することを可能にする。 そのためにCloneBusterは、キャッシュベースのシークレットチャネルを使用して、エンクレーブがその存在を同じマシン上のクローンに通知する(そして検出する)。 悪意のあるOSにもかかわらず、CloneBusterは堅牢であることを示し、アプリケーションパフォーマンスに限界的な影響しか与えず、TCBに約800 LoCを追加しています。 モノトニックカウンタと組み合わせて使用すると、CloneBusterはアプリケーションをフォーク攻撃に対する包括的な保護の恩恵を受けることができる。

Forking attacks against TEEs like Intel SGX can be carried out either by rolling back the application to a previous state, or by cloning the application and by partitioning its inputs across the cloned instances. Current solutions to forking attacks require Trusted Third Parties (TTP) that are hard to find in real-world deployments. In the absence of a TTP, many TEE applications rely on monotonic counters to mitigate forking attacks based on rollbacks; however, they have no protection mechanism against forking attack based on cloning. In this paper, we analyze 72 SGX applications and show that approximately 20% of those are vulnerable to forking attacks based on cloning - including those that rely on monotonic counters. To address this problem, we present CloneBuster, the first practical clone-detection mechanism for Intel SGX that does not rely on a TTP and, as such, can be used directly to protect existing applications. CloneBuster allows enclaves to (self-) detect whether another enclave with the same binary is running on the same platform. To do so, CloneBuster relies on a cache-based covert channel for enclaves to signal their presence to (and detect the presence of) clones on the same machine. We show that CloneBuster is robust despite a malicious OS, only incurs a marginal impact on the application performance, and adds approximately 800 LoC to the TCB. When used in conjunction with monotonic counters, CloneBuster allows applications to benefit from a comprehensive protection against forking attacks.
翻訳日:2024-03-19 03:21:56 公開日:2023-10-04
# メタバースCAN: 連続的・能動的・非侵入的生体認証の導入

Metaverse CAN: Embracing Continuous, Active, and Non-intrusive Biometric Authentication ( http://arxiv.org/abs/2310.03162v1 )

ライセンス: Link先を確認
Hui Zhong, Chenpei Huang, Xinyue Zhang, Miao Pan, (参考訳) Metaverseは仮想世界であり、没入感のある体験であり、様々な高度な技術に基づいて構築された新しい人間とコンピュータの相互作用である。 Metaverseの個人情報と仮想プロパティを保護するには,新たな攻撃やユーザエクスペリエンスの新たな期待など,新たな課題も直面している。 従来の方法(例えばスマートフォン認証で使用されるもの)は一般的に基本的な設計上の考慮をパスするが、Metaverseでは安全でないか不便であると繰り返し報告されている。 本稿では,特にメタバース設計における新しい設計手法であるCANを導入することで,この相違に対処する。 具体的には,従来の生体認証システムと新しい生体認証システムに注目し,基礎的およびCAN的考察によりそれらを徹底的に評価する。 また、CANシステムの一例として、耳に基づく手法を提案する。 結論として, 連続的な, アクティブで非侵入的な生体認証システムは, 連続セッションにおける, インポスタに対するメタバース認証, 没入的体験に対して提案される。

The Metaverse is a virtual world, an immersive experience, a new human-computer interaction, built upon various advanced technologies. How to protect Metaverse personal information and virtual properties is also facing new challenges, such as new attacks and new expectations of user experiences. While traditional methods (e.g., those employed in smartphone authentication) generally pass the basic design considerations, they are repeatedly reported to be either unsafe or inconvenient in the Metaverse. In this paper, we address this discrepancy by introducing CAN: a new design consideration especially for the Metaverse. Specifically, we focus on the legacy and novel biometric authentication systems and evaluate them thoroughly with basic and CAN considerations. We also propose an ear-based method as one example of CAN systems. To conclude, a continuous, active and non-intrusive biometric system is suggested for Metaverse authentication for its capability in continuous sessions, against imposters, and immersive experience.
翻訳日:2024-03-19 03:12:08 公開日:2023-10-04
# 欧州の完全な民主主義におけるAIに対する欧州の反応に影響を及ぼす要因

Key Factors Affecting European Reactions to AI in European Full and Flawed Democracies ( http://arxiv.org/abs/2311.09231v1 )

ライセンス: Link先を確認
Long Pham, Barry O'Sullivan, Tai Tan Mai(参考訳) 本研究では、ヨーロッパにおける完全な民主主義と欠陥の両面において、人工知能(AI)に対する欧州の反応に影響を与える重要な要因について検討する。 4,006人の回答者のデータセットを分析し、Economist Intelligence Unit(EIU)が開発した民主主義指数に基づいて、完全な民主主義と欠陥のある民主主義に分類した。 その分析で注目すべき発見が明らかになった。 第一に、欠陥のある民主主義は、完全な民主主義において、政府の機関に対する信頼度が高い傾向にある。 さらに、欠陥のあるデモクラシーに住む個人は、完全なデモクラシーの回答者に比べてaiに対してよりポジティブな態度を示している。 しかし、この研究は2つのタイプの民主主義の間にAIの認識に有意な違いは見出せず、ヨーロッパの市民の間でAI技術に関する一般的な知識のレベルが類似していることを示している。 さらに、この研究によると、AI対策の信頼性、具体的には"トラストAIソリューション"は、完全な民主主義と欠陥のある民主主義の間には大きな違いはない。 これは、民主的な品質の違いにもかかわらず、どちらのデモクラシーもaiソリューションに対する自信のレベルが同じであることを示唆している。

This study examines the key factors that affect European reactions to artificial intelligence (AI) in the context of both full and flawed democracies in Europe. Analysing a dataset of 4,006 respondents, categorised into full democracies and flawed democracies based on the Democracy Index developed by the Economist Intelligence Unit (EIU), this research identifies crucial factors that shape European attitudes toward AI in these two types of democracies. The analysis reveals noteworthy findings. Firstly, it is observed that flawed democracies tend to exhibit higher levels of trust in government entities compared to their counterparts in full democracies. Additionally, individuals residing in flawed democracies demonstrate a more positive attitude toward AI when compared to respondents from full democracies. However, the study finds no significant difference in AI awareness between the two types of democracies, indicating a similar level of general knowledge about AI technologies among European citizens. Moreover, the study reveals that trust in AI measures, specifically "Trust AI Solution", does not significantly vary between full and flawed democracies. This suggests that despite the differences in democratic quality, both types of democracies have similar levels of confidence in AI solutions.
翻訳日:2024-01-15 16:11:29 公開日:2023-10-04
# aiにおける価値判断の評価と改善:―大規模言語モデルによる社会的慣習の描写―

Evaluating and Improving Value Judgments in AI: A Scenario-Based Study on Large Language Models' Depiction of Social Conventions ( http://arxiv.org/abs/2311.09230v1 )

ライセンス: Link先を確認
Jaeyoun You, Bongwon Suh(参考訳) 生成AI技術の採用は急速に拡大している。 言語モデルとマルチモーダルモデルの両方を採用するサービスは進化しており、ユーザーはより正確なレスポンスを提供する。 そのため、これらの技術への人間の依存は急速に増大することが期待される。 AIのアウトプットに人々が影響を受けるという前提で、私たちはAIのアウトプットを改善するためのアプローチを検討しました。 当初,現代のAIサービスがユーザニーズにどのように適合しているかを評価し,Large Language Models (LLMs) による社会の描写を考察した。 クエリ実験を行い、さまざまな国で社会慣習について質問し、一言で回答を導き出しました。 llmsの価値判断を公開データと比較し,今後の機械価値判断に適用可能な価値紛争シナリオにおける意思決定モデルを提案した。 本稿では,他の遠隔地を調査するためのツールとしてAIを利用する実践的アプローチを提唱する。 この再調査は、AIが価値を判断するという考えを暗黙的に否定することの重要性を持ち、代わりに個人に対する判断能力に反する環境に対するより批判的な視点を論じる。 この研究は、その能力に関係なく、安全で正確な価値判断に基づくアウトプットを効果的に受け取ることができると期待している。

The adoption of generative AI technologies is swiftly expanding. Services employing both linguistic and mul-timodal models are evolving, offering users increasingly precise responses. Consequently, human reliance on these technologies is expected to grow rapidly. With the premise that people will be impacted by the output of AI, we explored approaches to help AI output produce better results. Initially, we evaluated how contemporary AI services competitively meet user needs, then examined society's depiction as mirrored by Large Language Models (LLMs). We did a query experiment, querying about social conventions in various countries and eliciting a one-word response. We compared the LLMs' value judgments with public data and suggested an model of decision-making in value-conflicting scenarios which could be adopted for future machine value judgments. This paper advocates for a practical approach to using AI as a tool for investigating other remote worlds. This re-search has significance in implicitly rejecting the notion of AI making value judgments and instead arguing a more critical perspective on the environment that defers judgmental capabilities to individuals. We anticipate this study will empower anyone, regardless of their capacity, to receive safe and accurate value judgment-based out-puts effectively.
翻訳日:2024-01-15 16:10:50 公開日:2023-10-04
# セグメンテーションの分布外検出へのメタ認知的アプローチ

A Metacognitive Approach to Out-of-Distribution Detection for Segmentation ( http://arxiv.org/abs/2311.07578v1 )

ライセンス: Link先を確認
Meghna Gummadi, Cassandra Kent, Karl Schmeckpeper, and Eric Eaton(参考訳) クローズドワールドにおけるセマンティックシーンのセマンティックなセマンティックなセマンティックなセマンティクスにもかかわらず、ディープニューラルネットワークは、オープンワールドで行動する自律エージェントに必要な、新規なインスタンスを適切にセグメントする。 セグメンテーションのアウト・オブ・ディストリビューション(OOD)検出を改善するために,エントロピー測度,セグメンテーション予測,空間コンテキストを利用したメタ認知アプローチを導入し,セグメンテーションモデルの不確実性を特徴付けるとともに,画素単位のOODデータをリアルタイムに検出する。 さらに,本手法では,最大エントロピートレーニングを施した既存のセグメンテーションモデルを微調整するために,分布内データとコンテキストで合成OODデータを生成する新しい手法を取り入れた。 これにより、OODデータへのアクセスを必要とせずにメタ認知モジュールのパフォーマンスが向上し、既存のトレーニング済みモデルとの互換性が向上する。 提案手法は,セマンティックセグメンテーションベンチマークのOOD検出における最先端性能で示すように,シーン内のOODインスタンスを確実に検出することができる。

Despite outstanding semantic scene segmentation in closed-worlds, deep neural networks segment novel instances poorly, which is required for autonomous agents acting in an open world. To improve out-of-distribution (OOD) detection for segmentation, we introduce a metacognitive approach in the form of a lightweight module that leverages entropy measures, segmentation predictions, and spatial context to characterize the segmentation model's uncertainty and detect pixel-wise OOD data in real-time. Additionally, our approach incorporates a novel method of generating synthetic OOD data in context with in-distribution data, which we use to fine-tune existing segmentation models with maximum entropy training. This further improves the metacognitive module's performance without requiring access to OOD data while enabling compatibility with established pre-trained models. Our resulting approach can reliably detect OOD instances in a scene, as shown by state-of-the-art performance on OOD detection for semantic segmentation benchmarks.
翻訳日:2024-01-15 16:07:20 公開日:2023-10-04
# 医療画像における総合的マルチモーダルセグメンテーション : YOLOv8とSAMおよびHQ-SAMモデルを組み合わせて

Comprehensive Multimodal Segmentation in Medical Imaging: Combining YOLOv8 with SAM and HQ-SAM Models ( http://arxiv.org/abs/2310.12995v1 )

ライセンス: Link先を確認
Sumit Pandey, Kuan-Fu Chen, Erik B. Dam(参考訳) 本稿では、超音波、CTスキャン、X線画像を含む様々な医用画像データセットにおける関心領域のセグメンテーション(ROI)に対する包括的アプローチを提案する。 提案手法は,完全自動的かつ高精度なセグメンテーションのために,セグメント・エバンスモデル (sam) とハイクオリティ (hq) sam と並行して,境界ボックスの近似検出にyolov8モデルの能力を利用する。 境界ボックスを生成するために、YOLOv8モデルは、各モードから100の画像とマスクの限られたセットを使用して訓練された。 提案手法から得られた結果は広く計算・解析され,医用画像解析の有効性と可能性を示す。 セグメンテーション結果の精度を定量化するために、精度、リコール、F1スコア、Dice Scoreなどの様々な評価指標が用いられた。 YOLOv8, YOLOv8+SAM, YOLOv8+HQ-SAMモデルの個人および組み合わせ性能の評価を行った。 その結果,SAMモデルは他の2モデルよりも優れた性能を示し,セグメンテーション精度と全体的な性能を示した。 HQ-SAMは潜在的な利点を提供するが、標準的なSAMモデルよりも漸進的なゲインは、追加の計算コストを正当化しないかもしれない。 YOLOv8+SAMモデルは、医用画像セグメンテーションの強化とその臨床的意義を示す。

This paper introduces a comprehensive approach for segmenting regions of interest (ROI) in diverse medical imaging datasets, encompassing ultrasound, CT scans, and X-ray images. The proposed method harnesses the capabilities of the YOLOv8 model for approximate boundary box detection across modalities, alongside the Segment Anything Model (SAM) and High Quality (HQ) SAM for fully automatic and precise segmentation. To generate boundary boxes, the YOLOv8 model was trained using a limited set of 100 images and masks from each modality. The results obtained from our approach are extensively computed and analyzed, demonstrating its effectiveness and potential in medical image analysis. Various evaluation metrics, including precision, recall, F1 score, and Dice Score, were employed to quantify the accuracy of the segmentation results. A comparative analysis was conducted to assess the individual and combined performance of the YOLOv8, YOLOv8+SAM, and YOLOv8+HQ-SAM models. The results indicate that the SAM model performs better than the other two models, exhibiting higher segmentation accuracy and overall performance. While HQ-SAM offers potential advantages, its incremental gains over the standard SAM model may not justify the additional computational cost. The YOLOv8+SAM model shows promise for enhancing medical image segmentation and its clinical implications.
翻訳日:2023-10-29 16:22:41 公開日:2023-10-04
# ジェスチャー選択のためのテキスト解析における大規模言語モデル

Large language models in textual analysis for gesture selection ( http://arxiv.org/abs/2310.13705v1 )

ライセンス: Link先を確認
Laura B. Hensel, Nutchanon Yongsatianchot, Parisa Torshizi, Elena Minucci, Stacy Marsella(参考訳) ジェスチャーは、人間の対面相互作用に強力な影響を与える様々なコミュニケーション機能を実行する。 このコミュニケーション機能がどのように達成されるかは個人によって大きく異なり、話者の役割と相互作用の文脈に依存する。 自動ジェスチャー生成へのアプローチは、データ駆動技術に依存する程度だけでなく、文脈や話者固有のジェスチャーを生成できる程度によっても異なる。 ひとつは、アプリケーションのコンテキストとゴールに適した十分なトレーニングデータを得ることです。 2つ目は、アプリケーションに対する特定の意図を実現するためのデザイナコントロールに関するものだ。 そこで本稿では,大規模言語モデル(LLM)を用いて,これらの強力なデータモデルがジェスチャー解析や生成に適応可能であることを示す。 具体的には、最小限のプロンプトに基づいてデザイナの意図を実現できるコンテキスト固有のジェスチャーを提案するツールとしてChatGPTを使用しました。 また、ChatGPTは最小限のトレーニングデータには存在しないが適切なジェスチャーを提案できる。 LLMの使用は、退屈なアノテーションの必要性を減らし、異なるデザイナーの意図に柔軟かつ迅速に適応する可能性を持つジェスチャー生成のための有望な道である。

Gestures perform a variety of communicative functions that powerfully influence human face-to-face interaction. How this communicative function is achieved varies greatly between individuals and depends on the role of the speaker and the context of the interaction. Approaches to automatic gesture generation vary not only in the degree to which they rely on data-driven techniques but also the degree to which they can produce context and speaker specific gestures. However, these approaches face two major challenges: The first is obtaining sufficient training data that is appropriate for the context and the goal of the application. The second is related to designer control to realize their specific intent for the application. Here, we approach these challenges by using large language models (LLMs) to show that these powerful models of large amounts of data can be adapted for gesture analysis and generation. Specifically, we used ChatGPT as a tool for suggesting context-specific gestures that can realize designer intent based on minimal prompts. We also find that ChatGPT can suggests novel yet appropriate gestures not present in the minimal training data. The use of LLMs is a promising avenue for gesture generation that reduce the need for laborious annotations and has the potential to flexibly and quickly adapt to different designer intents.
翻訳日:2023-10-29 16:15:05 公開日:2023-10-04
# 組み込みFPGA用LSTMセルのスループットボトルネックによるエネルギー効率向上

Enhancing Energy-efficiency by Solving the Throughput Bottleneck of LSTM Cells for Embedded FPGAs ( http://arxiv.org/abs/2310.16842v1 )

ライセンス: Link先を確認
Chao Qian, Tianheng Ling, Gregor Schiele(参考訳) センサデータをIoT(Internet of Things)で処理するには,1次元データの組み込みディープラーニングが重要となる。 これまでcnnはfpgaのような特殊な組み込みハードウェアに最適化しやすいため、頻繁に使用されていた。 本研究は,エンドデバイス上でのエネルギー効率を考慮した新しいLSTMセル最適化を提案する。 交通速度予測をケーススタディとして、最適化されたLSTMセルを持つバニラLSTMモデルは、1秒あたり17534の推論を達成し、また、 \textit{XC7S15}ファミリーのFPGA \textit{XC7S15} の推論に対してわずか3.8$\mu$Jしか消費しない。 少なくとも5.4$\times$高速スループットと1.37$\times$既存の手法よりもエネルギー効率が高い。

To process sensor data in the Internet of Things(IoTs), embedded deep learning for 1-dimensional data is an important technique. In the past, CNNs were frequently used because they are simple to optimise for special embedded hardware such as FPGAs. This work proposes a novel LSTM cell optimisation aimed at energy-efficient inference on end devices. Using the traffic speed prediction as a case study, a vanilla LSTM model with the optimised LSTM cell achieves 17534 inferences per second while consuming only 3.8 $\mu$J per inference on the FPGA \textit{XC7S15} from \textit{Spartan-7} family. It achieves at least 5.4$\times$ faster throughput and 1.37$\times$ more energy efficient than existing approaches.
翻訳日:2023-10-29 16:00:21 公開日:2023-10-04
# IoTセキュリティガイドラインの統一分類と評価

A Unified Taxonomy and Evaluation of IoT Security Guidelines ( http://arxiv.org/abs/2310.01653v2 )

ライセンス: Link先を確認
Jesse Chen, Dharun Anandayuvaraj, James C Davis, Sazzadur Rahaman(参考訳) モノのインターネット(IoT)デバイスとインフラストラクチャに関するサイバーセキュリティの懸念は毎年増えている。 これに応えて、世界中の組織が、市民と顧客を保護するためのIoTサイバーセキュリティガイドラインを公開した。 これらのガイドラインは、デバイス上でもクラウド上でも、相当量のソフトウェアコンポーネントを含むIoTシステムの開発を制限している。 これらのガイドラインは、例えば米国の連邦請負業者によって広く採用されているが、それらの内容とメリットは批判的に検討されていない。 1) これらのガイドラインが推奨事項や詳細によってどのように異なるのか、(2)実際のIoT障害を緩和する上で、いかに効果的かはわかりません。 本稿では,IoTサイバーセキュリティガイドラインの探索的総合的研究を通じて,これらの疑問に対処する。 私たちは142の一般的なIoTサイバーセキュリティガイドラインのコーパスを収集し、飽和に達するまでレコメンデーションのためにサンプリングしました。 結果として得られた958のユニークな推奨から,基底的理論のコーディング原理に従う階層的分類法を反復的に開発した。 各推奨事項の実施可能性について初心者エンジニアに質問し、サイバーセキュリティの推奨事項を失敗の根本原因(cvsやニュース記事)と一致させることで、ガイドラインの有用性を測定した。 1)ガイドラインを相互に比較すると,それぞれのガイドラインはトピックのカバレッジと包括性にギャップがあり,(2)87.2%の勧告が有効であり,ガイドラインの統一によってニュース記事から17件の障害が軽減されるが,CVEの21%がガイドラインを回避しているようだ。 まとめると、すべてのガイドラインの深さと幅の欠点を報告しますが、全体としてはセキュリティ上の問題を防ぐことができます。 私たちの結果は、ソフトウェアエンジニアがIoTシステムを実装する上で、どのガイドラインを研究すべきかを判断するのに役立ちます。

Cybersecurity concerns about Internet of Things (IoT) devices and infrastructure are growing each year. In response, organizations worldwide have published IoT cybersecurity guidelines to protect their citizens and customers. These guidelines constrain the development of IoT systems, which include substantial software components both on-device and in the Cloud. While these guidelines are being widely adopted, e.g. by US federal contractors, their content and merits have not been critically examined. Two notable gaps are: (1) We do not know how these guidelines differ by the topics and details of their recommendations; and (2) We do not know how effective they are at mitigating real-world IoT failures. In this paper, we address these questions through an exploratory sequential mixed-method study of IoT cybersecurity guidelines. We collected a corpus of 142 general IoT cybersecurity guidelines, sampling them for recommendations until saturation was reached. From the resulting 958 unique recommendations, we iteratively developed a hierarchical taxonomy following grounded theory coding principles. We measured the guidelines' usefulness by asking novice engineers about the actionability of each recommendation, and by matching cybersecurity recommendations to the root causes of failures (CVEs and news stories). We report that: (1) Comparing guidelines to one another, each guideline has gaps in its topic coverage and comprehensiveness; and (2) Although 87.2% recommendations are actionable and the union of the guidelines mitigates all 17 of the failures from news stories, 21% of the CVEs apparently evade the guidelines. In summary, we report shortcomings in every guideline's depth and breadth, but as a whole they are capable of preventing security issues. Our results will help software engineers determine which and how many guidelines to study as they implement IoT systems.
翻訳日:2023-10-23 05:19:16 公開日:2023-10-04
# 量子アルゴリズムカード:ハイブリッド古典量子アプリケーションの開発を合理化する

Quantum Algorithm Cards: Streamlining the development of hybrid classical-quantum applications ( http://arxiv.org/abs/2310.02598v1 )

ライセンス: Link先を確認
Vlad Stirbu and Majid Haghparast(参考訳) 量子コンピューティングの出現は、多くの科学と産業の応用領域を根本的に変換できる革命的パラダイムを提案する。 量子コンピュータが計算をスケールする能力は、現在のコンピュータが提供するものよりも、特定のアルゴリズムタスクのパフォーマンスと効率が向上することを意味する。 しかし、そのような改善の恩恵を受けるためには、量子コンピュータは既存のソフトウェアシステムと統合されなければならない。 本稿では,より大型の古典量子コンピュータを構築する際に生じる課題について検討し,量子技術に関する意思決定プロセスを容易にするためのアプローチであるquantum algorithm card (qac)の概念を紹介する。

The emergence of quantum computing proposes a revolutionary paradigm that can radically transform numerous scientific and industrial application domains. The ability of quantum computers to scale computations implies better performance and efficiency for certain algorithmic tasks than current computers provide. However, to gain benefit from such improvement, quantum computers must be integrated with existing software systems, a process that is not straightforward. In this paper, we investigate challenges that emerge when building larger hybrid classical-quantum computers and introduce the Quantum Algorithm Card (QAC) concept, an approach that could be employed to facilitate the decision making process around quantum technology.
翻訳日:2023-10-23 04:58:46 公開日:2023-10-04
# FieldwireでAPI機能を探る

Exploring API Capabilities with Fieldwire ( http://arxiv.org/abs/2310.02990v1 )

ライセンス: Link先を確認
Nwosu Obinnaya Chikezie Victor(参考訳) クラウドベースの建設管理ソフトウェアであるfieldwireは、建設業界において重要なツールとなっている。 プロジェクト管理、タスクトラッキング、ドキュメント管理、コラボレーションを含む包括的な機能スイートを提供する。 ソフトウェア産業におけるアプリケーションプログラミングインタフェース(api)の台頭に伴い、fieldwireはこのトレンドを利用して建設の専門家をさらに力づけてきた。 apiは異なるソフトウェアシステム間のブリッジとして機能し、fieldwireのコンテキストでは、データサイロ、手動データ入力、リアルタイム情報共有問題など、特別な構築ツールと統合する可能性を秘めている。 この統合により、合理化され効率的な建設管理プロセスが実現し、時間とリソースを節約できる。 これらの要約で概説された研究は、fieldwireのapi機能の理解、さまざまな構築ツールとの統合可能性の探求、統合が効率とエラー低減に与える影響の評価、ベストプラクティスの確立、建設専門家への推奨の提供に焦点を当てている。 Pythonプログラミングスクリプトは、API統合の利点を視覚化するために使用される。 経験から、fieldwireのapiはデータの正確性を大幅に改善し、プロジェクトの完了時間を平均20%削減し、ユーザの満足度を高めることが示されている。 このような結果は、正確なデータと効率的な通信に依存する業界で最重要となる。 この研究は、fieldwireのapiの転換可能性とその現代的な建設管理における関連性を基礎としている。 建設専門家は、拡張されたプロジェクト成果のためにAPI統合を受け入れることを奨励し、ソフトウェア開発者が建設技術をさらに革新するインスピレーションとなる。 建設業界が発展するにつれて、API統合は競争力と効率性を維持する上で不可欠である。

Fieldwire, a cloud-based construction management software, has become a pivotal tool in the construction industry. It offers a comprehensive suite of features encompassing project management, task tracking, document management, and collaboration. With the rise of Application Programming Interfaces (APIs) in the software industry, Fieldwire has harnessed this trend to further empower construction professionals. APIs act as bridges between different software systems, and in Fieldwire's context, they hold the potential to integrate with specialized construction tools, eliminating data silos, manual data entry, and real-time information-sharing issues. This integration promises a streamlined and efficient construction management process, saving both time and resources. The research outlined in these abstract focuses on understanding Fieldwire's API capabilities, exploring integration possibilities with various construction tools, evaluating the impact of integration on efficiency and error reduction, establishing best practices, and offering recommendations to construction professionals. Python programming scripts are employed to visualize the benefits of API integration. Empirical findings indicate that Fieldwire's API significantly improves data accuracy, reduces project completion times by an average of 20%, and garners high user satisfaction. Such results are paramount in an industry reliant on precise data and efficient communication. This research underscores the transformative potential of Fieldwire's API and its relevance in modern construction management. It encourages construction professionals to embrace API integration for enhanced project outcomes and serves as an inspiration for software developers to innovate further in construction technology. As the construction industry evolves, API integration remains crucial for staying competitive and efficient.
翻訳日:2023-10-23 04:45:00 公開日:2023-10-04
# クラウドエッジ連続体における連続QoS準拠オーケストレーション

Continuous QoS-compliant Orchestration in the Cloud-Edge Continuum ( http://arxiv.org/abs/2310.02985v1 )

ライセンス: Link先を確認
Giuseppe Bisicchia, Stefano Forti, Ernesto Pimentel, Antonio Brogi(参考訳) クラウドエッジネットワーク上でqos対応でマルチサービスアプリケーションを管理する問題は,近年,意思決定の観点から徹底的に研究されている。 しかし、そのような決定を積極的に実施し、マルチサービスのアプリケーションを編成し、インフラやアプリケーションのバリエーションを考慮するという問題に対処する研究はごくわずかである。 本稿では,地理的に分散したクラウドエッジリソース上に,ci/cdパイプラインとインフラストラクチャ監視ツールを用いて,マルチサービスアプリケーションの継続的かつqos対応管理を実現するために,dockerに基づく次世代オーケストレータのプロトタイプを提案する。 最後に,イタリア全土で地理的に分布するテストベッドについて検討した。

The problem of managing multi-service applications on top of Cloud-Edge networks in a QoS-aware manner has been thoroughly studied in recent years from a decision-making perspective. However, only a few studies addressed the problem of actively enforcing such decisions while orchestrating multi-service applications and considering infrastructure and application variations. In this article, we propose a next-gen orchestrator prototype based on Docker to achieve the continuous and QoS-compliant management of multiservice applications on top of geographically distributed Cloud-Edge resources, in continuity with CI/CD pipelines and infrastructure monitoring tools. Finally, we assess our proposal over a geographically distributed testbed across Italy.
翻訳日:2023-10-23 04:44:35 公開日:2023-10-04
# ResolverFuzz:クエリ応答ファズリングによるDNSリゾルバ脆弱性の自動発見

ResolverFuzz: Automated Discovery of DNS Resolver Vulnerabilities with Query-Response Fuzzing ( http://arxiv.org/abs/2310.03202v1 )

ライセンス: Link先を確認
Qifan Zhang, Xuesong Bai, Xiang Li, Haixin Duan, Qi Li and Zhou Li(参考訳) ドメイン名システム(DNS)はインターネットの重要なコンポーネントである。 DNSクライアントとDNSネームサーバの間のキャッシュとして機能するDNSリゾルバは、DNSインフラストラクチャの中心的な部分であり、DNSのスケーラビリティに不可欠である。 しかし、リゾルバの脆弱性を見つけるのは簡単ではなく、既存のツールでは問題に対処できない。 いくつか理由を挙げると、まず、既知のリゾルバの脆弱性のほとんどは、既存のoracle(あるいはサニタイザ)から直接検出できない、非クラッシュなバグである。 第二に、テストケースをリゾルババグとして分類する参照として使うための厳格な仕様がない。 第3に、DNSリゾルバはステートフルであり、大きな入力スペースのため、ステートフルなファジィは依然として困難である。 本稿では,dnsリゾルバに関連する課題に対処するために,resolvalrfuzzと呼ばれる新しいファジングシステムを提案する。 まず、ResolverFuzzは、公開DNS CVEの研究に基づいて、リゾルババグを見つけるための最も効果的な方法として証明された短いクエリ応答シーケンスに焦点を当て、制約付きステートフルファズリングを実行する。 次に,リゾルババグを発生させる可能性のあるテストケースを生成するために,確率的文脈自由文法 (pcfg) に基づく入力生成と,クエリと応答の両方に対してバイトレベルの突然変異を組み合わせる。 第三に、差分テストとクラスタリングを活用して、キャッシュ中毒のような非クラッシュなバグを特定します。 我々はResolverFuzzを6つのメインストリームDNSソフトウェアに対して4つのリゾルバモードで評価した。 全体として、キャッシュ中毒、リソース消費、クラッシュ攻撃を引き起こす可能性のある23の脆弱性を特定します。 情報開示後、19件が確認または修正され、15件のCVE番号が割り当てられた。

Domain Name System (DNS) is a critical component of the Internet. DNS resolvers, which act as the cache between DNS clients and DNS nameservers, are the central piece of the DNS infrastructure, essential to the scalability of DNS. However, finding the resolver vulnerabilities is non-trivial, and this problem is not well addressed by the existing tools. To list a few reasons, first, most of the known resolver vulnerabilities are non-crash bugs that cannot be directly detected by the existing oracles (or sanitizers). Second, there lacks rigorous specifications to be used as references to classify a test case as a resolver bug. Third, DNS resolvers are stateful, and stateful fuzzing is still challenging due to the large input space. In this paper, we present a new fuzzing system termed ResolverFuzz to address the aforementioned challenges related to DNS resolvers, with a suite of new techniques being developed. First, ResolverFuzz performs constrained stateful fuzzing by focusing on the short query-response sequence, which has been demonstrated as the most effective way to find resolver bugs, based on our study of the published DNS CVEs. Second, to generate test cases that are more likely to trigger resolver bugs, we combine probabilistic context-free grammar (PCFG) based input generation with byte-level mutation for both queries and responses. Third, we leverage differential testing and clustering to identify non-crash bugs like cache poisoning bugs. We evaluated ResolverFuzz against 6 mainstream DNS software under 4 resolver modes. Overall, we identify 23 vulnerabilities that can result in cache poisoning, resource consumption, and crash attacks. After responsible disclosure, 19 of them have been confirmed or fixed, and 15 CVE numbers have been assigned.
翻訳日:2023-10-23 04:35:14 公開日:2023-10-04
# 対話における感情認識のためのハイブリッドコントラスト学習を用いたマルチモーダルプロンプトトランスフォーマタ

Multimodal Prompt Transformer with Hybrid Contrastive Learning for Emotion Recognition in Conversation ( http://arxiv.org/abs/2310.04456v1 )

ライセンス: Link先を確認
Shihao Zou, Xianying Huang, Xudong Shen(参考訳) 会話における感情認識(ERC)は,人間と機械の相互作用の発達を促進する上で重要な役割を担っている。 感情は複数のモードに存在しうるが、マルチモーダルERCは、(1)クロスモーダル情報融合プロセスにおけるノイズ問題、(2)意味的には似ているが異なるカテゴリのサンプル感情ラベルの予測問題という2つの問題に主に直面している。 これらの課題に対処し,各モダリティの特徴をフル活用するために,まず,表現能力の弱いモダリティに対して深い感情的手がかり抽出を行い,特徴フィルタを表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計した。 そこで我々は,マルチモーダル情報融合を実現するマルチモーダルプロンプトトランス(mpt)を設計した。 mptはトランスのそれぞれのアテンション層にマルチモーダル融合情報を埋め込み、プロンプト情報がテキストの特徴のエンコーディングに参加し、マルチレベルテキスト情報と融合することで、より優れたマルチモーダル融合機能を得ることができる。 最後に,ハイブリッドコントラスト学習(hybrid contrastive learning, hcl)戦略を用いて,サンプル数が少ないラベルを扱うモデルの能力を最適化した。 この戦略は、教師なしのコントラスト学習を用いてマルチモーダル融合の表現能力を向上し、教師付きコントラスト学習により、少数のサンプルでラベルの情報をマイニングする。 実験の結果,提案モデルが2つのベンチマークデータセットでercの最先端モデルを上回ることがわかった。

Emotion Recognition in Conversation (ERC) plays an important role in driving the development of human-machine interaction. Emotions can exist in multiple modalities, and multimodal ERC mainly faces two problems: (1) the noise problem in the cross-modal information fusion process, and (2) the prediction problem of less sample emotion labels that are semantically similar but different categories. To address these issues and fully utilize the features of each modality, we adopted the following strategies: first, deep emotion cues extraction was performed on modalities with strong representation ability, and feature filters were designed as multimodal prompt information for modalities with weak representation ability. Then, we designed a Multimodal Prompt Transformer (MPT) to perform cross-modal information fusion. MPT embeds multimodal fusion information into each attention layer of the Transformer, allowing prompt information to participate in encoding textual features and being fused with multi-level textual information to obtain better multimodal fusion features. Finally, we used the Hybrid Contrastive Learning (HCL) strategy to optimize the model's ability to handle labels with few samples. This strategy uses unsupervised contrastive learning to improve the representation ability of multimodal fusion and supervised contrastive learning to mine the information of labels with few samples. Experimental results show that our proposed model outperforms state-of-the-art models in ERC on two benchmark datasets.
翻訳日:2023-10-23 04:14:35 公開日:2023-10-04
# ボランティアネットワークにおけるキーユーザ行動傾向の分析

Analyzing Key Users' behavior trends in Volunteer-Based Networks ( http://arxiv.org/abs/2310.05978v1 )

ライセンス: Link先を確認
Nofar Piterman, Tamar Makov, and Michael Fire(参考訳) オンラインソーシャルネットワークの利用はここ10年で大幅に増加し、人気は続いている。 複数のソーシャルプラットフォームがボランティアを中心的なコンポーネントとして使用している。 近年,ボランティアネットワークにおけるボランティアの行動が広く研究されている。 本稿では,主にユーザの行動や活動に着目したボランティア型ソーシャルネットワークの開発について検討する。 2つの新しいアルゴリズムを開発した。第1は、キーユーザの行動パターンを時間とともに明らかにする。第2は、機械学習手法を使用して、キーユーザの将来の行動を予測する予測モデルを生成する。 これらのアルゴリズムにより,行動予測に影響を及ぼす要因を分析した。 アルゴリズムを評価するために,peer-to-peerのフードシェアリングオンラインプラットフォーム上で,240万以上のユーザからのデータを利用した。 アルゴリズムを用いて,時間とともに発生する4つの主要なユーザ行動パターンを同定した。 さらに,将来のアクティブ・ドナー・キー利用者の予測や,ドナーの行動を変えるキー利用者の予測にも成功し,その精度は89.6%まで向上した。 これらの発見は、ボランティアベースのソーシャルネットワークにおけるキーユーザーの行動に関する貴重な洞察を与え、この目標のために機械学習の可能性を生かしながら、将来より効果的なコミュニティ構築の道を開く。

Online social networks usage has increased significantly in the last decade and continues to grow in popularity. Multiple social platforms use volunteers as a central component. The behavior of volunteers in volunteer-based networks has been studied extensively in recent years. Here, we explore the development of volunteer-based social networks, primarily focusing on their key users' behaviors and activities. We developed two novel algorithms: the first reveals key user behavior patterns over time; the second utilizes machine learning methods to generate a forecasting model that can predict the future behavior of key users, including whether they will remain active donors or change their behavior to become mainly recipients, and vice-versa. These algorithms allowed us to analyze the factors that significantly influence behavior predictions. To evaluate our algorithms, we utilized data from over 2.4 million users on a peer-to-peer food-sharing online platform. Using our algorithm, we identified four main types of key user behavior patterns that occur over time. Moreover, we succeeded in forecasting future active donor key users and predicting the key users that would change their behavior to donors, with an accuracy of up to 89.6%. These findings provide valuable insights into the behavior of key users in volunteer-based social networks and pave the way for more effective communities-building in the future, while using the potential of machine learning for this goal.
翻訳日:2023-10-23 03:55:22 公開日:2023-10-04
# ChatGPT と GPT-4 を含む GPT-3 ファミリー大言語モデルの検討

A Survey of GPT-3 Family Large Language Models Including ChatGPT and GPT-4 ( http://arxiv.org/abs/2310.12321v1 )

ライセンス: Link先を確認
Katikapalli Subramanyam Kalyan(参考訳) LLM(Large Language Model)は、モデルのサイズを拡大し、コーパスを事前訓練し、計算することで得られる訓練済み言語モデルの特殊なクラスである。 LLMは、そのサイズが大きく、大量のテキストデータで事前訓練されているため、多くの自然言語処理タスクにおいてタスク固有の訓練をすることなく、優れたパフォーマンスを達成できる特別な能力を示す。 OpenAI GPT-3 モデルから LLM の時代が始まり、ChatGPT や GPT4 といったモデルの導入によって LLM の人気は指数関数的に上昇している。 我々は、GPT-3とその後継OpenAIモデルであるChatGPTとGPT4を、GPT-3ファミリー大言語モデル(GLLM)と呼ぶ。 特に研究コミュニティでは,GLLMの人気がますます高まっているため,近年の研究の進歩を多次元にまとめた総合的な調査の必要性が強く,今後の研究方向の洞察に富む研究コミュニティを導くことができる。 本稿では,トランスフォーマー,トランスフォーメーション学習,自己教師あり学習,事前学習型言語モデル,大規模言語モデルといった基礎概念から調査論文を開始する。 次に、GLLMの概要と、さまざまな下流タスク、特定のドメイン、複数の言語におけるGLLMの性能について述べる。 また、GLLMのデータラベリングとデータ拡張能力、GLLMの堅牢性、評価器としてのGLLMの有効性についても論じ、最終的には複数の洞察に富んだ今後の研究方向性を結論づける。 要約すると、この総合的な調査論文は、GPT-3ファミリーの大規模言語モデルに関する最新の研究で、学術と産業の両方が更新を続けるための良い情報源となる。

Large language models (LLMs) are a special class of pretrained language models obtained by scaling model size, pretraining corpus and computation. LLMs, because of their large size and pretraining on large volumes of text data, exhibit special abilities which allow them to achieve remarkable performances without any task-specific training in many of the natural language processing tasks. The era of LLMs started with OpenAI GPT-3 model, and the popularity of LLMs is increasing exponentially after the introduction of models like ChatGPT and GPT4. We refer to GPT-3 and its successor OpenAI models, including ChatGPT and GPT4, as GPT-3 family large language models (GLLMs). With the ever-rising popularity of GLLMs, especially in the research community, there is a strong need for a comprehensive survey which summarizes the recent research progress in multiple dimensions and can guide the research community with insightful future research directions. We start the survey paper with foundation concepts like transformers, transfer learning, self-supervised learning, pretrained language models and large language models. We then present a brief overview of GLLMs and discuss the performances of GLLMs in various downstream tasks, specific domains and multiple languages. We also discuss the data labelling and data augmentation abilities of GLLMs, the robustness of GLLMs, the effectiveness of GLLMs as evaluators, and finally, conclude with multiple insightful future research directions. To summarize, this comprehensive survey paper will serve as a good resource for both academic and industry people to stay updated with the latest research related to GPT-3 family large language models.
翻訳日:2023-10-23 02:12:11 公開日:2023-10-04
# gpt-4 研究者と計算ソフトのインタフェース : ユーザビリティと再現性の向上

GPT-4 as an interface between researchers and computational software: improving usability and reproducibility ( http://arxiv.org/abs/2310.11458v1 )

ライセンス: Link先を確認
Juan C. Verduzco, Ethan Holbrook, and Alejandro Strachan(参考訳) 大規模言語モデル(LLM)は、科学と工学においてますます重要な役割を担っている。 例えば、人間とコンピュータの言語を解析し理解する能力は、強力なインタプリタを生み出し、コード生成のようなアプリケーションでの使用は十分に文書化されています。 GPT-4 LLMの計算材料科学における2つの大きな課題を改善する能力について検討する。 一 カスタム入力言語の使用に伴う科学的ソフトウェアの採用の障壁が高いこと、及び 二 シミュレーション方法の説明の細部が不十分であることによる公表結果の再現性に乏しいこと。 本稿では,分子動力学シミュレーション用ソフトウェアである大規模原子・分子質量並列シミュレータ(LAMMPS)に着目し,英語のタスク記述からGPT-4によって生成された入力ファイルの有用性と,入力ファイルから計算タスクの詳細な記述を生成する能力について述べる。 GPT-4は,比較的単純なタスクや,より複雑なマルチステップシミュレーションの出発点として有用な入力ファイルを生成することができる。 さらに、gpt-4の入力ファイルからの計算タスクの説明は、ステップバイステップの詳細な命令セットから出版物に適した要約説明へと調整することができる。 この結果から, GPT-4は研究者が行うルーチンタスクの数を減らし, 新規利用者の育成を加速し, 再現性を向上できることがわかった。

Large language models (LLMs) are playing an increasingly important role in science and engineering. For example, their ability to parse and understand human and computer languages makes them powerful interpreters and their use in applications like code generation are well-documented. We explore the ability of the GPT-4 LLM to ameliorate two major challenges in computational materials science: i) the high barriers for adoption of scientific software associated with the use of custom input languages, and ii) the poor reproducibility of published results due to insufficient details in the description of simulation methods. We focus on a widely used software for molecular dynamics simulations, the Large-scale Atomic/Molecular Massively Parallel Simulator (LAMMPS), and quantify the usefulness of input files generated by GPT-4 from task descriptions in English and its ability to generate detailed descriptions of computational tasks from input files. We find that GPT-4 can generate correct and ready-to-use input files for relatively simple tasks and useful starting points for more complex, multi-step simulations. In addition, GPT-4's description of computational tasks from input files can be tuned from a detailed set of step-by-step instructions to a summary description appropriate for publications. Our results show that GPT-4 can reduce the number of routine tasks performed by researchers, accelerate the training of new users, and enhance reproducibility.
翻訳日:2023-10-23 02:09:47 公開日:2023-10-04
# 変圧器の球面位置符号化

Spherical Position Encoding for Transformers ( http://arxiv.org/abs/2310.04454v1 )

ライセンス: Link先を確認
Eren Unlu(参考訳) 位置符号化は、トランスフォーマーアーキテクチャにおける入力トークンの逐次順序の概念を誘導する主要なメカニズムである。 また,本論文の定式化により汎用言語理解と生成に有効な性能が得られたが,ロータリー位置埋め込み(rope)などの新しい枠組みが提案されている。 本稿では,トランスフォーマーアーキテクチャの入力要素である「ジオトケン」の概念を紹介する。 自然言語とは異なり、逐次位置はモデルにとって重要ではなく、地理的座標である。 このような設定のための相対位置の概念を誘導し、埋め込み空間における物理距離と距離の比率を維持するために、球面座標に調整されたロープ構造に基づく位置符号化機構を定式化する。

Position encoding is the primary mechanism which induces notion of sequential order for input tokens in transformer architectures. Even though this formulation in the original transformer paper has yielded plausible performance for general purpose language understanding and generation, several new frameworks such as Rotary Position Embedding (RoPE) are proposed for further enhancement. In this paper, we introduce the notion of "geotokens" which are input elements for transformer architectures, each representing an information related to a geological location. Unlike the natural language the sequential position is not important for the model but the geographical coordinates are. In order to induce the concept of relative position for such a setting and maintain the proportion between the physical distance and distance on embedding space, we formulate a position encoding mechanism based on RoPE architecture which is adjusted for spherical coordinates.
翻訳日:2023-10-15 14:49:10 公開日:2023-10-04
# ProGO: 確率的グローバル最適化

ProGO: Probabilistic Global Optimizer ( http://arxiv.org/abs/2310.04457v1 )

ライセンス: Link先を確認
Xinyu Zhang, Sujit Ghosh(参考訳) グローバル最適化の分野では、多くの既存のアルゴリズムは、非凸目標関数と高い計算複雑性や勾配情報の適用不可能によって生じる課題に直面している。 これらの制限は初期条件に対する感受性によって悪化し、しばしば準最適解や収束に失敗する。 これはメタヒューリスティックアルゴリズムが様々な最適化手法を融合させ、その効率と堅牢性を向上させるよう設計した場合でも当てはまる。 これらの課題に対処するため、我々は、いくつかの穏やかな正規性条件下でグローバル・オプティマに収束することを示す多次元統合ベース手法を開発した。 我々の確率論的アプローチは勾配の利用を必要とせず、新鮮オプティマ分布のニュアンス特性に根ざした数学的に厳密な収束フレームワークを基礎としている。 多次元積分の問題を緩和するために,グローバルな最適分布を近似するために用いられる初期最適分布からサンプルを生成する際に,幾何収束率を満足する潜時スライスサンプリング器を開発した。 提案された確率的グローバルオプティマイザ(progo)は、任意の次元の領域で定義される任意の連続関数のグローバルオプティマを近似するスケーラブルな統一フレームワークを提供する。 有限大域的オプティマを持つ)様々な人気のある非凸テスト関数を横断するプロゴの実証的な例から、提案されたアルゴリズムは、グラデーションベース、ゼロ次勾配フリー、ベイズ最適化法を含む既存の多くの最新手法よりも、後悔の値と収束速度の点で優れていることが分かる。 しかし,本手法は計算コストの高い関数には適さない可能性があることに留意すべきである。

In the field of global optimization, many existing algorithms face challenges posed by non-convex target functions and high computational complexity or unavailability of gradient information. These limitations, exacerbated by sensitivity to initial conditions, often lead to suboptimal solutions or failed convergence. This is true even for Metaheuristic algorithms designed to amalgamate different optimization techniques to improve their efficiency and robustness. To address these challenges, we develop a sequence of multidimensional integration-based methods that we show to converge to the global optima under some mild regularity conditions. Our probabilistic approach does not require the use of gradients and is underpinned by a mathematically rigorous convergence framework anchored in the nuanced properties of nascent optima distribution. In order to alleviate the problem of multidimensional integration, we develop a latent slice sampler that enjoys a geometric rate of convergence in generating samples from the nascent optima distribution, which is used to approximate the global optima. The proposed Probabilistic Global Optimizer (ProGO) provides a scalable unified framework to approximate the global optima of any continuous function defined on a domain of arbitrary dimension. Empirical illustrations of ProGO across a variety of popular non-convex test functions (having finite global optima) reveal that the proposed algorithm outperforms, by order of magnitude, many existing state-of-the-art methods, including gradient-based, zeroth-order gradient-free, and some Bayesian Optimization methods, in term regret value and speed of convergence. It is, however, to be noted that our approach may not be suitable for functions that are expensive to compute.
翻訳日:2023-10-15 14:39:02 公開日:2023-10-04
# 連合学習におけるインクルーシブデータ表現:テキストとビジュアルプロンプトを融合した新しいアプローチ

Inclusive Data Representation in Federated Learning: A Novel Approach Integrating Textual and Visual Prompt ( http://arxiv.org/abs/2310.04455v1 )

ライセンス: Link先を確認
Zihao Zhao, Zhenpeng Shi, Yang Liu, Wenbo Ding(参考訳) 連合学習(fl)は、しばしばコミュニケーションのオーバーヘッドの問題によって妨げられる。 プロンプトチューニングは、潜在的な解決策として、モデル全体ではなく、いくつかのトレーニング可能なパラメータを調整するために導入された。 しかし、現在のシングルモダリティ・プロンプト・チューニングアプローチでは、ローカルクライアントのデータを包括的に表現できない。 この制限を克服するために,視覚とテキストのモダリティを統合し,ローカルクライアントのデータ特性をより包括的に表現する,先駆的なソリューションであるtwin prompt federated learning(tpfl)を提案する。 さらに,データ不均一性問題に対処するために,クライアントモデルのグローバルな知識獲得を促進させるだけでなく,堅牢でコンパクトなモデルの開発を促進するために,比較学習を用いた拡張TPFL(ATPFL)を導入する。 TPFLとATPFLの有効性は広範囲な評価によって実証され,全てのベースラインと比較して常に優れた性能を示した。

Federated Learning (FL) is often impeded by communication overhead issues. Prompt tuning, as a potential solution, has been introduced to only adjust a few trainable parameters rather than the whole model. However, current single-modality prompt tuning approaches fail to comprehensively portray local clients' data. To overcome this limitation, we present Twin Prompt Federated learning (TPFL), a pioneering solution that integrates both visual and textual modalities, ensuring a more holistic representation of local clients' data characteristics. Furthermore, in order to tackle the data heterogeneity issues, we introduce the Augmented TPFL (ATPFL) employing the contrastive learning to TPFL, which not only enhances the global knowledge acquisition of client models but also fosters the development of robust, compact models. The effectiveness of TPFL and ATPFL is substantiated by our extensive evaluations, consistently showing superior performance compared to all baselines.
翻訳日:2023-10-15 14:38:31 公開日:2023-10-04
# 新型インフルエンザのワクチン保有率モデル、M-poxのツイートの微調整でパフォーマンスが向上

COVID-19 South African Vaccine Hesitancy Models Show Boost in Performance Upon Fine-Tuning on M-pox Tweets ( http://arxiv.org/abs/2310.04453v1 )

ライセンス: Link先を確認
Nicholas Perikli, Srimoy Bhattacharya, Blessing Ogbuokiri, Zahra Movahedi Nia, Benjamin Lieberman, Nidhi Tripathi, Salah-Eddine Dahbi, Finn Stevenson, Nicola Bragazzi, Jude Kong, Bruce Mellado(参考訳) 2022年5月初め以降、新型コロナウイルスのパンデミックが続く中、多くの人がM-poxアウトブレイクが急速に別のパンデミックに移行することを恐れ、非経済国でM-poxのケースが報告されている。 m-poxとcovid-19の類似性から,南アフリカのtwitterデータでトレーニングされたcovid-19モデルのパフォーマンスを,微調整前後のハンドラベル付きm-poxデータセットでテストすることにしました。 南アフリカからの20万件以上のM-pox関連ツイートは、肯定的、否定的、中立的とハンドラベリングされた。 これらのcovid-19モデルをm-poxデータセットで微調整した後、f1-scoresは70%弱の8%以上低下したが、最先端モデルやよく知られた分類アルゴリズムを上回っている。 LDAベースのトピックモデリング手法を用いて、オリジナルのCOVID-19 RoBERTaモデルの誤分類されたM-poxつぶやきを微調整したバージョンと比較し、より洗練されたモデルを構築する方法について結論を導いた。

Very large numbers of M-pox cases have, since the start of May 2022, been reported in non-endemic countries leading many to fear that the M-pox Outbreak would rapidly transition into another pandemic, while the COVID-19 pandemic ravages on. Given the similarities of M-pox with COVID-19, we chose to test the performance of COVID-19 models trained on South African twitter data on a hand-labelled M-pox dataset before and after fine-tuning. More than 20k M-pox-related tweets from South Africa were hand-labelled as being either positive, negative or neutral. After fine-tuning these COVID-19 models on the M-pox dataset, the F1-scores increased by more than 8% falling just short of 70%, but still outperforming state-of-the-art models and well-known classification algorithms. An LDA-based topic modelling procedure was used to compare the miss-classified M-pox tweets of the original COVID-19 RoBERTa model with its fine-tuned version, and from this analysis, we were able to draw conclusions on how to build more sophisticated models.
翻訳日:2023-10-15 14:38:16 公開日:2023-10-04
# 漸進的縮小順序モデリング:選択的知識伝達によるデータ駆動モデリングのエンパワーメント

Progressive reduced order modeling: empowering data-driven modeling with selective knowledge transfer ( http://arxiv.org/abs/2310.03770v1 )

ライセンス: Link先を確認
Teeratorn Kadeethum, Daniel O'Malley, Youngsoo Choi, Hari S. Viswanathan, Hongkyu Yoon(参考訳) データ駆動モデリングはデータの需要が絶えないため、高いコストと情報不足のため、エンジニアリングアプリケーションでは精度が低下し、実用的でない。 そこで本研究では,データ要求を最小化し,データ駆動モデリングの実用性を高める,漸進的縮小次数モデリングフレームワークを提案する。 提案手法は,従来訓練されていたモデルの知識をゲートを通じて選択的に伝達する。 過去のモデルから関連する情報をフィルタリングすることで、最小のターンアラウンド時間とより小さなトレーニングセットで、高い精度を達成できるサロゲートモデルを作成することができる。 我々は,多孔質媒体の輸送,重力駆動流,超弾性材料の有限変形など,いくつかのケースで実験を行った。 その結果,従来のモデルから情報を保持し,その知識の貴重な部分を活用することで,現在のモデルの精度を大幅に向上できることがわかった。 我々は,プログレッシブ・ナレッジ・トランスファーの重要性と,トレーニングサンプルの削減によるモデルの精度への影響を実証した。 例えば、4つの親モデルを持つ私たちのフレームワークは、9倍大きなデータでトレーニングされた親なしモデルよりも優れています。 我々の研究は、データ不足を軽減し、実践的なエンジニアリング応用のためのデータ駆動モデリングの可能性を解き放つ。 提案するフレームワークは、より効率的で費用効率の良いデータ駆動モデリングに向けた重要なステップであり、様々な分野の進歩を促進する。

Data-driven modeling can suffer from a constant demand for data, leading to reduced accuracy and impractical for engineering applications due to the high cost and scarcity of information. To address this challenge, we propose a progressive reduced order modeling framework that minimizes data cravings and enhances data-driven modeling's practicality. Our approach selectively transfers knowledge from previously trained models through gates, similar to how humans selectively use valuable knowledge while ignoring unuseful information. By filtering relevant information from previous models, we can create a surrogate model with minimal turnaround time and a smaller training set that can still achieve high accuracy. We have tested our framework in several cases, including transport in porous media, gravity-driven flow, and finite deformation in hyperelastic materials. Our results illustrate that retaining information from previous models and utilizing a valuable portion of that knowledge can significantly improve the accuracy of the current model. We have demonstrated the importance of progressive knowledge transfer and its impact on model accuracy with reduced training samples. For instance, our framework with four parent models outperforms the no-parent counterpart trained on data nine times larger. Our research unlocks data-driven modeling's potential for practical engineering applications by mitigating the data scarcity issue. Our proposed framework is a significant step toward more efficient and cost-effective data-driven modeling, fostering advancements across various fields.
翻訳日:2023-10-12 19:20:31 公開日:2023-10-04
# ハイブリッドv2x通信のための深層強化学習アルゴリズム:ベンチマーク研究

Deep Reinforcement Learning Algorithms for Hybrid V2X Communication: A Benchmarking Study ( http://arxiv.org/abs/2310.03767v1 )

ライセンス: Link先を確認
Fouzi Boukhalfa, Reda Alami, Mastane Achab, Eric Moulines, Mehdi Bennis(参考訳) 今日の時代には、自動運転車は航空機と同等の安全性を要求する。 高い信頼性を達成するために冗長性に依存する航空宇宙業界からのヒントを取り入れ、自動車部門はV2X(Vehicle-to-Everything)技術で冗長性を構築することでこの概念を活用できる。 信頼性の高いV2X技術がない現在、このアイデアは特に有望である。 複数のRAT(Radio Access Technologies)を並列に展開することで、将来の車両の標準技術に関する議論が休むことができる。 しかし、複数の通信技術を調整することは、動的、時間的変化のあるチャネルと様々な交通条件による複雑な作業である。 本稿では,Deep Reinforcement Learning (DRL)アルゴリズムを用いて,V2Xにおける垂直ハンドオーバ問題に対処する。 目的は、セレンチン環境で最も適切なV2X技術(DSRC/V-VLC)を選択することを支援することである。 その結果、ベンチマークアルゴリズムは、V-VLCヘッドライトの冗長性と使用率の観点から、現在の最先端手法よりも優れていることがわかった。 この結果は、高いレベルの信頼性を維持しながら通信コストを大幅に削減する。 これらの結果は、V2Xにおける垂直ハンドオーバ問題を解決するための有望なアプローチとして、高度なDRL決定機構をアーキテクチャに統合する強力な証拠となる。

In today's era, autonomous vehicles demand a safety level on par with aircraft. Taking a cue from the aerospace industry, which relies on redundancy to achieve high reliability, the automotive sector can also leverage this concept by building redundancy in V2X (Vehicle-to-Everything) technologies. Given the current lack of reliable V2X technologies, this idea is particularly promising. By deploying multiple RATs (Radio Access Technologies) in parallel, the ongoing debate over the standard technology for future vehicles can be put to rest. However, coordinating multiple communication technologies is a complex task due to dynamic, time-varying channels and varying traffic conditions. This paper addresses the vertical handover problem in V2X using Deep Reinforcement Learning (DRL) algorithms. The goal is to assist vehicles in selecting the most appropriate V2X technology (DSRC/V-VLC) in a serpentine environment. The results show that the benchmarked algorithms outperform the current state-of-the-art approaches in terms of redundancy and usage rate of V-VLC headlights. This result is a significant reduction in communication costs while maintaining a high level of reliability. These results provide strong evidence for integrating advanced DRL decision mechanisms into the architecture as a promising approach to solving the vertical handover problem in V2X.
翻訳日:2023-10-12 19:20:08 公開日:2023-10-04
# 文学に基づく発見(LBD) : バイオメディカルテキストマイニングにおける仮説生成と知識発見を目指して

Literature Based Discovery (LBD): Towards Hypothesis Generation and Knowledge Discovery in Biomedical Text Mining ( http://arxiv.org/abs/2310.03766v1 )

ライセンス: Link先を確認
Balu Bhasuran, Gurusamy Murugesan, Jeyakumar Natarajan(参考訳) バイオメディカルな知識は驚くべきペースで成長しており、ほとんどの知識は科学出版物として表現されている。 テキストマイニングツールは、この半構造化および非構造化データから隠れパターンや傾向を抽出するための自動アプローチである。 生物医学的なテキストマイニングにおいて、文献に基づく発見(英: literature based discovery、lbd)とは、医学用語間の新しい関連を自動的に発見するプロセスである。 LBDのアプローチは、膨大な量の科学文献に隠された潜在的な関連の発見時間を短縮することに成功した。 このプロセスは、病気や症状などの医学用語の概念プロファイルを作成し、共有プロファイルの統計的意義に基づいて薬物と治療を結びつけることに焦点を当てている。 1989年に導入されたこの知識発見アプローチは、今でもテキストマイニングのコアタスクとして残っている。 現在、ABCの原理に基づく2つのアプローチ、すなわちオープンディスカバリとクローズドディスカバリは、主にLBDプロセスで研究されている。 このレビューはテキストマイニングに関する一般的な紹介から始まり、MEDLINE、UMLS、MESH、SemMedDBといった様々な文献資源を紹介している。 これに続いて、ABCの核となる原理と関連する2つのアプローチがLBDプロセスにおけるオープン発見とクローズド発見に簡単な導入がなされた。 本稿では、トランスフォーマーモデルとニューラルネットワークに基づくLBDモデルの役割と今後の展望をレビューすることによって、LBDにおけるディープラーニング応用についても論じる。 最後に, 生体医学におけるLBDアプローチによる重要な生体医学的発見をレビューし, LBDの現在の限界と今後の方向性について結論づける。

Biomedical knowledge is growing in an astounding pace with a majority of this knowledge is represented as scientific publications. Text mining tools and methods represents automatic approaches for extracting hidden patterns and trends from this semi structured and unstructured data. In Biomedical Text mining, Literature Based Discovery (LBD) is the process of automatically discovering novel associations between medical terms otherwise mentioned in disjoint literature sets. LBD approaches proven to be successfully reducing the discovery time of potential associations that are hidden in the vast amount of scientific literature. The process focuses on creating concept profiles for medical terms such as a disease or symptom and connecting it with a drug and treatment based on the statistical significance of the shared profiles. This knowledge discovery approach introduced in 1989 still remains as a core task in text mining. Currently the ABC principle based two approaches namely open discovery and closed discovery are mostly explored in LBD process. This review starts with general introduction about text mining followed by biomedical text mining and introduces various literature resources such as MEDLINE, UMLS, MESH, and SemMedDB. This is followed by brief introduction of the core ABC principle and its associated two approaches open discovery and closed discovery in LBD process. This review also discusses the deep learning applications in LBD by reviewing the role of transformer models and neural networks based LBD models and its future aspects. Finally, reviews the key biomedical discoveries generated through LBD approaches in biomedicine and conclude with the current limitations and future directions of LBD.
翻訳日:2023-10-12 19:19:47 公開日:2023-10-04
# コンボリューショナルLSTMとコンテキストマッチング機構を用いた数値気象予測

Numerical Weather Forecasting using Convolutional-LSTM with Attention and Context Matcher Mechanisms ( http://arxiv.org/abs/2102.00696v2 )

ライセンス: Link先を確認
Selim Furkan Tekin, Arda Fazla and Suleyman Serdar Kozat(参考訳) 高分解能物理モデルを用いた数値気象予報はスーパーコンピュータ上での膨大な計算資源を必要とすることが多いため、現実のアプリケーションでの利用が減少する。 ディープラーニング手法を適用することで、この分野における革新的な解決策が明らかとなった。 そこで本稿では,高分解能時空間気象データを予測するための新しいディープラーニングアーキテクチャを提案する。 本手法は,畳み込み長期記憶と畳み込みニューラルネットワークを統合し,従来のエンコーダ・デコーダ構造を拡張する。 さらに、注意とコンテキストマッチングのメカニズムをモデルアーキテクチャに組み込む。 我々の気象モデルは,ConvLSTM,TrajGRU,U-Netなどのベースラインディープラーニングモデルと比較して,大幅な性能向上を実現している。 実験による評価では,圧力レベルと気象ベンチのERA5時間毎の数値気象データセットを,大規模で実世界のベンチマークで評価した。 その結果,大気循環をモデル化するための入力系列の異なる部分に着目した注意行列と空間的・時間的相関関係の同定が大幅に改善された。 また、ベンチマーク指標を用いて高分解能物理モデルとの比較を行い、気象モデルが正確かつ容易に解釈可能であることを示す。

Numerical weather forecasting using high-resolution physical models often requires extensive computational resources on supercomputers, which diminishes their wide usage in most real-life applications. As a remedy, applying deep learning methods has revealed innovative solutions within this field. To this end, we introduce a novel deep learning architecture for forecasting high-resolution spatio-temporal weather data. Our approach extends the conventional encoder-decoder structure by integrating Convolutional Long-short Term Memory and Convolutional Neural Networks. In addition, we incorporate attention and context matcher mechanisms into the model architecture. Our Weather Model achieves significant performance improvements compared to baseline deep learning models, including ConvLSTM, TrajGRU, and U-Net. Our experimental evaluation involves high-scale, real-world benchmark numerical weather datasets, namely the ERA5 hourly dataset on pressure levels and WeatherBench. Our results demonstrate substantial improvements in identifying spatial and temporal correlations with attention matrices focusing on distinct parts of the input series to model atmospheric circulations. We also compare our model with high-resolution physical models using the benchmark metrics and show that our Weather Model is accurate and easy to interpret.
翻訳日:2023-10-06 23:50:27 公開日:2023-10-04
# 環境としてのテキスト:深層強化学習テキスト可読性評価モデル

Text as Environment: A Deep Reinforcement Learning Text Readability Assessment Model ( http://arxiv.org/abs/1912.05957v3 )

ライセンス: Link先を確認
Hamid Mohammadi, Seyed Hossein Khasteh(参考訳) テキストの可読性を評価することは、書式での情報の正確な表現を著しく促進することができる。 テキスト可読性評価の定式化は、テキストの長さに関わらず、テキストの意味的な特性を識別する。 洗練された特徴とモデルは、テキストの理解性を正確に評価するために使用される。 それにもかかわらず、テキストの読みやすさを効率よく評価する問題は比較的未解決のままである。 最先端のテキスト可読性評価モデルの効率は、深層強化学習モデルを用いてさらに改善することができる。 注意力に基づく能動推論手法を用いて,提案手法は入力テキストと計算資源を効率的に活用する。 半教師付き信号を用いることで、強化学習モデルはテキストの可読性を決定するために最小限のテキストを使用する。 WeebitとCambridge ExamsのモデルとBERTテキスト可読性モデルのような最先端のモデルを比較すると、他のモデルよりもはるかに少ない入力テキストで最先端の精度を達成することができることを示している。

Evaluating the readability of a text can significantly facilitate the precise expression of information in written form. The formulation of text readability assessment involves the identification of meaningful properties of the text regardless of its length. Sophisticated features and models are used to evaluate the comprehensibility of texts accurately. Despite this, the problem of assessing texts' readability efficiently remains relatively untouched. The efficiency of state-of-the-art text readability assessment models can be further improved using deep reinforcement learning models. Using a hard attention-based active inference technique, the proposed approach makes efficient use of input text and computational resources. Through the use of semi-supervised signals, the reinforcement learning model uses the minimum amount of text in order to determine text's readability. A comparison of the model on Weebit and Cambridge Exams with state-of-the-art models, such as the BERT text readability model, shows that it is capable of achieving state-of-the-art accuracy with a significantly smaller amount of input text than other models.
翻訳日:2023-10-06 23:49:36 公開日:2023-10-04
# ゲノム学のためのディープラーニング: 簡潔な概要

Deep Learning for Genomics: A Concise Overview ( http://arxiv.org/abs/1802.00810v4 )

ライセンス: Link先を確認
Tianwei Yue, Yuanxin Wang, Longxiang Zhang, Chunming Gu, Haoru Xue, Wenping Wang, Qi Lyu, Yujie Dun(参考訳) 高スループットシーケンシング技術などのゲノム研究の進歩は、現代のゲノム研究を「大きなデータ」分野へと駆り立てている。 このデータ爆発は、ゲノム学で使われる従来の手法に常に挑戦している。 堅牢なアルゴリズムの急激な需要と並行して、ディープラーニングは視覚、音声、テキスト処理といった様々な分野に成功している。 しかし、ゲノム学は、私たちの知識を越えてゲノムを解釈する超人的な知能を深層学習から期待しているため、深層学習に固有の課題を伴います。 強力なディープラーニングモデルは、タスク固有の知識の洞察に頼らなければならない。 本稿では,それぞれのタスクを適切な深層アーキテクチャに適合させるために,ゲノムの観点から異なる深層学習モデルの強みを簡潔に論じるとともに,現代的深層学習アーキテクチャの開発に関する実践的考察について述べる。 また、ゲノム研究のさまざまな側面における深層学習応用の簡潔なレビューを行い、将来的なゲノム応用の可能性と障害を指摘した。

Advancements in genomic research such as high-throughput sequencing techniques have driven modern genomic studies into "big data" disciplines. This data explosion is constantly challenging conventional methods used in genomics. In parallel with the urgent demand for robust algorithms, deep learning has succeeded in a variety of fields such as vision, speech, and text processing. Yet genomics entails unique challenges to deep learning since we are expecting from deep learning a superhuman intelligence that explores beyond our knowledge to interpret the genome. A powerful deep learning model should rely on insightful utilization of task-specific knowledge. In this paper, we briefly discuss the strengths of different deep learning models from a genomic perspective so as to fit each particular task with a proper deep architecture, and remark on practical considerations of developing modern deep learning architectures for genomics. We also provide a concise review of deep learning applications in various aspects of genomic research, as well as pointing out potential opportunities and obstacles for future genomics applications.
翻訳日:2023-10-06 23:49:21 公開日:2023-10-04
# 深部地域競争による非教師なし前景抽出

Unsupervised Foreground Extraction via Deep Region Competition ( http://arxiv.org/abs/2110.15497v4 )

ライセンス: Link先を確認
Peiyu Yu, Sirui Xie, Xiaojian Ma, Yixin Zhu, Ying Nian Wu, Song-Chun Zhu(参考訳) 本研究では,画像から前方の物体を完全に教師なしで抽出するアルゴリズムであるdeep region competition (drc)を提案する。 前景抽出は、背景からオブジェクトを識別し、分離することに焦点を当てたジェネリックイメージセグメンテーションの特別なケースと見なすことができる。 本研究では,前景抽出を,エネルギーベース先行と生成的画像モデリングの融合(moe)によって再検討し,背景領域の正則性を捉えるための本質的帰納的バイアスとして学習画素再割り当てを導入する。 このモデリングにより、フォアグラウンドとバックグラウンドのパーティションは、期待-最大化(EM)によって自然に見つけることができる。 提案手法は分割過程において混合成分間の相互作用を効果的に活用し, 画像分割のための独創的手法である領域競合と密接に関連していることを示す。 実験により、DRCは複雑な実世界のデータに対してより競争力のある性能を示し、従来の手法と比較して多目的シーンに挑戦することを示した。 さらに,DRCはトレーニング中に見えないカテゴリからでも,新しい前景オブジェクトに一般化できる可能性が実証的に示された。

We present Deep Region Competition (DRC), an algorithm designed to extract foreground objects from images in a fully unsupervised manner. Foreground extraction can be viewed as a special case of generic image segmentation that focuses on identifying and disentangling objects from the background. In this work, we rethink the foreground extraction by reconciling energy-based prior with generative image modeling in the form of Mixture of Experts (MoE), where we further introduce the learned pixel re-assignment as the essential inductive bias to capture the regularities of background regions. With this modeling, the foreground-background partition can be naturally found through Expectation-Maximization (EM). We show that the proposed method effectively exploits the interaction between the mixture components during the partitioning process, which closely connects to region competition, a seminal approach for generic image segmentation. Experiments demonstrate that DRC exhibits more competitive performances on complex real-world data and challenging multi-object scenes compared with prior methods. Moreover, we show empirically that DRC can potentially generalize to novel foreground objects even from categories unseen during training.
翻訳日:2023-10-06 23:46:18 公開日:2023-10-04
# 公理的因果レンズによるモデル説明

Model Explanations via the Axiomatic Causal Lens ( http://arxiv.org/abs/2109.03890v6 )

ライセンス: Link先を確認
Gagan Biradar, Vignesh Viswanathan, Yair Zick(参考訳) ブラックボックスモデルの決定を説明することは、信頼できるMLの研究における中心的なテーマである。 文献には数多くの尺度が提案されているが、因果的説明可能性に対する公理的なアプローチを採る者はいない。 そこで本研究では,すべての原因(必要かつ十分な説明)の集合を特徴重みに集約する3つの説明尺度を提案する。 最初の尺度はチョックラーとハルパーンの因果責任の概念の自然な適応であり、他の2つは既存のゲーム理論の影響尺度に対応している。 提案する指標を公理的に処理し,望ましい性質のセットで一意に特徴付けることができることを示した。 我々はまた、ブラックボックスモデル説明のためのShapley-ShubikとBanzhafの指標を計算するための新しい方法の導出にもアプローチを拡張した。 最後に,本研究で提案するすべての説明手法の必要性と満足度について,成人所得者データセットを用いて分析し,比較した。 したがって、私たちの研究は、モデル説明、ゲーム理論の影響、因果分析の間のギャップを正式に橋渡しする最初の方法です。

Explaining the decisions of black-box models is a central theme in the study of trustworthy ML. Numerous measures have been proposed in the literature; however, none of them take an axiomatic approach to causal explainability. In this work, we propose three explanation measures which aggregate the set of all but-for causes -- a necessary and sufficient explanation -- into feature importance weights. Our first measure is a natural adaptation of Chockler and Halpern's notion of causal responsibility, whereas the other two correspond to existing game-theoretic influence measures. We present an axiomatic treatment for our proposed indices, showing that they can be uniquely characterized by a set of desirable properties. We also extend our approach to derive a new method to compute the Shapley-Shubik and Banzhaf indices for black-box model explanations. Finally, we analyze and compare the necessity and sufficiency of all our proposed explanation measures in practice using the Adult-Income dataset. Thus, our work is the first to formally bridge the gap between model explanations, game-theoretic influence, and causal analysis.
翻訳日:2023-10-06 23:44:57 公開日:2023-10-04
# 天文遷移への注意:測光分類のための時系列変換器の導入

Paying Attention to Astronomical Transients: Introducing the Time-series Transformer for Photometric Classification ( http://arxiv.org/abs/2105.06178v3 )

ライセンス: Link先を確認
Tarek Allam Jr., Jason D. McEwen(参考訳) ベラ・C・ルービン天文台のレガシー・サーベイ・オブ・スペース・アンド・タイム(LSST)のような将来の調査では、それまでのどの調査よりも天体物理学的な過渡現象が観測される。 この大量の測光データによって、このような事象を人間だけで分類することは不可能である。 近年,天文学的過渡分類の課題に取り組むために,機械学習手法の活用が試みられている。 Transformersは、自然言語処理のために最初に提案された、最近開発されたディープラーニングアーキテクチャである。 本研究では,マルチヘッドの自己注意をコアに用い,多変量時系列データのための新しいトランスフォーマーアーキテクチャを提案する。 さらに、提案された時系列トランスフォーマアーキテクチャは、任意の数の追加機能を含むと同時に、解釈可能性も提供する。 時系列トランスフォーマーを測光分類のタスクに適用し,特徴選択のための専門家領域知識の信頼性を最小化し,最先端の測光分類法に匹敵する結果を得る。 我々は、光度LSST天文時系列分類チャレンジ(PLAsTiCC)のデータを用いて、不均衡なデータに対する0.507の対数ロスを達成する。 さらに、曲線0.98のマイクロ平均受信特性領域と曲線0.87のマイクロ平均精度再生領域を実現する。

Future surveys such as the Legacy Survey of Space and Time (LSST) of the Vera C. Rubin Observatory will observe an order of magnitude more astrophysical transient events than any previous survey before. With this deluge of photometric data, it will be impossible for all such events to be classified by humans alone. Recent efforts have sought to leverage machine learning methods to tackle the challenge of astronomical transient classification, with ever improving success. Transformers are a recently developed deep learning architecture, first proposed for natural language processing, that have shown a great deal of recent success. In this work we develop a new transformer architecture, which uses multi-head self attention at its core, for general multi-variate time-series data. Furthermore, the proposed time-series transformer architecture supports the inclusion of an arbitrary number of additional features, while also offering interpretability. We apply the time-series transformer to the task of photometric classification, minimising the reliance of expert domain knowledge for feature selection, while achieving results comparable to state-of-the-art photometric classification methods. We achieve a logarithmic-loss of 0.507 on imbalanced data in a representative setting using data from the Photometric LSST Astronomical Time-Series Classification Challenge (PLAsTiCC). Moreover, we achieve a micro-averaged receiver operating characteristic area under curve of 0.98 and micro-averaged precision-recall area under curve of 0.87.
翻訳日:2023-10-06 23:44:26 公開日:2023-10-04
# 知識蒸留と融合による連合学習におけるデータ不均一性処理

Handling Data Heterogeneity in Federated Learning via Knowledge Distillation and Fusion ( http://arxiv.org/abs/2207.11447v2 )

ライセンス: Link先を確認
Xu Zhou, Xinyu Lei, Cong Yang, Yichun Shi, Xiao Zhang, Jingwen Shi(参考訳) federated learning(fl)は、中央サーバの助けを借りて、複数のデバイスにまたがるグローバル機械学習モデルの分散トレーニングをサポートする。 しかし、異なるデバイス間のデータの不均一性は、クライアントモデルのドリフト問題につながり、モデル性能の低下とモデルの公平性が低下する。 本稿では,この問題を解決するために,グローバルローカル知識融合(fedkf)方式によるフェデレート学習をデザインする。 FedKFのキーとなるアイデアは、サーバがグローバルな知識を各トレーニングラウンドのローカルな知識と融合させ、ローカルモデルをグローバルなオプティマに向けて規則化できるようにすることである。 したがって、クライアントモデルのドリフト問題を緩和することができる。 FedKFでは、まず、正確なグローバル知識表現をサポートするアクティブ非アクティブモデル集約手法を提案する。 次に、各クライアントモデルがグローバル知識(グローバルモデルに埋め込まれた)を学習できるとともに、各クライアントモデルが同時にローカル知識(ローカルデータセットに埋め込まれた)を学習できるデータフリー知識蒸留(kd)アプローチを提案し、グローバルローカル知識融合プロセスを実現する。 理論解析と集中実験は、以前の解よりもfedkfが優れていることを示している。

Federated learning (FL) supports distributed training of a global machine learning model across multiple devices with the help of a central server. However, data heterogeneity across different devices leads to the client model drift issue and results in model performance degradation and poor model fairness. To address the issue, we design Federated learning with global-local Knowledge Fusion (FedKF) scheme in this paper. The key idea in FedKF is to let the server return the global knowledge to be fused with the local knowledge in each training round so that the local model can be regularized towards the global optima. Therefore, the client model drift issue can be mitigated. In FedKF, we first propose the active-inactive model aggregation technique that supports a precise global knowledge representation. Then, we propose a data-free knowledge distillation (KD) approach to enable each client model to learn the global knowledge (embedded in the global model) while each client model can still learn the local knowledge (embedded in the local dataset) simultaneously, thereby realizing the global-local knowledge fusion process. The theoretical analysis and intensive experiments demonstrate the superiority of FedKF over previous solutions.
翻訳日:2023-10-06 23:24:18 公開日:2023-10-04
# 強駆動場を有するイジングモデルにおけるハイゼンベルク相互作用のシミュレーション

Simulating Heisenberg Interactions in the Ising Model with Strong Drive Fields ( http://arxiv.org/abs/2207.09438v4 )

ライセンス: Link先を確認
Anthony N. Ciavarella, Stephan Caspar, Hersh Singh, Martin J. Savage, Pavel Lougovski(参考訳) 離散時間間隔で大きな駆動場を持つイジングモデルの時間進化は、逆場強度の先頭の順序で有効なXXZ-ハイゼンベルクモデルによって再現される。 ドライブ場の特定の向きについて、xxx-ハイゼンベルクモデルのダイナミクスを再現する。 これらの近似等価性は、イジングモデルにおける動的位相遷移によって設定された臨界駆動場強度より上において有効であり、イジングモデルに従って量子ビットをネイティブに進化させる量子デバイスによりより複雑なシステムをシミュレートできると期待されている。

The time-evolution of an Ising model with large driving fields over discrete time intervals is shown to be reproduced by an effective XXZ-Heisenberg model at leading order in the inverse field strength. For specific orientations of the drive field, the dynamics of the XXX-Heisenberg model is reproduced. These approximate equivalences, valid above a critical driving field strength set by dynamical phase transitions in the Ising model, are expected to enable quantum devices that natively evolve qubits according to the Ising model to simulate more complex systems.
翻訳日:2023-10-06 23:23:56 公開日:2023-10-04
# テキスト・モデリングのための潜時拡散エネルギーベースモデル

Latent Diffusion Energy-Based Model for Interpretable Text Modeling ( http://arxiv.org/abs/2206.05895v4 )

ライセンス: Link先を確認
Peiyu Yu, Sirui Xie, Xiaojian Ma, Baoxiong Jia, Bo Pang, Ruiqi Gao, Yixin Zhu, Song-Chun Zhu, and Ying Nian Wu(参考訳) 潜在宇宙エネルギーベースモデル(EBMs)は、エネルギーベースモデルとしても知られ、生成モデルへの関心が高まっている。 定式化の柔軟性と潜在空間の強力なモデリング力により、テキストモデリングの解釈可能性を目指して、近年の研究が進められている。 しかし、遅延空間のEMMは、データ空間におけるEMMのいくつかの欠陥を継承し、縮退したMCMCサンプリングの品質は、特に複雑な遅延構造を持つデータにおいて、訓練における生成品質と不安定性を低下させる可能性がある。 本研究では, 拡散回復可能性学習をサンプリング問題の解決策として活用する最近の取り組みに触発されて, 拡散モデルと潜時空間ebmsとの共生を, 潜時拡散エネルギーに基づくモデルとして創成した変分学習枠組みに導入する。 本研究では,情報ボトルネックと協調して幾何クラスタリングに基づく正規化手法を開発し,学習した潜在空間の品質をさらに向上させる。 いくつかの課題に対する実験は、強力なテキストモデリングにおける我々のモデルの優れた性能を示すものである。

Latent space Energy-Based Models (EBMs), also known as energy-based priors, have drawn growing interests in generative modeling. Fueled by its flexibility in the formulation and strong modeling power of the latent space, recent works built upon it have made interesting attempts aiming at the interpretability of text modeling. However, latent space EBMs also inherit some flaws from EBMs in data space; the degenerate MCMC sampling quality in practice can lead to poor generation quality and instability in training, especially on data with complex latent structures. Inspired by the recent efforts that leverage diffusion recovery likelihood learning as a cure for the sampling issue, we introduce a novel symbiosis between the diffusion models and latent space EBMs in a variational learning framework, coined as the latent diffusion energy-based model. We develop a geometric clustering-based regularization jointly with the information bottleneck to further improve the quality of the learned latent space. Experiments on several challenging tasks demonstrate the superior performance of our model on interpretable text modeling over strong counterparts.
翻訳日:2023-10-06 23:23:02 公開日:2023-10-04
# 特殊化の少ない2段LDMファインチューニングと一般化

Two-stage LLM Fine-tuning with Less Specialization and More Generalization ( http://arxiv.org/abs/2211.00635v2 )

ライセンス: Link先を確認
Yihan Wang, Si Si, Daliang Li, Michal Lukasik, Felix Yu, Cho-Jui Hsieh, Inderjit S Dhillon, Sanjiv Kumar(参考訳) 事前訓練された大規模言語モデル(LLMs)は、プロンプト付きタスクの多様なセットに適用可能な汎用的な問題解決手法である。 特別なデータセットを微調整することで、特定のタスクに向けてさらに改善することができる。 しかし、ファインチューニングは通常、このデータセットに限定して、一般的なインコンテキスト学習性能を低下させ、微調整されたモデルが、微調整されたデータが利用できないような追加のタスクを処理する必要がある場合、望ましくないようなモデルを、このデータセットに限定する。 本稿では,1つのタスクの微調整がllmsの一般的なインコンテキスト学習性能を実際に低下させることを示す。 モデルが微調整タスクの形式に過度に適合する,そのような忘れ,形式特化の1つの重要な原因を見出す。 さらに、ファインチューニングの開始時にフォーマットの特殊化が発生することを示す。 この問題を解決するために,フォーマットの特殊化を減らし,一般化を改善するシンプルな2段階ファインチューニングフレームワークであるModel Tuning(ProMoT)を用いたPrompt Tuningを提案する。 ProMoTは、タスク固有のフォーマット学習を、まずプロンプトチューニングを行い、次にこのソフトプロンプトアタッチメントでモデル自体を微調整することで、追加的で取り外し可能なパラメータにオフロードする。 いくつかの微調整タスクと8つのインコンテキスト評価タスクの実験により、ProMoTは通常の微調整タスクに匹敵する性能を達成できるが、ドメイン外評価タスクのボード内での文脈内学習性能の損失ははるかに少ない。 さらに重要なことは、En-Fr翻訳上のProMoTは他の言語ペアのパフォーマンスを大幅に改善し、NLI上のProMoTは要約におけるパフォーマンスを向上する。 実験では、promotがマルチタスクトレーニングの一般化性能を向上させることも示されている。

Pretrained large language models (LLMs) are general purpose problem solvers applicable to a diverse set of tasks with prompts. They can be further improved towards a specific task by fine-tuning on a specialized dataset. However, fine-tuning usually makes the model narrowly specialized on this dataset with reduced general in-context learning performances, which is undesirable whenever the fine-tuned model needs to handle additional tasks where no fine-tuning data is available. In this work, we first demonstrate that fine-tuning on a single task indeed decreases LLMs' general in-context learning performance. We discover one important cause of such forgetting, format specialization, where the model overfits to the format of the fine-tuned task. We further show that format specialization happens at the very beginning of fine-tuning. To solve this problem, we propose Prompt Tuning with MOdel Tuning (ProMoT), a simple yet effective two-stage fine-tuning framework that reduces format specialization and improves generalization. ProMoT offloads task-specific format learning into additional and removable parameters by first doing prompt tuning and then fine-tuning the model itself with this soft prompt attached. With experiments on several fine-tuning tasks and 8 in-context evaluation tasks, we show that ProMoT achieves comparable performance on fine-tuned tasks to standard fine-tuning, but with much less loss of in-context learning performances across a board range of out-of-domain evaluation tasks. More importantly, ProMoT can even enhance generalization on in-context learning tasks that are semantically related to the fine-tuned task, e.g. ProMoT on En-Fr translation significantly improves performance on other language pairs, and ProMoT on NLI improves performance on summarization. Experiments also show that ProMoT can improve the generalization performance of multi-task training.
翻訳日:2023-10-06 23:13:06 公開日:2023-10-04
# ラベル上の損失: 直接損失構成による弱い教師付き学習

Losses over Labels: Weakly Supervised Learning via Direct Loss Construction ( http://arxiv.org/abs/2212.06921v2 )

ライセンス: Link先を確認
Dylan Sam, J. Zico Kolter(参考訳) 大量のラベル付きデータを生成することの禁止コストのため、プログラム的な弱い監督は機械学習におけるパラダイムの成長である。 この設定では、ユーザはデータのサブセットにノイズラベルを提供するヒューリスティックを設計する。 これらの弱いラベルは(通常、グラフィカルモデルを介して)結合されて擬似ラベルを形成し、下流モデルのトレーニングに使用される。 この研究では、典型的な弱教師付き学習パイプラインの基本前提に疑問を呈する: ヒューリスティックがすべての `label" 情報を提供することを考慮すれば、なぜ疑似ラベルを生成する必要があるのか? 代わりに、我々はヒューリスティック自体を直接、モデルとヒューリスティックの違いを罰する対応する損失関数に変換することを提案する。 ヒューリスティックスから直接損失を構築することで、ヒューリスティックスがトレーニング中に機能選択を明示的に通知する方法など、標準的な弱教師付きパイプラインで使用されるよりも多くの情報を組み込むことができる。 この手法をLosses over Labels (LoL)と呼び、ラベルの中間ステップを経由することなくヒューリスティックスから直接損失を発生させる。 複数のベンチマークテキストおよび画像分類タスクにおいて,LoLは既存の弱い監督手法を改善し,さらに勾配情報の導入により,ほぼすべてのタスクにおいて性能が向上することを示す。

Owing to the prohibitive costs of generating large amounts of labeled data, programmatic weak supervision is a growing paradigm within machine learning. In this setting, users design heuristics that provide noisy labels for subsets of the data. These weak labels are combined (typically via a graphical model) to form pseudolabels, which are then used to train a downstream model. In this work, we question a foundational premise of the typical weakly supervised learning pipeline: given that the heuristic provides all ``label" information, why do we need to generate pseudolabels at all? Instead, we propose to directly transform the heuristics themselves into corresponding loss functions that penalize differences between our model and the heuristic. By constructing losses directly from the heuristics, we can incorporate more information than is used in the standard weakly supervised pipeline, such as how the heuristics make their decisions, which explicitly informs feature selection during training. We call our method Losses over Labels (LoL) as it creates losses directly from heuristics without going through the intermediate step of a label. We show that LoL improves upon existing weak supervision methods on several benchmark text and image classification tasks and further demonstrate that incorporating gradient information leads to better performance on almost every task.
翻訳日:2023-10-06 23:03:05 公開日:2023-10-04
# ラベル差分プライバシーによる回帰

Regression with Label Differential Privacy ( http://arxiv.org/abs/2212.06074v3 )

ライセンス: Link先を確認
Badih Ghazi, Pritish Kamath, Ravi Kumar, Ethan Leeman, Pasin Manurangsi, Avinash V Varadarajan, Chiyuan Zhang(参考訳) ラベル差分プライバシー(DP)を保証した回帰モデルの学習課題について検討する。 ラベル値のグローバルな事前分布に基づいて, 与えられた回帰損失関数の下で最適なラベルDPランダム化機構を導出する。 最適機構が「ビンのランダム化応答」の形をとることを証明し、最適なビン値を求めるための効率的なアルゴリズムを提案する。 アルゴリズムの有効性を示すいくつかのデータセットについて,徹底的な実験評価を行った。

We study the task of training regression models with the guarantee of label differential privacy (DP). Based on a global prior distribution on label values, which could be obtained privately, we derive a label DP randomization mechanism that is optimal under a given regression loss function. We prove that the optimal mechanism takes the form of a "randomized response on bins", and propose an efficient algorithm for finding the optimal bin values. We carry out a thorough experimental evaluation on several datasets demonstrating the efficacy of our algorithm.
翻訳日:2023-10-06 23:02:43 公開日:2023-10-04
# 効率的なグラフフィールド積分器がポイントクラウドと出会う

Efficient Graph Field Integrators Meet Point Clouds ( http://arxiv.org/abs/2302.00942v6 )

ライセンス: Link先を確認
Krzysztof Choromanski, Arijit Sehanobish, Han Lin, Yunfan Zhao, Eli Berger, Tetiana Parshakova, Alvin Pan, David Watkins, Tianyi Zhang, Valerii Likhosherstov, Somnath Basu Roy Chowdhury, Avinava Dubey, Deepali Jain, Tamas Sarlos, Snigdha Chaturvedi, Adrian Weller(参考訳) 点雲を符号化するグラフ上での効率的な場積分のためのアルゴリズムを2種類提案する。 第1のクラスであるSeparatorFactorization(SF)は、ポイントメッシュグラフの有界属を利用するが、第2のクラスであるRFDiffusion(RFD)は、ポイントクラウドの一般的なepsilon-nearest-neighborグラフ表現を使用する。 どちらも、効率的な統合に多大な影響を与えたFMM(Fast Multipole Methods)の機能を提供するが、非ユークリッド空間ではそうではない。 ポイント間の歩行長さの分布(例えば、最短経路距離)によって引き起こされるジオメトリに注目した。 アルゴリズムの広範な理論的解析を行い,副産物として構造グラフ理論の新たな結果を得た。 また,剛体および変形可能な物体の面補間(特にメッシュ力学モデリング),点雲のwasserstein距離計算,gromov-wasserstein変種など,徹底的な実験評価を行う。

We present two new classes of algorithms for efficient field integration on graphs encoding point clouds. The first class, SeparatorFactorization(SF), leverages the bounded genus of point cloud mesh graphs, while the second class, RFDiffusion(RFD), uses popular epsilon-nearest-neighbor graph representations for point clouds. Both can be viewed as providing the functionality of Fast Multipole Methods (FMMs), which have had a tremendous impact on efficient integration, but for non-Euclidean spaces. We focus on geometries induced by distributions of walk lengths between points (e.g., shortest-path distance). We provide an extensive theoretical analysis of our algorithms, obtaining new results in structural graph theory as a byproduct. We also perform exhaustive empirical evaluation, including on-surface interpolation for rigid and deformable objects (particularly for mesh-dynamics modeling), Wasserstein distance computations for point clouds, and the Gromov-Wasserstein variant.
翻訳日:2023-10-06 22:50:48 公開日:2023-10-04
# 理想的共同分類器推定に基づく知識蒸留

Knowledge Distillation Under Ideal Joint Classifier Assumption ( http://arxiv.org/abs/2304.11004v2 )

ライセンス: Link先を確認
Huayu Li, Xiwen Chen, Gregory Ditzler, Janet Roveda, Ao Li(参考訳) 知識蒸留は、ニューラルネットワークをよりコンパクトで効率的なものに凝縮するための強力な方法論である。 この文脈内では、ソフトマックス回帰表現学習が広く受け入れられ、教師ネットワークを利用して、小型の学生ネットワークの学習プロセスをガイドする。 特に、ソフトマックス回帰表現学習の有効性に関する広範な調査にもかかわらず、知識伝達機構を規定する複雑な基盤は未解明のままである。 本研究は「理想的共同分類器知識蒸留(ijckd)」の枠組みについて紹介する。 本研究は,ドメイン適応理論に基づく数学的手法を用いて,教師ネットワーク上の学生ネットワークの誤り境界を包括的に検証する。 その結果,本フレームワークは,教師と学生のネットワーク間の効率的な知識伝達を促進する。

Knowledge distillation constitutes a potent methodology for condensing substantial neural networks into more compact and efficient counterparts. Within this context, softmax regression representation learning serves as a widely embraced approach, leveraging a pre-established teacher network to guide the learning process of a diminutive student network. Notably, despite the extensive inquiry into the efficacy of softmax regression representation learning, the intricate underpinnings governing the knowledge transfer mechanism remain inadequately elucidated. This study introduces the 'Ideal Joint Classifier Knowledge Distillation' (IJCKD) framework, an overarching paradigm that not only furnishes a lucid and exhaustive comprehension of prevailing knowledge distillation techniques but also establishes a theoretical underpinning for prospective investigations. Employing mathematical methodologies derived from domain adaptation theory, this investigation conducts a comprehensive examination of the error boundary of the student network contingent upon the teacher network. Consequently, our framework facilitates efficient knowledge transference between teacher and student networks, thereby accommodating a diverse spectrum of applications.
翻訳日:2023-10-06 22:31:51 公開日:2023-10-04
# MedAlpaca - 医療会話型AIモデルとトレーニングデータのオープンソースコレクション

MedAlpaca -- An Open-Source Collection of Medical Conversational AI Models and Training Data ( http://arxiv.org/abs/2304.08247v2 )

ライセンス: Link先を確認
Tianyu Han and Lisa C. Adams and Jens-Michalis Papaioannou and Paul Grundmann and Tom Oberhauser and Alexander L\"oser and Daniel Truhn and Keno K. Bressem(参考訳) openaiのgptシリーズのような大規模言語モデル(llm)が進歩を続けるにつれ、人工知能の応用がますます広範囲に及んだ。 医学では、これらのLSMは医療ワークフロー、診断、患者ケア、教育を改善するためのかなりの約束を持っている。 しかし、患者プライバシを保護するためにオンプレミスにデプロイできるオープンソースモデルが緊急に必要である。 本研究では,有効な医療応用のために,特にllmを微調整した16万以上のエントリからなる革新的なデータセットを提案する。 これらのデータセットの微調整が,事前学習されたllmに与える影響について検討し,その後,医師が認定に合格しなければならない検査に関する微調整モデルに対して,事前学習モデルの性能を比較検討した。

As large language models (LLMs) like OpenAI's GPT series continue to make strides, we witness the emergence of artificial intelligence applications in an ever-expanding range of fields. In medicine, these LLMs hold considerable promise for improving medical workflows, diagnostics, patient care, and education. Yet, there is an urgent need for open-source models that can be deployed on-premises to safeguard patient privacy. In our work, we present an innovative dataset consisting of over 160,000 entries, specifically crafted to fine-tune LLMs for effective medical applications. We investigate the impact of fine-tuning these datasets on publicly accessible pre-trained LLMs, and subsequently, we juxtapose the performance of pre-trained-only models against the fine-tuned models concerning the examinations that future medical doctors must pass to achieve certification.
翻訳日:2023-10-06 22:30:41 公開日:2023-10-04
# crossget:視覚言語トランスフォーマーを加速するトークンのクロスガイドアンサンブル

CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers ( http://arxiv.org/abs/2305.17455v2 )

ライセンス: Link先を確認
Dachuan Shi, Chaofan Tao, Anyi Rao, Zhendong Yang, Chun Yuan, Jiaqi Wang(参考訳) 最近のビジョン言語モデルは、私たちが予想した以上に大きな進歩を遂げました。 しかし、その計算コストは、特に大規模モデルにおいて、急速な発展とともに劇的に増大している。 限られた資源のシナリオでは、モデル加速が極めて重要である。 ユニモーダルモデルについて広範囲に研究されているが、マルチモーダルモデル、特に視覚言語トランスフォーマーの加速は比較的過小評価されている。 より効率的で使いやすい視覚言語トランスフォーマーを追求するため,本稿では視覚言語トランスフォーマーのための普遍的加速フレームワークである \textbf{cross}-\textbf{g}uided \textbf{e}nsemble of \textbf{t}okens (\textbf{\emph{crossget}})を紹介する。 このフレームワークは、リアルタイムのクロスモーダルガイダンスを通じてトークンを適応的に組み合わせ、高い性能を維持しながら実質的な加速を実現する。 \textit{CrossGET} には2つの重要な革新がある。 1) \textit{Cross-Guided Matching and Ensemble} \textit{CrossGET}は、クロスモーダルなトークンマッチングとアンサンブルを組み込んで、クロスモーダルな情報を効果的に活用する。 2) \textit{Complete-Graph Soft Matching}。 既存の二部作のソフトマッチングアプローチとは対照的に, \textit{CrossGET} では, 並列化性と高効率性を維持しつつ, より信頼性の高いトークンマッチング結果を実現するために, 完全グラフのソフトマッチングポリシーを導入している。 画像テキスト検索、視覚的推論、画像キャプション、視覚的質問応答など、様々な視覚言語タスクに関する広範な実験が行われている。 古典的マルチモーダルアーキテクチャと新興マルチモーダル LLM の性能は,提案した \textit{CrossGET} フレームワークの有効性と汎用性を示している。 コードは \url{https://github.com/sdc17/CrossGET} にある。

Recent vision-language models have achieved tremendous progress far beyond what we ever expected. However, their computational costs are also dramatically growing with rapid development, especially for the large models. It makes model acceleration exceedingly critical in a scenario of limited resources. Although extensively studied for unimodal models, the acceleration for multimodal models, especially the vision-language Transformers, is relatively under-explored. To pursue more efficient and accessible vision-language Transformers, this paper introduces \textbf{Cross}-\textbf{G}uided \textbf{E}nsemble of \textbf{T}okens (\textbf{\emph{CrossGET}}), a universal acceleration framework for vision-language Transformers. This framework adaptively combines tokens through real-time, cross-modal guidance, thereby achieving substantial acceleration while keeping high performance. \textit{CrossGET} has two key innovations: 1) \textit{Cross-Guided Matching and Ensemble}. \textit{CrossGET} incorporates cross-modal guided token matching and ensemble to exploit cross-modal information effectively, only introducing cross-modal tokens with negligible extra parameters. 2) \textit{Complete-Graph Soft Matching}. In contrast to the existing bipartite soft matching approach, \textit{CrossGET} introduces a complete-graph soft matching policy to achieve more reliable token-matching results while maintaining parallelizability and high efficiency. Extensive experiments are conducted on various vision-language tasks, including image-text retrieval, visual reasoning, image captioning, and visual question answering. Performance on both classic multimodal architectures and emerging multimodal LLMs demonstrate the effectiveness and versatility of the proposed \textit{CrossGET} framework. The code will be at \url{https://github.com/sdc17/CrossGET}.
翻訳日:2023-10-06 22:25:02 公開日:2023-10-04
# 投影量子進化による時間依存変分モンテカルロの非バイアス化

Unbiasing time-dependent Variational Monte Carlo by projected quantum evolution ( http://arxiv.org/abs/2305.14294v3 )

ライセンス: Link先を確認
Alessandro Sinibaldi, Clemens Giuliani, Giuseppe Carleo, Filippo Vicentini(参考訳) 変分モンテカルロ法による多体量子系の力学を古典的にシミュレートするための精度とサンプルの複雑さを解析する。 関連する確率的推定器を体系的に研究することで (i) 最もよく用いられるスキームである時間依存変分モンテカルロ(tvmc)は、波動関数がフェルミオン系や量子情報プロトコルにとって重要な場合である(おそらく近似)零点を含むとき、系統的統計バイアスまたは指数的サンプル複雑性に影響されていることを証明する。 (ii)各段階における最適化問題の解に基づく異なるスキームは、そのような問題から自由であることを示す。 (iii) この後者のアプローチのサンプル複雑性を、以前の概念実証に関して数桁の桁数で改善する。 最後に,2次元の局所ランダム測定による非クリフォードユニタリ力学のプロトコルを用いて,まず小さなスピン格子上でのベンチマークを行い,次に大規模システムに拡張した。

We analyze the accuracy and sample complexity of variational Monte Carlo approaches to simulate the dynamics of many-body quantum systems classically. By systematically studying the relevant stochastic estimators, we are able to: (i) prove that the most used scheme, the time-dependent Variational Monte Carlo (tVMC), is affected by a systematic statistical bias or exponential sample complexity when the wave function contains some (possibly approximate) zeros, an important case for fermionic systems and quantum information protocols; (ii) show that a different scheme based on the solution of an optimization problem at each time step is free from such problems; (iii) improve the sample complexity of this latter approach by several orders of magnitude with respect to previous proofs of concept. Finally, we apply our advancements to study the high-entanglement phase in a protocol of non-Clifford unitary dynamics with local random measurements in 2D, first benchmarking on small spin lattices and then extending to large systems.
翻訳日:2023-10-06 22:22:12 公開日:2023-10-04
# FedJETs:Federated Mixture of Expertsによる効率的なジャストインタイムパーソナライズ

FedJETs: Efficient Just-In-Time Personalization with Federated Mixture of Experts ( http://arxiv.org/abs/2306.08586v2 )

ライセンス: Link先を確認
Chen Dun, Mirian Hipolito Garcia, Guoqing Zheng, Ahmed Hassan Awadallah, Robert Sim, Anastasios Kyrillidis, Dimitrios Dimitriadis(参考訳) フェデレートラーニング(FL)の目標の1つは、共有グローバルモデルからの知識を活用しながら、参加する各クライアントのコンテキストに適応可能なパーソナライズされたモデルを作成することである。 しかし、しばしばパーソナライゼーションは、優れたパフォーマンスを達成するために、クライアントのラベル付きデータを使用する微調整のステップを必要とする。 これは、入ってくるクライアントが新しくなり、あるいはプライバシー上の懸念があるシナリオでは実現できないかもしれない。 そして、これらのシナリオにおいて、ジャスト・イン・タイムのパーソナライズを実現する方法が、まだオープンである。 FLセットアップ内でMixture-of-Experts (MoE) フレームワークを用いた新しいソリューションであるFedJETを提案する。 本手法は,クライアントの多様性を活かし,クラスの異なるサブセットに関する専門的な専門家を訓練し,入力を最も関連する専門家にルーティングするゲーティング関数を提供する。 我々のゲーティング関数は、事前訓練されたモデル共通専門家の知識を利用して、オンザフライで経路決定を強化する。 その結果,術式FL設定の精度は最大18%向上し,ゼロショット性能の競争力は維持できることがわかった。 実際に,本手法は非均一なデータ分散を処理し,より効率的にスケールし,FLベンチマークの最先端性能を向上させる。

One of the goals in Federated Learning (FL) is to create personalized models that can adapt to the context of each participating client, while utilizing knowledge from a shared global model. Yet, often, personalization requires a fine-tuning step using clients' labeled data in order to achieve good performance. This may not be feasible in scenarios where incoming clients are fresh and/or have privacy concerns. It, then, remains open how one can achieve just-in-time personalization in these scenarios. We propose FedJETs, a novel solution by using a Mixture-of-Experts (MoE) framework within a FL setup. Our method leverages the diversity of the clients to train specialized experts on different subsets of classes, and a gating function to route the input to the most relevant expert(s). Our gating function harnesses the knowledge of a pretrained model common expert to enhance its routing decisions on-the-fly. As a highlight, our approach can improve accuracy up to 18\% in state of the art FL settings, while maintaining competitive zero-shot performance. In practice, our method can handle non-homogeneous data distributions, scale more efficiently, and improve the state-of-the-art performance on common FL benchmarks.
翻訳日:2023-10-06 22:13:46 公開日:2023-10-04
# squeezellm: 密度と分散の量子化

SqueezeLLM: Dense-and-Sparse Quantization ( http://arxiv.org/abs/2306.07629v2 )

ライセンス: Link先を確認
Sehoon Kim, Coleman Hooper, Amir Gholami, Zhen Dong, Xiuyu Li, Sheng Shen, Michael W. Mahoney, Kurt Keutzer(参考訳) 生成型大規模言語モデル(LLM)は、幅広いタスクに対して顕著な結果を示した。 しかしながら,これらのモデルを推論用にデプロイすることは,前例のないリソース要件のために大きな課題となっている。 これにより、既存のデプロイメントフレームワークでは、複雑でコストがかかるマルチGPU推論パイプラインの使用や、より小型でパフォーマンスの低いモデルの使用を余儀なくされている。 本研究では, LLMを用いた生成推論の主なボトルネックは, 計算よりもメモリ帯域幅であることを示す。 量子化はモデル重みを精度の低下で表現することで有望な解として現れてきたが、以前の試みはしばしば顕著な性能劣化をもたらした。 学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を可能にするとともに、同じメモリ制約下で高い量子化性能を実現する。 私たちの枠組みには2つの新しいアイデアが組み込まれています (i)第2次情報に基づいて最適なビット精度を探索する感度に基づく非一様量子化 (ii)異常値や感度の高い重み値を効率的なスパース形式に格納する密度とスパース分解。 LLaMAモデルに適用した場合、我々の3ビット量子化はFP16ベースラインからのパープレキシティギャップを、同じメモリ要件の最先端手法と比較して最大2.1倍削減する。 さらに、A6000 GPUにデプロイすると、我々の量子化モデルはベースラインと比較して最大2.3倍のスピードアップを達成する。 私たちのコードはオープンソースで、オンラインで利用可能です。

Generative Large Language Models (LLMs) have demonstrated remarkable results for a wide range of tasks. However, deploying these models for inference has been a significant challenge due to their unprecedented resource requirements. This has forced existing deployment frameworks to use multi-GPU inference pipelines, which are often complex and costly, or to use smaller and less performant models. In this work, we demonstrate that the main bottleneck for generative inference with LLMs is memory bandwidth, rather than compute, specifically for single batch inference. While quantization has emerged as a promising solution by representing model weights with reduced precision, previous efforts have often resulted in notable performance degradation. To address this, we introduce SqueezeLLM, a post-training quantization framework that not only enables lossless compression to ultra-low precisions of up to 3-bit, but also achieves higher quantization performance under the same memory constraint. Our framework incorporates two novel ideas: (i) sensitivity-based non-uniform quantization, which searches for the optimal bit precision assignment based on second-order information; and (ii) the Dense-and-Sparse decomposition that stores outliers and sensitive weight values in an efficient sparse format. When applied to the LLaMA models, our 3-bit quantization significantly reduces the perplexity gap from the FP16 baseline by up to 2.1x as compared to the state-of-the-art methods with the same memory requirement. Furthermore, when deployed on an A6000 GPU, our quantized models achieve up to 2.3x speedup compared to the baseline. Our code is open-sourced and available online.
翻訳日:2023-10-06 22:13:23 公開日:2023-10-04
# マルチモーダルスマートフォンセンシングによる食生活の社会的文脈理解 : 地域多様性の役割

Understanding the Social Context of Eating with Multimodal Smartphone Sensing: The Role of Country Diversity ( http://arxiv.org/abs/2306.00709v3 )

ライセンス: Link先を確認
Nathan Kammoun and Lakmal Meegahapola and Daniel Gatica-Perez(参考訳) 食事の社会的文脈を理解することは、健康な食事行動を促進するために重要である。 マルチモーダルスマートフォンセンサーのデータは、特にモバイル食品日記やモバイル健康アプリにおいて、食行動に関する貴重な洞察を提供する可能性がある。 しかし, スマートフォンのセンサデータを用いた食事の社会的文脈に関する研究は, 栄養学や行動科学の広範な研究にもかかわらず限られている。 また, 国差が食事の社会的文脈に与える影響については, マルチモーダル電話センサデータと自己報告による検討が未定である。 本研究は,8か国の678人の大学生が,異なる社会的状況(他者)のイベントを食事中にスマートフォンセンサから発する国の多様性を調査するための,約24万件の自己申告データに焦点をあてた。 分析の結果,食事イベントにおけるスマートフォンの利用状況は各国で類似しているが,各国に特有の傾向が見られた。 さらに,人口レベル(非パーソナライズド)とハイブリッド(部分的パーソナライズド)の実験的な設定を用いた機械学習モデルの開発により,ユーザおよび国固有の要因が社会的コンテキスト推論に与える影響についても検討した。 その結果,XGBoostモデルを用いてAUCのスコアを最大0.75まで向上させることができた。 これらの知見は、バイアスを最小限に抑え、異なる集団における一般化を改善するために、機械学習モデルの構築と展開における国差を考慮することの重要性を強調している。

Understanding the social context of eating is crucial for promoting healthy eating behaviors. Multimodal smartphone sensor data could provide valuable insights into eating behavior, particularly in mobile food diaries and mobile health apps. However, research on the social context of eating with smartphone sensor data is limited, despite extensive studies in nutrition and behavioral science. Moreover, the impact of country differences on the social context of eating, as measured by multimodal phone sensor data and self-reports, remains under-explored. To address this research gap, our study focuses on a dataset of approximately 24K self-reports on eating events provided by 678 college students in eight countries to investigate the country diversity that emerges from smartphone sensors during eating events for different social contexts (alone or with others). Our analysis revealed that while some smartphone usage features during eating events were similar across countries, others exhibited unique trends in each country. We further studied how user and country-specific factors impact social context inference by developing machine learning models with population-level (non-personalized) and hybrid (partially personalized) experimental setups. We showed that models based on the hybrid approach achieve AUC scores up to 0.75 with XGBoost models. These findings emphasize the importance of considering country differences in building and deploying machine learning models to minimize biases and improve generalization across different populations.
翻訳日:2023-10-06 22:11:15 公開日:2023-10-04
# 微分力学系に対する古典的フィッシャー情報

Classical Fisher information for differentiable dynamical systems ( http://arxiv.org/abs/2307.00026v2 )

ライセンス: Link先を確認
Mohamed Sahbani, Swetamber Das, and Jason R. Green(参考訳) フィッシャー情報は、古典的および量子力学的パラメータの統計的推定における不確実性の低い境界である。 いくつかの決定論的力学系はランダムなゆらぎには属さないが、それでも不確実性がある: 初期条件に対する無限小の摂動は、決定論的カオスのサインである時間的に指数関数的に増加する。 この不確かさの尺度として、孤立、閉、または開の古典システムのノイズに従わない決定論的ダイナミクスについて、別の古典的情報を導入する。 この古典的な情報の測度は接空間におけるリャプノフベクトルで定義されており、古典的なフィッシャー情報に似ておらず、ヒルベルト空間の波動ベクトルで定義される量子フィッシャー情報に近い。 局所状態空間構造と線形安定性の解析は,この情報の上界と下界につながり,流れのネットストレッチング作用として解釈される。 機械的な例のためのこの情報の数値計算は、位相空間の曲率と流れの速度に直接依存していることを示している。

Fisher information is a lower bound on the uncertainty in the statistical estimation of classical and quantum mechanical parameters. While some deterministic dynamical systems are not subject to random fluctuations, they do still have a form of uncertainty: Infinitesimal perturbations to the initial conditions can grow exponentially in time, a signature of deterministic chaos. As a measure of this uncertainty, we introduce another classical information, specifically for the deterministic dynamics of isolated, closed, or open classical systems not subject to noise. This classical measure of information is defined with Lyapunov vectors in tangent space, making it less akin to the classical Fisher information and more akin to the quantum Fisher information defined with wavevectors in Hilbert space. Our analysis of the local state space structure and linear stability lead to upper and lower bounds on this information, giving it an interpretation as the net stretching action of the flow. Numerical calculations of this information for illustrative mechanical examples show that it depends directly on the phase space curvature and speed of the flow.
翻訳日:2023-10-06 22:02:49 公開日:2023-10-04
# Groversアルゴリズムに基づく量子ベクトルデータベースの合成

Synthesis of Quantum Vector Databases Based on Grovers Algorithm ( http://arxiv.org/abs/2306.15295v2 )

ライセンス: Link先を確認
Cesar Borisovich Pronin, Andrey Vladimirovich Ostroukh(参考訳) 本稿では,groversアルゴリズムを用いて量子ベクトルデータベースを作成する手法について述べる。 この値は埋め込み値を表す。 意味のある埋め込みを生成するプロセスは古典的なコンピュータで処理され、探索プロセスは量子コンピュータで処理される。 提案回路は1つの量子レジスタ内に多数の埋め込みを同時に格納するため、量子コンピュータにデータを格納するための非常に量子効率(超高密度)な方法と見なすことができる。

This paper describes a method for using Grovers algorithm to create a quantum vector database, the database stores embeddings based on Controlled-S gates, which represent a binary numerical value. This value represents the embeddings value. The process of creating meaningful embeddings is handled by a classical computer and the search process is handled by the quantum computer. This search approach might be beneficial for a large enough database, or it could be seen as a very qubit-efficient (super dense) way for storing data on a quantum computer, since the proposed circuit stores many embeddings inside one quantum register simultaneously.
翻訳日:2023-10-06 22:02:31 公開日:2023-10-04
# RIC : 汎用的なシーン再構築のためのローテートインペントコンプリート

RIC: Rotate-Inpaint-Complete for Generalizable Scene Reconstruction ( http://arxiv.org/abs/2307.11932v2 )

ライセンス: Link先を確認
Isaac Kasahara, Shubham Agrawal, Selim Engin, Nikhil Chavan-Dafle, Shuran Song, Volkan Isler(参考訳) 一般的なシーン再構成は、これまで見えない物体を含むシーンの完全な3次元形状とテクスチャを推定する作業である。 AR/VR、自律ナビゲーション、ロボット工学といった多くの実践的応用において、シーンの単一のビューしか利用できないため、シーン再構築作業は困難である。 本稿では,2次元から3次元のシーン昇降による新規なビューの描画という2つのステップを構造的に分割して,シーンの再構成を行う手法を提案する。 具体的には,大規模視覚言語モデル(dalle-2)の一般化機能を活用し,異なる視点から描画されたシーンカラー画像の欠落領域を塗りつぶす。 次に, 塗装画像の正常さを予測し, 欠損深度値の解法により, 塗装画像の3次元化を行う。 本手法では, 深度分布やスケールの変化に対して, 直接的に正規分布を予測できる。 厳密な定量的評価により,提案手法が複数のベースラインを上回り,新たなオブジェクトやシーンを一般化する。

General scene reconstruction refers to the task of estimating the full 3D geometry and texture of a scene containing previously unseen objects. In many practical applications such as AR/VR, autonomous navigation, and robotics, only a single view of the scene may be available, making the scene reconstruction task challenging. In this paper, we present a method for scene reconstruction by structurally breaking the problem into two steps: rendering novel views via inpainting and 2D to 3D scene lifting. Specifically, we leverage the generalization capability of large visual language models (Dalle-2) to inpaint the missing areas of scene color images rendered from different views. Next, we lift these inpainted images to 3D by predicting normals of the inpainted image and solving for the missing depth values. By predicting for normals instead of depth directly, our method allows for robustness to changes in depth distributions and scale. With rigorous quantitative evaluation, we show that our method outperforms multiple baselines while providing generalization to novel objects and scenes.
翻訳日:2023-10-06 21:51:47 公開日:2023-10-04
# モバイル操作のための階層型対話型多目的探索の学習

Learning Hierarchical Interactive Multi-Object Search for Mobile Manipulation ( http://arxiv.org/abs/2307.06125v2 )

ライセンス: Link先を確認
Fabian Schmalstieg, Daniel Honerkamp, Tim Welschehold, Abhinav Valada(参考訳) 既存のオブジェクト検索アプローチでは、ロボットは自由経路を探索できるが、構造化されていない人間中心の環境で動作するロボットは、必要に応じて環境を操作する必要がある。 本研究では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索して対象物を見つける,インタラクティブな多目的探索タスクを提案する。 これらの新しい課題は、未探索の環境で操作とナビゲーションのスキルを組み合わせることを必要とする。 本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。 これを実現するために,セマンティックマップメモリ周辺の抽象的なハイレベルなアクション空間を設計し,探索環境をインスタンスナビゲーションポイントとして活用する。 我々はシミュレーションと実世界において、HIMOSの意思決定がゼロショット方式で効果的に新しい環境へ移行することを示す広範な実験を行った。 目に見えないサブポリティシー、実行時の失敗、そして異なるロボットキネマティクスに対する堅牢性を示す。 これらの機能は、具体化されたAIや現実世界のユースケースにまたがる幅広いダウンストリームタスクへの扉を開く。

Existing object-search approaches enable robots to search through free pathways, however, robots operating in unstructured human-centered environments frequently also have to manipulate the environment to their needs. In this work, we introduce a novel interactive multi-object search task in which a robot has to open doors to navigate rooms and search inside cabinets and drawers to find target objects. These new challenges require combining manipulation and navigation skills in unexplored environments. We present HIMOS, a hierarchical reinforcement learning approach that learns to compose exploration, navigation, and manipulation skills. To achieve this, we design an abstract high-level action space around a semantic map memory and leverage the explored environment as instance navigation points. We perform extensive experiments in simulation and the real world that demonstrate that, with accurate perception, the decision making of HIMOS effectively transfers to new environments in a zero-shot manner. It shows robustness to unseen subpolicies, failures in their execution, and different robot kinematics. These capabilities open the door to a wide range of downstream tasks across embodied AI and real-world use cases.
翻訳日:2023-10-06 21:49:38 公開日:2023-10-04
# MRIにおける教師なし異常分節に対する仮設条件拡散を伴うモードサイクル

Modality Cycles with Masked Conditional Diffusion for Unsupervised Anomaly Segmentation in MRI ( http://arxiv.org/abs/2308.16150v2 )

ライセンス: Link先を確認
Ziyun Liang, Harry Anthony, Felix Wagner, Konstantinos Kamnitsas(参考訳) 教師なし異常分割(unsupervised anomaly segmentation)は、トレーニング中に処理されたパターンとは別のパターンを検出することを目的としている。 デプロイメント中の異常はモデル障害を引き起こす可能性があるため、異常の検出はモデルの信頼性を高めることができ、医療画像のようなリスクの高い領域で有用である。 本稿では,マルチモーダルMRIにおける様々なパターンにまたがる異常のセグメンテーションを可能にするMMCCD(Masked Modality Cycles with Conditional Diffusion)を提案する。 この方法は2つの基本的な考え方に基づいている。 まず, 異常検出を可能にするメカニズムとして循環様相変換を用いることを提案する。 画像翻訳モデルは、組織生理学の特徴である組織特異的モダリティマッピングを学習する。 したがって、これらの学習されたマッピングは、トレーニング中に遭遇したことのない組織や画像パターンの変換に失敗し、エラーによってセグメンテーションが可能になる。 さらに、画像翻訳とマスク付き条件拡散モデルを組み合わせることで、マスク付き領域下に存在する組織を「想像」し、生成モデルがそれらを再現できないため、未知のパターンを明らかにする。 我々は,BraTS2021多モードMRIの健全なスライスをトレーニングし,腫瘍のあるスライスを試験することにより,プロキシタスクにおける手法の評価を行った。 本稿では,画像再構成とデノナイズに基づく教師なし手法と,オートエンコーダや拡散モデルとの比較を行った。

Unsupervised anomaly segmentation aims to detect patterns that are distinct from any patterns processed during training, commonly called abnormal or out-of-distribution patterns, without providing any associated manual segmentations. Since anomalies during deployment can lead to model failure, detecting the anomaly can enhance the reliability of models, which is valuable in high-risk domains like medical imaging. This paper introduces Masked Modality Cycles with Conditional Diffusion (MMCCD), a method that enables segmentation of anomalies across diverse patterns in multimodal MRI. The method is based on two fundamental ideas. First, we propose the use of cyclic modality translation as a mechanism for enabling abnormality detection. Image-translation models learn tissue-specific modality mappings, which are characteristic of tissue physiology. Thus, these learned mappings fail to translate tissues or image patterns that have never been encountered during training, and the error enables their segmentation. Furthermore, we combine image translation with a masked conditional diffusion model, which attempts to `imagine' what tissue exists under a masked area, further exposing unknown patterns as the generative model fails to recreate them. We evaluate our method on a proxy task by training on healthy-looking slices of BraTS2021 multi-modality MRIs and testing on slices with tumors. We show that our method compares favorably to previous unsupervised approaches based on image reconstruction and denoising with autoencoders and diffusion models.
翻訳日:2023-10-06 21:42:39 公開日:2023-10-04
# 開発AIのブートストラップ:単純な能力から知能な人間互換AIへ

Bootstrapping Developmental AIs: From Simple Competences to Intelligent Human-Compatible AIs ( http://arxiv.org/abs/2308.04586v9 )

ライセンス: Link先を確認
Mark Stefik and Robert Price(参考訳) 主流のAIアプローチは、大きな言語モデル(LLM)による生成的および深層学習アプローチと、手動で構築されたシンボリックアプローチである。 どちらのアプローチも、貴重なAIシステムと素晴らしい成果をもたらしています。 しかし、手動で構築されたAIは、周囲のドメインでも脆弱である。 生成AIは奇妙な間違いを犯し、気づかない。 どちらのアプローチでもaiは容易に指示できず、常識を使わず、好奇心を欠いている。 抽象的な知識を持っているが、社会的に整合性がない。 開発AIにはさらなる可能性がある。 彼らは生まれつきの能力から始まり、環境と対話し、相互作用から学ぶ。 彼らは対話し、人々から学び、知覚、認知、共通基盤を確立する。 開発AIは、マルチモーダル認識、オブジェクト認識、操作などの機能を実証している。 階層的計画、抽象的発見、好奇心、言語習得のための強力な計算モデルが存在するが、発達学習に基づくアプローチに適応する必要がある。 目標は、開発AIが自己開発で社会的に発達した能力を獲得することだ。 それらは、現在の主流のAIアプローチの欠点に対処し、最終的に批判的な読み出し、証明評価、仮説テストを含む洗練された学習形式へとつながる。 しかし、開発aiプロジェクトは、2歳前後の幼児の発達に対応する話のギャップにはまだ十分達していない。 AIはリーディングギャップを橋渡しせず、書面やオンライン情報リソースから巧みに、懐疑的に学ぶ。 このポジションペーパーは、開発AIの実践を拡張して、彼らが知っておくべきことを学ぶ、レジリエンスでインテリジェントで、人間と互換性のあるAIを作るための、展望、ギャップ、課題を概説する。

The mainstream AIs approaches are the generative and deep learning approaches with large language models (LLMs) and the manually constructed symbolic approach. Both approaches have led to valuable AI systems and impressive feats. However, manually constructed AIs are brittle even in circumscribed domains. Generative AIs make strange mistakes and do not notice them. In both approaches the AIs cannot be instructed easily, fail to use common sense, and lack curiosity. They have abstract knowledge but lack social alignment. Developmental AIs have more potential. They start with innate competences, interact with their environment, and learn from their interactions. They interact and learn from people and establish perceptual, cognitive, and common grounding. Developmental AIs have demonstrated capabilities including multimodal perception, object recognition, and manipulation. Powerful computational models for hierarchical planning, abstraction discovery, curiosity, and language acquisition exist but need to be adapted to a developmental learning based approach. The promise is that developmental AIs will acquire self-developed and socially developed competences. They would address the shortcomings of current mainstream AI approaches, and ultimately lead to sophisticated forms of learning involving critical reading, provenance evaluation, and hypothesis testing. However, developmental AI projects have not yet fully reached the Speaking Gap corresponding to toddler development at about two years of age, before their speech is fluent. The AIs do not bridge the Reading Gap, to skillfully and skeptically learn from written and online information resources. This position paper lays out the prospects, gaps, and challenges for extending the practice of developmental AIs to create resilient, intelligent, and human-compatible AIs that learn what they need to know.
翻訳日:2023-10-06 21:40:58 公開日:2023-10-04
# Deep Quantum Graph Dreaming: ニューラルネットワークの洞察を量子実験に解読する

Deep Quantum Graph Dreaming: Deciphering Neural Network Insights into Quantum Experiments ( http://arxiv.org/abs/2309.07056v2 )

ライセンス: Link先を確認
Tareq Jaouni, S\"oren Arlt, Carlos Ruiz-Gonzalez, Ebrahim Karimi, Xuemei Gu, Mario Krenn(参考訳) 新たな科学的発見を促進するという彼らの約束にもかかわらず、ニューラルネットワークの不透明さは、彼らの発見の背後にある論理を解釈する上での課題である。 ここでは、コンピュータビジョンのための機械学習で発明された$inception$または$deep$$dreaming$と呼ばれるeXplainable-AI(XAI)技術を使用します。 この技術を使って、ニューラルネットワークが量子光学実験について何を学ぶかを調べる。 私たちのストーリーは、量子システムの特性に関するディープニューラルネットワークのトレーニングから始まります。 ニューラルネットワークは、特定の特性を持つ量子システムをどのように想像するか、そして、その特性を変更するために量子システムを継続的に修正するかを、効果的に問う。 ネットワークは量子システムの特性の初期分布をシフトすることができ、ニューラルネットワークの学習戦略を概念化することができる。 興味深いことに、第1層ではニューラルネットワークが単純な特性を識別する一方で、より深い層では複雑な量子構造や量子絡み合いを識別できる。 これはコンピュータビジョンで知られている長い誤解された特性を思い出させるもので、現在では複雑な自然科学のタスクで特定されている。 我々のアプローチは、量子物理学における新しい高度なAIベースの科学発見技術を開発するために、より解釈可能な方法で役立つかもしれない。

Despite their promise to facilitate new scientific discoveries, the opaqueness of neural networks presents a challenge in interpreting the logic behind their findings. Here, we use a eXplainable-AI (XAI) technique called $inception$ or $deep$ $dreaming$, which has been invented in machine learning for computer vision. We use this technique to explore what neural networks learn about quantum optics experiments. Our story begins by training deep neural networks on the properties of quantum systems. Once trained, we "invert" the neural network -- effectively asking how it imagines a quantum system with a specific property, and how it would continuously modify the quantum system to change a property. We find that the network can shift the initial distribution of properties of the quantum system, and we can conceptualize the learned strategies of the neural network. Interestingly, we find that, in the first layers, the neural network identifies simple properties, while in the deeper ones, it can identify complex quantum structures and even quantum entanglement. This is in reminiscence of long-understood properties known in computer vision, which we now identify in a complex natural science task. Our approach could be useful in a more interpretable way to develop new advanced AI-based scientific discovery techniques in quantum physics.
翻訳日:2023-10-06 21:31:12 公開日:2023-10-04
# 環境外政策評価のための限界化重要度サンプリング

Marginalized Importance Sampling for Off-Environment Policy Evaluation ( http://arxiv.org/abs/2309.01807v2 )

ライセンス: Link先を確認
Pulkit Katdare, Nan Jiang and Katherine Driggs-Campbell(参考訳) 強化学習 (Reinforcement Learning, RL) 法は通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。 シミュレーションでトレーニングされた堅牢なポリシーでさえ、パフォーマンスを評価するために現実世界のデプロイメントが必要です。 本稿では,エージェントポリシーが現実世界にデプロイされる前に,エージェントポリシーの実際のパフォーマンスを評価するための新しいアプローチを提案する。 提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,Marginalized Importance Sampling (MIS) のフレームワークを用いて,任意のポリシのパフォーマンスを評価する。 既存のmis手法では,(1)適度な範囲から逸脱する大きな密度比と(2)間接的な監督,(2)間接的に推定する必要があるため推定誤差が悪化する,という2つの課題に直面している。 提案手法は,中間変数としてシミュレータにターゲットポリシーの占有率を導入し,分離学習可能な2項の積として密度比を学習することで,これらの課題に対処する。 第1の項は直接の監督によって学習され、第2の項はマグニチュードが小さいため、計算効率が良くなる。 サンプルの複雑さと2つのステッププロシージャのエラー伝播を分析した。 さらに,Cartpole,Reacher,Half-CheetahなどのSim2Sim環境に対するアプローチを実証的に評価した。 提案手法は,様々なSim2Simギャップ,ターゲットポリシ,オフラインデータ収集ポリシにまたがって一般化されている。 また,Gazeboシミュレータとともにオフラインデータを用いた7 DoFロボットアームの性能検証を行うSim2Realタスクにおいて,本アルゴリズムの性能を示す。

Reinforcement Learning (RL) methods are typically sample-inefficient, making it challenging to train and deploy RL-policies in real world robots. Even a robust policy trained in simulation requires a real-world deployment to assess their performance. This paper proposes a new approach to evaluate the real-world performance of agent policies prior to deploying them in the real world. Our approach incorporates a simulator along with real-world offline data to evaluate the performance of any policy using the framework of Marginalized Importance Sampling (MIS). Existing MIS methods face two challenges: (1) large density ratios that deviate from a reasonable range and (2) indirect supervision, where the ratio needs to be inferred indirectly, thus exacerbating estimation error. Our approach addresses these challenges by introducing the target policy's occupancy in the simulator as an intermediate variable and learning the density ratio as the product of two terms that can be learned separately. The first term is learned with direct supervision and the second term has a small magnitude, thus making it computationally efficient. We analyze the sample complexity as well as error propagation of our two step-procedure. Furthermore, we empirically evaluate our approach on Sim2Sim environments such as Cartpole, Reacher, and Half-Cheetah. Our results show that our method generalizes well across a variety of Sim2Sim gap, target policies and offline data collection policies. We also demonstrate the performance of our algorithm on a Sim2Real task of validating the performance of a 7 DoF robotic arm using offline data along with the Gazebo simulator.
翻訳日:2023-10-06 21:29:29 公開日:2023-10-04
# 単一不純物結合エキシトンからのキャビティ励起単一光子放出

Cavity-enhanced single photon emission from a single impurity-bound exciton ( http://arxiv.org/abs/2309.01748v2 )

ライセンス: Link先を確認
Yuxi Jiang, Robert M. Pettit, Nils von den Driesch, Alexander Pawlis and Edo Waks(参考訳) ZnSe量子井戸における不純物結合励起子は明るい単一光子エミッタであり、フォトニクスベースの量子技術において重要な要素である。 しかし、実用化に必要な効率性を達成するためには、これらのエミッタを光学キャビティに統合し、その放射特性と遠方界放出パターンを高める必要がある。 本研究では,znse量子井戸内の単一不純物結合励起子からのキャビティエンハンスド放出を示す。 我々は,光ファイバーに効率的に結合可能な小モードボリュームとほぼガウスの遠距離横モードを最適化したブルジー空洞構造を用いる。 製造された装置は、znse量子井戸内のバルク不純物バウンド励起子よりも1桁以上明るい発光を、光源からの単一光子放出を検証できる明快なアンチバンチングとして表示する。 時間分解フォトルミネッセンス分光法は、パーセルの1.43の放射分解過程を示す。 この研究は、ナノフォトニクスと結合した不純物ドープII-VI半導体を用いた高効率スピンフォトン界面への道を開いた。

Impurity-bound excitons in ZnSe quantum wells are bright single photon emitters--a crucial element in photonics-based quantum technology. But to achieve the efficiencies required for practical applications, these emitters must be integrated into optical cavities that enhance their radiative properties and far-field emission pattern. In this work, we demonstrate cavity-enhanced emission from a single impurity-bound exciton in a ZnSe quantum well. We utilize a bullseye cavity structure optimized to feature a small mode volume and a nearly Gaussian far-field transverse mode that can efficiently couple to an optical fiber. The fabricated device displays emission that is more than an order of magnitude brighter than bulk impurity-bound exciton emitters in the ZnSe quantum well, as-well-as clear anti-bunching, which verifies the single photon emission from the source. Time-resolved photoluminescence spectroscopy reveals a Purcell-enhanced radiative decay process with a Purcell factor of 1.43. This work paves the way towards high efficiency spin-photon interfaces using an impurity-doped II-VI semiconductor coupled to nanophotonics.
翻訳日:2023-10-06 21:29:00 公開日:2023-10-04
# 乳腺MRI用多解深層学習レジストレーション

Diffeomorphic Multi-Resolution Deep Learning Registration for Applications in Breast MRI ( http://arxiv.org/abs/2309.13777v2 )

ライセンス: Link先を確認
Matthew G. French, Gonzalo D. Maso Talou, Thiranja P. Babarenda Gamage, Martyn P. Nash, Poul M. Nielsen, Anthony J. Doyle, Juan Eugenio Iglesias, Ya\"el Balbastre, and Sean I. Young(参考訳) 乳房外科的計画では、患者の位置にわたってMR画像の正確な登録は、乳癌治療中の腫瘍の局在を改善する可能性がある。 近年,多くの医用画像登録作業において,学習ベースの登録手法が最先端のアプローチとなっているが,胸部MR画像にリッチテクスチャ情報が欠如していることや,変形が拡散する必要性などにより,乳房画像登録への進出は未だ行われていない。 そこで本研究では,in-silicoおよびin-vivo実験による初期実験結果とともに,diffeomorphic制約に適応可能な乳房mr画像登録のための学習戦略を提案する。 この研究の重要な貢献の1つは、乳房画像の優れた登録結果を生成する登録ネットワークである。

In breast surgical planning, accurate registration of MR images across patient positions has the potential to improve the localisation of tumours during breast cancer treatment. While learning-based registration methods have recently become the state-of-the-art approach for most medical image registration tasks, these methods have yet to make inroads into breast image registration due to certain difficulties-the lack of rich texture information in breast MR images and the need for the deformations to be diffeomophic. In this work, we propose learning strategies for breast MR image registration that are amenable to diffeomorphic constraints, together with early experimental results from in-silico and in-vivo experiments. One key contribution of this work is a registration network which produces superior registration outcomes for breast images in addition to providing diffeomorphic guarantees.
翻訳日:2023-10-06 21:22:21 公開日:2023-10-04
# 拡散に基づく知覚のためのテキスト画像アライメント

Text-image Alignment for Diffusion-based Perception ( http://arxiv.org/abs/2310.00031v2 )

ライセンス: Link先を確認
Neehar Kondapaneni, Markus Marks, Manuel Knott, Rog\'erio Guimar\~aes, Pietro Perona(参考訳) 拡散モデルは、印象的なテキストから画像への合成能力を持つ生成モデルであり、古典的な機械学習タスクのための新しい創造的手法の波を促した。 しかし、これらの生成モデルの知覚的知識を視覚タスクに活用する最善の方法は、まだ未解決の問題である。 具体的には、視覚タスクに拡散バックボーンを適用する場合のプロンプトインターフェースの使い方は明らかでない。 自動生成されたキャプションはテキスト画像のアライメントを改善し、モデルのクロスアテンションマップを大幅に向上させることで、知覚性能が向上することがわかった。 ADE20Kの拡散に基づくセマンティックセグメンテーションにおける現在のSOTAとNYUv2の深さ推定における現在のSOTAを改善する。 さらに、モデルパーソナライズとキャプション修正を用いて、モデルを対象領域に整列させ、不整合ベースラインよりも改善を見出す。 我々の物体検出モデルはPascal VOCで訓練され、Watercolor2K上でSOTA結果が得られる。 都市景観を訓練したセグメンテーション手法は,暗いチューリッヒバルと夜間運転でsota結果を得る。 プロジェクトページ: https://www.vision.caltech.edu/tadp/

Diffusion models are generative models with impressive text-to-image synthesis capabilities and have spurred a new wave of creative methods for classical machine learning tasks. However, the best way to harness the perceptual knowledge of these generative models for visual tasks is still an open question. Specifically, it is unclear how to use the prompting interface when applying diffusion backbones to vision tasks. We find that automatically generated captions can improve text-image alignment and significantly enhance a model's cross-attention maps, leading to better perceptual performance. Our approach improves upon the current SOTA in diffusion-based semantic segmentation on ADE20K and the current overall SOTA in depth estimation on NYUv2. Furthermore, our method generalizes to the cross-domain setting; we use model personalization and caption modifications to align our model to the target domain and find improvements over unaligned baselines. Our object detection model, trained on Pascal VOC, achieves SOTA results on Watercolor2K. Our segmentation method, trained on Cityscapes, achieves SOTA results on Dark Zurich-val and Nighttime Driving. Project page: https://www.vision.caltech.edu/tadp/
翻訳日:2023-10-06 21:12:09 公開日:2023-10-04
# NLPBench: NLP問題を解決するための大規模言語モデルの評価

NLPBench: Evaluating Large Language Models on Solving NLP Problems ( http://arxiv.org/abs/2309.15630v2 )

ライセンス: Link先を確認
Linxin Song, Jieyu Zhang, Lechao Cheng, Pengyuan Zhou, Tianyi Zhou, Irene Li(参考訳) 近年の大規模言語モデル(LLM)の発展により,自然言語処理(NLP)の能力向上が期待されている。 これらの成功にもかかわらず、LPMのNLP問題解決能力に関する多くの研究が続いている。 この領域のギャップを埋めるために,イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 NLPBenchは、複数のサブクエストが同じ公開情報を共有し、複数の選択、短い答え、数学を含む多様な質問タイプを共有する、コンテキストを持った質問を含んでいる。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMを主軸として, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略を取り入れた評価を行った。 本研究は, LLAMA-2 (13b) などの小型モデルにおいて, 先進的なプロンプト戦略の有効性が矛盾し, LLM性能を損なう可能性があることを示す。 さらに,LLMの科学的問題解決技術に特有の欠点が指摘され,論理的分解や推論の弱点が顕著に影響した。

Recent developments in large language models (LLMs) have shown promise in enhancing the capabilities of natural language processing (NLP). Despite these successes, there remains a dearth of research dedicated to the NLP problem-solving abilities of LLMs. To fill the gap in this area, we present a unique benchmarking dataset, NLPBench, comprising 378 college-level NLP questions spanning various NLP topics sourced from Yale University's prior final exams. NLPBench includes questions with context, in which multiple sub-questions share the same public information, and diverse question types, including multiple choice, short answer, and math. Our evaluation, centered on LLMs such as GPT-3.5/4, PaLM-2, and LLAMA-2, incorporates advanced prompting strategies like the chain-of-thought (CoT) and tree-of-thought (ToT). Our study reveals that the effectiveness of the advanced prompting strategies can be inconsistent, occasionally damaging LLM performance, especially in smaller models like the LLAMA-2 (13b). Furthermore, our manual assessment illuminated specific shortcomings in LLMs' scientific problem-solving skills, with weaknesses in logical decomposition and reasoning notably affecting results.
翻訳日:2023-10-06 21:10:39 公開日:2023-10-04
# バイオメディカルチューブ流れに対する物理インフォームドニューラルネットワークの複数例

Multiple Case Physics-Informed Neural Network for Biomedical Tube Flows ( http://arxiv.org/abs/2309.15294v2 )

ライセンス: Link先を確認
Hong Shen Wong, Wei Xuan Chan, Bing Huan Li, Choon Hwai Yap(参考訳) 管状ジオメトリーの流体力学計算は血管および気道流体力学の生体医学的評価に重要である。 物理インフォームドニューラルネットワーク(PINN)は、最近、従来の計算流体力学(CFD)手法の代替として登場した。 しかしながら、バニラPINNは、特定のフローシナリオごとに従来のCFDメソッドよりもはるかに長いトレーニング時間を必要とするため、メインストリームの使用を正当化しない。 本稿では,多ケースPINNを用いたバイオメディカルチューブ流れの計算手法について検討する。そこでは,多様な幾何学的ケースをパラメータ化し,PINN上で事前学習することにより,未知のジオメトリの結果をリアルタイムで得ることができる。 本研究の目的は, ネットワークアーキテクチャ, チューブ固有化, 正規化を最適化する手法を, 一連の理想化された2次元管流の実験を通じて同定することである。

Fluid dynamics computations for tube-like geometries are important for biomedical evaluation of vascular and airway fluid dynamics. Physics-Informed Neural Networks (PINNs) have recently emerged as a good alternative to traditional computational fluid dynamics (CFD) methods. The vanilla PINN, however, requires much longer training time than the traditional CFD methods for each specific flow scenario and thus does not justify its mainstream use. Here, we explore the use of the multi-case PINN approach for calculating biomedical tube flows, where varied geometry cases are parameterized and pre-trained on the PINN, such that results for unseen geometries can be obtained in real time. Our objective is to identify network architecture, tube-specific, and regularization strategies that can optimize this, via experiments on a series of idealized 2D stenotic tube flows.
翻訳日:2023-10-06 21:09:51 公開日:2023-10-04
# LinGCN: 同型暗号化推論のための構造線形グラフ畳み込みネットワーク

LinGCN: Structural Linearized Graph Convolutional Network for Homomorphically Encrypted Inference ( http://arxiv.org/abs/2309.14331v3 )

ライセンス: Link先を確認
Hongwu Peng and Ran Ran and Yukui Luo and Jiahui Zhao and Shaoyi Huang and Kiran Thorat and Tong Geng and Chenghong Wang and Xiaolin Xu and Wujie Wen and Caiwen Ding(参考訳) グラフ畳み込みネットワーク(GCN)モデルのサイズの成長は、パーソナルヘルスケアや金融システムといった分野における人的パフォーマンスを上回る多くのアプリケーションに革命をもたらした。 クラウドへのGCNのデプロイは、クライアントデータに対する潜在的敵攻撃によるプライバシー上の懸念を引き起こす。 セキュリティ問題に対処するため、準同型暗号化(he)を使用したプライバシ保存機械学習(ppml)は、機密性の高いクライアントデータを保護する。 しかし、実用的なアプリケーションでは計算のオーバーヘッドが大幅に増大する。 これらの課題に対処するため,乗算深度を低減し,HEに基づくGCN推論の性能を最適化するLinGCNを提案する。 LinGCNは、(1)パラメータ化離散指標関数を補完する微分可能な構造線形化アルゴリズムで、最適化目標を満たすためにモデルの重みと協調して訓練される。 この戦略は細粒度ノードレベルの非線形位置選択を促進し、最小乗算深さのモデルとなる。 2) 完全ReLU型教師モデルを用いた2段階蒸留法により, 2次学習可能活性化関数を用いたコンパクトなノードワイド多項式置換政策を導出する。 (3)ノードの活性化関数に対するよりきめ細かい演算子融合を可能にする拡張HEソリューションにより、HEベースの推論における乗算レベルの消費を低減できる。 NTU-XVIEWスケルトン共同データセットを用いた実験により,LinGCNは,CryptoGCNなど,同型暗号化推論におけるレイテンシ,精度,スケーラビリティに優れることがわかった。 注目すべきは、LinGCNはCryptoGCNと比較して14.2倍のレイテンシ向上を実現し、推論精度は75%、乗算深度は顕著に減少することである。

The growth of Graph Convolution Network (GCN) model sizes has revolutionized numerous applications, surpassing human performance in areas such as personal healthcare and financial systems. The deployment of GCNs in the cloud raises privacy concerns due to potential adversarial attacks on client data. To address security concerns, Privacy-Preserving Machine Learning (PPML) using Homomorphic Encryption (HE) secures sensitive client data. However, it introduces substantial computational overhead in practical applications. To tackle those challenges, we present LinGCN, a framework designed to reduce multiplication depth and optimize the performance of HE based GCN inference. LinGCN is structured around three key elements: (1) A differentiable structural linearization algorithm, complemented by a parameterized discrete indicator function, co-trained with model weights to meet the optimization goal. This strategy promotes fine-grained node-level non-linear location selection, resulting in a model with minimized multiplication depth. (2) A compact node-wise polynomial replacement policy with a second-order trainable activation function, steered towards superior convergence by a two-level distillation approach from an all-ReLU based teacher model. (3) an enhanced HE solution that enables finer-grained operator fusion for node-wise activation functions, further reducing multiplication level consumption in HE-based inference. Our experiments on the NTU-XVIEW skeleton joint dataset reveal that LinGCN excels in latency, accuracy, and scalability for homomorphically encrypted inference, outperforming solutions such as CryptoGCN. Remarkably, LinGCN achieves a 14.2x latency speedup relative to CryptoGCN, while preserving an inference accuracy of 75% and notably reducing multiplication depth.
翻訳日:2023-10-06 21:09:37 公開日:2023-10-04
# QuATON:光ニューロンの量子化学習

QuATON: Quantization Aware Training of Optical Neurons ( http://arxiv.org/abs/2310.03049v1 )

ライセンス: Link先を確認
Hasindu Kariyawasam, Ramith Hettiarachchi, Dushan Wadduwage(参考訳) 光神経アーキテクチャ(ONAs)は、インテリジェントな測定を行うために、最適化された物理パラメータを持つコーディング要素を使用する。 しかし、設計性能を維持しながらONAを製造することは困難である。 製造技術の限界は、しばしば訓練されたパラメータの実現可能な精度を制限する。 物理的制約は、物理パラメータが保持できる値の範囲を制限することもできる。 したがって、ONAsは実装可能な制約の中でトレーニングされるべきである。 しかし、そのような物理に基づく制約は、トレーニング目標を制約付き最適化問題に還元し、既存の勾配法で最適化することを難しくする。 シミュレーションから実現までの性能を低下させるこれらの重要な問題を緩和するために,物理インフォームド量子化対応トレーニングフレームワークを提案する。 我々のアプローチはトレーニングプロセス中の物理的制約を考慮し、堅牢な設計へと導かれる。 本論文では,全光位相イメージングおよび位相オブジェクトの分類のための拡散型ディープニューラルネットワーク(d2nn)という ona に対するアプローチを評価した。 異なる量子化レベルとデータセットに関する広範な実験により、我々の手法が量子化ノイズに頑健なONA設計につながることを示す。

Optical neural architectures (ONAs) use coding elements with optimized physical parameters to perform intelligent measurements. However, fabricating ONAs while maintaining design performances is challenging. Limitations in fabrication techniques often limit the realizable precision of the trained parameters. Physical constraints may also limit the range of values the physical parameters can hold. Thus, ONAs should be trained within the implementable constraints. However, such physics-based constraints reduce the training objective to a constrained optimization problem, making it harder to optimize with existing gradient-based methods. To alleviate these critical issues that degrade performance from simulation to realization we propose a physics-informed quantization-aware training framework. Our approach accounts for the physical constraints during the training process, leading to robust designs. We evaluate our approach on an ONA proposed in the literature, named a diffractive deep neural network (D2NN), for all-optical phase imaging and for classification of phase objects. With extensive experiments on different quantization levels and datasets, we show that our approach leads to ONA designs that are robust to quantization noise.
翻訳日:2023-10-06 21:03:40 公開日:2023-10-04
# 定常性を超えて:確率的ソフトマックス政策勾配法の収束解析

Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods ( http://arxiv.org/abs/2310.02671v1 )

ライセンス: Link先を確認
Sara Klein, Simon Weissmann, Leif D\"oring(参考訳) Markov Decision Processs (MDP) は、シーケンシャルな意思決定問題のモデリングと解決のための正式なフレームワークである。 有限時間地平線では、そのような問題は、例えば最適停止問題や特定のサプライチェーン問題だけでなく、大きな言語モデルのトレーニングにも関係している。 無限大地平線mdpの最適政策は定常的ではないのに対し、政策は各時代ごとに学ばなければならない。 実際、全てのパラメータは、動的プログラミングによって提案される固有の構造を無視して、同時に訓練される。 本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。 表型ソフトマックスパラメトリションでは、正規化のない正確な勾配設定とサンプル勾配設定の両方において、グローバル最適への同時および動的政策勾配の収束解析を行う。 動的ポリシー勾配トレーニングを使用することで、改善された収束境界に反映される有限時間問題の構造をよりうまく活用できることが判明した。

Markov Decision Processes (MDPs) are a formal framework for modeling and solving sequential decision-making problems. In finite-time horizons such problems are relevant for instance for optimal stopping or specific supply chain problems, but also in the training of large language models. In contrast to infinite horizon MDPs optimal policies are not stationary, policies must be learned for every single epoch. In practice all parameters are often trained simultaneously, ignoring the inherent structure suggested by dynamic programming. This paper introduces a combination of dynamic programming and policy gradient called dynamic policy gradient, where the parameters are trained backwards in time. For the tabular softmax parametrisation we carry out the convergence analysis for simultaneous and dynamic policy gradient towards global optima, both in the exact and sampled gradient settings without regularisation. It turns out that the use of dynamic policy gradient training much better exploits the structure of finite-time problems which is reflected in improved convergence bounds.
翻訳日:2023-10-06 21:01:25 公開日:2023-10-04
# ボージュとAI

Borges and AI ( http://arxiv.org/abs/2310.01425v2 )

ライセンス: Link先を確認
L\'eon Bottou and Bernhard Sch\"olkopf(参考訳) 多くの人は、Large Language Models(LLM)が人工知能(AI)の時代を開くと考えている。 機会を見る人もいれば、危険を見る人もいる。 しかし、支持者も反対者も、SFによって広められたイメージを通じてAIを把握している。 マシンは知性を持ち、クリエイターに反抗するだろうか? 紙クリップの黙示録を体験するだろうか? このような質問に答える前に、まずこの心的イメージが目の前の現象をうまく説明できるかどうかを問う必要がある。 神々のムードを通して 天気のパターンを理解するのは ここまでだ 本稿は、20世紀の文学の達人であり、魔法のリアリズムの先駆者であり、ポストモダン文学の先駆者であるJorge Luis Borgesのイメージを通して、LLMとAIとの関係を理解することを提唱する。 このエクササイズは、言語モデリングと人工知能の関係を照らす新しい視点につながります。

Many believe that Large Language Models (LLMs) open the era of Artificial Intelligence (AI). Some see opportunities while others see dangers. Yet both proponents and opponents grasp AI through the imagery popularised by science fiction. Will the machine become sentient and rebel against its creators? Will we experience a paperclip apocalypse? Before answering such questions, we should first ask whether this mental imagery provides a good description of the phenomenon at hand. Understanding weather patterns through the moods of the gods only goes so far. The present paper instead advocates understanding LLMs and their connection to AI through the imagery of Jorge Luis Borges, a master of 20th century literature, forerunner of magical realism, and precursor to postmodern literature. This exercise leads to a new perspective that illuminates the relation between language modelling and artificial intelligence.
翻訳日:2023-10-06 21:01:08 公開日:2023-10-04
# 基礎モデルと異種連携学習のギャップを埋める

Bridging the Gap Between Foundation Models and Heterogeneous Federated Learning ( http://arxiv.org/abs/2310.00247v2 )

ライセンス: Link先を確認
Sixing Yu, J. Pablo Mu\~noz, Ali Jannesari(参考訳) federated learning(fl)は、プライバシ保護の分散機械学習を提供し、プライベートデータを共有せずにエッジクライアントでモデルを最適化する。 同時に、ファンデーションモデル(FM)は人工知能(AI)コミュニティにおいて、様々なタスクにまたがる例外的なパフォーマンスのために注目を集めている。 しかし、FMをFLに組み込むことは、主な原因は、その相当なサイズと集中的なリソース要求のためである。 これは、エッジFLシステムの資源不均一性を考える際に特に当てはまる。 本稿では,これらの課題に対処するためにraffm(resource-aware federated foundation models)の適応フレームワークを提案する。 raffmでは、salientパラメータの優先順位付けや高性能サブネットワーク抽出など、flシナリオ用に最適化された専用モデル圧縮アルゴリズムを導入している。 これらのアルゴリズムは、FLの最適化とデプロイメントの段階で、トランスフォーマーベースのFMを動的にスケーリングすることで、異種リソース制約をネットワークエッジに適合させることができる。 実験の結果,RaFFMは資源利用効率が著しく優れており,FMをFLに展開するリソースが少ないことがわかった。 リソース消費が低いにもかかわらず、RaFFMによって最適化されたターゲットモデルは、フルサイズのFMに適用された従来のFLメソッドと同等のパフォーマンスを達成する。 これは自然言語処理とコンピュータビジョンドメインの両方のタスクで明らかである。

Federated learning (FL) offers privacy-preserving decentralized machine learning, optimizing models at edge clients without sharing private data. Simultaneously, foundation models (FMs) have gained traction in the artificial intelligence (AI) community due to their exceptional performance across various tasks. However, integrating FMs into FL presents challenges, primarily due to their substantial size and intensive resource requirements. This is especially true when considering the resource heterogeneity in edge FL systems. We present an adaptive framework for Resource-aware Federated Foundation Models (RaFFM) to address these challenges. RaFFM introduces specialized model compression algorithms tailored for FL scenarios, such as salient parameter prioritization and high-performance subnetwork extraction. These algorithms enable dynamic scaling of given transformer-based FMs to fit heterogeneous resource constraints at the network edge during both FL's optimization and deployment stages. Experimental results demonstrate that RaFFM shows significant superiority in resource utilization efficiency and uses fewer resources to deploy FMs to FL. Despite the lower resource consumption, target models optimized by RaFFM achieve performance on par with traditional FL methods applied to full-sized FMs. This is evident across tasks in both natural language processing and computer vision domains.
翻訳日:2023-10-06 21:00:53 公開日:2023-10-04
# 大規模言語モデルの微調整のためのLoRAアンサンブル

LoRA ensembles for large language model fine-tuning ( http://arxiv.org/abs/2310.00035v2 )

ライセンス: Link先を確認
Xi Wang, Laurence Aitchison, Maja Rudolph(参考訳) 微調整LDMは不確実な定量化が不十分で、自信過剰、校正不良、テストデータやアウト・オブ・ディストリビューションのサンプルに対する信頼性の低い予測結果を示すことが多い。 この問題を緩和するためにビジョンでよく使われるアプローチはディープアンサンブルであり、異なるランダム初期化を用いて同じモデルを複数回訓練することでアンサンブルを構築する。 しかし、LLMをアンサンブルするには大きな課題があり、最も効果的なLLMは非常に大きい。 例えば 5 個の LLM のアンサンブルをメモリに保持することは、多くの設定では不可能である。 これらの問題に対処するために,パラメータ効率の良い微調整手法であるLoRA(Lo-Rank Adapters)を用いたアンサンブル手法を提案する。 これらの低ランクアダプタは非常に少数のパラメータを表しており、基礎となる事前学習モデルよりも桁違いに少ない。 したがって、オリジナルのモデルとほぼ同じ計算オーバーヘッドで、LoRAアダプタの大規模なアンサンブルを構築することができる。 LoRAアンサンブルは,既存の正則化技術上にのみ適用され,予測精度と不確実性の定量化に一貫した改善をもたらすことがわかった。

Finetuned LLMs often exhibit poor uncertainty quantification, manifesting as overconfidence, poor calibration, and unreliable prediction results on test data or out-of-distribution samples. One approach commonly used in vision for alleviating this issue is a deep ensemble, which constructs an ensemble by training the same model multiple times using different random initializations. However, there is a huge challenge to ensembling LLMs: the most effective LLMs are very, very large. Keeping a single LLM in memory is already challenging enough: keeping an ensemble of e.g. 5 LLMs in memory is impossible in many settings. To address these issues, we propose an ensemble approach using Low-Rank Adapters (LoRA), a parameter-efficient fine-tuning technique. Critically, these low-rank adapters represent a very small number of parameters, orders of magnitude less than the underlying pre-trained model. Thus, it is possible to construct large ensembles of LoRA adapters with almost the same computational overhead as using the original model. We find that LoRA ensembles, applied on its own or on top of pre-existing regularization techniques, gives consistent improvements in predictive accuracy and uncertainty quantification.
翻訳日:2023-10-06 21:00:35 公開日:2023-10-04
# 測定誘起遷移の境界伝達行列スペクトル

Boundary transfer matrix spectrum of measurement-induced transitions ( http://arxiv.org/abs/2310.03078v1 )

ライセンス: Link先を確認
Abhishek Kumar, Kemal Aziz, Ahana Chakraborty, Andreas W. W. Ludwig, Sarang Gopalakrishnan, J.H. Pixley, Romain Vasseur(参考訳) 測定誘起相転移(MIPTs)は、正確な性質が不明な非単位共形場理論(CFTs)によって記述されることが知られている。 量子軌道の絡み合う特徴のような多くの物理的関心事は、このCFTで境界観測可能量によって記述される。 この場の理論の境界スペクトルを研究するために転送行列のアプローチを導入し、様々な境界条件を考える。 本稿では,この手法をモニタしたHaar回路とClifford回路,および境界スケーリング次元を解析的に導出可能な測定専用Isingモデルに適用する。 トランスファーマトリクスアプローチはmiptのスペクトルを研究するための体系的な数値ツールを提供する。

Measurement-induced phase transitions (MIPTs) are known to be described by non-unitary conformal field theories (CFTs) whose precise nature remains unknown. Most physical quantities of interest, such as the entanglement features of quantum trajectories, are described by boundary observables in this CFT. We introduce a transfer matrix approach to study the boundary spectrum of this field theory, and consider a variety of boundary conditions. We apply this approach numerically to monitored Haar and Clifford circuits, and to the measurement-only Ising model where the boundary scaling dimensions can be derived analytically. Our transfer matrix approach provides a systematic numerical tool to study the spectrum of MIPTs.
翻訳日:2023-10-06 20:54:02 公開日:2023-10-04
# 古典的影と対称性による群理論誤差緩和

Group-theoretic error mitigation enabled by classical shadows and symmetries ( http://arxiv.org/abs/2310.03071v1 )

ライセンス: Link先を確認
Andrew Zhao, Akimasa Miyake(参考訳) 期待値の推定は多くの量子アルゴリズムにおいて重要なサブルーチンである。 しかし、短期的な実装には2つの大きな課題がある: 観測可能な大量のコレクションを学習するサンプルの数が限られていることと、量子エラー訂正のないデバイスにおけるエラーの蓄積である。 これらの課題を同時に解決するために,量子系に対称性を持つ古典シャドウトモグラフィの群論的構造を統一する量子誤差緩和戦略を開発した。 我々はこのプロトコルを「対称性調整された古典的影」と呼び、既知の対称性がそれらの誤差の下でどのように劣化するかに応じて推定器を調整することによって誤差を緩和する。 具体的な例として、フェルミオンを粒子数として、スピンを全磁化として表わす大域的$\mathrm{u}(1)$ 対称性を挙げ、それぞれの古典シャドープロトコルとの結合を説明する。 我々の主な成果の1つは、最小の仮定に従う読み出し誤差の下で厳密なエラーとサンプリング境界を確立することである。 さらに,より包括的なゲートレベル誤差に対する緩和性能を調べるため,既存の量子プロセッサから派生したノイズモデルを用いて数値実験を行う。 解析的および数値的な結果から,対称性のある古典影は,ユビキタスな対称性の存在下で雑音量子実験の誤差を緩和する柔軟性と低コストの戦略であることが明らかとなった。

Estimating expectation values is a key subroutine in many quantum algorithms. However, near-term implementations face two major challenges: a limited number of samples to learn a large collection of observables, and the accumulation of errors in devices without quantum error correction. To address these challenges simultaneously, we develop a quantum error-mitigation strategy which unifies the group-theoretic structure of classical-shadow tomography with symmetries in quantum systems of interest. We refer to our protocol as "symmetry-adjusted classical shadows," as it mitigates errors by adjusting estimators according to how known symmetries are corrupted under those errors. As a concrete example, we highlight global $\mathrm{U}(1)$ symmetry, which manifests in fermions as particle number and in spins as total magnetization, and illustrate their unification with respective classical-shadow protocols. One of our main results establishes rigorous error and sampling bounds under readout errors obeying minimal assumptions. Furthermore, to probe mitigation capabilities against a more comprehensive class of gate-level errors, we perform numerical experiments with a noise model derived from existing quantum processors. Our analytical and numerical results reveal symmetry-adjusted classical shadows as a flexible and low-cost strategy to mitigate errors from noisy quantum experiments in the ubiquitous presence of symmetry.
翻訳日:2023-10-06 20:53:49 公開日:2023-10-04
# 準粒子分解モデルにおける超拡散輸送

Superdiffusive Transport in Quasi-Particle Dephasing Models ( http://arxiv.org/abs/2310.03069v1 )

ライセンス: Link先を確認
Yu-Peng Wang, Chen Fang, and Jie Ren(参考訳) 非相互作用性フェミオンの局所的デファス化による挙動を調べたところ,デファス化は超拡散輸送を誘発することがわかった。 この異常は、局所的に脱落する準粒子の運動量分布内の結節点から生じ、漸近長モードが出現する。 ウィグナー関数のダイナミクスを研究することによって、これらの持続モードのダイナミクスがl\'evyウォークプロセス(超拡散現象の根底にある有名なメカニズム)をいかに生み出すかを厳密に解明する。 本研究では,準粒子の選択による動的スケーリング指数の制御性を示すだけでなく,その適用性を高次元にまで拡張し,強調モデルにおける超拡散の浸透性を示す。

Investigating the behavior of noninteracting fermions subjected to local dephasing, we reveal that dephasing can induce superdiffusive transport. This anomaly arises from nodal points within the momentum distribution of local dephasing quasi-particles, leading to the emergence of asymptotic long-lived modes. By studying the dynamics of the Wigner function, we rigorously elucidate how the dynamics of these enduring modes give rise to L\'evy walk processes, a renowned mechanism underlying superdiffusion phenomena. Our research not only demonstrates the controllability of dynamical scaling exponents through the selection of quasi-particles but also extends its applicability to higher dimensions, underlining the pervasive nature of superdiffusion in dephasing models.
翻訳日:2023-10-06 20:53:08 公開日:2023-10-04
# 量子化実験における情報交換対称性の破れ

Information exchange symmetry breaking in quantum-enhanced experiments ( http://arxiv.org/abs/2310.03061v1 )

ライセンス: Link先を確認
Shane P. Kelly and Jamir Marino(参考訳) 量子情報が興味のあるシステムから変換され、量子コンピュータで処理される量子エンハンス実験は、従来の実験よりもサンプリングタスクにおいて指数関数的に有利となる可能性を持ち、射影的または弱い測定結果のみを古典的コンピュータに格納する。 本研究は,従来の実験で発生する測定誘起相転移-(mipt)と同様に,量子エンハンシング実験も絡み合い相転移を示すことができることを実証する。 我々は,miptと量子エンハンシング実験の両方において自発的に破断される情報交換対称性を同定する。 対称性は、古典的または量子コンピュータに記録された情報は、環境に失われる情報と同じくらい、システムのダイナミクスについて情報を必要とする。 雑音伝達演算を導入し、この対称性を満たすことを示す。 ノイズ伝達動作は2つの量子ビットに対して独立に作用し、測定装置内の1つの量子ビットの量子状態を記録し、他の量子ビットの量子状態を環境に消去する。 次に,雑音伝達の速度によって調整された絡み合い遷移を示すランダムなブロックワーク回路を構築する。 このような遷移の対称位相は領域法エンタングルメントによって特徴づけられ、装置内の量子状態に条件付けられたサブシステムエントロピーはシステムサイズとスケールしないが、対称性の破れした位相は体積法スケーリングエンタングルメントによって特徴づけられる。 本研究は,miptエンタングルメント遷移の量子一般化を導入し,情報交換対称性の自発的対称性の破れとして理解するための統一フレームワークを提供する。

A quantum-enhanced experiment, in which quantum information is transduced from a system of interest and processed on a quantum computer, has the possibility of exponential advantage in sampling tasks over a traditional experiment, in which only the measurement outcomes of projective or weak measurements are stored on a classical computer. In this work, we demonstrate that, similar to the measurement induced phase transition~(MIPT) occurring in traditional experiments, quantum-enhanced experiments can also show entanglement phase transitions. We identify an information exchange symmetry which is spontaneously broken both in the MIPT and in a class of quantum-enhanced experiments obeying this symmetry. The symmetry requires that the information recorded in the classical or quantum computer is as informative about the dynamics of the system as the information lost into the environment. We introduce a noisy transduction operation, and show that it satisfies this symmetry. The noisy transduction operation acts independently on two qubits, recording the quantum state of one qubit in the measurement apparatus, while erasing the quantum state of the other qubit with the environment. We then construct a random brickwork circuit which shows an entanglement transition tuned by the rate of noisy transduction operations. The symmetric phase of such transition is characterized by area law entanglement, where the subsystem entropy conditioned on the quantum states in the apparatus does not scale with system size, while the symmetry broken phase is characterized by volume law scaling entanglement. Our work introduces a quantum generalization of the MIPT entanglement transitions, and provides a unified framework to understand both as a spontaneous symmetry breaking of the information exchange symmetry.
翻訳日:2023-10-06 20:52:44 公開日:2023-10-04
# ポイントPEFT:3次元事前学習モデルのためのパラメータ効率の良いファインチューニング

Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models ( http://arxiv.org/abs/2310.03059v1 )

ライセンス: Link先を確認
Ivan Tang and Eric Zhang and Ray Gu(参考訳) 事前訓練された大規模モデルの人気は、言語、ビジョン、マルチモダリティといった様々な分野の下流タスクに革命をもたらした。 下流タスクの適応コストを最小限に抑えるために,言語および2次元画像事前訓練モデルに対して,パラメータ効率の良い細調整(PEFT)技術が多数提案されている。 しかし,3次元事前学習モデルのPEFT法はまだ未検討である。 この目的のために,最小限の学習パラメータを持つポイントクラウド事前学習モデルに適用するための新しいフレームワークであるPoint-PEFTを紹介する。 具体的には、事前トレーニングされた3dモデルでは、ほとんどのパラメータを凍結し、新たに追加されたpeftモジュールを、ポイント優先プロンプトとジオメトリ対応アダプタで構成される下流タスクでのみチューニングします。 Point-prior Promptは学習可能なプロンプトトークンの集合を採用し、ドメイン固有の知識を持つメモリバンクの構築を提案し、パラメータフリーの注意を使ってプロンプトトークンを強化する。 Geometry-Aware Adapterは、空間近傍の点雲の特徴を集約し、局所的な相互作用を通じてきめ細かい幾何学的情報をキャプチャすることを目的としている。 広範な実験により,ダウンストリームタスクの完全な微調整よりも優れた性能を実現することができたが,トレーニング可能なパラメータは5%に過ぎず,その効率と効果を示すことができた。 コードはhttps://github.com/EvenJoker/Point-PEFT.comでリリースされる。

The popularity of pre-trained large models has revolutionized downstream tasks across diverse fields, such as language, vision, and multi-modality. To minimize the adaption cost for downstream tasks, many Parameter-Efficient Fine-Tuning (PEFT) techniques are proposed for language and 2D image pre-trained models. However, the specialized PEFT method for 3D pre-trained models is still under-explored. To this end, we introduce Point-PEFT, a novel framework for adapting point cloud pre-trained models with minimal learnable parameters. Specifically, for a pre-trained 3D model, we freeze most of its parameters, and only tune the newly added PEFT modules on downstream tasks, which consist of a Point-prior Prompt and a Geometry-aware Adapter. The Point-prior Prompt adopts a set of learnable prompt tokens, for which we propose to construct a memory bank with domain-specific knowledge, and utilize a parameter-free attention to enhance the prompt tokens. The Geometry-aware Adapter aims to aggregate point cloud features within spatial neighborhoods to capture fine-grained geometric information through local interactions. Extensive experiments indicate that our Point-PEFT can achieve better performance than the full fine-tuning on various downstream tasks, while using only 5% of the trainable parameters, demonstrating the efficiency and effectiveness of our approach. Code will be released at https://github.com/EvenJoker/Point-PEFT.
翻訳日:2023-10-06 20:51:46 公開日:2023-10-04
# クラスタリングに基づく探索空間削減手法を用いたLABアルゴリズムによる工学設計問題の解法

Modified LAB Algorithm with Clustering-based Search Space Reduction Method for solving Engineering Design Problems ( http://arxiv.org/abs/2310.03055v1 )

ライセンス: Link先を確認
Ruturaj Reddy, Utkarsh Gupta, Ishaan Kale, Apoorva Shastri, Anand J Kulkarni(参考訳) 本稿では,改良型LABアルゴリズムを提案する。 LABアルゴリズム(Reddy et al. 2023)は、グループ内の競争と学習の振る舞いをモデル化し、階層的な役割を確立する、社会に触発されたアルゴリズムである。 提案手法は, ルーレットホイールアプローチとグループ間競争を取り入れ, サンプル空間を反復的に狭める還元係数を組み込んだものである。 このアルゴリズムは、CEC 2005とCEC 2017のベンチマークテスト問題を解くことで検証される。 これらの解は、Wilcoxon test と Friedman rank test のような標準的な統計テストを用いて検証される。 アルゴリズムは改良され、より優れた堅牢性と探索空間探索能力を示した。 さらに,クラスタリングに基づく探索空間削減法(c-ssr法)を提案する。 C-SSR法は、アルゴリズムが実現可能な領域のクラスタを識別し、制約を満たし、最適解を達成するのに寄与する。 この手法は従来の制約処理手法の代替としての有効性を示す。 修正LABアルゴリズムを用いて得られた結果は、他のメタヒューリスティックアルゴリズムによる結果と比較される。

A modified LAB algorithm is introduced in this paper. It builds upon the original LAB algorithm (Reddy et al. 2023), which is a socio-inspired algorithm that models competitive and learning behaviours within a group, establishing hierarchical roles. The proposed algorithm incorporates the roulette wheel approach and a reduction factor introducing inter-group competition and iteratively narrowing down the sample space. The algorithm is validated by solving the benchmark test problems from CEC 2005 and CEC 2017. The solutions are validated using standard statistical tests such as two-sided and pairwise signed rank Wilcoxon test and Friedman rank test. The algorithm exhibited improved and superior robustness as well as search space exploration capabilities. Furthermore, a Clustering-Based Search Space Reduction (C-SSR) method is proposed, making the algorithm capable to solve constrained problems. The C-SSR method enables the algorithm to identify clusters of feasible regions, satisfying the constraints and contributing to achieve the optimal solution. This method demonstrates its effectiveness as a potential alternative to traditional constraint handling techniques. The results obtained using the Modified LAB algorithm are then compared with those achieved by other recent metaheuristic algorithms.
翻訳日:2023-10-06 20:51:11 公開日:2023-10-04
# 負距離カーネルを用いたMDDの勾配流れに基づく後方サンプリング

Posterior Sampling Based on Gradient Flows of the MMD with Negative Distance Kernel ( http://arxiv.org/abs/2310.03054v1 )

ライセンス: Link先を確認
Paul Hagemann, Johannes Hertrich, Fabian Altekr\"uger, Robert Beinert, Jannis Chemseddine, Gabriele Steidl(参考訳) 本稿では,後方サンプリングと条件生成モデルのための負距離カーネルを用いたMMDの条件付き流れを提案する。 このmmdはエネルギー距離としても知られ、スライシングやソートによる効率的な計算のようないくつかの利点がある。 離散的ワッサースタイン勾配流を用いた基底真理と観測の合同分布を近似し,後方分布に対する誤差を定式化する。 さらに、我々の粒子流は確かに適切な関数のワッサーシュタイン勾配流であることを示す。 本手法のパワーは, 条件付き画像生成や超解像, インペインティング, ctなどの逆問題など, 低線量, 限定アングル設定の数値例で示される。

We propose conditional flows of the maximum mean discrepancy (MMD) with the negative distance kernel for posterior sampling and conditional generative modeling. This MMD, which is also known as energy distance, has several advantageous properties like efficient computation via slicing and sorting. We approximate the joint distribution of the ground truth and the observations using discrete Wasserstein gradient flows and establish an error bound for the posterior distributions. Further, we prove that our particle flow is indeed a Wasserstein gradient flow of an appropriate functional. The power of our method is demonstrated by numerical examples including conditional image generation and inverse problems like superresolution, inpainting and computed tomography in low-dose and limited-angle settings.
翻訳日:2023-10-06 20:50:50 公開日:2023-10-04
# 閉カオス多体量子系の熱化

Thermalization of closed chaotic many-body quantum systems ( http://arxiv.org/abs/2310.03053v1 )

ライセンス: Link先を確認
Hans A. Weidenm\"uller(参考訳) 閉じた量子系は、時間 $t \to \infty$ に対して、函数 ${\rm Tr} (A \rho(t))$ が漸近的に ${\rm Tr} (A \rho_{\rm eq})$ となるときに熱化する。 ここで、$a$ は観測可能な作用素であり、$\rho(t)$ は時間依存密度行列であり、$\rho_{\rm eq}$ はその平衡値を表す。 本稿では,HF(Hartree-Fock)法とBGS(Bohigas-Giannoni-Schmit)法によるカオス多体量子系の熱化について検討する。 hfハミルトニアン (hf hamiltonian) は可積分系とスペクトルの全体像を定義する。 残留相互作用はHF固有状態を局所的に混合する。 bgs予想は、結果の固有値と固有関数の統計がランダム行列予測と一致することを意味する。 このようにして、システムのハミルトニアン$h$は統計的特徴を取得する。 ランダム行列特性を持つ統計の一致は局所的、すなわち、区間$\Delta$(相関幅)に制限される。 $\rho(t) = \exp \{ - i t H / \hbar \} \rho(0) \exp \{ i H t / \hbar \}$ で、$H$ の統計的性質は ${\rm Tr} (A \rho(t))$ の統計的性質を定義する。 これらを用いて、半古典的状態において、 ${\rm Tr} (A \rho(t))$ は時間スケール $\hbar / \Delta$ で漸近値に向かって崩壊することを示す。 系のエネルギー拡散が$\Delta$であるなら、その値は統計的平衡に対応する。 相関幅$\delta$は、我々のアプローチの中心的なパラメータです。 これは、スペクトル変動がランダム行列予測と一致する間隔を定義する。 これは、熱化を許容するシステムの最大エネルギー拡散を定義する。 そして、時間スケール $\hbar / \delta$ を定義し、${\rm tr}(a \rho(t))$ は${\rm tr}(a \rho_{\rm eq})$ に近づく。

A closed quantum system thermalizes if for time $t \to \infty$, the function ${\rm Tr} (A \rho(t))$ tends asymptotically to ${\rm Tr} (A \rho_{\rm eq})$. Here $A$ is an operator that represents an observable, $\rho(t)$ is the time-dependent density matrix, and $\rho_{\rm eq}$ its equilibrium value. We investigate thermalization of a chaotic many-body quantum system by combining the Hartree-Fock (HF) approach and the Bohigas-Giannoni-Schmit (BGS) conjecture. The HF Hamiltonian defines an integrable system and the gross fatures of the spectrum. The residual interaction locally mixes the HF eigenstates. The BGS conjecture implies that the statistics of the resulting eigenvalues and eigenfunctions agrees with random-matrix predictions. In that way, the Hamiltonian $H$ of the system acquires statistical features. The agreement of the statistics with random-matrix properties is local, i.e, confined to an interval $\Delta$ (the correlation width). With $\rho(t) = \exp \{ - i t H / \hbar \} \rho(0) \exp \{ i H t / \hbar \}$, the statistical properties of $H$ define the statistical properties of ${\rm Tr} (A \rho(t))$. Using these we show that in the semiclassical regime, ${\rm Tr} (A \rho(t))$ decays with time scale $\hbar / \Delta$ towards an asymptotic value. If the energy spread of the system is of order $\Delta$, that value corresponds to statistical equilibrium. The correlation width $\Delta$ is the central parameter of our approach. It defines the interval within which the spectral fluctuations agree with random-matrix predictions. It defines the maximum energy spread of the system that permits thermalization. And it defines the time scale $\hbar / \Delta$ within which ${\rm Tr}(A \rho(t))$ approaches the value ${\rm Tr}(A \rho_{\rm eq})$.
翻訳日:2023-10-06 20:50:37 公開日:2023-10-04
# Memoria: ヒューマンライクなシーケンス処理のためのHebbianメモリアーキテクチャ

Memoria: Hebbian Memory Architecture for Human-Like Sequential Processing ( http://arxiv.org/abs/2310.03052v1 )

ライセンス: Link先を確認
Sangjun Park and JinYeong Bak(参考訳) トランスフォーマーは様々なドメインやタスクで成功を収めている。 しかし、トランスフォーマーは容量が限られているため、長い入力シーケンスに苦しむ。 1つの解決策は入力長を増やすことであるが、無限に長さを伸ばすことは非現実的である。 さらに、人間は入力から関連する情報だけを選択的に記憶し、使用するが、トランスフォーマーは全ての生データを最初から最後まで処理する。 ニューラルネットワークの長期依存性を高めるために,人間の記憶の定式化を説明する主要な理論であるヘビアン理論を適用した汎用メモリネットワークであるMemoriaを紹介する。 Memoriaは、Hebbのルールに従って変化する接続重みを使って、複数のメモリレベル、短期記憶、長期記憶にengramと呼ばれる情報を格納し、取得する。 BERT や GPT などのTransformer ベースのモデルを用いた実験により,Memoria は様々なタスクにおける長期依存を考慮できる能力を大幅に向上することを示した。 その結果,Memoriaはソートや言語モデリング,長いテキスト分類において,既存の手法よりも優れていた。

Transformers have demonstrated their success in various domains and tasks. However, Transformers struggle with long input sequences due to their limited capacity. While one solution is to increase input length, endlessly stretching the length is unrealistic. Furthermore, humans selectively remember and use only relevant information from inputs, unlike Transformers which process all raw data from start to end. We introduce Memoria, a general memory network that applies Hebbian theory which is a major theory explaining human memory formulation to enhance long-term dependencies in neural networks. Memoria stores and retrieves information called engram at multiple memory levels of working memory, short-term memory, and long-term memory, using connection weights that change according to Hebb's rule. Through experiments with popular Transformer-based models like BERT and GPT, we present that Memoria significantly improves the ability to consider long-term dependencies in various tasks. Results show that Memoria outperformed existing methodologies in sorting and language modeling, and long text classification.
翻訳日:2023-10-06 20:49:48 公開日:2023-10-04
# 思考理論を持つエージェントから得られる大規模言語モデルは、どの程度のFaRか?

How FaR Are Large Language Models From Agents with Theory-of-Mind? ( http://arxiv.org/abs/2310.03051v1 )

ライセンス: Link先を確認
Pei Zhou, Aman Madaan, Srividya Pranavi Potharaju, Aditya Gupta, Kevin R. McKee, Ari Holtzman, Jay Pujara, Xiang Ren, Swaroop Mishra, Aida Nematzadeh, Shyam Upadhyay, Manaal Faruqui(参考訳) 「考えることはやるべきことだ。」 人間は観察から他者の精神状態を推測することができる(「心の理論」と呼ばれる能力)。 ToMiのような既存の質問応答ベンチマークでは、モデルに質問をして、ストーリーのキャラクターの信念について推論するが、モデルがこれらの推論を使って行動のガイドを行えるかどうかは検証しない。 本稿では,大規模言語モデル (LLM) に対する新たな評価パラダイムを提案する。 思考のための思考 (T4D) は,他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけることを必要とする。 T4Dの実験では、GPT-4やPaLM 2のようなLCMは物語におけるキャラクターの信念を追跡するのに優れているが、この能力を戦略的行動に変換するのに苦労している。 分析の結果,心的状態に関する暗黙的推論をToMiのように明示的に問うことなく,T4Dで正しい行動を選択することがLSMの課題であることが明らかとなった。 このギャップを埋めるために、ゼロショットプロンプトフレームワークであるForesee and Reflect(FaR)を導入します。 FaRはGPT-4の性能をT4Dで50%から71%に向上させ、Chain-of-ThoughtやSelf-Askといった他のプロンプト手法よりも優れている。 さらに、さまざまな分散外のストーリ構造や、tom推論によるアクション選択を必要とするシナリオを一般化し、最小限のコンテキスト内学習を含む他のメソッドを一貫して上回っています。

"Thinking is for Doing." Humans can infer other people's mental states from observations--an ability called Theory-of-Mind (ToM)--and subsequently act pragmatically on those inferences. Existing question answering benchmarks such as ToMi ask models questions to make inferences about beliefs of characters in a story, but do not test whether models can then use these inferences to guide their actions. We propose a new evaluation paradigm for large language models (LLMs): Thinking for Doing (T4D), which requires models to connect inferences about others' mental states to actions in social scenarios. Experiments on T4D demonstrate that LLMs such as GPT-4 and PaLM 2 seemingly excel at tracking characters' beliefs in stories, but they struggle to translate this capability into strategic action. Our analysis reveals the core challenge for LLMs lies in identifying the implicit inferences about mental states without being explicitly asked about as in ToMi, that lead to choosing the correct action in T4D. To bridge this gap, we introduce a zero-shot prompting framework, Foresee and Reflect (FaR), which provides a reasoning structure that encourages LLMs to anticipate future challenges and reason about potential actions. FaR boosts GPT-4's performance from 50% to 71% on T4D, outperforming other prompting methods such as Chain-of-Thought and Self-Ask. Moreover, FaR generalizes to diverse out-of-distribution story structures and scenarios that also require ToM inferences to choose an action, consistently outperforming other methods including few-shot in-context learning.
翻訳日:2023-10-06 20:49:31 公開日:2023-10-04
# 異常検出によるWSIパッチングのための正常組織アトラスの作成

Creating an Atlas of Normal Tissue for Pruning WSI Patching Through Anomaly Detection ( http://arxiv.org/abs/2310.03106v1 )

ライセンス: Link先を確認
Peyman Nejat, Areej Alsaafin, Ghazal Alabtah, Nneka Comfere, Aaron Mangold, Dennis Murphree, Patricija Zot, Saba Yasir, Joaquin J. Garcia, H.R. Tizhoosh(参考訳) ギガピクセル全体のスライド画像(WSI)のパッチングは、計算病理学において重要な課題である。 下流タスクのWSI表現としてパッチのサブセットを選択する方法が提案されている。 計算病理学のタスクのほとんどはwsiの各病巣の存在を分類または検出するために設計されているが、組織サンプルにおける正常な組織学の確立された役割と冗長性は、一般にwsi表現では見過ごされている。 本稿では,正常組織生検から得られたWSIのサンプルのみを用いた「正常組織アトラス」の概念を提案し,検証する。 このようなアトラスは、組織サンプルの正常な断片を除去し、パッチの代表性を高めるために用いられる。 107個の正常な皮膚WSIを用いて正常なアトラスを確立することで提案手法を検証し,Yottixelのような既存のインデックスや検索エンジンをどのように改善できるかを実証した。 今回,皮膚扁平上皮癌(cSCC)の553 WSIを用いて検討した。 また,本手法を451乳房wsisの外部データセットに適用した。 選択されたwsiパッチの数は、提案された通常のatlasを使用して30%から50%削減され、両方のデータセットで同じインデックス付けと検索性能を維持した。 提案法は, 悪性・悪性のWSI病変の最も代表的パッチを無監督で選択できることを示唆する。

Patching gigapixel whole slide images (WSIs) is an important task in computational pathology. Some methods have been proposed to select a subset of patches as WSI representation for downstream tasks. While most of the computational pathology tasks are designed to classify or detect the presence of pathological lesions in each WSI, the confounding role and redundant nature of normal histology in tissue samples are generally overlooked in WSI representations. In this paper, we propose and validate the concept of an "atlas of normal tissue" solely using samples of WSIs obtained from normal tissue biopsies. Such atlases can be employed to eliminate normal fragments of tissue samples and hence increase the representativeness collection of patches. We tested our proposed method by establishing a normal atlas using 107 normal skin WSIs and demonstrated how established indexes and search engines like Yottixel can be improved. We used 553 WSIs of cutaneous squamous cell carcinoma (cSCC) to show the advantage. We also validated our method applied to an external dataset of 451 breast WSIs. The number of selected WSI patches was reduced by 30% to 50% after utilizing the proposed normal atlas while maintaining the same indexing and search performance in leave-one-patinet-out validation for both datasets. We show that the proposed normal atlas shows promise for unsupervised selection of the most representative patches of the abnormal/malignant WSI lesions.
翻訳日:2023-10-06 20:43:38 公開日:2023-10-04
# 非分解性目的関数に対するDP-SGD

DP-SGD for non-decomposable objective functions ( http://arxiv.org/abs/2310.03104v1 )

ライセンス: Link先を確認
William Kong, Andr\'es Mu\~noz Medina and M\'onica Ribero(参考訳) 教師なし事前学習はコンピュータビジョンモデルと大規模言語モデルを開発する一般的なステップである。 この設定では、ラベルの欠如は、類似した入力間の距離を最小化し、異なる入力間の距離を最大化する、コントラスト的損失のような類似性に基づく損失関数の使用を必要とする。 プライバシーの懸念が高まるにつれ、ディファレンシャルプライバシを用いたモデルトレーニングがより重要になっている。 しかし、これらの損失に対して入力がどのように生成されるかによって、その好ましくない特性の1つは、バッチサイズが大きくなるにつれて、その$L_2$感度が増加することである。 この性質はDP-SGDのような差分プライベートな訓練手法には特に不利である。 この問題を解決するために、類似性に基づく損失関数(特によく使われるコントラスト損失)のための新しいDP-SGD変種を開発し、新しい方法で目的関数の勾配を演算し、バッチサイズ$n$に対して$O(1)$の累積勾配の感度を得る。 予備的な CIFAR-10 と CIFAR-100 の微調整タスクにおいて,DP-SGD の変種を試験し,本手法の性能が非プライベートモデルに近く,コントラスト損失に直接適用した DP-SGD よりも優れていることを示す。

Unsupervised pre-training is a common step in developing computer vision models and large language models. In this setting, the absence of labels requires the use of similarity-based loss functions, such as contrastive loss, that favor minimizing the distance between similar inputs and maximizing the distance between distinct inputs. As privacy concerns mount, training these models using differential privacy has become more important. However, due to how inputs are generated for these losses, one of their undesirable properties is that their $L_2$ sensitivity can grow with increasing batch size. This property is particularly disadvantageous for differentially private training methods, such as DP-SGD. To overcome this issue, we develop a new DP-SGD variant for similarity based loss functions -- in particular the commonly used contrastive loss -- that manipulates gradients of the objective function in a novel way to obtain a senstivity of the summed gradient that is $O(1)$ for batch size $n$. We test our DP-SGD variant on some preliminary CIFAR-10 pre-training and CIFAR-100 finetuning tasks and show that, in both tasks, our method's performance comes close to that of a non-private model and generally outperforms DP-SGD applied directly to the contrastive loss.
翻訳日:2023-10-06 20:43:15 公開日:2023-10-04
# ドメイン認識フェデレーション学習のためのデュアルプロンプトチューニング

Dual Prompt Tuning for Domain-Aware Federated Learning ( http://arxiv.org/abs/2310.03103v1 )

ライセンス: Link先を確認
Guoyizhe Wei, Feng Wang, Anshul Shah, Rama Chellappa(参考訳) フェデレートラーニング(Federated Learning)は、複数のクライアントがローカルデータで共有モデルを共同でトレーニングできる分散機械学習パラダイムである。 それでも、従来の連合学習アルゴリズムは、クライアント間のユビキタスなドメインシフトのために、うまく一般化できないことが多い。 本研究では、各クライアントのトレーニングデータが異なるドメインから派生する、挑戦的で現実的なフェデレート学習シナリオについて考察する。 本稿では,素早い学習技術を活用したドメインシフトの課題に対処し,Fed-DPT(Federated Dual Prompt Tuning)と呼ばれる新しい手法を提案する。 具体的には、feed-dptは事前訓練されたビジョン言語モデルを採用し、視覚とテキストの両方のプロンプトチューニングを適用して分散データに対するドメイン適応を促進する。 Fed-DPTの大規模な実験は、ドメイン対応のフェデレーション学習においてその顕著な効果を示した。 事前トレーニングされたCLIPモデル(イメージエンコーダとしてのViT-Base)により、提案されたFed-DPTは、DomainNetデータセットの6つのドメインの平均精度を68.4%向上し、オリジナルのCLIPを14.8%向上させた。

Federated learning is a distributed machine learning paradigm that allows multiple clients to collaboratively train a shared model with their local data. Nonetheless, conventional federated learning algorithms often struggle to generalize well due to the ubiquitous domain shift across clients. In this work, we consider a challenging yet realistic federated learning scenario where the training data of each client originates from different domains. We address the challenges of domain shift by leveraging the technique of prompt learning, and propose a novel method called Federated Dual Prompt Tuning (Fed-DPT). Specifically, Fed-DPT employs a pre-trained vision-language model and then applies both visual and textual prompt tuning to facilitate domain adaptation over decentralized data. Extensive experiments of Fed-DPT demonstrate its significant effectiveness in domain-aware federated learning. With a pre-trained CLIP model (ViT-Base as image encoder), the proposed Fed-DPT attains 68.4% average accuracy over six domains in the DomainNet dataset, which improves the original CLIP by a large margin of 14.8%.
翻訳日:2023-10-06 20:42:49 公開日:2023-10-04
# ジョセフソン共鳴レベルによるフラックスンのトンネル化

Tunneling of fluxons via a Josephson resonant level ( http://arxiv.org/abs/2310.03102v1 )

ライセンス: Link先を確認
T. Vakhtel, P. D. Kurilovich, M. Pita-Vidal, A. Bargerbos, V. Fatemi, B. van Heck(参考訳) 超伝導ループ内のフラクソンはジョセフソン接合のような弱いリンクで起こる量子位相スリップによってコヒーレントに結合することができる。 接合点でのクーパー対トンネルが共振レベルを通り抜けると、2\pi$の量子位相スリップが抑制され、フラックスンは4\pi$の量子位相スリップでおおむね結合される。 このシナリオは, 超伝導凝縮体との共鳴によってフラクトン間のカップリングを計算して解析する。 この結果から,4\pi$-dominated regimeはフラックスニウム量子ビットの典型的な回路パラメータの遷移スペクトルで直接観測できることがわかった。 また、ループの誘導エネルギーが接合部のプラズマ周波数よりはるかに小さい場合、回路の低エネルギーハミルトニアンは位相的超伝導島と双対であることが示されている。 これらの結果は、バイフラクソン量子ビットの実験や、新しいタイプの保護量子ビットの設計に影響を及ぼす。

Fluxons in a superconducting loop can be coherently coupled by quantum phase slips occurring at a weak link such as a Josephson junction. If Cooper pair tunneling at the junction occurs through a resonant level, $2\pi$ quantum phase slips are suppressed, and fluxons are predominantly coupled by $4\pi$ quantum phase slips. We analyze this scenario by computing the coupling between fluxons as the level is brought into resonance with the superconducting condensate. The results indicate that the $4\pi$-dominated regime can be observed directly in the transition spectrum for circuit parameters typical of a fluxonium qubit. We also show that, if the inductive energy of the loop is much smaller than the plasma frequency of the junction, the low-energy Hamiltonian of the circuit is dual to that of a topological superconducting island. These findings can inform experiments on bifluxon qubits as well as the design of novel types of protected qubits.
翻訳日:2023-10-06 20:42:26 公開日:2023-10-04
# コスト効率向上のための思考表現を混合した大規模言語モデルカスケード

Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning ( http://arxiv.org/abs/2310.03094v1 )

ライセンス: Link先を確認
Murong Yue, Jie Zhao, Min Zhang, Liang Du, Ziyu Yao(参考訳) gpt-4のような大規模言語モデル(llm)は様々なタスクで顕著なパフォーマンスを示しているが、この強力なパフォーマンスはしばしば有料apiサービスの使用に高いコストがかかる。 本稿では,特に推論(数学的,因果的)タスクの実行において,llmを使用するコストを削減するために,llmカスケードの構築を動機付ける。 我々のカスケードパイプラインは、より単純な問題に弱いがより手頃な価格のLSMで対処できるという直感に従っています。 この決定を実現するために,弱いLCMの「問合せ整合性」を質問の難しさの信号とみなし,2つの思考表現(すなわちChain-of-ThoughtとProgram-of-Thought)を混合した回答サンプリングと整合性検査のためのいくつかの手法を提案する。 GPT-3.5-turbo と GPT-4 がそれぞれより弱い LLM である6つの推論ベンチマークデータセットの実験を通して,提案する LLM カスケードは,より強力な LLM に匹敵する性能を達成できるが,コストの 40% しか必要としないことを示す。

Large language models (LLMs) such as GPT-4 have exhibited remarkable performance in a variety of tasks, but this strong performance often comes with the high expense of using paid API services. In this paper, we are motivated to study building an LLM cascade to save the cost of using LLMs, particularly for performing reasoning (e.g., mathematical, causal) tasks. Our cascade pipeline follows the intuition that simpler questions can be addressed by a weaker but more affordable LLM, whereas only the challenging questions necessitate the stronger and more expensive LLM. To realize this decision-making, we consider the "answer consistency" of the weaker LLM as a signal of the question difficulty and propose several methods for the answer sampling and consistency checking, including one leveraging a mixture of two thought representations (i.e., Chain-of-Thought and Program-of-Thought). Through experiments on six reasoning benchmark datasets, with GPT-3.5-turbo and GPT-4 being the weaker and stronger LLMs, respectively, we demonstrate that our proposed LLM cascades can achieve performance comparable to using solely the stronger LLM but require only 40% of its cost.
翻訳日:2023-10-06 20:42:10 公開日:2023-10-04
# 頻繁なバイナリパターンに基づくプライバシ保存型マルチバイオメトリックインデクシング

Privacy-preserving Multi-biometric Indexing based on Frequent Binary Patterns ( http://arxiv.org/abs/2310.03091v1 )

ライセンス: Link先を確認
Daile Osorio-Roig, Lazaro J. Gonzalez-Soler, Christian Rathgeb, Christoph Busch(参考訳) 登録対象者のプライバシー保護を確実にする大規模識別システムの開発は大きな課題である。 効率的なマルチバイオメトリックソリューションを含むことで相互運用性とユーザビリティを提供するバイオメトリックデプロイメントは、最近の要件である。 プライバシー保護の文脈では、過去にいくつかのテンプレート保護スキームが提案されている。 しかしながら、これらのスキームは生体認証システムにおいてインデックス化(作業負荷削減)には不十分であるように見える。 具体的には、徹底的な探索を行う識別システムで使われており、計算効率の低下につながっている。 これらの制約を克服するため、保護された深いキャンセル可能なテンプレートを検索し、生体特性や生体テンプレート保護スキームに関して非依存な、効率的なプライバシー保護型マルチバイオメトリック識別システムを提案する。 この目的のために, 異なるバイオメトリック特性から抽出された頻繁なバイナリパターンに含まれるクラス内変動特性の低さを活用すべく, マルチバイオメトリックバイナリ化方式を提案する。 Experimental results reported on publicly available databases using state-of-the-art Deep Neural Network (DNN)-based embedding extractors show that the protected multi-biometric identification system can reduce the computational workload to approximately 57\% (indexing up to three types of biometric characteristics) and 53% (indexing up to two types of biometric characteristics), while simultaneously improving the biometric performance of the baseline biometric system at the high-security thresholds. 提案するマルチバイオメトリックインデクシングアプローチのソースコードと、構成されたマルチバイオメトリックデータセットは、記事が受け入れられ次第、研究コミュニティで利用可能になる予定である。

The development of large-scale identification systems that ensure the privacy protection of enrolled subjects represents a major challenge. Biometric deployments that provide interoperability and usability by including efficient multi-biometric solutions are a recent requirement. In the context of privacy protection, several template protection schemes have been proposed in the past. However, these schemes seem inadequate for indexing (workload reduction) in biometric identification systems. More specifically, they have been used in identification systems that perform exhaustive searches, leading to a degradation of computational efficiency. To overcome these limitations, we propose an efficient privacy-preserving multi-biometric identification system that retrieves protected deep cancelable templates and is agnostic with respect to biometric characteristics and biometric template protection schemes. To this end, a multi-biometric binning scheme is designed to exploit the low intra-class variation properties contained in the frequent binary patterns extracted from different types of biometric characteristics. Experimental results reported on publicly available databases using state-of-the-art Deep Neural Network (DNN)-based embedding extractors show that the protected multi-biometric identification system can reduce the computational workload to approximately 57\% (indexing up to three types of biometric characteristics) and 53% (indexing up to two types of biometric characteristics), while simultaneously improving the biometric performance of the baseline biometric system at the high-security thresholds. The source code of the proposed multi-biometric indexing approach together with the composed multi-biometric dataset, will be made available to the research community once the article is accepted.
翻訳日:2023-10-06 20:41:44 公開日:2023-10-04
# 電力系統状態推定を高速化する物理形ニューラルネットワーク

Physics-Informed Neural Networks for Accelerating Power System State Estimation ( http://arxiv.org/abs/2310.03088v1 )

ライセンス: Link先を確認
Solon Falas, Markos Asprou, Charalambos Konstantinou, Maria K. Michael(参考訳) 状態推定は、連続した時間間隔でシステムの動作状態を提供するため、電力系統制御センターの基盤となる。 本研究は,電力系統の動作監視における電力系統状態推定の高速化を目的とした物理インフォームドニューラルネットワーク(PINN)の適用について検討する。 従来の状態推定手法は、特に大規模電力システムにおいて計算集約的な反復アルゴリズムに依存することが多い。 本稿では,PINNの統合による電力系統の物理的知識を活用する新しい手法を提案する。 物理法則を事前知識として組み込むことにより,高精度を維持しながら状態推定に伴う計算複雑性を著しく低減する。 提案手法はieee 14-busシステムにおける包括的実験で示されるように,最大11%の精度向上,75%の標準偏差,30%の高速化を実現している。

State estimation is the cornerstone of the power system control center since it provides the operating condition of the system in consecutive time intervals. This work investigates the application of physics-informed neural networks (PINNs) for accelerating power systems state estimation in monitoring the operation of power systems. Traditional state estimation techniques often rely on iterative algorithms that can be computationally intensive, particularly for large-scale power systems. In this paper, a novel approach that leverages the inherent physical knowledge of power systems through the integration of PINNs is proposed. By incorporating physical laws as prior knowledge, the proposed method significantly reduces the computational complexity associated with state estimation while maintaining high accuracy. The proposed method achieves up to 11% increase in accuracy, 75% reduction in standard deviation of results, and 30% faster convergence, as demonstrated by comprehensive experiments on the IEEE 14-bus system.
翻訳日:2023-10-06 20:41:20 公開日:2023-10-04
# 事前学習言語モデルにおける知識批判サブネットの発見

Discovering Knowledge-Critical Subnetworks in Pretrained Language Models ( http://arxiv.org/abs/2310.03084v1 )

ライセンス: Link先を確認
Deniz Bayazit, Negar Foroutan, Zeming Chen, Gail Weiss, Antoine Bosselut(参考訳) 事前訓練言語モデル(LM)は、そのパラメータにおける知識の暗黙的な表現を符号化する。 しかしながら、これらの表現をローカライズし、それらを互いに切り離すことは、未解決の問題である。 本研究では,事前学習された言語モデルが様々な知識クリティカルなサブネットワークを含むかどうかについて検討する。 我々は,これらのサブネットワークを探索するための多目的微分可能な重みマスキングスキームを提案し,それらを用いてモデルから特定の知識を取り除き,元の言語モデルの振る舞いに対する悪影響を最小限に抑えることができることを示す。 我々は,関係知識の特定のコレクションにのみ責任を負う,スパースなサブネット(98%以上)を探索し,複数のGPT2変種に対して本手法を実証する。 これらのサブネットワークが削除されると、残りのネットワークは、最初のキャパシティ(モデリング言語や他の記憶された関係知識)のほとんどを維持するが、削除された知識の表現に苦労し、微調整後のダウンストリームタスクに関するこの知識を必要とする例でパフォーマンスが低下する。

Pretrained language models (LMs) encode implicit representations of knowledge in their parameters. However, localizing these representations and disentangling them from each other remains an open problem. In this work, we investigate whether pretrained language models contain various knowledge-critical subnetworks: particular sparse computational subgraphs responsible for encoding specific knowledge the model has memorized. We propose a multi-objective differentiable weight masking scheme to discover these subnetworks and show that we can use them to precisely remove specific knowledge from models while minimizing adverse effects on the behavior of the original language model. We demonstrate our method on multiple GPT2 variants, uncovering highly sparse subnetworks (98%+) that are solely responsible for specific collections of relational knowledge. When these subnetworks are removed, the remaining network maintains most of its initial capacity (modeling language and other memorized relational knowledge) but struggles to express the removed knowledge, and suffers performance drops on examples needing this removed knowledge on downstream tasks after finetuning.
翻訳日:2023-10-06 20:40:28 公開日:2023-10-04
# 汎用ハイブリッド量子コンピューティング資源の効率的な生成のための機械学習

Machine learning for efficient generation of universal hybrid quantum computing resources ( http://arxiv.org/abs/2310.03130v1 )

ライセンス: Link先を確認
Amanuel Anteneh, Olivier Pfister(参考訳) 我々は,光子数分解検出法によりサンプリングされた時間多重光回路である計測ベース量子プロセッサ上での深部強化学習の数値シミュレーションを行い,これを平均成功率98%で生成し,同様の提案をはるかに上回った。

We present numerical simulations of deep reinforcement learning on a measurement-based quantum processor--a time-multiplexed optical circuit sampled by photon-number-resolving detection--and find it generates squeezed cat states with an average success rate of 98%, far outperforming all other similar proposals.
翻訳日:2023-10-06 20:31:56 公開日:2023-10-04
# MetaToolベンチマーク: ツールを使用するか、使用するかを決める

MetaTool Benchmark: Deciding Whether to Use Tools and Which to Use ( http://arxiv.org/abs/2310.03128v1 )

ライセンス: Link先を確認
Yue Huang and Jiawen Shi and Yuan Li and Chenrui Fan and Siyuan Wu and Qihui Zhang and Yixin Liu and Pan Zhou and Yao Wan and Neil Zhenqiang Gong and Lichao Sun(参考訳) 大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。 近年,多くの研究がllmのツール活用能力に着目している。 彼らは主に、LLMが特定のツールと効果的に連携する方法を調査した。 しかしながら、AutoGPTやMetaGPTのようなアプリケーションで見られるような、LLMがインテリジェントなエージェントとして機能するシナリオでは、LDMは、ツールを採用するかどうかを決定し、ユーザ要求を満たすために利用可能なツールの集合から最も適切なツールを選択する、複雑な意思決定プロセスに関与することが期待されている。 そこで本稿では,LLM がツール使用意識を持ち,ツールを正しく選択できるかどうかを評価するベンチマークである MetaTool を紹介する。 具体的には、ベンチマーク内でToolEと呼ばれるデータセットを作成します。 このデータセットには、シングルツールとマルチツールの両方のシナリオを含む、LDMがツールを使用するきっかけとなるプロンプトという形で、さまざまなタイプのユーザクエリが含まれている。 その後、ツール使用意識とツール選択の両方にタスクを設定しました。 ツール選択に関して,ツール選択,特定のシナリオにおけるツール選択,信頼性問題のあるツール選択,マルチツール選択など,さまざまな観点から4つのサブタスクを定義した。 我々は、9つの人気のあるLSMを巻き込んだ実験を行い、その大多数は依然としてツールを効果的に選択するのに苦労しており、LSMと真の知的エージェントの既存のギャップを強調しています。 しかし, 誤差解析の結果, 改善の余地は依然として大きいことがわかった。 最後に、chatgptをフォローするツール開発者がllmのツール選択性能を向上させるための詳細な説明を提供するための洞察をまとめる。

Large language models (LLMs) have garnered significant attention due to their impressive natural language processing (NLP) capabilities. Recently, many studies have focused on the tool utilization ability of LLMs. They primarily investigated how LLMs effectively collaborate with given specific tools. However, in scenarios where LLMs serve as intelligent agents, as seen in applications like AutoGPT and MetaGPT, LLMs are expected to engage in intricate decision-making processes that involve deciding whether to employ a tool and selecting the most suitable tool(s) from a collection of available tools to fulfill user requests. Therefore, in this paper, we introduce MetaTool, a benchmark designed to evaluate whether LLMs have tool usage awareness and can correctly choose tools. Specifically, we create a dataset called ToolE within the benchmark. This dataset contains various types of user queries in the form of prompts that trigger LLMs to use tools, including both single-tool and multi-tool scenarios. Subsequently, we set the tasks for both tool usage awareness and tool selection. We define four subtasks from different perspectives in tool selection, including tool selection with similar choices, tool selection in specific scenarios, tool selection with possible reliability issues, and multi-tool selection. We conduct experiments involving nine popular LLMs and find that the majority of them still struggle to effectively select tools, highlighting the existing gaps between LLMs and genuine intelligent agents. However, through the error analysis, we found there is still significant room for improvement. Finally, we conclude with insights for tool developers that follow ChatGPT to provide detailed descriptions that can enhance the tool selection performance of LLMs.
翻訳日:2023-10-06 20:31:49 公開日:2023-10-04
# 見えないものを遮蔽する: 空間的変形を伴うNeRFによるプライバシー保護

Shielding the Unseen: Privacy Protection through Poisoning NeRF with Spatial Deformation ( http://arxiv.org/abs/2310.03125v1 )

ライセンス: Link先を確認
Yihan Wu, Brandon Y. Feng, Heng Huang(参考訳) 本稿では,Neural Radiance Fields(NeRF)モデルの生成能力に対して,ユーザのプライバシを保護する革新的な手法を提案する。 我々の新しい中毒攻撃法は、人間の目では認識できないが、NeRFが正確に3Dシーンを再構築する能力を損なうのに十分強力である観察ビューに変化をもたらす。 そこで我々は,PGD(Projected Gradient Descent)に基づく空間変形を考慮した二段階最適化アルゴリズムを提案する。 我々は、高品質の画像を含む29の現実世界シーンからなる2つの共通のNeRFベンチマークデータセットに対して、我々のアプローチを広範囲に検証した。 以上の結果から,我々のプライバシ保護手法は,これらのベンチマークデータセット間でのNeRFの性能を著しく損なうことが明らかとなった。 さらに,本手法は様々な摂動強度とNeRFアーキテクチャにまたがって適用可能であることを示す。 この研究は、NeRFの脆弱性に関する貴重な洞察を提供し、堅牢な3Dシーン再構築アルゴリズムを開発する際に、そのような潜在的なプライバシーリスクを考慮する必要性を強調している。 我々の研究は、責任あるAIと生成機械学習を取り巻くより大きな会話に寄与し、ユーザのプライバシーを保護し、デジタル時代の創造的所有権を尊重することを目的としている。

In this paper, we introduce an innovative method of safeguarding user privacy against the generative capabilities of Neural Radiance Fields (NeRF) models. Our novel poisoning attack method induces changes to observed views that are imperceptible to the human eye, yet potent enough to disrupt NeRF's ability to accurately reconstruct a 3D scene. To achieve this, we devise a bi-level optimization algorithm incorporating a Projected Gradient Descent (PGD)-based spatial deformation. We extensively test our approach on two common NeRF benchmark datasets consisting of 29 real-world scenes with high-quality images. Our results compellingly demonstrate that our privacy-preserving method significantly impairs NeRF's performance across these benchmark datasets. Additionally, we show that our method is adaptable and versatile, functioning across various perturbation strengths and NeRF architectures. This work offers valuable insights into NeRF's vulnerabilities and emphasizes the need to account for such potential privacy risks when developing robust 3D scene reconstruction algorithms. Our study contributes to the larger conversation surrounding responsible AI and generative machine learning, aiming to protect user privacy and respect creative ownership in the digital age.
翻訳日:2023-10-06 20:31:22 公開日:2023-10-04
# ブラックボックス大規模事前訓練モデルのための効率的なフェデレーションプロンプトチューニング

Efficient Federated Prompt Tuning for Black-box Large Pre-trained Models ( http://arxiv.org/abs/2310.03123v1 )

ライセンス: Link先を確認
Zihao Lin, Yan Sun, Yifan Shi, Xueqian Wang, Lifu Huang, Li Shen, Dacheng Tao(参考訳) プレトレーニングモデル (PTMs) の爆発的発展に伴い、これらのモデルの様々な下流アプリケーションに対する効率的なチューニングが重要な研究課題となっている。 1) メモリ制約: オープンソースのPTMのサイズの連続的な成長は、微調整を施すが、そのパラメータのごく一部でさえも、多くの実践者にとって困難である。 モデルプライバシ: 既存のPTMは、しばしばパブリックAPIサービスとして機能し、パラメータは、効果的または調整された微調整にはアクセスできない。 (3)データプライバシ: PTMの微調整は、通常、ローカライズされ、公開されていない高品質なデータセットを必要とする。 メモリ制約をナビゲートし、プライバシを保護しながら、各ローカルデータセットを最適に活用するために、フェデレートブラックボックス・プロンプト・チューニング(Fed-BBPT)を提案する。 この革新的なアプローチは、パラメータアーキテクチャとプライベートデータセットアクセスへの依存を回避し、代わりに、定期的なアグリゲーションを通じてプロンプトジェネレータを協調的にトレーニングする、ローカルユーザを支援する中央サーバを活用する。 ローカルユーザは、ゼロオーダーオプティマイザを通じてAPI駆動学習を活用することで、PTMデプロイメントの必要性を回避できる。 大規模な微調整とは対照的に、Fed-BBPTは、PTMストレージとローカルマシンの微調整に関連するメモリ上の課題を、包括的で高品質でプライベートなトレーニングデータセットに分類し、十分にサイドステップで解決する。 CVタスクとNLPタスクにまたがる40のデータセットに対する徹底的な評価は、提案モデルの堅牢性を示している。

With the blowout development of pre-trained models (PTMs), the efficient tuning of these models for diverse downstream applications has emerged as a pivotal research concern. Although recent investigations into prompt tuning have provided promising avenues, three salient challenges persist: (1) memory constraint: the continuous growth in the size of open-source PTMs renders fine-tuning, even a fraction of their parameters, challenging for many practitioners. (2) model privacy: existing PTMs often function as public API services, with their parameters inaccessible for effective or tailored fine-tuning. (3) data privacy: the fine-tuning of PTMs necessitates high-quality datasets, which are typically localized and not shared to public. To optimally harness each local dataset while navigating memory constraints and preserving privacy, we propose Federated Black-Box Prompt Tuning (Fed-BBPT). This innovative approach eschews reliance on parameter architectures and private dataset access, instead capitalizing on a central server that aids local users in collaboratively training a prompt generator through regular aggregation. Local users leverage API-driven learning via a zero-order optimizer, obviating the need for PTM deployment. Relative to extensive fine-tuning, Fed-BBPT proficiently sidesteps memory challenges tied to PTM storage and fine-tuning on local machines, tapping into comprehensive, high-quality, yet private training datasets. A thorough evaluation across 40 datasets spanning CV and NLP tasks underscores the robustness of our proposed model.
翻訳日:2023-10-06 20:31:02 公開日:2023-10-04
# openmm 8: 機械学習ポテンシャルを用いた分子動力学シミュレーション

OpenMM 8: Molecular Dynamics Simulation with Machine Learning Potentials ( http://arxiv.org/abs/2310.03121v1 )

ライセンス: Link先を確認
Peter Eastman, Raimondas Galvelis, Ra\'ul P. Pel\'aez, Charlles R. A. Abreu, Stephen E. Farr, Emilio Gallicchio, Anton Gorenko, Michael M. Henry, Frank Hu, Jing Huang, Andreas Kr\"amer, Julien Michel, Joshua A. Mitchell, Vijay S. Pande, Jo\~ao PGLM Rodrigues, Jaime Rodriguez-Guerra, Andrew C. Simmonett, Jason Swails, Ivy Zhang, John D. Chodera, Gianni De Fabritiis, Thomas E. Markland(参考訳) 機械学習は分子シミュレーションにおいて重要な役割を担っている。 openmm molecular dynamics toolkitの最新バージョンでは、機械学習ポテンシャルの使用をサポートする新機能が導入されている。 任意のPyTorchモデルはシミュレーションに追加でき、力とエネルギーを計算するのに使われる。 高レベルインタフェースにより、ユーザーは一般目的、事前訓練されたポテンシャル関数で興味ある分子を簡単にモデル化できる。 最適化されたCUDAカーネルとカスタムPyTorch操作のコレクションは、シミュレーションのスピードを大幅に向上させる。 これらの特徴は、水中のサイクリン依存性キナーゼ8 (CDK8) と緑色蛍光タンパク質 (GFP) のクロロフォアのシミュレーションで示される。 これらの特徴を組み合わせることで、機械学習を使用してシミュレーションの精度をわずかに高いコストで向上させることができる。

Machine learning plays an important and growing role in molecular simulation. The newest version of the OpenMM molecular dynamics toolkit introduces new features to support the use of machine learning potentials. Arbitrary PyTorch models can be added to a simulation and used to compute forces and energy. A higher-level interface allows users to easily model their molecules of interest with general purpose, pretrained potential functions. A collection of optimized CUDA kernels and custom PyTorch operations greatly improves the speed of simulations. We demonstrate these features on simulations of cyclin-dependent kinase 8 (CDK8) and the green fluorescent protein (GFP) chromophore in water. Taken together, these features make it practical to use machine learning to improve the accuracy of simulations at only a modest increase in cost.
翻訳日:2023-10-06 20:30:31 公開日:2023-10-04
# 電磁サイドチャネル解析のクロスiotデバイスポータビリティ:課題とデータセット

Crossed-IoT device portability of Electromagnetic Side Channel Analysis: Challenges and Dataset ( http://arxiv.org/abs/2310.03119v1 )

ライセンス: Link先を確認
Tharindu Lakshan Yasarathna, Lojenaa Navanesan, Simon Barque, Assanka Sayakkara and Nhien-An Le-Khac(参考訳) IoT(モノのインターネット)とは、センサー、ソフトウェア、コネクティビティに埋め込まれた、相互接続された物理的デバイス、車両、家電、その他のアイテムのネットワークを指す。 IoT Forensicsは、IoTデバイスからデジタルエビデンスを収集して分析し、これらの接続デバイス上で発生した可能性のあるサイバー犯罪、セキュリティ侵害、その他の悪意ある活動を調査している。 特に、EM-SCAは、IoTデバイスの内部動作に関する機密情報を、これらのデバイスを干渉したり、ネットワークを盗聴したりすることなく公開できるため、IoTの法医学にとって不可欠なツールとなっている。 しかし、em-sca結果の精度と信頼性は、デバイス変動性、環境要因、データ収集および処理方法によって制限される。 さらに、これらの制限に関する研究は、クロスIoTデバイスのポータビリティに対するEM-SCAアプローチの正確性に大きく影響するだけでなく、そのような課題に取り組むためのソリューションに関する限定的な研究にも大きく影響する。 そこで本研究では,デバイス可変性がEM-SCAアプローチの精度と信頼性に及ぼす影響,特に機械学習(ML)に基づくEM-SCAアプローチについて検討する。 まず、現在のEM-SCAアプローチとデータセットの限界を評価するために使用される背景、基本的な概念、技術について述べる。 そこで本研究では,プロセッサのマルチコアアーキテクチャ(SoC)によって引き起こされる,最も重要な制約のひとつに対処する。 本稿では, EM-SCAデータセットの収集と, クロスIoTデバイスのIoT法医学において, EM-SCAからより有意義で信頼性の高い結果を得るための転送学習の実現可能性を示す。 さらに, デバイス間ポータビリティに関する電磁チャネルデータの解析において, 深層学習モデルを用いた新しいデータセットを提案する。

IoT (Internet of Things) refers to the network of interconnected physical devices, vehicles, home appliances, and other items embedded with sensors, software, and connectivity, enabling them to collect and exchange data. IoT Forensics is collecting and analyzing digital evidence from IoT devices to investigate cybercrimes, security breaches, and other malicious activities that may have taken place on these connected devices. In particular, EM-SCA has become an essential tool for IoT forensics due to its ability to reveal confidential information about the internal workings of IoT devices without interfering these devices or wiretapping their networks. However, the accuracy and reliability of EM-SCA results can be limited by device variability, environmental factors, and data collection and processing methods. Besides, there is very few research on these limitations that affects significantly the accuracy of EM-SCA approaches for the crossed-IoT device portability as well as limited research on the possible solutions to address such challenge. Therefore, this empirical study examines the impact of device variability on the accuracy and reliability of EM-SCA approaches, in particular machine-learning (ML) based approaches for EM-SCA. We firstly presents the background, basic concepts and techniques used to evaluate the limitations of current EM-SCA approaches and datasets. Our study then addresses one of the most important limitation, which is caused by the multi-core architecture of the processors (SoC). We present an approach to collect the EM-SCA datasets and demonstrate the feasibility of using transfer learning to obtain more meaningful and reliable results from EM-SCA in IoT forensics of crossed-IoT devices. Our study moreover contributes a new dataset for using deep learning models in analysing Electromagnetic Side-Channel data with regards to the cross-device portability matter.
翻訳日:2023-10-06 20:30:18 公開日:2023-10-04
# DDPM由来コンテンツと変圧器を用いたブラインドCT画像品質評価

Blind CT Image Quality Assessment Using DDPM-derived Content and Transformer-based Evaluator ( http://arxiv.org/abs/2310.03118v1 )

ライセンス: Link先を確認
Yongyi Shi, Wenjun Xia, Ge Wang, Xuanqin Mou(参考訳) 視界当たりの放射線線量低下とスキャンごとのスパースビューの利用は2つの一般的なCTスキャンモードであるが、ノイズとストリークアーティファクトを特徴とする歪んだ画像につながることがしばしばある。 ブラインド画像品質評価(BIQA)は,低用量CT再建技術の進歩に重要な役割を担っている放射線技師が知覚する点と一致して知覚品質を評価する。 興味深い方向は、人間の視覚システム(HVS)の動作特性を模倣するBIQA手法の開発である。 内部生成機構(IGM)理論は、HVSが理解力を高めるために主成分を積極的に誘導していることを明らかにする。 本研究では,IMGのアクティブ推論過程をエミュレートする革新的なBIQA指標を提案する。 当初は,拡散確率モデル (DDPM) として実装されたアクティブ推論モジュールが一次内容を予測するために構築されている。 そして、歪んだ画像とその一次内容との相互関係を評価することにより、相違度マップを導出する。 その後、歪み画像と異種地図とを合成して多チャンネル画像とし、トランスベース画質評価器に入力する。 注目すべきは、このトランスフォーマーベースの品質評価器を専ら活用することで、我々はMICCAI 2023の低線量計算トモグラフィーにおける第2位を獲得したことである。 DDPM由来の一次コンテンツを活用することで,課題データセットのパフォーマンスをさらに向上する。

Lowering radiation dose per view and utilizing sparse views per scan are two common CT scan modes, albeit often leading to distorted images characterized by noise and streak artifacts. Blind image quality assessment (BIQA) strives to evaluate perceptual quality in alignment with what radiologists perceive, which plays an important role in advancing low-dose CT reconstruction techniques. An intriguing direction involves developing BIQA methods that mimic the operational characteristic of the human visual system (HVS). The internal generative mechanism (IGM) theory reveals that the HVS actively deduces primary content to enhance comprehension. In this study, we introduce an innovative BIQA metric that emulates the active inference process of IGM. Initially, an active inference module, implemented as a denoising diffusion probabilistic model (DDPM), is constructed to anticipate the primary content. Then, the dissimilarity map is derived by assessing the interrelation between the distorted image and its primary content. Subsequently, the distorted image and dissimilarity map are combined into a multi-channel image, which is inputted into a transformer-based image quality evaluator. Remarkably, by exclusively utilizing this transformer-based quality evaluator, we won the second place in the MICCAI 2023 low-dose computed tomography perceptual image quality assessment grand challenge. Leveraging the DDPM-derived primary content, our approach further improves the performance on the challenge dataset.
翻訳日:2023-10-06 20:29:48 公開日:2023-10-04
# モデル蒸留のための解釈可能なサロゲートモデルとしてのモデルベースツリーの活用

Leveraging Model-based Trees as Interpretable Surrogate Models for Model Distillation ( http://arxiv.org/abs/2310.03112v1 )

ライセンス: Link先を確認
Julia Herbinger, Susanne Dandl, Fiona K. Ewald, Sofia Loibl, Giuseppe Casalicchio(参考訳) 代理モデルは、モデル蒸留を通して複雑で強力なブラックボックス機械学習モデルを振り返りに解釈する上で重要な役割を果たす。 本稿では,決定規則により特徴空間を解釈可能な領域に分割する代理モデルとしてモデルベースツリーを用いることに焦点を当てる。 各領域において、加法主効果に基づく解釈可能なモデルを用いてブラックボックスモデルの挙動を近似し、解釈可能性と性能の最適なバランスを求める。 このような代理モデルを生成する能力について,slim, guide, mob, ctreeの4つのモデルベースツリーアルゴリズムを比較した。 適切な分割によって相互作用効果を捉えるアルゴリズムの能力,忠実度,解釈可能性,安定性について検討する。 総合的な分析に基づいて,最終的にユーザ固有のレコメンデーションの概要を提供する。

Surrogate models play a crucial role in retrospectively interpreting complex and powerful black box machine learning models via model distillation. This paper focuses on using model-based trees as surrogate models which partition the feature space into interpretable regions via decision rules. Within each region, interpretable models based on additive main effects are used to approximate the behavior of the black box model, striking for an optimal balance between interpretability and performance. Four model-based tree algorithms, namely SLIM, GUIDE, MOB, and CTree, are compared regarding their ability to generate such surrogate models. We investigate fidelity, interpretability, stability, and the algorithms' capability to capture interaction effects through appropriate splits. Based on our comprehensive analyses, we finally provide an overview of user-specific recommendations.
翻訳日:2023-10-06 20:29:21 公開日:2023-10-04
# ニューラルデータと行動データのためのマルチモーダルガウスプロセス変分オートエンコーダ

Multi-modal Gaussian Process Variational Autoencoders for Neural and Behavioral Data ( http://arxiv.org/abs/2310.03111v1 )

ライセンス: Link先を確認
Rabia Gondur, Usama Bin Sikandar, Evan Schaffer, Mikio Christian Aoi, Stephen L Keeley(参考訳) 神経集団活動と行動データとの関係を特徴づけることが神経科学の中心的目標である。 潜在変数モデル(LVM)は高次元時系列データを記述することに成功しているが、通常は単一のタイプのデータにのみ設計されているため、異なる実験データモダリティ間で共有される構造を特定することは困難である。 本稿では,時間的に発展する共有および独立な潜在子を抽出し,同時に記録した実験的モダリティに対して,教師なしのlvmを提案することで,この欠点に対処する。 我々は,神経スパイクデータの解釈可能なlvmであるgaussian process factor analysis (gpfa) と時間的に平滑な潜時空間とを組み合わせることで,gp-vaes (gp-vaes) を用いて潜時空間における相関を特徴付けるが,観測へのディープニューラルネットワークマッピングにより高い表現性を有する。 潜在変数を各モード間で共有または独立するコンポーネントに分割することで、モデルの解釈可能性を実現する。 我々は,フーリエ領域におけるモデルの潜在者をパラメータ化し,標準gp-vae法を用いてこの手法による潜在性同定を改善した。 我々は,ポアソンスパイク数と時間とともにスムーズかつスムーズに回転するMNIST画像からなるシミュレーションマルチモーダルデータに対して,本モデルを検証した。 マルチモーダルgp-vae (mm-gpvae) は, 共有および独立な潜在構造を正確に識別するだけでなく, 保持試験において画像と神経速度を良好に再構成できることを示した。 最後に,動物が視覚刺激を追跡するときに,キイロショウジョウバエの全脳カルシウムイメージングと,10翼筋からのマンドゥカセクタスパイクトレイン測定の2つの実世界多モード実験環境での枠組みを実証した。

Characterizing the relationship between neural population activity and behavioral data is a central goal of neuroscience. While latent variable models (LVMs) are successful in describing high-dimensional time-series data, they are typically only designed for a single type of data, making it difficult to identify structure shared across different experimental data modalities. Here, we address this shortcoming by proposing an unsupervised LVM which extracts temporally evolving shared and independent latents for distinct, simultaneously recorded experimental modalities. We do this by combining Gaussian Process Factor Analysis (GPFA), an interpretable LVM for neural spiking data with temporally smooth latent space, with Gaussian Process Variational Autoencoders (GP-VAEs), which similarly use a GP prior to characterize correlations in a latent space, but admit rich expressivity due to a deep neural network mapping to observations. We achieve interpretability in our model by partitioning latent variability into components that are either shared between or independent to each modality. We parameterize the latents of our model in the Fourier domain, and show improved latent identification using this approach over standard GP-VAE methods. We validate our model on simulated multi-modal data consisting of Poisson spike counts and MNIST images that scale and rotate smoothly over time. We show that the multi-modal GP-VAE (MM-GPVAE) is able to not only identify the shared and independent latent structure across modalities accurately, but provides good reconstructions of both images and neural rates on held-out trials. Finally, we demonstrate our framework on two real world multi-modal experimental settings: Drosophila whole-brain calcium imaging alongside tracked limb positions, and Manduca sexta spike train measurements from ten wing muscles as the animal tracks a visual stimulus.
翻訳日:2023-10-06 20:29:07 公開日:2023-10-04
# 映像暴力認識のための強化学習に基づく視覚トランスフォーマーの混合

Reinforcement Learning-based Mixture of Vision Transformers for Video Violence Recognition ( http://arxiv.org/abs/2310.03108v1 )

ライセンス: Link先を確認
Hamid Mohammadi, Ehsan Nazerfard, Tahereh Firoozi(参考訳) 深層学習に基づくビデオ暴力認識は正確かつスケーラブルな人間の暴力認識である。 現在、ほとんどの最先端のビデオ暴力認識研究は、CNNベースのモデルを使ってビデオを表現し分類している。 しかし、近年の研究では、様々なビデオ解析ベンチマークにおいて、事前学習されたトランスフォーマーはcnnベースのモデルよりも正確であることが示唆されている。 しかし、これらのモデルはビデオ暴力認識のために徹底的に評価されていない。 本稿では,トランスフォーマーを用いたMixture of Experts (MoE)ビデオ暴力認識システムを提案する。 大きな視覚変換器と効率的な変換器アーキテクチャのインテリジェントな組み合わせにより、提案システムは視覚変換器アーキテクチャを利用するだけでなく、大きな視覚変換器を利用するコストを削減できる。 提案アーキテクチャは、暴力認識システムの精度を最大化しつつ、強化学習ベースルータによる計算コストを積極的に削減する。 実験の結果、提案したMoEアーキテクチャは、RWFデータセットで92.4%の精度でCNNベースのモデルよりも優れていることが示された。

Video violence recognition based on deep learning concerns accurate yet scalable human violence recognition. Currently, most state-of-the-art video violence recognition studies use CNN-based models to represent and categorize videos. However, recent studies suggest that pre-trained transformers are more accurate than CNN-based models on various video analysis benchmarks. Yet these models are not thoroughly evaluated for video violence recognition. This paper introduces a novel transformer-based Mixture of Experts (MoE) video violence recognition system. Through an intelligent combination of large vision transformers and efficient transformer architectures, the proposed system not only takes advantage of the vision transformer architecture but also reduces the cost of utilizing large vision transformers. The proposed architecture maximizes violence recognition system accuracy while actively reducing computational costs through a reinforcement learning-based router. The empirical results show the proposed MoE architecture's superiority over CNN-based models by achieving 92.4% accuracy on the RWF dataset.
翻訳日:2023-10-06 20:28:29 公開日:2023-10-04
# ランダム行列理論を用いたディープラーニングの精度向上

Enhancing Accuracy in Deep Learning Using Random Matrix Theory ( http://arxiv.org/abs/2310.03165v1 )

ライセンス: Link先を確認
Leonid Berlyand, Etienne Sandier, Yitzchak Shmalo, Lei Zhang(参考訳) 本研究では,深層ニューラルネットワーク(DNN)の学習におけるランダム行列理論(RMT)の適用について検討し,DNNアーキテクチャと損失景観の簡易化を目的としたレイヤプルーニングに着目した。 RMTは、最近、ディープラーニングにおける過剰適合に対処するために使われ、DNNの重み付け層スペクトルを調べることができる。 これらの手法を用いて、特異値分解(SVD)によるトレーニング中にDNNの重み付け層から除去される特異値の数を最適に決定する。 このプロセスは、MNISTとFashion MNISTデータセット上で単純なDNNモデルをトレーニングすることで、DNNの単純化と精度の向上を支援する。 提案手法は,事前学習したDNNの任意の完全連結層や畳み込み層に適用可能であり,モデルの精度を保ちつつ,DNNアーキテクチャを簡素化することができる。 RMT基準に基づいて小さな特異値を捨てることによって、テストセットの精度は一貫しており、性能を損なうことなく、より効率的なDNNトレーニングを容易にする。 RMTに基づく小さな特異値の除去がDNNの精度に悪影響を及ぼさないという主張を支持する理論的証拠と実証的証拠の両方を提供する。 本研究は,より効率的で正確なディープラーニングモデルを作成するためのrmtの実践的応用に関する貴重な知見を提供する。

In this study, we explore the applications of random matrix theory (RMT) in the training of deep neural networks (DNNs), focusing on layer pruning to simplify DNN architecture and loss landscape. RMT, recently used to address overfitting in deep learning, enables the examination of DNN's weight layer spectra. We use these techniques to optimally determine the number of singular values to be removed from the weight layers of a DNN during training via singular value decomposition (SVD). This process aids in DNN simplification and accuracy enhancement, as evidenced by training simple DNN models on the MNIST and Fashion MNIST datasets. Our method can be applied to any fully connected or convolutional layer of a pretrained DNN, decreasing the layer's parameters and simplifying the DNN architecture while preserving or even enhancing the model's accuracy. By discarding small singular values based on RMT criteria, the accuracy of the test set remains consistent, facilitating more efficient DNN training without compromising performance. We provide both theoretical and empirical evidence supporting our claim that the elimination of small singular values based on RMT does not negatively impact the DNN's accuracy. Our results offer valuable insights into the practical application of RMT for the creation of more efficient and accurate deep-learning models.
翻訳日:2023-10-06 20:23:02 公開日:2023-10-04
# FedNAR: 正規化アニーリング規則化によるフェデレーション最適化

FedNAR: Federated Optimization with Normalized Annealing Regularization ( http://arxiv.org/abs/2310.03163v1 )

ライセンス: Link先を確認
Junbo Li, Ang Li, Chong Tian, Qirong Ho, Eric P. Xing, Hongyi Wang(参考訳) 重みの減衰は、現代のディープニューラルネットワーク最適化における一般化性能を向上させる標準的な技術であり、局所的なクライアントの過剰フィットを防ぐためのフェデレーション学習(fl)にも広く採用されている。 本稿では,まず,重みの減衰の選択肢を探索し,重みの減衰値が既存のflアルゴリズムの収束に与える影響を同定する。 オーバーフィッティングの防止は重要であるが、重み減衰は、複数の局所的な更新と不均一なデータ分布のためにFLでさらに増幅されたグローバルな目的に対して異なる最適化目標を導入することができる。 この課題に対処するために,既存のFLアルゴリズムにシームレスに統合可能な,シンプルで効率的かつ汎用的なアルゴリズムプラグインである正規化アニーリング正規化(FedNAR)を用いたフェデレーション最適化を開発する。 基本的には、勾配と重量減衰の共傾を行うことで、各更新の大きさを調節する。 我々は、FedNARの収束率に関する包括的な理論的分析を行い、異なるバックボーンフェデレーション最適化アルゴリズムを用いて、ビジョンと言語データセットの両方について広範な実験を行う。 実験の結果,既存のFLアルゴリズムにFedNARを組み込むことで収束が加速し,モデルの精度が向上することが示された。 さらに、FedNARは様々なハイパーパラメータ構成に直面してレジリエンスを示す。 具体的には、feednarは初期仕様が最適でない場合に体重減少を自己調整する能力を持つが、従来のflアルゴリズムの精度は著しく低下する。 我々のコードは \href{https://github.com/ljb121002/fednar}{https://github.com/ljb121002/fednar} でリリースされる。

Weight decay is a standard technique to improve generalization performance in modern deep neural network optimization, and is also widely adopted in federated learning (FL) to prevent overfitting in local clients. In this paper, we first explore the choices of weight decay and identify that weight decay value appreciably influences the convergence of existing FL algorithms. While preventing overfitting is crucial, weight decay can introduce a different optimization goal towards the global objective, which is further amplified in FL due to multiple local updates and heterogeneous data distribution. To address this challenge, we develop {\it Federated optimization with Normalized Annealing Regularization} (FedNAR), a simple yet effective and versatile algorithmic plug-in that can be seamlessly integrated into any existing FL algorithms. Essentially, we regulate the magnitude of each update by performing co-clipping of the gradient and weight decay. We provide a comprehensive theoretical analysis of FedNAR's convergence rate and conduct extensive experiments on both vision and language datasets with different backbone federated optimization algorithms. Our experimental results consistently demonstrate that incorporating FedNAR into existing FL algorithms leads to accelerated convergence and heightened model accuracy. Moreover, FedNAR exhibits resilience in the face of various hyperparameter configurations. Specifically, FedNAR has the ability to self-adjust the weight decay when the initial specification is not optimal, while the accuracy of traditional FL algorithms would markedly decline. Our codes are released at \href{https://github.com/ljb121002/fednar}{https://github.com/ljb121002/fednar}.
翻訳日:2023-10-06 20:22:41 公開日:2023-10-04
# 時間拡張強化学習タスクの同定におけるニューラルアーキテクチャの影響

Neural architecture impact on identifying temporally extended Reinforcement Learning tasks ( http://arxiv.org/abs/2310.03161v1 )

ライセンス: Link先を確認
Victor Vadakechirayath George(参考訳) 画像分類や自然言語処理における近年の注目モデルに触発されて,OpenAI Gym Atari-2600 ゲームスイートでよく機能する強化学習(RL)領域における注意型アーキテクチャを提案する。 近年、ロボット工学、ゲーム、医療など様々な分野でDeep Reinforcement Learning技術が成功しているにもかかわらず、ニューラルネットワークは解釈が難しいという大きな欠点に悩まされている。 我々は注意に基づくモデルの助けを借りてこの問題を解決しようとする。 注意に基づくモデルでは、イメージへの注意マップの抽出とオーバーレイにより、エージェントがアクションを選択し、選択したアクションの背後にあるロジックの解釈を容易にするために使用する情報の直接観察が可能になる。 体育館とアタリの環境だけでなく、エージェントが環境をどう知覚するかの洞察も提供する。 さらに,視覚トランスフォーマを用いた注意に基づく映像分類モデルの発展により,画像ベースのrlドメインのための視覚トランスフォーマに基づくアーキテクチャを考案した。 従来のVision Transformerと比較して、我々のモデルはトレーニングが速く、計算資源も少なくなります。 3

Inspired by recent developments in attention models for image classification and natural language processing, we present various Attention based architectures in reinforcement learning (RL) domain, capable of performing well on OpenAI Gym Atari-2600 game suite. In spite of the recent success of Deep Reinforcement learning techniques in various fields like robotics, gaming and healthcare, they suffer from a major drawback that neural networks are difficult to interpret. We try to get around this problem with the help of Attention based models. In Attention based models, extracting and overlaying of attention map onto images allows for direct observation of information used by agent to select actions and easier interpretation of logic behind the chosen actions. Our models in addition to playing well on gym-Atari environments, also provide insights on how agent perceives its environment. In addition, motivated by recent developments in attention based video-classification models using Vision Transformer, we come up with an architecture based on Vision Transformer, for image-based RL domain too. Compared to previous works in Vision Transformer, our model is faster to train and requires fewer computational resources. 3
翻訳日:2023-10-06 20:22:12 公開日:2023-10-04
# 不確かさ特性曲線を用いた予測間隔の評価

Assessment of Prediction Intervals Using Uncertainty Characteristics Curves ( http://arxiv.org/abs/2310.03158v1 )

ライセンス: Link先を確認
Jiri Navratil, Benjamin Elder, Matthew Arnold, Soumya Ghosh, Prasanna Sattigeri(参考訳) モデル不確実性の正確な定量化は、信頼できるAIの基本的な要件として長年認識されてきた。 回帰タスクでは、不確実性は通常、アドホックな動作点に調整された予測間隔を用いて定量化され、異なる研究間での評価と比較が比較的困難である。 本研究は,(1)操作特性曲線の概念,(2)ヌル参照に対する利得の概念を活用して,予測区間に対する新たな操作点非依存評価手法を導出する。 本論文は不確実性特性曲線を定義し,選択したシナリオでその有用性を示す。 提案手法は予測間隔の包括的評価の必要性に対処し,不確実性定量化ツールボックスの付加価値を示すものである。

Accurate quantification of model uncertainty has long been recognized as a fundamental requirement for trusted AI. In regression tasks, uncertainty is typically quantified using prediction intervals calibrated to an ad-hoc operating point, making evaluation and comparison across different studies relatively difficult. Our work leverages: (1) the concept of operating characteristics curves and (2) the notion of a gain over a null reference, to derive a novel operating point agnostic assessment methodology for prediction intervals. The paper defines the Uncertainty Characteristics Curve and demonstrates its utility in selected scenarios. We argue that the proposed method addresses the current need for comprehensive assessment of prediction intervals and thus represents a valuable addition to the uncertainty quantification toolbox.
翻訳日:2023-10-06 20:21:51 公開日:2023-10-04
# FedHyper: 過度学習を伴うフェデレーション学習のためのユニバーサルでロバストな学習率スケジューリング

FedHyper: A Universal and Robust Learning Rate Scheduler for Federated Learning with Hypergradient Descent ( http://arxiv.org/abs/2310.03156v1 )

ライセンス: Link先を確認
Ziyao Wang, Jianyu Wang, Ang Li(参考訳) 連邦学習(FL)の理論的な展望は急速な進化を遂げるが、その実践的応用は一連の複雑な課題に遭遇し、ハイパーパラメータ最適化はこれらの重要な課題の1つである。 ハイパーパラメータの様々な調整の中で、学習率の適応が重要な要素として現れ、flシステムの有効性を著しく向上させるという約束を保っている。 そこで本研究では,FLに特化して設計された学習率適応アルゴリズムであるFedHyperを提案する。 FedHyperは、トレーニングが進むにつれて、グローバルとローカルの両方のレートに適応できる、普遍的な学習率スケジューラとして機能する。 さらに、FedHyperは、初期学習率設定のスペクトルに例外のない堅牢性を示すだけでなく、退屈な経験的学習率調整の必要性を著しく軽減する。 我々は、FedHyperの収束率に関する包括的な理論的分析を行い、ビジョンと言語ベンチマークデータセットに関する広範な実験を行う。 その結果、FEDHYPERはFedAvgと競合するベースラインよりも1.1~3倍早く収束し、最終的な精度が向上した。 さらに、FedHyperは、最適な初期学習率設定の下でFedAvgと比較して最大15%の精度向上を実現している。

The theoretical landscape of federated learning (FL) undergoes rapid evolution, but its practical application encounters a series of intricate challenges, and hyperparameter optimization is one of these critical challenges. Amongst the diverse adjustments in hyperparameters, the adaptation of the learning rate emerges as a crucial component, holding the promise of significantly enhancing the efficacy of FL systems. In response to this critical need, this paper presents FedHyper, a novel hypergradient-based learning rate adaptation algorithm specifically designed for FL. FedHyper serves as a universal learning rate scheduler that can adapt both global and local rates as the training progresses. In addition, FedHyper not only showcases unparalleled robustness to a spectrum of initial learning rate configurations but also significantly alleviates the necessity for laborious empirical learning rate adjustments. We provide a comprehensive theoretical analysis of FedHyper's convergence rate and conduct extensive experiments on vision and language benchmark datasets. The results demonstrate that FEDHYPER consistently converges 1.1-3x faster than FedAvg and the competing baselines while achieving superior final accuracy. Moreover, FedHyper catalyzes a remarkable surge in accuracy, augmenting it by up to 15% compared to FedAvg under suboptimal initial learning rate settings.
翻訳日:2023-10-06 20:21:39 公開日:2023-10-04
# 化学動力学特性の一般予測に向けて

Towards out-of-distribution generalizable predictions of chemical kinetics properties ( http://arxiv.org/abs/2310.03152v1 )

ライセンス: Link先を確認
Zihao Wang, Yongqiang Chen, Yang Duan, Weijiang Li, Bo Han, James Cheng, Hanghang Tong(参考訳) 機械学習(ML)技術は化学動力学特性の推定に応用されている。 AI4drug discovery」によって同定された薬物分子の蓄積により、次に必須となるのは、高出力化学合成プロセスのためのAI駆動設計であり、未知の分子と未知の反応の性質を推定する。 この目的のために、運動学特性予測のための既存のMLアプローチは、out-Of-Distribution (OOD) の一般化が要求される。 本稿では,OODの運動特性予測を3つのレベル(構造,条件,機構)に分類し,その特異な側面を明らかにする。 本フレームワークでは,1)OOD設定における反応予測のための最先端MLアプローチと,2)動作特性予測問題における最先端グラフOOD手法をベンチマークするために,包括的なデータセットを作成する。 その結果,OOD特性予測の課題と可能性を示した。 私たちのデータセットとベンチマークは、この方向の研究をさらに支援できます。

Machine Learning (ML) techniques have found applications in estimating chemical kinetics properties. With the accumulated drug molecules identified through "AI4drug discovery", the next imperative lies in AI-driven design for high-throughput chemical synthesis processes, with the estimation of properties of unseen reactions with unexplored molecules. To this end, the existing ML approaches for kinetics property prediction are required to be Out-Of-Distribution (OOD) generalizable. In this paper, we categorize the OOD kinetic property prediction into three levels (structure, condition, and mechanism), revealing unique aspects of such problems. Under this framework, we create comprehensive datasets to benchmark (1) the state-of-the-art ML approaches for reaction prediction in the OOD setting and (2) the state-of-the-art graph OOD methods in kinetics property prediction problems. Our results demonstrated the challenges and opportunities in OOD kinetics property prediction. Our datasets and benchmarks can further support research in this direction.
翻訳日:2023-10-06 20:21:15 公開日:2023-10-04
# LLMの極端端のファインチューニング: 良い、悪い、うぬぼれ

Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly ( http://arxiv.org/abs/2310.03150v1 )

ライセンス: Link先を確認
Herbert Woisetschl\"ager, Alexander Isenko, Shiqiang Wang, Ruben Mayer, Hans-Arno Jacobsen(参考訳) 大規模言語モデル(LLM)と基礎モデルは、個人や企業が自然言語処理を改善し、データと対話し、情報を素早く取得する新たな機会を提供するものとして人気がある。 しかし、トレーニングや微調整 LLM は膨大な量のデータを必要とするため、法的あるいは技術的な制約によりアクセスが困難になり、プライベートコンピューティングリソースが必要になる可能性がある。 Federated Learning(FL)は、これらの課題を克服し、ディープラーニングアプリケーションのためのデータアクセスを拡張するために設計されたソリューションである。 本稿では,LLMを現代のエッジコンピューティングシステムにどのように適用できるかを,ハードウェア中心のアプローチで検討する。 本研究は,テキスト要約タスクにFLを用いて,FLAN-T5モデルファミリを80Mから3Bパラメータに微調整する。 マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。 まず、エッジコンピューティングシステムの現在の能力とそのllm flワークロードへの可能性を評価します。 第2に、これらのシステムをデータセンターgpuと比較することにより、エッジでの計算効率向上に向けた改善の可能性と次のステップを実証する。

Large Language Models (LLM) and foundation models are popular as they offer new opportunities for individuals and businesses to improve natural language processing, interact with data, and retrieve information faster. However, training or fine-tuning LLMs requires a vast amount of data, which can be challenging to access due to legal or technical restrictions and may require private computing resources. Federated Learning (FL) is a solution designed to overcome these challenges and expand data access for deep learning applications. This paper takes a hardware-centric approach to explore how LLMs can be brought to modern edge computing systems. Our study fine-tunes the FLAN-T5 model family, ranging from 80M to 3B parameters, using FL for a text summarization task. We provide a micro-level hardware benchmark, compare the model FLOP utilization to a state-of-the-art data center GPU, and study the network utilization in realistic conditions. Our contribution is twofold: First, we evaluate the current capabilities of edge computing systems and their potential for LLM FL workloads. Second, by comparing these systems with a data-center GPU, we demonstrate the potential for improvement and the next steps toward achieving greater computational efficiency at the edge.
翻訳日:2023-10-06 20:20:58 公開日:2023-10-04
# ニューラルネットワークにおける学習概念の学習データへの寄与

Attributing Learned Concepts in Neural Networks to Training Data ( http://arxiv.org/abs/2310.03149v1 )

ライセンス: Link先を確認
Nicholas Konz, Charles Godfrey, Madelyn Shapiro, Jonathan Tu, Henry Kvinge, Davis Brown(参考訳) 現在までに、深層学習モデルは、データの内部表現の一部として、特定の人間解釈可能な特徴を学習する証拠がかなりある。 正しい(あるいは間違った)概念を持つことは、信頼できる機械学習システムにとって重要であるため、モデルの元々のトレーニングセットからのインプットが、与えられたレイヤで概念を学ぶ上で最も重要であったかを尋ねるのは当然です。 そこで本研究では,データ帰属法とモデルで学習した概念を探索する手法を組み合わせる。 ネットワーク層における2つの概念データセットに対するネットワークとプローブアンサンブルの訓練を行い,大規模データ帰属のためのTRAK法を開発した。 コンバージェンス(収束)の証拠として,概念の上位1万個の画像を取り除き,モデルの再訓練を行うことで,ネットワーク内の概念の位置や概念の空間性が変化しないことがある。 これは、いくつかの特定の例に強く依存するのではなく、概念の発展を知らせる特徴が、その例全体により広範に広がり、概念形成における堅牢性が示唆されることを示唆している。

By now there is substantial evidence that deep learning models learn certain human-interpretable features as part of their internal representations of data. As having the right (or wrong) concepts is critical to trustworthy machine learning systems, it is natural to ask which inputs from the model's original training set were most important for learning a concept at a given layer. To answer this, we combine data attribution methods with methods for probing the concepts learned by a model. Training network and probe ensembles for two concept datasets on a range of network layers, we use the recently developed TRAK method for large-scale data attribution. We find some evidence for convergence, where removing the 10,000 top attributing images for a concept and retraining the model does not change the location of the concept in the network nor the probing sparsity of the concept. This suggests that rather than being highly dependent on a few specific examples, the features that inform the development of a concept are spread in a more diffuse manner across its exemplars, implying robustness in concept formation.
翻訳日:2023-10-06 20:20:36 公開日:2023-10-04
# 非iid(in-out-out-distribution clustered)データの公平性を改善するディープラーニング

Fairness-enhancing mixed effects deep learning improves fairness on in- and out-of-distribution clustered (non-iid) data ( http://arxiv.org/abs/2310.03146v1 )

ライセンス: Link先を確認
Adam Wang, Son Nguyen, Albert Montillo(参考訳) 従来のディープラーニング(DL)は2つの問題に悩まされている。 まず、トレーニングサンプルは独立して分散していると仮定します。 しかし、多くの実世界のデータセットが共有測定(研究参加者や細胞など)によってサンプルをグループ化し、この仮定に違反している。 これらのシナリオでは、DLは妥協されたパフォーマンス、限定された一般化、解釈可能性の問題を示し、クラスタの混在がType 1と2のエラーを引き起こします。 第二に、モデルは通常、全体的な正確性のために訓練され、しばしば過小評価されたグループを無視し、ローン承認や健康保険率の決定といった重要な分野にバイアスを導入する。 両課題を同時に解決するために,複合効果深層学習(MEDL)フレームワークを提案する。 MEDLは、以下を導入することで、クラスタ不変固定効果(FE)とクラスタ固有ランダム効果(RE)を別々に定量化する。 1)クラスタ不変FEの学習を促進するクラスタ敵 2)reを定量化するベイズニューラルネットワークと、feとreを混合した混合関数とを混合効果予測に変換する。 我々は,このMEDLと逆行性脱ベンゾル(逆行性脱ベンゾル)を結婚し,公正性に敏感な変数に対するFE,RE,ME予測の対等性を推し進める。 調査対象は収入分類に焦点をあてた国勢調査/ファイナンスと入院期間を予測した医療と回帰課題の3つであった。 本フレームワークは, 性別で83%, 性で86%, 婚姻統計で27%まで, 敏感な変数の公平性を著しく向上させる。 フェアネスの促進に加えて,本手法はMEDLの頑健な性能と明快さを維持している。 汎用性があり、さまざまなデータセットタイプやタスクに適しているため、広く適用可能です。 当社のGitHubリポジトリには実装があります。

Traditional deep learning (DL) suffers from two core problems. Firstly, it assumes training samples are independent and identically distributed. However, numerous real-world datasets group samples by shared measurements (e.g., study participants or cells), violating this assumption. In these scenarios, DL can show compromised performance, limited generalization, and interpretability issues, coupled with cluster confounding causing Type 1 and 2 errors. Secondly, models are typically trained for overall accuracy, often neglecting underrepresented groups and introducing biases in crucial areas like loan approvals or determining health insurance rates, such biases can significantly impact one's quality of life. To address both of these challenges simultaneously, we present a mixed effects deep learning (MEDL) framework. MEDL separately quantifies cluster-invariant fixed effects (FE) and cluster-specific random effects (RE) through the introduction of: 1) a cluster adversary which encourages the learning of cluster-invariant FE, 2) a Bayesian neural network which quantifies the RE, and a mixing function combining the FE an RE into a mixed-effect prediction. We marry this MEDL with adversarial debiasing, which promotes equality-of-odds fairness across FE, RE, and ME predictions for fairness-sensitive variables. We evaluated our approach using three datasets: two from census/finance focusing on income classification and one from healthcare predicting hospitalization duration, a regression task. Our framework notably enhances fairness across all sensitive variables-increasing fairness up to 82% for age, 43% for race, 86% for sex, and 27% for marital-status. Besides promoting fairness, our method maintains the robust performance and clarity of MEDL. It's versatile, suitable for various dataset types and tasks, making it broadly applicable. Our GitHub repository houses the implementation.
翻訳日:2023-10-06 20:20:16 公開日:2023-10-04
# ViFiT: IMUとWi-Fiファインタイム計測による視線軌道再構成

ViFiT: Reconstructing Vision Trajectories from IMU and Wi-Fi Fine Time Measurements ( http://arxiv.org/abs/2310.03140v1 )

ライセンス: Link先を確認
Bryan Bo Cao, Abrar Alali, Hansi Liu, Nicholas Meegan, Marco Gruteser, Kristin Dana, Ashwin Ashok, Shubham Jain(参考訳) ビデオ中の被写体追跡は、セキュリティ監視、スマートシティ交通安全強化、車両から歩行者への通信など、カメラベースのIoTアプリケーションで最も広く使われている機能のひとつだ。 コンピュータビジョン領域では、追跡は通常、被験者をまず境界ボックスで検出し、次に検出された境界ボックスをビデオフレーム間で関連付けることで達成される。 多くのIoTシステムでは、カメラによってキャプチャされた画像はネットワーク越しに送信され、エッジデバイスよりも強力なコンピューティングリソースを持つ別のサイトで処理される。 しかし、ネットワークを通してフレーム全体を送信すると、システム帯域幅の制約を超える可能性のある帯域幅消費が発生する。 この問題に対処するために,電話データ(IMUおよびFine Time Measurements)から視界境界ボックス軌道を再構成するトランスフォーマーベースモデルViFiTを提案する。 長期時系列データをより良くモデリングするトランスフォーマー機能を利用する。 ViFiTは、屋内と屋外を含む5つの現実世界のシーンで大規模なマルチモーダルデータセットであるVi-Fi Datasetで評価されている。 追従品質と映像帯域幅の低減の両方のシステム特性を共に捉えるための適切な指標のギャップを埋めるため,mrf(minimum required frames)とmrfr(minimum required frames ratio)と呼ばれる新しい評価フレームワークを提案する。 ViFiT は 0.65 のMRFRを達成し、LSTMエンコーダ・デコーダアーキテクチャ X-Translator の 0.98 のクロスモーダル再構成の最先端のアプローチを上回り、フレーム削減率は 97.76% となる。

Tracking subjects in videos is one of the most widely used functions in camera-based IoT applications such as security surveillance, smart city traffic safety enhancement, vehicle to pedestrian communication and so on. In the computer vision domain, tracking is usually achieved by first detecting subjects with bounding boxes, then associating detected bounding boxes across video frames. For many IoT systems, images captured by cameras are usually sent over the network to be processed at a different site that has more powerful computing resources than edge devices. However, sending entire frames through the network causes significant bandwidth consumption that may exceed the system bandwidth constraints. To tackle this problem, we propose ViFiT, a transformer-based model that reconstructs vision bounding box trajectories from phone data (IMU and Fine Time Measurements). It leverages a transformer ability of better modeling long-term time series data. ViFiT is evaluated on Vi-Fi Dataset, a large-scale multimodal dataset in 5 diverse real world scenes, including indoor and outdoor environments. To fill the gap of proper metrics of jointly capturing the system characteristics of both tracking quality and video bandwidth reduction, we propose a novel evaluation framework dubbed Minimum Required Frames (MRF) and Minimum Required Frames Ratio (MRFR). ViFiT achieves an MRFR of 0.65 that outperforms the state-of-the-art approach for cross-modal reconstruction in LSTM Encoder-Decoder architecture X-Translator of 0.98, resulting in a high frame reduction rate as 97.76%.
翻訳日:2023-10-06 20:19:44 公開日:2023-10-04
# 教室におけるジェネレーティブAI:学生はアクティブラーニングを継続できるか?

Generative AI in the Classroom: Can Students Remain Active Learners? ( http://arxiv.org/abs/2310.03192v1 )

ライセンス: Link先を確認
Rania Abdelghani, H\'el\`ene Sauz\'eon and Pierre-Yves Oudeyer(参考訳) ジェネレーティブ・人工知能(GAI)は、様々な教育的課題に対処する上で大きな可能性を秘めている。 原則として、GAIは教育活動のインタラクティブ化と強化を促進させ、標準的な教育戦略を補完し、生徒の積極的エンゲージメント、理解、学習過程の制御を奨励することができる。 これらの次元は確かに、より良い学習経験と長期間続く認知的な結果に基礎を置いています。 しかし、GAIとの相互作用の特徴として、生成した回答に対する継続的な信頼感や、その行動における教育的姿勢の欠如が、学習に対する制御の貧弱な状態(例えば、事前生成コンテンツへの過度な信頼、自己の知識の過度な評価、好奇心と批判的思考的感覚の喪失など)に繋がる可能性がある。 この2つの設定の微妙な違いは、この技術が教育的活動(例えば、生徒による制御のレベル、教育者の関与のレベルなど)の実施にどのように使われているか、そして学生がシステム行動の正しく評価、分析、解釈できる関連するスキル(認知的、メタ認知的、GAIリテラシー)をどの程度持っているかに関係しているようである。 本稿では, GAI を形式的教育活動に用いた場合, 学生が学習をコントロールできないような機会と課題を明らかにすることを提案する。 第2のステップでは,学習目標を追求する際に,学習者に対して適切なスキルセットを提供することを目的として,学習者に提供することのできるトレーニングの種類についても論じる。

Generative Artificial Intelligence (GAI) has high potential to help address a diversity of educational challenges. In principle, GAI could facilitate the implementation of interactive and empowering pedagogical activities to complement the standard teaching strategies and favor students active engagement, understanding and control over their learning processes. These dimensions are indeed fundamental for a better learning experience and longer-lasting cognitive outcomes. However, several characteristics of the interactions with GAI such as continuous confidence in the generated answers, and the lack of pedagogical stance in their behavior may lead students to poor states of control over learning (e.g. over-reliance on pre-generated content, over-estimation of one's own knowledge, loss of curious and critical-thinking sense, etc). The fine line between the two settings seems to lie in how this technology is used to carry out the pedagogical activities (e.g. types of interactions allowed, level of controllability by students, level of involvement of educators, etc) as well as to what extent students have the relevant skills (cognitive, metacognitive and GAI literacy) that allow them to correctly evaluate, analyze and interpret the system behaviors. In this context, this article proposes to identify some of the opportunities and challenges that could arise wrt students control over their learning when using GAI during formal pedagogical activities. In a second step, we also discuss the types of trainings that could be relevant to offer students in order to provide them with the appropriate set of skills that can help them use GAI in informed ways, when pursuing a given learning goal.
翻訳日:2023-10-06 20:11:35 公開日:2023-10-04
# 対話型コミュニケーションによる下流モデルへの事前学習知識の蒸留

Talking Models: Distill Pre-trained Knowledge to Downstream Models via Interactive Communication ( http://arxiv.org/abs/2310.03188v1 )

ライセンス: Link先を確認
Zhe Zhao, Qingyun Liu, Huan Gui, Bang An, Lichan Hong, Ed H. Chi(参考訳) 最近の機械学習のブレークスルーの多くは、事前訓練された基礎モデルによって実現されている。 モデルパラメータ、トレーニングデータ、計算資源をスケールアップすることで、基礎モデルは多くのアプリケーションにおいて最先端の技術を著しく進歩させてきた。 しかし、これらのモデルを使って下流タスクを効率的に実行する方法については、まだ未解決の問題である。 知識蒸留(KD)はこの課題に対処するために研究されている。 KDは、大きな教師モデルからより小さな学生モデルに知識を伝達する。 KDは学生モデルのパフォーマンス向上に成功しているが、近年の研究では、強力な教師が必ずしも強力な生徒に導かないことが判明している。 さらに、事前トレーニングされたデータと下流タスクの間の潜在的分布シフトは、下流タスクのパフォーマンスを改善するためにkdサブオプションで知識転送を行うことができる。 本稿では,ダウンストリームタスクの学生が基礎モデルから効果的に学習できるように,kdを対話型コミュニケーションプロセスで拡張する。 私たちのデザインは、学生のニーズを満たす方法で知識を説明することができる教師から人間が学ぶ方法にインスパイアされています。 具体的には、各モデル(すなわち生徒と教師)が、(1)メッセージにモデルの隠れた状態をエンコードするエンコーダと、(2)メッセージを自身の隠れた状態にデコードするデコーダという2つのコンポーネントをトレーニングさせます。 エンコーダとデコーダでは、教師は隠れた状態をエンコードすることでリッチな情報を転送できるだけでなく、下流のタスクに関する情報を教師に送信することもできる。 したがって、教師から生徒への知識の伝達は、生徒の能力や下流課題の分布に合わせることができる。 ベンチマークデータセットについて実験を行い, 現状の蒸留技術よりもコミュニケーション機構の方が優れていることを示した。

Many recent breakthroughs in machine learning have been enabled by the pre-trained foundation models. By scaling up model parameters, training data, and computation resources, foundation models have significantly advanced the state-of-the-art in many applications. However, it is still an open question of how to use these models to perform downstream tasks efficiently. Knowledge distillation (KD) has been explored to tackle this challenge. KD transfers knowledge from a large teacher model to a smaller student model. While KD has been successful in improving student model performance, recent research has discovered that a powerful teacher does not necessarily lead to a powerful student, due to their huge capacity gap. In addition, the potential distribution shifts between the pre-training data and downstream tasks can make knowledge transfer in KD sub-optimal for improving downstream task performance. In this paper, we extend KD with an interactive communication process to help students of downstream tasks learn effectively from pre-trained foundation models. Our design is inspired by the way humans learn from teachers who can explain knowledge in a way that meets the students' needs. Specifically, we let each model (i.e., student and teacher) train two components: (1) an encoder encoding the model's hidden states to a message and (2) a decoder decoding any messages to its own hidden states. With encoder and decoder, not only can the teacher transfer rich information by encoding its hidden states, but also the student can send messages with information of downstream tasks to the teacher. Therefore, knowledge passing from teacher to student can be tailored to the student's capacity and downstream tasks' distributions. We conducted experiments on benchmark datasets to show that our communication mechanism outperforms state-of-the-art distillation techniques.
翻訳日:2023-10-06 20:11:01 公開日:2023-10-04
# 推論

Inferring Inference ( http://arxiv.org/abs/2310.03186v1 )

ライセンス: Link先を確認
Rajkumar Vasudeva Raju, Zhe Li, Scott Linderman, Xaq Pitkow(参考訳) マイクロサーキットのパターンは、脳が一連の正準計算ユニットを持っていることを示唆している。 しかし、神経表現は分散しているため、関連する計算は単一ニューロン変換と間接的にのみ関連付けられる。 したがって、標準的な分散計算を定義するにはオープンな課題である。 ニューラル計算の規範的およびアルゴリズム的理論を数学的枠組みに統合し,大規模神経活動パターンから正準分散計算を推定する。 規範レベルでは、脳は環境の構造化された内部モデルを作成し、感覚入力を説明する潜在原因を仮定し、その知覚入力を使って潜在原因を推測する。 アルゴリズムレベルでは、この推論プロセスが世界のグラフ構造モデル上での非線形メッセージパッシングアルゴリズムであることを示す。 知覚的推論タスク中の神経活動の時系列から、我々のフレームワークが発見する (i)関連潜在変数の神経表現。 (ii)脳の内部モデルを定義するこれらの変数間の相互作用、及び (iii)推論アルゴリズムを指定するメッセージ機能。 対象とする計算特性は、任意の標準計算に内在する対称性から、大域変換まで統計的に区別できる。 実演として,確率的グラフィカルモデル上で近似推論アルゴリズムを暗黙的に実装したモデル脳の記録をシミュレートする。 外部入力とノイズの神経活動を考えると、潜在変数、その神経表現とダイナミクス、および標準メッセージ関数を回復する。 ニューラルデータから標準計算を抽出するのに必要な実験設計の特徴を強調した。 全体として、このフレームワークはニューラル記録の解釈可能な構造を発見するための新しいツールを提供する。

Patterns of microcircuitry suggest that the brain has an array of repeated canonical computational units. Yet neural representations are distributed, so the relevant computations may only be related indirectly to single-neuron transformations. It thus remains an open challenge how to define canonical distributed computations. We integrate normative and algorithmic theories of neural computation into a mathematical framework for inferring canonical distributed computations from large-scale neural activity patterns. At the normative level, we hypothesize that the brain creates a structured internal model of its environment, positing latent causes that explain its sensory inputs, and uses those sensory inputs to infer the latent causes. At the algorithmic level, we propose that this inference process is a nonlinear message-passing algorithm on a graph-structured model of the world. Given a time series of neural activity during a perceptual inference task, our framework finds (i) the neural representation of relevant latent variables, (ii) interactions between these variables that define the brain's internal model of the world, and (iii) message-functions specifying the inference algorithm. These targeted computational properties are then statistically distinguishable due to the symmetries inherent in any canonical computation, up to a global transformation. As a demonstration, we simulate recordings for a model brain that implicitly implements an approximate inference algorithm on a probabilistic graphical model. Given its external inputs and noisy neural activity, we recover the latent variables, their neural representation and dynamics, and canonical message-functions. We highlight features of experimental design needed to successfully extract canonical computations from neural data. Overall, this framework provides a new tool for discovering interpretable structure in neural recordings.
翻訳日:2023-10-06 20:10:33 公開日:2023-10-04
# 視覚障害者向け大規模言語モデルにおけるツールの誤用

Misusing Tools in Large Language Models With Visual Adversarial Examples ( http://arxiv.org/abs/2310.03185v1 )

ライセンス: Link先を確認
Xiaohan Fu, Zihan Wang, Shuheng Li, Rajesh K. Gupta, Niloofar Mireshghallah, Taylor Berg-Kirkpatrick, Earlence Fernandes(参考訳) 大規模言語モデル(LLM)は、ツールの使用と複数のモダリティの処理によって拡張されている。 これらの新機能は新たなメリットと新たなセキュリティリスクをもたらす。 本研究では,攻撃者が視覚的敵意の具体例を用いて攻撃者が好むツールの使用を誘導できることを示す。 例えば、被害者のLSMがカレンダーのイベントを削除したり、プライベートな会話をリークしたり、ホテルを予約したりできる。 これまでの作業と異なり、当社の攻撃は、複数の入力プロンプトに対してステルスで一般化可能でありながら、LLMに接続されたユーザリソースの機密性と整合性に影響を与える可能性がある。 我々は,グラデーションに基づく逆訓練を用いてこれらの攻撃を構築し,多次元に沿って性能を特徴付ける。 現実の構文に追従するツールを常に (~98%) 呼び出すため, クリーンイメージと高い類似性 (~0.9 SSIM) を維持しながら, LLM を操作できることが判明した。 さらに,ヒューマンスコアと自動メトリクスを用いることで,攻撃がユーザとllmの間の会話(およびその意味論)に顕著に影響を与えないことが分かる。

Large Language Models (LLMs) are being enhanced with the ability to use tools and to process multiple modalities. These new capabilities bring new benefits and also new security risks. In this work, we show that an attacker can use visual adversarial examples to cause attacker-desired tool usage. For example, the attacker could cause a victim LLM to delete calendar events, leak private conversations and book hotels. Different from prior work, our attacks can affect the confidentiality and integrity of user resources connected to the LLM while being stealthy and generalizable to multiple input prompts. We construct these attacks using gradient-based adversarial training and characterize performance along multiple dimensions. We find that our adversarial images can manipulate the LLM to invoke tools following real-world syntax almost always (~98%) while maintaining high similarity to clean images (~0.9 SSIM). Furthermore, using human scoring and automated metrics, we find that the attacks do not noticeably affect the conversation (and its semantics) between the user and the LLM.
翻訳日:2023-10-06 20:10:08 公開日:2023-10-04
# 数学質問改善のための検索強化生成:地味と人の嗜好のトレードオフ

Retrieval-augmented Generation to Improve Math Question-Answering: Trade-offs Between Groundedness and Human Preference ( http://arxiv.org/abs/2310.03184v1 )

ライセンス: Link先を確認
Zachary Levonian, Chenglu Li, Wangda Zhu, Anoushka Gade, Owen Henkel, Millie-Ellen Postle, Wanli Xing(参考訳) 中学生にとって、教師との対話型質問応答(QA)は効果的な学習方法である。 生成的大言語モデル(LLM)の柔軟性と創発的能力は、数学的概念に関する概念的議論を支援する対話型QAを含む、学習プロセスの一部を自動化することへの関心の高まりにつながっている。 しかし、数学の質問に対する LLM の応答は、学校のカリキュラムと不一致であるなど、教育の文脈に正しく、あるいは不一致している可能性がある。 潜在的な解決策の1つは検索強化生成(RAG)であり、LLMプロンプトに精査された外部知識ソースを組み込んで応答品質を向上させる。 本稿では,高品質なオープンソース教科書からコンテンツを検索し,活用するプロンプトを設計し,実際の学生の質問に対する回答を生成する。 我々は,中学代数学・幾何学QAにおけるRAGシステムの有効性を,多条件サーベイによって評価し,RAGを用いて生成した応答をヒトが好むが,教科書の内容に応答があまりに根付いていない場合ではないことを示した。 我々は、RAGは応答品質を向上させることができるが、数学のQAシステムの設計者は、学生が好む応答と、特定の教育資源と密接に一致する応答とのトレードオフを検討する必要があると論じる。

For middle-school math students, interactive question-answering (QA) with tutors is an effective way to learn. The flexibility and emergent capabilities of generative large language models (LLMs) has led to a surge of interest in automating portions of the tutoring process - including interactive QA to support conceptual discussion of mathematical concepts. However, LLM responses to math questions can be incorrect or mismatched to the educational context - such as being misaligned with a school's curriculum. One potential solution is retrieval-augmented generation (RAG), which involves incorporating a vetted external knowledge source in the LLM prompt to increase response quality. In this paper, we designed prompts that retrieve and use content from a high-quality open-source math textbook to generate responses to real student questions. We evaluate the efficacy of this RAG system for middle-school algebra and geometry QA by administering a multi-condition survey, finding that humans prefer responses generated using RAG, but not when responses are too grounded in the textbook content. We argue that while RAG is able to improve response quality, designers of math QA systems must consider trade-offs between generating responses preferred by students and responses closely matched to specific educational resources.
翻訳日:2023-10-06 20:09:50 公開日:2023-10-04
# 概念ボトルネックモデルによるロバスト・解釈可能な医用画像分類器

Robust and Interpretable Medical Image Classifiers via Concept Bottleneck Models ( http://arxiv.org/abs/2310.03182v1 )

ライセンス: Link先を確認
An Yan, Yu Wang, Yiwu Zhong, Zexue He, Petros Karypis, Zihan Wang, Chengyu Dong, Amilcare Gentili, Chun-Nan Hsu, Jingbo Shang, Julian McAuley(参考訳) 医用画像分類は医療にとって重要な問題であり、医師の負担を軽減し、患者の診断を促進する可能性がある。 しかし、ディープラーニングモデルを現実世界の医療アプリケーションにデプロイする場合、2つの課題が発生する。 第一に、神経モデルは望ましい特徴ではなくスプリアス相関を学習する傾向にあり、新しい領域(例えば年齢の異なる患者)に一般化すると不足する可能性がある。 第二に、ブラックボックスモデルには解釈性がない。 診断予測を行う場合には,モデルが信頼性と安全性を判断する理由を理解することが重要である。 本稿では,この2つの制約に対処するために,自然言語概念を用いたロバストで解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。 具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。 8つの医用画像分類データセットを体系的に評価し,その有効性を検証した。 強結合因子を持つデータセットの課題に対して,本手法はスプリアス相関を軽減し,標準ビジュアルエンコーダや他のベースラインを実質的に上回る。 最後に、少数の概念を用いた分類が、実際の医療データにおけるケーススタディを通してモデル決定を理解するためのレベルの解釈可能性をもたらすことを示す。

Medical image classification is a critical problem for healthcare, with the potential to alleviate the workload of doctors and facilitate diagnoses of patients. However, two challenges arise when deploying deep learning models to real-world healthcare applications. First, neural models tend to learn spurious correlations instead of desired features, which could fall short when generalizing to new domains (e.g., patients with different ages). Second, these black-box models lack interpretability. When making diagnostic predictions, it is important to understand why a model makes a decision for trustworthy and safety considerations. In this paper, to address these two limitations, we propose a new paradigm to build robust and interpretable medical image classifiers with natural language concepts. Specifically, we first query clinical concepts from GPT-4, then transform latent image features into explicit concepts with a vision-language model. We systematically evaluate our method on eight medical image classification datasets to verify its effectiveness. On challenging datasets with strong confounding factors, our method can mitigate spurious correlations thus substantially outperform standard visual encoders and other baselines. Finally, we show how classification with a small number of concepts brings a level of interpretability for understanding model decisions through case studies in real medical data.
翻訳日:2023-10-06 20:09:26 公開日:2023-10-04
# フェデレーション学習におけるデジタル倫理

Digital Ethics in Federated Learning ( http://arxiv.org/abs/2310.03178v1 )

ライセンス: Link先を確認
Liangqi Yuan and Ziran Wang and Christopher G. Brinton(参考訳) IoT(Internet of Things)は一貫して大量のデータを生成し、データのプライバシ保護とデータ誤使用の制限に対する懸念が高まっている。 フェデレーション学習(fl)は,生のユーザデータではなく機械学習(ml)モデルパラメータを共有することで,複数当事者間の協調機能を促進する。 本稿では,FLのクライアントとして人間中心のデバイスが使用される場合に生じる,デジタル倫理上の懸念を強調する。 具体的には、クライアントとサーバ間の視点や目的の違いから、ゲームダイナミクス、公正性、インセンティブ、継続性の課題が発生する。 我々は、これらの課題とその解決策を、クライアントとサーバの両方の観点から、そして集中型および分散型flの観点から分析する。 最後に、今後の開発の方向性として、人間中心のIoTにおけるFLの機会を探る。

The Internet of Things (IoT) consistently generates vast amounts of data, sparking increasing concern over the protection of data privacy and the limitation of data misuse. Federated learning (FL) facilitates collaborative capabilities among multiple parties by sharing machine learning (ML) model parameters instead of raw user data, and it has recently gained significant attention for its potential in privacy preservation and learning efficiency enhancement. In this paper, we highlight the digital ethics concerns that arise when human-centric devices serve as clients in FL. More specifically, challenges of game dynamics, fairness, incentive, and continuity arise in FL due to differences in perspectives and objectives between clients and the server. We analyze these challenges and their solutions from the perspectives of both the client and the server, and through the viewpoints of centralized and decentralized FL. Finally, we explore the opportunities in FL for human-centric IoT as directions for future development.
翻訳日:2023-10-06 20:09:07 公開日:2023-10-04
# コード構文特徴の分散表現を用いたテストケース勧告

Test Case Recommendations with Distributed Representation of Code Syntactic Features ( http://arxiv.org/abs/2310.03174v1 )

ライセンス: Link先を確認
Mosab Rezaei, Hamed Alhoori, Mona Rahimi(参考訳) ソフトウェアがソースコード、設計、要件を継続的に変更しているため、ユニットテストケースの頻繁な修正は避けられない。 手動でソフトウェアテストスイートをメンテナンスするのは退屈で、タイムリーでコストがかかるため、テストユニットの生成とメンテナンスのプロセスを自動化することは、ソフトウェアテストプロセスの有効性と効率に大きな影響を与える。 この目的のために,ソースコードメソッドとテストケースの構造的および意味的特性を利用して,最も関連性が高く有用なユニットテストを開発者に推奨する自動アプローチを提案する。 提案手法は当初、メソッドレベルのソースコードとユニットテストを分散表現(埋め込みベクター)に変換するためにニューラルネットワークを訓練するが、コードの構造の重要性は保たれる。 与えられたメソッドの意味的特性と構造的特性を取得することで、メソッドの埋め込みと以前に組み込まれたトレーニングインスタンスとの間のコサイン類似性を計算する。 さらに、埋め込みベクトル間の類似度スコアに従って、モデルが最も近い埋め込み方法と関連するユニットテストを最も類似した推奨値として識別する。 Methods2Testデータセットの結果、類似したメソッド群に対して同様のテストケースを持つことは保証されていないが、提案手法は、データセット内の与えられたメソッドに対して最もよく似たテストケースを抽出し、推奨テストケースが期待するテストケースを生成する開発者の労力を減らすことを示す。

Frequent modifications of unit test cases are inevitable due to software's continuous underlying changes in source code, design, and requirements. Since manually maintaining software test suites is tedious, timely, and costly, automating the process of generation and maintenance of test units will significantly impact the effectiveness and efficiency of software testing processes. To this end, we propose an automated approach which exploits both structural and semantic properties of source code methods and test cases to recommend the most relevant and useful unit tests to the developers. The proposed approach initially trains a neural network to transform method-level source code, as well as unit tests, into distributed representations (embedded vectors) while preserving the importance of the structure in the code. Retrieving the semantic and structural properties of a given method, the approach computes cosine similarity between the method's embedding and the previously-embedded training instances. Further, according to the similarity scores between the embedding vectors, the model identifies the closest methods of embedding and the associated unit tests as the most similar recommendations. The results on the Methods2Test dataset showed that, while there is no guarantee to have similar relevant test cases for the group of similar methods, the proposed approach extracts the most similar existing test cases for a given method in the dataset, and evaluations show that recommended test cases decrease the developers' effort to generating expected test cases.
翻訳日:2023-10-06 20:08:53 公開日:2023-10-04
# $\mathcal{B}$-Coder:プログラム合成のための価値に基づく深層強化学習

$\mathcal{B}$-Coder: Value-Based Deep Reinforcement Learning for Program Synthesis ( http://arxiv.org/abs/2310.03173v1 )

ライセンス: Link先を確認
Zishun Yu, Yunzhe Tao, Liyu Chen, Tao Sun, Hongxia Yang(参考訳) プログラム合成は、自然言語記述から正確な実行可能なコードを作成することを目的としている。 この分野は、大規模言語モデル(LLM)とともに強化学習(RL)の力を活用し、コード生成能力を大幅に向上させた。 この統合は機能的正しさを直接最適化することに焦点を当て、従来の監督された損失を超越する。 現在の文献はポリシーに基づくアルゴリズムを主に好んでいるが、プログラム合成の属性は値ベースの手法との自然な互換性を示唆している。 これは、人間のプログラマが開発するオフポリシープログラムの豊富なコレクションと、自動ユニットテスト(rl言語で簡単に得られる報酬)による生成プログラムの直接的な検証に由来する。 ポリシーベースのアルゴリズムの主な使用から切り離され、我々は価値ベースのアプローチの適用可能性を探究し、$\mathcal{B}$-Coder(ベルマン・コーダと発音する)の開発に繋がる。 しかし,プログラム合成に固有の膨大な検索空間のために,価値に基づく学習手法が課題となる。 そこで本研究では,事前学習されたLMと保守的なベルマン演算子を用いたRLエージェントの初期化プロトコルを提案する。 さらに,学習価値関数をプロセス後生成プログラムの二重戦略として活用する方法を示す。 私たちの経験的評価は、ポリシーベースのメソッドと比較して、最先端のパフォーマンスを達成するための$\mathcal{b}$-coderの能力を示しました。 注目すべきことに、この成果は最小限の報酬工学努力で達成され、報酬設計とは無関係に価値に基づくRLの有効性を強調している。

Program synthesis aims to create accurate, executable code from natural language descriptions. This field has leveraged the power of reinforcement learning (RL) in conjunction with large language models (LLMs), significantly enhancing code generation capabilities. This integration focuses on directly optimizing functional correctness, transcending conventional supervised losses. While current literature predominantly favors policy-based algorithms, attributes of program synthesis suggest a natural compatibility with value-based methods. This stems from rich collection of off-policy programs developed by human programmers, and the straightforward verification of generated programs through automated unit testing (i.e. easily obtainable rewards in RL language). Diverging from the predominant use of policy-based algorithms, our work explores the applicability of value-based approaches, leading to the development of our $\mathcal{B}$-Coder (pronounced Bellman coder). Yet, training value-based methods presents challenges due to the enormous search space inherent to program synthesis. To this end, we propose an initialization protocol for RL agents utilizing pre-trained LMs and a conservative Bellman operator to reduce training complexities. Moreover, we demonstrate how to leverage the learned value functions as a dual strategy to post-process generated programs. Our empirical evaluations demonstrated $\mathcal{B}$-Coder's capability in achieving state-of-the-art performance compared with policy-based methods. Remarkably, this achievement is reached with minimal reward engineering effort, highlighting the effectiveness of value-based RL, independent of reward designs.
翻訳日:2023-10-06 20:08:29 公開日:2023-10-04
# Raze to the Ground: マシン学習型フィッシングWebページ検出器に対するクエリ効率の良いHTML攻撃

Raze to the Ground: Query-Efficient Adversarial HTML Attacks on Machine-Learning Phishing Webpage Detectors ( http://arxiv.org/abs/2310.03166v1 )

ライセンス: Link先を確認
Biagio Montaruli, Luca Demetrio, Maura Pintor, Luca Compagna, Davide Balzarotti, Battista Biggio(参考訳) 機械学習フィッシングWebページ検出器(ML-PWD)は,入力WebページのHTMLコードの逆操作に悩まされている。 それにもかかわらず、最近提案された攻撃は、採用されている操作の使用を最適化しないため、限られた有効性を示しており、HTMLコードの特定の要素のみに焦点を当てている。 本研究では,入力フィッシングWebページのHTMLコードを,その悪意や視覚的外観を損なうことなく変更可能な,一連の細かな操作を設計することで,これらの制限を克服する。 次に,問合せ効率のよいブラックボックス最適化アルゴリズムにより,対象検出器をバイパスするために適用すべき操作を選択する。 実験の結果,現在のML-PWDの性能は30クエリに過ぎず,従来より弱い攻撃を克服し,ML-PWDのより公平な堅牢性評価を可能にした。

Machine-learning phishing webpage detectors (ML-PWD) have been shown to suffer from adversarial manipulations of the HTML code of the input webpage. Nevertheless, the attacks recently proposed have demonstrated limited effectiveness due to their lack of optimizing the usage of the adopted manipulations, and they focus solely on specific elements of the HTML code. In this work, we overcome these limitations by first designing a novel set of fine-grained manipulations which allow to modify the HTML code of the input phishing webpage without compromising its maliciousness and visual appearance, i.e., the manipulations are functionality- and rendering-preserving by design. We then select which manipulations should be applied to bypass the target detector by a query-efficient black-box optimization algorithm. Our experiments show that our attacks are able to raze to the ground the performance of current state-of-the-art ML-PWD using just 30 queries, thus overcoming the weaker attacks developed in previous work, and enabling a much fairer robustness evaluation of ML-PWD.
翻訳日:2023-10-06 20:08:05 公開日:2023-10-04
# 非相対論的量子電磁力学における非摂動的質量再正規化効果

Non-perturbative mass renormalization effects in non-relativistic quantum electrodynamics ( http://arxiv.org/abs/2310.03213v1 )

ライセンス: Link先を確認
Davis M. Welakuh, Vasil Rokaj, Michael Ruggenthaler, Angel Rubio(参考訳) この研究は、多モードフォトニック環境における基底状態特性を正確に記述し、ab-initio量子電磁力学シミュレーションにおける質量再正規化手順の重要性を強調している。 まず, 粒子の質量を決定するためにエネルギー分散を用いる自由粒子について, 実験を行った。 次に、多モード光子場が原子及び分子系の様々な基底および励起状態特性にどのように影響するかを示す。 例えば、原子系の局在化の促進と光子を介する長距離相互作用による分子二量体のポテンシャルエネルギー面の変化を観察する。 これらの現象は、キャビティ環境で強い光-物質結合の下で強化され、分極化学の出現する分野に関係する。 本稿では,多モード場による非自明な基底状態効果が,実システムにおいても単純かつ数値的に実現可能な近似によって正確に把握できることを示す。

This work lays the foundation to accurately describe ground-state properties in multimode photonic environments and highlights the importance of the mass renormalization procedure for ab-initio quantum electrodynamics simulations. We first demonstrate this for free particles, where the energy dispersion is employed to determine the mass of the particles. We then show how the multimode photon field influences various ground and excited-state properties of atomic and molecular systems. For instance, we observe the enhancement of localization for the atomic system, and the modification of the potential energy surfaces of the molecular dimer due to photon-mediated long-range interactions. These phenomena get enhanced under strong light-matter coupling in a cavity environment and become relevant for the emerging field of polaritonic chemistry. We conclude by demonstrating how non-trivial ground-state effects due to the multimode field can be accurately captured by approximations that are simple and numerically feasible even for realistic systems.
翻訳日:2023-10-06 20:02:42 公開日:2023-10-04
# PDR-CapsNet:カプセルネットワークにおける動的ルーティングに対するエネルギー効率の良い並列アプローチ

PDR-CapsNet: an Energy-Efficient Parallel Approach to Dynamic Routing in Capsule Networks ( http://arxiv.org/abs/2310.03212v1 )

ライセンス: Link先を確認
Samaneh Javadinia, Amirali Baniasadi(参考訳) 畳み込みニューラルネットワーク(cnns)は、画像分類タスクの最先端結果を生成する。 しかし、最大プール層における情報損失により、回転や視点の変化を扱う能力に制限がある。 Capsule Networks (CapsNets) は、これらの問題に対処するために動的ルーティングと呼ばれる計算的に拡張された反復プロセスを使用する。 しかしCapsNetsは複雑なデータセットに乏しく、CNNよりも多くの計算リソースを必要とすることが多い。 これらの課題を克服するために、我々はParallel Dynamic Routing CapsNet (PDR-CapsNet)を導入しました。 並列化戦略を活用することで、PDR-CapsNetはCapsNetの計算複雑性を軽減し、ハードウェアリソースを効率的に利用してスループットを向上する。 その結果、87.26\%のパラメータ、32.27\%と47.40\%のmacとフロップを必要とする83.55\%の精度を実現し、capsnetやcifar-10データセットと比較して2080tiのgpuで3倍の高速化と7.29jのエネルギー消費を達成した。

Convolutional Neural Networks (CNNs) have produced state-of-the-art results for image classification tasks. However, they are limited in their ability to handle rotational and viewpoint variations due to information loss in max-pooling layers. Capsule Networks (CapsNets) employ a computationally-expensive iterative process referred to as dynamic routing to address these issues. CapsNets, however, often fall short on complex datasets and require more computational resources than CNNs. To overcome these challenges, we introduce the Parallel Dynamic Routing CapsNet (PDR-CapsNet), a deeper and more energy-efficient alternative to CapsNet that offers superior performance, less energy consumption, and lower overfitting rates. By leveraging a parallelization strategy, PDR-CapsNet mitigates the computational complexity of CapsNet and increases throughput, efficiently using hardware resources. As a result, we achieve 83.55\% accuracy while requiring 87.26\% fewer parameters, 32.27\% and 47.40\% fewer MACs, and Flops, achieving 3x faster inference and 7.29J less energy consumption on a 2080Ti GPU with 11GB VRAM compared to CapsNet and for the CIFAR-10 dataset.
翻訳日:2023-10-06 20:02:14 公開日:2023-10-04
# マルチモーダル言語モデルの性能について

On the Performance of Multimodal Language Models ( http://arxiv.org/abs/2310.03211v1 )

ライセンス: Link先を確認
Utsav Garg, Erhan Bas(参考訳) Instruction-tuned large language model (LLM) は、様々な下流タスクにまたがるゼロショットの一般化機能を示す。 最近の研究は、モデルグラフトを通して独立に事前訓練された視覚エンコーダを統合することで、LLMにマルチモーダル機能を導入している。 これらのマルチモーダル変種は、LLMに似た命令チューニングを行い、マルチモーダルタスクの効率的なゼロショット一般化を可能にする。 本研究では,様々なマルチモーダル・インストラクション・チューニング手法の比較分析を行い,複雑な推論,会話,イメージキャプション,マルチチョイス質問(MCQ),バイナリ分類など,様々なタスクにおける性能評価を行う。 厳密なベンチマークとアブレーション実験を通じて、マルチモーダル機能をLLMに組み込む際のアーキテクチャ選択を導くための重要な洞察を明らかにする。 しかし、現在のアプローチには限界があり、タスク一般化の強化に不可欠である多様なマルチモーダル命令データセットの必要性に十分対応していない。 さらに、応答を生成する際に、真理と事実性に関する問題を見落としている。 これらの知見は、画像理解に言語モデルを適用する際の現在の方法論的制約を明らかにし、LLMのマルチモーダルバージョンを活用しようとする研究者や実践者に貴重なガイダンスを提供する。

Instruction-tuned large language models (LLMs) have demonstrated promising zero-shot generalization capabilities across various downstream tasks. Recent research has introduced multimodal capabilities to LLMs by integrating independently pretrained vision encoders through model grafting. These multimodal variants undergo instruction tuning, similar to LLMs, enabling effective zero-shot generalization for multimodal tasks. This study conducts a comparative analysis of different multimodal instruction tuning approaches and evaluates their performance across a range of tasks, including complex reasoning, conversation, image captioning, multiple-choice questions (MCQs), and binary classification. Through rigorous benchmarking and ablation experiments, we reveal key insights for guiding architectural choices when incorporating multimodal capabilities into LLMs. However, current approaches have limitations; they do not sufficiently address the need for a diverse multimodal instruction dataset, which is crucial for enhancing task generalization. Additionally, they overlook issues related to truthfulness and factuality when generating responses. These findings illuminate current methodological constraints in adapting language models for image comprehension and provide valuable guidance for researchers and practitioners seeking to harness multimodal versions of LLMs.
翻訳日:2023-10-06 20:01:36 公開日:2023-10-04
# 言語モデルはソクラテス的手法を利用できるか? コードデバッグの実験

Can Language Models Employ the Socratic Method? Experiments with Code Debugging ( http://arxiv.org/abs/2310.03210v1 )

ライセンス: Link先を確認
Erfan Al-Hossami, Razvan Bunescu, Justin Smith, Ryan Teehan(参考訳) ソクラテス的な指導方法を採用する場合、インストラクターは生徒にソリューションを直接提供するのではなく、自分で問題解決を指導する。 この戦略は学習結果を大幅に改善するが、通常は時間をかけて認知的に要求される。 ソクラテス自動会話エージェントは、人間の指導を増強し、必要な規模を提供することができるが、訓練や評価に適したデータが不足しているため、その開発が妨げられる。 本稿では,初心者プログラマが簡単な計算問題に対してバグ修正を行うのを支援するための,マルチターンソクラティックアドバイスのデータセットを手作業で作成する。 このデータセットは、命令ベースのテキスト-テキスト変換器Flan-T5の微調整からゼロショット、さらに大きなGPT-4の思考の連鎖まで、多くの言語モデルのソクラティックデバッグ能力のベンチマークに使用される。 コードとデータセットは、下のリンクで自由に研究することができる。 https://github.com/taisazero/socratic-debugging-benchmark

When employing the Socratic method of teaching, instructors guide students toward solving a problem on their own rather than providing the solution directly. While this strategy can substantially improve learning outcomes, it is usually time-consuming and cognitively demanding. Automated Socratic conversational agents can augment human instruction and provide the necessary scale, however their development is hampered by the lack of suitable data for training and evaluation. In this paper, we introduce a manually created dataset of multi-turn Socratic advice that is aimed at helping a novice programmer fix buggy solutions to simple computational problems. The dataset is then used for benchmarking the Socratic debugging abilities of a number of language models, ranging from fine-tuning the instruction-based text-to-text transformer Flan-T5 to zero-shot and chain of thought prompting of the much larger GPT-4. The code and datasets are made freely available for research at the link below. https://github.com/taisazero/socratic-debugging-benchmark
翻訳日:2023-10-06 20:00:52 公開日:2023-10-04
# 逆乱を伴うLTIシステムの分散オンライン制御のレグレト解析

Regret Analysis of Distributed Online Control for LTI Systems with Adversarial Disturbances ( http://arxiv.org/abs/2310.03206v1 )

ライセンス: Link先を確認
Ting-Jui Chang and Shahin Shahrampour(参考訳) 本稿では,線形時間不変系(LTI)のネットワーク上の分散オンライン制御問題に,対角摂動が存在する場合の対処を行う。 時間変化の凸関数を特徴とするグローバルネットワークコストがあり、これは対角的に進化し、局所エージェントによって順次、部分的に観察される。 各エージェントの目標は、グローバルコストにアクセス可能な、最も中央集権的なコントロールポリシと競合するコントロールシーケンスを生成することだ。 この問題は後悔の最小化として定式化されている。 既知のダイナミクスの場合、完全に分散した外乱フィードバックコントローラを提案し、ここでは$t$ が時間軸である$o(\sqrt{t}\log t)$ の後悔値が保証される。 未知のダイナミクスの場合、探索段階において、全てのエージェントが共同でシステムダイナミクスを学習し、学習段階において、提案する制御アルゴリズムを各エージェントシステム推定値を用いて適用する分散探索・コミットアプローチを設計する。 我々は、この設定に対して$O(T^{2/3} \text{poly}(\log T))$の後悔境界を確立する。

This paper addresses the distributed online control problem over a network of linear time-invariant (LTI) systems (with possibly unknown dynamics) in the presence of adversarial perturbations. There exists a global network cost that is characterized by a time-varying convex function, which evolves in an adversarial manner and is sequentially and partially observed by local agents. The goal of each agent is to generate a control sequence that can compete with the best centralized control policy in hindsight, which has access to the global cost. This problem is formulated as a regret minimization. For the case of known dynamics, we propose a fully distributed disturbance feedback controller that guarantees a regret bound of $O(\sqrt{T}\log T)$, where $T$ is the time horizon. For the unknown dynamics case, we design a distributed explore-then-commit approach, where in the exploration phase all agents jointly learn the system dynamics, and in the learning phase our proposed control algorithm is applied using each agent system estimate. We establish a regret bound of $O(T^{2/3} \text{poly}(\log T))$ for this setting.
翻訳日:2023-10-06 20:00:29 公開日:2023-10-04
# ニューラルパラメータ最適化による大規模3次元顔メッシュビデオデータセット

A Large-Scale 3D Face Mesh Video Dataset via Neural Re-parameterized Optimization ( http://arxiv.org/abs/2310.03205v1 )

ライセンス: Link先を確認
Kim Youwang and Lee Hyun and Kim Sung-Bin and Suekyeong Nam and Janghoon Ju and Tae-Hyun Oh(参考訳) ニュートラルパラメータ最適化による3次元顔メッシュ擬似アノテーション法であるNeuFaceを提案する。 3d顔再構成方式の進歩にもかかわらず、野生のダイナミックビデオのための信頼できる3d顔ラベルの作成は依然として困難である。 NeuFace最適化を用いることで、大規模な顔ビデオのビュー/フレーム毎の正確かつ一貫した顔メッシュを注釈付けする。 勾配解析により3次元メッシュ上の画像整列顔の詳細を再構成する上で,ニューラルリパラメータ化がどう役立つかを検討する。 データセットにおける3次元顔の自然性と多様性を利用して,既存の3次元顔再構成モデルの再構築精度の向上と3次元顔の動きの事前学習という,3次元顔関連タスクにおけるデータセットの有用性を示す。 コードとデータセットはhttps://neuface-dataset.github.comで入手できる。

We propose NeuFace, a 3D face mesh pseudo annotation method on videos via neural re-parameterized optimization. Despite the huge progress in 3D face reconstruction methods, generating reliable 3D face labels for in-the-wild dynamic videos remains challenging. Using NeuFace optimization, we annotate the per-view/-frame accurate and consistent face meshes on large-scale face videos, called the NeuFace-dataset. We investigate how neural re-parameterization helps to reconstruct image-aligned facial details on 3D meshes via gradient analysis. By exploiting the naturalness and diversity of 3D faces in our dataset, we demonstrate the usefulness of our dataset for 3D face-related tasks: improving the reconstruction accuracy of an existing 3D face reconstruction model and learning 3D facial motion prior. Code and datasets will be available at https://neuface-dataset.github.
翻訳日:2023-10-06 19:59:51 公開日:2023-10-04
# マシンスケジューリングのための深層強化学習:方法論,最先端,今後の方向性

Deep reinforcement learning for machine scheduling: Methodology, the state-of-the-art, and future directions ( http://arxiv.org/abs/2310.03195v1 )

ライセンス: Link先を確認
Maziyar Khadivi, Todd Charter, Marjan Yaghoubi, Masoud Jalayer, Maryam Ahang, Ardeshir Shojaeinasab, Homayoun Najjaran(参考訳) マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。 この最適化は、運用コストの削減、顧客要求の充足の向上、生産効率の向上につながる。 しかし、NP-hard性質のため、機械スケジューリングは依然として困難な組合せ問題である。 人工知能の重要なコンポーネントであるdeep reinforcement learning(drl)は、ゲームやロボティクスといったさまざまな領域で期待されている。 1995年以降、研究者はDRLを機械スケジューリング問題に適用することを検討した。 本稿では,drlベースのアプローチの包括的レビューと比較を行い,その方法論,アプリケーション,アドバンテージ,限界を強調する。 従来のニューラルネットワーク、エンコーダ-デコーダアーキテクチャ、グラフニューラルネットワーク、メタヒューリスティックアルゴリズムといった計算コンポーネントに基づいて、これらのアプローチを分類している。 本総説では,DRLに基づく手法は計算速度や準グローバル最適解の生成において,正確な解法,ヒューリスティックス,表型強化学習アルゴリズムよりも優れていた。 これらのDRLベースのアプローチは、様々なマシン環境とジョブ特性にわたる静的および動的スケジューリングに成功している。 しかし、DRLベースのスケジューラは複雑な運用制約、構成可能な多目的最適化、一般化、スケーラビリティ、解釈可能性、堅牢性といった制約に直面している。 これらの課題に取り組むことは、この分野の今後の研究にとって重要な焦点となるだろう。 本稿では,DRLに基づくマシンスケジューリングの現状を評価し,研究ギャップを識別する上で,研究者にとって貴重な資料となる。 また、専門家や実践者が生産スケジュールに適切なDRLアプローチを選択するのを助ける。

Machine scheduling aims to optimize job assignments to machines while adhering to manufacturing rules and job specifications. This optimization leads to reduced operational costs, improved customer demand fulfillment, and enhanced production efficiency. However, machine scheduling remains a challenging combinatorial problem due to its NP-hard nature. Deep Reinforcement Learning (DRL), a key component of artificial general intelligence, has shown promise in various domains like gaming and robotics. Researchers have explored applying DRL to machine scheduling problems since 1995. This paper offers a comprehensive review and comparison of DRL-based approaches, highlighting their methodology, applications, advantages, and limitations. It categorizes these approaches based on computational components: conventional neural networks, encoder-decoder architectures, graph neural networks, and metaheuristic algorithms. Our review concludes that DRL-based methods outperform exact solvers, heuristics, and tabular reinforcement learning algorithms in terms of computation speed and generating near-global optimal solutions. These DRL-based approaches have been successfully applied to static and dynamic scheduling across diverse machine environments and job characteristics. However, DRL-based schedulers face limitations in handling complex operational constraints, configurable multi-objective optimization, generalization, scalability, interpretability, and robustness. Addressing these challenges will be a crucial focus for future research in this field. This paper serves as a valuable resource for researchers to assess the current state of DRL-based machine scheduling and identify research gaps. It also aids experts and practitioners in selecting the appropriate DRL approach for production scheduling.
翻訳日:2023-10-06 19:59:35 公開日:2023-10-04
# オープンサイエンスの興隆 : データの進化と知覚の価値の追跡とリンク共有の実践

The Rise of Open Science: Tracking the Evolution and Perceived Value of Data and Methods Link-Sharing Practices ( http://arxiv.org/abs/2310.03193v1 )

ライセンス: Link先を確認
Hancheng Cao, Jesse Dodge, Kyle Lo, Daniel A. McFarland, Lucy Lu Wang(参考訳) 近年、資金提供機関や雑誌は、科学の透明性、アクセス、再現性を改善するためのオープンサイエンスの実践(例えば、データと方法の共有)をますます提唱している。 しかし、これらのプラクティスを大規模に定量化するのは難しいことが証明された。 本研究では、物理・数学・計算機科学の分野を代表するarXivの1.1M論文の大規模データセットを活用し、時間とともにデータやメソッドのリンク共有の実践が記事受信に与える影響を分析する。 データやメソッドへのリンクを識別するために,論文の文脈参照に基づくURLタイプの自動分類のために,ニューラルネットワークの分類モデルを訓練する。 メソッドやデータへのリンク共有の実践は、より多くの論文が時間とともにそのようなURLを含むようになってきている。 同じリンクが論文(特にコンピュータ科学)にまたがって再利用され、これらのリンクは時間とともに少ないWebドメイン(例えばGithub)に集中しているため、再現性への取り組みも広がりつつある。 最後に、データとメソッドリンクを共有する記事は、引用数の観点から認識が増大し、共有リンクがアクティブである場合(廃止ではなく)、より強い効果が得られる。 これらの知見は,オープンサイエンスにおけるデータの普及と認知的価値の増大と手法共有の実践を示すものである。

In recent years, funding agencies and journals increasingly advocate for open science practices (e.g. data and method sharing) to improve the transparency, access, and reproducibility of science. However, quantifying these practices at scale has proven difficult. In this work, we leverage a large-scale dataset of 1.1M papers from arXiv that are representative of the fields of physics, math, and computer science to analyze the adoption of data and method link-sharing practices over time and their impact on article reception. To identify links to data and methods, we train a neural text classification model to automatically classify URL types based on contextual mentions in papers. We find evidence that the practice of link-sharing to methods and data is spreading as more papers include such URLs over time. Reproducibility efforts may also be spreading because the same links are being increasingly reused across papers (especially in computer science); and these links are increasingly concentrated within fewer web domains (e.g. Github) over time. Lastly, articles that share data and method links receive increased recognition in terms of citation count, with a stronger effect when the shared links are active (rather than defunct). Together, these findings demonstrate the increased spread and perceived value of data and method sharing practices in open science.
翻訳日:2023-10-06 19:59:10 公開日:2023-10-04
# Landscape-Sketch-Step: 代理最適化問題のためのAI/MLベースメタヒューリスティック

Landscape-Sketch-Step: An AI/ML-Based Metaheuristic for Surrogate Optimization Problems ( http://arxiv.org/abs/2309.07936v3 )

ライセンス: Link先を確認
Rafael Monteiro and Kartik Sau(参考訳) 本稿では,コスト関数の広範な評価が高価であり,アクセス不能であり,あるいは禁止であるシナリオにおいて,グローバル最適化のための新しいヒューリスティックスを提案する。 この手法はLandscape-Sketch-and-Step (LSS) と呼ばれ、機械学習、確率最適化、強化学習技術を組み合わせて、以前にサンプリングされた点からの履歴情報に頼り、コスト関数を評価すべきパラメータ値の偏見的な選択を行う。 レプリカ交換モンテカルロ法(英語版)による最適化とは異なり、この手法で必要とされるコスト関数の評価の数は、シミュレーションアニーリングで使用されるものと同等であり、高スループットコンピューティングや高性能コンピューティングタスクなどにおいて特に重要な品質であり、計算コストがかかるか、あるいは実行に時間がかかる。 また、目的関数の近似や再構成を目的とした代理モデルを構築しないため、標準的な代理最適化手法とは異なる。 本手法を低次元最適化問題(dimensions 1, 2, 4, 8)に適用し,コスト関数が局所的ミニマ (minima) に苦しめられている凝縮物質物理学でよく見られる頑丈なエネルギー環境の最小化の難しさを模倣した。 古典的なシミュレートアニーリングと比較すると、lssは最適化プロセスの効果的な加速を示す。

In this paper, we introduce a new heuristics for global optimization in scenarios where extensive evaluations of the cost function are expensive, inaccessible, or even prohibitive. The method, which we call Landscape-Sketch-and-Step (LSS), combines Machine Learning, Stochastic Optimization, and Reinforcement Learning techniques, relying on historical information from previously sampled points to make judicious choices of parameter values where the cost function should be evaluated at. Unlike optimization by Replica Exchange Monte Carlo methods, the number of evaluations of the cost function required in this approach is comparable to that used by Simulated Annealing, quality that is especially important in contexts like high-throughput computing or high-performance computing tasks, where evaluations are either computationally expensive or take a long time to be performed. The method also differs from standard Surrogate Optimization techniques, for it does not construct a surrogate model that aims at approximating or reconstructing the objective function. We illustrate our method by applying it to low dimensional optimization problems (dimensions 1, 2, 4, and 8) that mimick known difficulties of minimization on rugged energy landscapes often seen in Condensed Matter Physics, where cost functions are rugged and plagued with local minima. When compared to classical Simulated Annealing, the LSS shows an effective acceleration of the optimization process.
翻訳日:2023-10-06 11:23:06 公開日:2023-10-04
# SYRAC: 合成、ランク、カウント

SYRAC: Synthesize, Rank, and Count ( http://arxiv.org/abs/2310.01662v2 )

ライセンス: Link先を確認
Adriano D'Alessandro, Ali Mahdavi-Amiri and Ghassan Hamarneh(参考訳) クラウドカウントはコンピュータビジョンにおいて重要なタスクであり、いくつかの重要な応用がある。 しかし、既存の計数法は労働集約密度マップアノテーションに依存しており、個々の歩行者の手動位置決めを必要とする。 近年、弱い学習や半教師あり学習によるアノテーションの負担軽減が試みられているが、これらのアプローチは作業負荷を大幅に削減するものではない。 本稿では, 遅延拡散モデルを用いて合成データを生成することによって, アノテーションの負担を軽減する手法を提案する。 しかし、これらのモデルはオブジェクトの量を確実に理解するのに苦労しており、特定の量のオブジェクトで画像を生成すると、ノイズの多いアノテーションが発生する。 これを解決するために、潜伏拡散モデルを用いて、実際の画像から歩行者を除去し、弱いが信頼性の高い物体量信号でランク付けされた画像対を生成し、また、所定の数の物体で合成画像を生成し、強いがノイズの多い計数信号を提供する2種類の合成データを生成する。 本手法では,事前学習にランキング画像ペアを活用し,群集量特徴を用いたノイズ合成画像に線形層を適合させる。 教師なしの群衆数に対する最先端の成果を報告する。

Crowd counting is a critical task in computer vision, with several important applications. However, existing counting methods rely on labor-intensive density map annotations, necessitating the manual localization of each individual pedestrian. While recent efforts have attempted to alleviate the annotation burden through weakly or semi-supervised learning, these approaches fall short of significantly reducing the workload. We propose a novel approach to eliminate the annotation burden by leveraging latent diffusion models to generate synthetic data. However, these models struggle to reliably understand object quantities, leading to noisy annotations when prompted to produce images with a specific quantity of objects. To address this, we use latent diffusion models to create two types of synthetic data: one by removing pedestrians from real images, which generates ranked image pairs with a weak but reliable object quantity signal, and the other by generating synthetic images with a predetermined number of objects, offering a strong but noisy counting signal. Our method utilizes the ranking image pairs for pre-training and then fits a linear layer to the noisy synthetic images using these crowd quantity features. We report state-of-the-art results for unsupervised crowd counting.
翻訳日:2023-10-06 11:15:40 公開日:2023-10-04
# DeepHGCN: より深いハイパーボリックグラフ畳み込みネットワークを目指して

DeepHGCN: Toward Deeper Hyperbolic Graph Convolutional Networks ( http://arxiv.org/abs/2310.02027v2 )

ライセンス: Link先を確認
Jiaxu Liu, Xinping Yi, Xiaowei Huang(参考訳) 双曲グラフ畳み込みネットワーク (HGCN) は階層グラフから情報を抽出する大きな可能性を証明している。 しかし、既存のHGCNは、高額な双曲演算と、深さが増加するにつれて過度に平滑な問題のために、浅いアーキテクチャに限られている。 gcnsでは、過剰摂取を軽減するために治療が適用されているが、双曲療法の開発は、双曲的性質に適合するように慎重に設計されるべきであるため、明らかな課題がある。 以上の課題に対処するため,本研究では,計算効率を劇的に改善し,オーバースムーシング効果を大幅に軽減した,最初の深層HGCNアーキテクチャであるDeepHGCNを提案する。 ディープHGCNは,(1)高速かつ高精度な線形写像を実現する新しい双曲的特徴変換層,(2)双曲的残差接続や重みと特徴の正則化といった手法を,効率的な双曲的中点法により促進する。 広範囲な実験により、DeepHGCNはユークリッドと浅い双曲GCNの変種と比較してリンク予測とノード分類のタスクが大幅に改善されていることが示された。

Hyperbolic graph convolutional networks (HGCN) have demonstrated significant potential in extracting information from hierarchical graphs. However, existing HGCNs are limited to shallow architectures, due to the expensive hyperbolic operations and the over-smoothing issue as depth increases. Although in GCNs, treatments have been applied to alleviate over-smoothing, developing a hyperbolic therapy presents distinct challenges since operations should be carefully designed to fit the hyperbolic nature. Addressing the above challenges, in this work, we propose DeepHGCN, the first deep multi-layer HGCN architecture with dramatically improved computational efficiency and substantially alleviated over-smoothing effect. DeepHGCN presents two key enablers of deep HGCNs: (1) a novel hyperbolic feature transformation layer that enables fast and accurate linear maps; and (2) Techniques such as hyperbolic residual connections and regularization for both weights and features facilitated by an efficient hyperbolic midpoint method. Extensive experiments demonstrate that DeepHGCN obtains significant improvements in link prediction and node classification tasks compared to both Euclidean and shallow hyperbolic GCN variants.
翻訳日:2023-10-06 11:01:24 公開日:2023-10-04
# 量子ネットワークのためのタイムビン量子ビットに基づく高速多重絡み合い源

High-rate multiplexed entanglement source based on time-bin qubits for advanced quantum networks ( http://arxiv.org/abs/2310.01804v2 )

ライセンス: Link先を確認
Andrew Mueller, Samantha Davis, Boris Korzh, Raju Valivarthi, Andrew D. Beyer, Rahaf Youssef, Neil Sinclair, Matthew D. Shaw, and Maria Spiropulu(参考訳) 時間ビン量子ビットに基づくエンタングルメント分布は、新興量子ネットワークにとって魅力的な選択肢である。 我々は、80psで分離した初期および後期のビンに絡み合った光子対の4.09ghz繰り返し速度源を示す。 自発的パラメトリックダウン変換出力を8つのタイムビンエンタングルペアに多重化することにより、同時に高いレートと高いビジビリティを実現する。 エンタングルメントのビジビリティは99.4%、エンタングルメントレートは3.55e6一致/sまでであり、視認性を損なうことなく最大1桁の速度改善を達成するための直接的な道筋を予測している。 最後に、各多重チャンネルの絡み合い状態の密度行列を解き、ebit/sで蒸留可能な絡み合い率を表現し、有用な絡み合い分布に寄与する可視性と一致率のトレードオフを定量化する。 このソースは、高速エンタングルメントベースの量子鍵分布システムや高度な量子ネットワークのための基本的なビルディングブロックである。

Entanglement distribution based on time-bin qubits is an attractive option for emerging quantum networks. We demonstrate a 4.09 GHz repetition rate source of photon pairs entangled across early and late time bins separated by 80 ps. Simultaneous high rates and high visibilities are achieved through frequency multiplexing the spontaneous parametric down conversion output into 8 time-bin entangled pairs. We demonstrate entanglement visibilities as high as 99.4%, total entanglement rates up to 3.55e6 coincidences/s, and predict a straightforward path towards achieving up to an order of magnitude improvement in rates without compromising visibility. Finally, we resolve the density matrices of the entangled states for each multiplexed channel and express distillable entanglement rates in ebit/s, thereby quantifying the tradeoff between visibility and coincidence rates that contributes to useful entanglement distribution. This source is a fundamental building block for high-rate entanglement-based quantum key distribution systems or advanced quantum networks.
翻訳日:2023-10-06 11:00:42 公開日:2023-10-04
# 常時決定論的保証によるオンラインpomdp計画

Online POMDP Planning with Anytime Deterministic Guarantees ( http://arxiv.org/abs/2310.01791v2 )

ライセンス: Link先を確認
Moran Barenboim and Vadim Indelman(参考訳) 現実のシナリオで動作する自律エージェントはしばしば不確実性に遭遇し、不完全な情報に基づいて意思決定を行う。 不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化することができる。 しかし、POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。 近年、木探索やサンプルベース手法などの近似アルゴリズムが、より大規模な問題に対する最先端のPOMDP解法として登場している。 有効性にもかかわらず、これらのアルゴリズムはサンプリングに依存するため最適解に対する確率的かつ漸近的な保証のみを提供する。 これらの制限に対処するため、簡単な解と理論的に最適な解との決定論的関係を導出する。 まず、各後ノードで完全な信念を計算しながら、観測のサブセットを選択して分岐する境界を導出する。 そして、完全な信念更新が計算的に要求されるため、状態と観測空間の両方の縮小をサポートするために境界を拡張する。 我々は、我々の保証が既存の状態と観測のサブセットをサンプリングする最先端のソルバとどのように統合できるかを実証する。 その結果、返却された解は最適方針に対する決定論的境界を持つ。 最後に,実験結果の裏付けとして,本研究の成果を裏付ける。

Autonomous agents operating in real-world scenarios frequently encounter uncertainty and make decisions based on incomplete information. Planning under uncertainty can be mathematically formalized using partially observable Markov decision processes (POMDPs). However, finding an optimal plan for POMDPs can be computationally expensive and is feasible only for small tasks. In recent years, approximate algorithms, such as tree search and sample-based methodologies, have emerged as state-of-the-art POMDP solvers for larger problems. Despite their effectiveness, these algorithms offer only probabilistic and often asymptotic guarantees toward the optimal solution due to their dependence on sampling. To address these limitations, we derive a deterministic relationship between a simplified solution that is easier to obtain and the theoretically optimal one. First, we derive bounds for selecting a subset of the observations to branch from while computing a complete belief at each posterior node. Then, since a complete belief update may be computationally demanding, we extend the bounds to support reduction of both the state and the observation spaces. We demonstrate how our guarantees can be integrated with existing state-of-the-art solvers that sample a subset of states and observations. As a result, the returned solution holds deterministic bounds relative to the optimal policy. Lastly, we substantiate our findings with supporting experimental results.
翻訳日:2023-10-06 11:00:23 公開日:2023-10-04
# カスケード拡散モデルによる熱帯サイクロンの予測

Forecasting Tropical Cyclones with Cascaded Diffusion Models ( http://arxiv.org/abs/2310.01690v2 )

ライセンス: Link先を確認
Pritthijit Nath, Pancham Shukla, C\'esar Quilodr\'an-Casas(参考訳) 気候変動によってサイクロンがより激しくなるにつれて、aiベースのモデリングの台頭は、数学的モデルに基づく従来の方法よりも安価でアクセスしやすいアプローチを提供する。 本研究は, 衛星画像, リモートセンシング, 大気データの統合によるサイクロン軌道と降水パターンの予測に拡散モデルを用いており, 予測, 超解像, 降水モデリングを組み込んだカスケード手法を用いて, 6大盆地から51サイクロンのデータセットを訓練している。 実験により, 3つのタスクすべてに対して, SSIMおよびPSNR値が0.5および20dBを超える36時間ロールアウトまでの正確な予測が得られた。 この研究はまた、サイクロン予測のような高性能ニーズのための拡散モデルのようなaiメソッドの有望な効率を強調すると同時に、計算量的に手頃な価格のままで、重要な予測ニーズと財務上の制約のある高度に脆弱な地域に適している。 url{https://github.com/nathzi1505/forecast-diffmodels} でアクセス可能なコード。

As cyclones become more intense due to climate change, the rise of AI-based modelling provides a more affordable and accessible approach compared to traditional methods based on mathematical models. This work leverages diffusion models to forecast cyclone trajectories and precipitation patterns by integrating satellite imaging, remote sensing, and atmospheric data, employing a cascaded approach that incorporates forecasting, super-resolution, and precipitation modelling, with training on a dataset of 51 cyclones from six major basins. Experiments demonstrate that the final forecasts from the cascaded models show accurate predictions up to a 36-hour rollout, with SSIM and PSNR values exceeding 0.5 and 20 dB, respectively, for all three tasks. This work also highlights the promising efficiency of AI methods such as diffusion models for high-performance needs, such as cyclone forecasting, while remaining computationally affordable, making them ideal for highly vulnerable regions with critical forecasting needs and financial limitations. Code accessible at \url{https://github.com/nathzi1505/forecast-diffmodels}.
翻訳日:2023-10-06 11:00:04 公開日:2023-10-04
# 軌道バランス:GFlowNetsにおける信用割当の改善

Trajectory balance: Improved credit assignment in GFlowNets ( http://arxiv.org/abs/2201.13259v3 )

ライセンス: Link先を確認
Nikolay Malkin, Moksh Jain, Emmanuel Bengio, Chen Sun, Yoshua Bengio(参考訳) 生成フローネットワーク(英:generative flow network、gflownets)は、グラフや文字列のような合成オブジェクトを生成する確率的ポリシーを、アクションのシーケンスによって与えられた非正規化密度から学習する手法である。 従来提案したGFlowNetの学習目標,フローマッチング,および時間差分学習に類似した詳細なバランスは,長時間の行動系列にまたがる非効率な信用伝播の傾向が示唆された。 そこで本稿では,GFlowNetsの新しい学習目標であるトラジェクトリバランスを,これまで使用されていた目的に対して,より効率的な代替手段として提案する。 軌道バランス目標の任意の大域的最小化器が、対象分布から正確にサンプリングするポリシーを定義できることを示す。 4つの異なる領域の実験において、GFlowNet収束のための軌道バランス目標の利点、生成されたサンプルの多様性、長いアクションシーケンスや大きなアクション空間に対する堅牢性を実証的に実証した。

Generative flow networks (GFlowNets) are a method for learning a stochastic policy for generating compositional objects, such as graphs or strings, from a given unnormalized density by sequences of actions, where many possible action sequences may lead to the same object. We find previously proposed learning objectives for GFlowNets, flow matching and detailed balance, which are analogous to temporal difference learning, to be prone to inefficient credit propagation across long action sequences. We thus propose a new learning objective for GFlowNets, trajectory balance, as a more efficient alternative to previously used objectives. We prove that any global minimizer of the trajectory balance objective can define a policy that samples exactly from the target distribution. In experiments on four distinct domains, we empirically demonstrate the benefits of the trajectory balance objective for GFlowNet convergence, diversity of generated samples, and robustness to long action sequences and large action spaces.
翻訳日:2023-10-05 23:05:19 公開日:2023-10-04
# 自然画像マッチングのためのトリマップ誘導機能マイニングと融合ネットワーク

Trimap-guided Feature Mining and Fusion Network for Natural Image Matting ( http://arxiv.org/abs/2112.00510v4 )

ライセンス: Link先を確認
Weihao Jiang, Dongdong Yu, Zhaozhi Xie, Yaoyi Li, Zehuan Yuan, Hongtao Lu(参考訳) 画素レベルの予測を伴うトリマップベースのマッティングにおいて,トリマップガイダンスの利用とマルチレベル特徴の融合が重要な問題である。 トリマップガイダンスを利用するために、既存のほとんどのアプローチは、単にトリマップとイメージを結合してディープネットワークをフィードしたり、さらにトリマップガイダンスを抽出するために余分なネットワークを適用し、効率と有効性の矛盾を満たす。 新たなコンテンツベースの機能融合では、ほとんどの既存のマッティングメソッドは、興味のあるオブジェクトに関連する強力な意味情報を持つグローバル機能のガイダンスが欠けているローカル機能のみに焦点を当てる。 本稿では,TMP(Trimap-guided non-background multi-scale pooling)モジュールとGLF(Global-local context-aware fusion)モジュールからなる,トリマップ誘導型機能マイニング・フュージョンネットワークを提案する。 トリマップが強力なセマンティックガイダンスを提供することを考慮し、我々のTMPモジュールは、余分なパラメータなしでトリマップのガイダンスの下で興味深いオブジェクトを効果的に特徴マイニングする。 さらに,我々のglfモジュールは,tmpモジュールによってマイニングされた興味深いオブジェクトのグローバルセマンティクス情報を用いて,効果的なグローバルローカルコンテキストアウェアマルチレベル機能融合を導出する。 さらに、高品質なイメージマット化を進めるために、共通の興味深いオブジェクトマットング(ciom)データセットを構築します。 特に、コンポジション1kとCIOMの結果は、パラメータが少なく、FLOPが14%少ない強いベースラインに対して、TMFNetがそれぞれ13%と25%の改善を実現していることを示している。 composition-1kテストセット、Alphamattingベンチマーク、CIOMテストセットの実験結果は、我々のメソッドが最先端のアプローチよりも優れていることを示している。 私たちのコードとモデルはhttps://github.com/serge-weihao/tmf-mattingで利用可能です。

Utilizing trimap guidance and fusing multi-level features are two important issues for trimap-based matting with pixel-level prediction. To utilize trimap guidance, most existing approaches simply concatenate trimaps and images together to feed a deep network or apply an extra network to extract more trimap guidance, which meets the conflict between efficiency and effectiveness. For emerging content-based feature fusion, most existing matting methods only focus on local features which lack the guidance of a global feature with strong semantic information related to the interesting object. In this paper, we propose a trimap-guided feature mining and fusion network consisting of our trimap-guided non-background multi-scale pooling (TMP) module and global-local context-aware fusion (GLF) modules. Considering that trimap provides strong semantic guidance, our TMP module focuses effective feature mining on interesting objects under the guidance of trimap without extra parameters. Furthermore, our GLF modules use global semantic information of interesting objects mined by our TMP module to guide an effective global-local context-aware multi-level feature fusion. In addition, we build a common interesting object matting (CIOM) dataset to advance high-quality image matting. Particularly, results on the Composition-1k and our CIOM show that our TMFNet achieves 13% and 25% relative improvement on SAD, respectively, against a strong baseline with fewer parameters and 14% fewer FLOPs. Experimental results on the Composition-1k test set, Alphamatting benchmark, and our CIOM test set demonstrate that our method outperforms state-of-the-art approaches. Our code and models are available at https://github.com/Serge-weihao/TMF-Matting.
翻訳日:2023-10-05 23:05:00 公開日:2023-10-04
# NeuroBack: グラフニューラルネットワークによるCDCL SAT解決の改善

NeuroBack: Improving CDCL SAT Solving using Graph Neural Networks ( http://arxiv.org/abs/2110.14053v4 )

ライセンス: Link先を確認
Wenxi Wang, Yang Hu, Mohit Tiwari, Sarfraz Khurshid, Kenneth McMillan, Risto Miikkulainen(参考訳) 提案的満足度(SAT)は、計画、検証、セキュリティなど、多くの研究分野に影響を与えるNP完全問題である。 主流のSATソルバは、Conflict-Driven Clause Learning (CDCL)アルゴリズムに基づいている。 グラフニューラルネットワーク(GNN)を用いたCDCL SATソルバの高速化を目的とした最近の研究。 しかし、これまでのところこのアプローチは、より効果的に解決できないか、または頻繁にオンラインモデル推論のために、相当なgpuリソースを必要とした。 本稿では,GNNの改良を現実的なものにすることを目的としたNeuroBackという手法を提案する。(1)CDCL SATの解法において,満たされる課題の多数(あるいはすべて)に現れる変数の位相(すなわち値)を予測すること,(2)SATの解法が始まる前に1回だけ神経モデルに問い合わせること,である。 トレーニングが完了すると、オフラインモデル推論によって、neurobackはcpuのみで動作するようになり、gpuリソースへの依存がなくなる。 NeuroBackをトレーニングするために、120,286のデータサンプルを含むDataBackと呼ばれる新しいデータセットが作成される。 最後に、NeuroBackはKissatと呼ばれる最先端のSATソルバの拡張として実装されている。 その結果、Kissatは最近のSAT競合問題SATCOMP-2022でさらに5.2%の問題を解決することができた。 したがってneurobackは、sat解決を効果的かつ実用的な方法で改善するために機械学習をどのように活用できるかを示している。

Propositional satisfiability (SAT) is an NP-complete problem that impacts many research fields, such as planning, verification, and security. Mainstream modern SAT solvers are based on the Conflict-Driven Clause Learning (CDCL) algorithm. Recent work aimed to enhance CDCL SAT solvers using Graph Neural Networks (GNNs). However, so far this approach either has not made solving more effective, or required substantial GPU resources for frequent online model inferences. Aiming to make GNN improvements practical, this paper proposes an approach called NeuroBack, which builds on two insights: (1) predicting phases (i.e., values) of variables appearing in the majority (or even all) of the satisfying assignments are essential for CDCL SAT solving, and (2) it is sufficient to query the neural model only once for the predictions before the SAT solving starts. Once trained, the offline model inference allows NeuroBack to execute exclusively on the CPU, removing its reliance on GPU resources. To train NeuroBack, a new dataset called DataBack containing 120,286 data samples is created. Finally, NeuroBack is implemented as an enhancement to a state-of-the-art SAT solver called Kissat. As a result, it allowed Kissat to solve 5.2% more problems on the recent SAT competition problem set, SATCOMP-2022. NeuroBack therefore shows how machine learning can be harnessed to improve SAT solving in an effective and practical manner.
翻訳日:2023-10-05 23:04:26 公開日:2023-10-04
# sr-hetgnn:異種グラフニューラルネットワークを用いたセッションベースレコメンデーション

SR-HetGNN:Session-based Recommendation with Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2108.05641v2 )

ライセンス: Link先を確認
Jinpeng Chen, Haiyang Li, Xudong Zhang, Fan Zhang, Senzhang Wang, Kaimin Wei and Jiaqi Ji(参考訳) Session-Based Recommendation Systemの目的は、前のセッションシーケンスに従ってユーザの次のクリックを予測することである。 本研究は一般に,ユーザのセッションシーケンスの項目の遷移に応じてユーザの好みを学習する。 しかし、セッションシーケンス内の他の効果的な情報、例えばユーザプロファイルは無視されているため、モデルがユーザの特定の好みを学習できない可能性がある。 本稿では、異種グラフニューラルネットワーク(HetGNN)によるセッション埋め込みを学習し、匿名ユーザの特定の好みを把握できる、SR-HetGNNという、異種グラフニューラルネットワークに基づくセッションレコメンデーション手法を提案する。 具体的には、SR-HetGNNはセッションシーケンスに従って、さまざまな種類のノードを含む異種グラフを構築し、アイテム、ユーザ、セッション間の依存関係をキャプチャする。 第二に、HetGNNはアイテム間の複雑な遷移を捉え、ユーザ情報を含むアイテムの埋め込みを学習する。 最後に,ユーザの長期的・短期的嗜好の影響を考慮し,地域的・グローバルなセッション埋め込みと注目ネットワークを組み合わせることで,最終セッション埋め込みを得る。 SR-HetGNNは、DigineticaとTmallの2つの実際の大規模データセットに対する広範な実験を通じて、既存の最先端セッションベースのレコメンデーション手法よりも優れていることが示されている。

The purpose of the Session-Based Recommendation System is to predict the user's next click according to the previous session sequence. The current studies generally learn user preferences according to the transitions of items in the user's session sequence. However, other effective information in the session sequence, such as user profiles, are largely ignored which may lead to the model unable to learn the user's specific preferences. In this paper, we propose a heterogeneous graph neural network-based session recommendation method, named SR-HetGNN, which can learn session embeddings by heterogeneous graph neural network (HetGNN), and capture the specific preferences of anonymous users. Specifically, SR-HetGNN first constructs heterogeneous graphs containing various types of nodes according to the session sequence, which can capture the dependencies among items, users, and sessions. Second, HetGNN captures the complex transitions between items and learns the item embeddings containing user information. Finally, to consider the influence of users' long and short-term preferences, local and global session embeddings are combined with the attentional network to obtain the final session embedding. SR-HetGNN is shown to be superior to the existing state-of-the-art session-based recommendation methods through extensive experiments over two real large datasets Diginetica and Tmall.
翻訳日:2023-10-05 23:03:45 公開日:2023-10-04
# 翻訳1件につき一感

One Sense per Translation ( http://arxiv.org/abs/2106.06082v2 )

ライセンス: Link先を確認
Bradley Hauer, Grzegorz Kondrak(参考訳) word sense disambiguation (wsd) は文脈における単語の意味を決定するタスクである。 翻訳はWSDで知識の源として使われ、言葉感覚を区別する方法としても使われてきた。 本稿では, 感覚と翻訳の関係の3つの理論的性質を定義し, 翻訳を感覚表として使用するために必要な条件を構成することを論じる。 One Sense per Translation (OSPT)の重要な性質は、翻訳に基づくWSD法の基盤を提供する。 その結果,本手法の精度は手作業によるコーパスアノテーションと比較して約93%向上した。 外部評価実験は、難易度の高いWSDデータセット上で最大4.6%のF1スコアのWSD改善を示す。

Word sense disambiguation (WSD) is the task of determining the sense of a word in context. Translations have been used in WSD as a source of knowledge, and even as a means of delimiting word senses. In this paper, we define three theoretical properties of the relationship between senses and translations, and argue that they constitute necessary conditions for using translations as sense inventories. The key property of One Sense per Translation (OSPT) provides a foundation for a translation-based WSD method. The results of an intrinsic evaluation experiment indicate that our method achieves a precision of approximately 93% compared to manual corpus annotations. Our extrinsic evaluation experiments demonstrate WSD improvements of up to 4.6% F1-score on difficult WSD datasets.
翻訳日:2023-10-05 23:03:21 公開日:2023-10-04
# AKE-GNN: 適応的知識交換による効果的なグラフ学習

AKE-GNN: Effective Graph Learning with Adaptive Knowledge Exchange ( http://arxiv.org/abs/2106.05455v3 )

ライセンス: Link先を確認
Liang Zeng, Jin Xu, Zijun Yao, Yanqiao Zhu, Jian Li(参考訳) グラフニューラルネットワーク(GNN)はすでに様々なグラフマイニングタスクで広く使われている。 しかし、近年の研究では、十分に訓練されたGNNにおける学習重量(チャネル)が非常に冗長であり、GNNの性能を必然的に制限していることが明らかになっている。 効率を考慮した冗長チャネルを除去する代わりに,グラフ学習を効果的に行うため,GNNの表現能力の拡大を図っている。 本稿では,この目的を達成するために,冗長チャネルを他の情報チャネルに置き換える手法を提案する。 本稿では、グラフ拡張によって生成された複数のグラフビュー間で適応的知識交換戦略を実行する、AKE-GNNという新しいGNN学習フレームワークを紹介する。 AKE-GNNはまず1つのグラフビューに対応する複数のGNNを訓練し、情報チャネルを得る。 そして、AKE-GNNは、1つのGNNの重みパラメータ行列における冗長チャネルを別のGNNの情報チャネルと階層的に繰り返し交換する。 さらに、既存のGNNを私たちのフレームワークにシームレスに組み込むことができます。 AKE-GNNは、ノード分類、リンク予測、グラフ分類に関する一連の実験において、様々なベースラインと比較して優れた性能を達成する。 特に、15の公開ベンチマークデータセット、8つの人気のあるGNNモデル、3つのグラフタスクについて一連の実験を行い、AKE-GNNが既存のGNNモデルやそれらのアンサンブルよりも一貫して優れていることを示す。 知識交換手法に関する大規模なアブレーション研究と分析は、AKE-GNNの有効性を検証する。

Graph Neural Networks (GNNs) have already been widely used in various graph mining tasks. However, recent works reveal that the learned weights (channels) in well-trained GNNs are highly redundant, which inevitably limits the performance of GNNs. Instead of removing these redundant channels for efficiency consideration, we aim to reactivate them to enlarge the representation capacity of GNNs for effective graph learning. In this paper, we propose to substitute these redundant channels with other informative channels to achieve this goal. We introduce a novel GNN learning framework named AKE-GNN, which performs the Adaptive Knowledge Exchange strategy among multiple graph views generated by graph augmentations. AKE-GNN first trains multiple GNNs each corresponding to one graph view to obtain informative channels. Then, AKE-GNN iteratively exchanges redundant channels in the weight parameter matrix of one GNN with informative channels of another GNN in a layer-wise manner. Additionally, existing GNNs can be seamlessly incorporated into our framework. AKE-GNN achieves superior performance compared with various baselines across a suite of experiments on node classification, link prediction, and graph classification. In particular, we conduct a series of experiments on 15 public benchmark datasets, 8 popular GNN models, and 3 graph tasks and show that AKE-GNN consistently outperforms existing popular GNN models and even their ensembles. Extensive ablation studies and analyses on knowledge exchange methods validate the effectiveness of AKE-GNN.
翻訳日:2023-10-05 23:03:10 公開日:2023-10-04
# Naive ExplorationはオンラインLQRに最適

Naive Exploration is Optimal for Online LQR ( http://arxiv.org/abs/2001.09576v4 )

ライセンス: Link先を確認
Max Simchowitz, Dylan J. Foster(参考訳) 本稿では,真のシステムパラメータが不明な線形二次制御器のオンライン適応制御の問題について考察する。 ここで、$t$ は時間ステップの数、$d_{\mathbf{u}}$ は入力空間の次元、$d_{\mathbf{x}}$ はシステム状態の次元である。 特に、我々の下界は、問題の明らかな強い凸性のために予想されていた$\mathrm{poly}(\log{}T)$-regretアルゴリズムの可能性を除外している。 この上界は$\textit{{certainty equivalent control}}$という単純な変種によって達成され、学習者は探索的ランダムノイズを注入しながらシステムの推定のために最適コントローラに従って制御入力を選択する。 このアプローチは, (Mania et al. 2019) によって$\sqrt{T}$-regretを達成することが示されているが, 学習者が連続的にシステム行列の推定を洗練すれば, 最適次元依存性も達成できることを示す。 上界と下界の中心は$\textit{self-bounding ODE method}$と呼ばれるリカティ方程式の摂動を制御するための新しいアプローチであり、推定系力学から合成された一定の等価コントローラーに対する準最適境界を導出する。 これにより、$\textit{any stabilizable instance}$を保ち、自然制御理論量でスケールする後悔の上界が可能になる。

We consider the problem of online adaptive control of the linear quadratic regulator, where the true system parameters are unknown. We prove new upper and lower bounds demonstrating that the optimal regret scales as $\widetilde{\Theta}({\sqrt{d_{\mathbf{u}}^2 d_{\mathbf{x}} T}})$, where $T$ is the number of time steps, $d_{\mathbf{u}}$ is the dimension of the input space, and $d_{\mathbf{x}}$ is the dimension of the system state. Notably, our lower bounds rule out the possibility of a $\mathrm{poly}(\log{}T)$-regret algorithm, which had been conjectured due to the apparent strong convexity of the problem. Our upper bound is attained by a simple variant of $\textit{{certainty equivalent control}}$, where the learner selects control inputs according to the optimal controller for their estimate of the system while injecting exploratory random noise. While this approach was shown to achieve $\sqrt{T}$-regret by (Mania et al. 2019), we show that if the learner continually refines their estimates of the system matrices, the method attains optimal dimension dependence as well. Central to our upper and lower bounds is a new approach for controlling perturbations of Riccati equations called the $\textit{self-bounding ODE method}$, which we use to derive suboptimality bounds for the certainty equivalent controller synthesized from estimated system dynamics. This in turn enables regret upper bounds which hold for $\textit{any stabilizable instance}$ and scale with natural control-theoretic quantities.
翻訳日:2023-10-05 23:02:17 公開日:2023-10-04
# ReLUニューラルネットワークが学習関数をいかに特徴付けるか -その1:ランダム第一層をもつ2層の1次元例-

How Implicit Regularization of ReLU Neural Networks Characterizes the Learned Function -- Part I: the 1-D Case of Two Layers with Random First Layer ( http://arxiv.org/abs/1911.02903v4 )

ライセンス: Link先を確認
Jakob Heiss, Josef Teichmann, Hanna Wutte(参考訳) 本稿では,重みをランダムに選択し,終端層のみをトレーニングする1次元(浅)ReLUニューラルネットワークについて考察する。 まず、そのようなネットワークのl2-正規化回帰が関数空間で対応することを数学的に示し、かなり一般の損失汎関数に対する推定の第2導関数を正則化する。 少なくとも二乗回帰では、トレーニングされたネットワークは、隠れノードの数が無限になる傾向があるため、トレーニングデータの滑らかなスプライン補間に収束する。 さらに, 初期停止勾配降下(重みの明示的な正則化を伴わない)と平滑化スプライン回帰との新たな対応を導出する。

In this paper, we consider one dimensional (shallow) ReLU neural networks in which weights are chosen randomly and only the terminal layer is trained. First, we mathematically show that for such networks L2-regularized regression corresponds in function space to regularizing the estimate's second derivative for fairly general loss functionals. For least squares regression, we show that the trained network converges to the smooth spline interpolation of the training data as the number of hidden nodes tends to infinity. Moreover, we derive a novel correspondence between the early stopped gradient descent (without any explicit regularization of the weights) and the smoothing spline regression.
翻訳日:2023-10-05 23:01:40 公開日:2023-10-04
# ニューラルベイズ推定器を用いた擬似自由パラメータ推定

Likelihood-Free Parameter Estimation with Neural Bayes Estimators ( http://arxiv.org/abs/2208.12942v5 )

ライセンス: Link先を確認
Matthew Sainsbury-Dale, Andrew Zammit-Mangion, and Rapha\"el Huser(参考訳) ニューラルネットワークは、データをパラメータポイント推定にマッピングするニューラルネットワークである。 それらは高速で、おそらく自由であり、その不滅の性質のため、高速なブートストラップに基づく不確実性定量化が可能である。 本稿では,この比較的新しい推論ツールに対する統計学者の意識を高め,ユーザフレンドリーなオープンソースソフトウェアを提供することで,その採用を促進することを目的とする。 また、複製されたデータから推論を行うというユビキタスな問題にも注目する。 広範囲なシミュレーション研究を通じて、これらのニューラルポイント推定器は、比較的容易に弱同定された高パラメータモデルのパラメータを(ベイズ感覚で)迅速かつ最適に推定できることを示した。 実験の結果,赤海での極端海面温度の解析により,数百の空間場から1秒でパラメータ推定とブートストラップに基づく信頼区間を求めることにより,その適用性を示す。

Neural point estimators are neural networks that map data to parameter point estimates. They are fast, likelihood free and, due to their amortised nature, amenable to fast bootstrap-based uncertainty quantification. In this paper, we aim to increase the awareness of statisticians to this relatively new inferential tool, and to facilitate its adoption by providing user-friendly open-source software. We also give attention to the ubiquitous problem of making inference from replicated data, which we address in the neural setting using permutation-invariant neural networks. Through extensive simulation studies we show that these neural point estimators can quickly and optimally (in a Bayes sense) estimate parameters in weakly-identified and highly-parameterised models with relative ease. We demonstrate their applicability through an analysis of extreme sea-surface temperature in the Red Sea where, after training, we obtain parameter estimates and bootstrap-based confidence intervals from hundreds of spatial fields in a fraction of a second.
翻訳日:2023-10-05 22:52:09 公開日:2023-10-04
# 変化点検出のための潜在確率微分方程式

Latent Neural Stochastic Differential Equations for Change Point Detection ( http://arxiv.org/abs/2208.10317v2 )

ライセンス: Link先を確認
Artem Ryzhikov, Mikhail Hushchyn and Denis Derkach(参考訳) 複数の読み出しに基づく複雑なシステムの自動分析は依然として課題である。 変更点検出アルゴリズムは、プロセスの時系列動作の急激な変化を特定することを目的としている。 本稿では,SDE(Latent Neural Stochastic Differential Equations)に基づく新しい変化点検出アルゴリズムを提案する。 本手法は,プロセスから潜在空間への非線形な深層学習変換を学習し,時間とともにその進化を記述するSDEを推定する。 このアルゴリズムは、学習した確率過程の確率比を異なるタイムスタンプで使い、プロセスの変化点を見つける。 合成および実世界のデータセット上でのアルゴリズムの検出能力と性能を示す。 提案手法は,実験の大半において最先端のアルゴリズムを上回っている。

Automated analysis of complex systems based on multiple readouts remains a challenge. Change point detection algorithms are aimed to locating abrupt changes in the time series behaviour of a process. In this paper, we present a novel change point detection algorithm based on Latent Neural Stochastic Differential Equations (SDE). Our method learns a non-linear deep learning transformation of the process into a latent space and estimates a SDE that describes its evolution over time. The algorithm uses the likelihood ratio of the learned stochastic processes in different timestamps to find change points of the process. We demonstrate the detection capabilities and performance of our algorithm on synthetic and real-world datasets. The proposed method outperforms the state-of-the-art algorithms on the majority of our experiments.
翻訳日:2023-10-05 22:51:53 公開日:2023-10-04
# テスト駆動ユーザインテント形式によるインタラクティブコード生成

Interactive Code Generation via Test-Driven User-Intent Formalization ( http://arxiv.org/abs/2208.05950v2 )

ライセンス: Link先を確認
Shuvendu K. Lahiri and Sarah Fakhoury and Aaditya Naik and Georgios Sakkas and Saikat Chakraborty and Madanlal Musuvathi and Piali Choudhury and Curtis von Veh and Jeevana Priya Inala and Chenglong Wang and Jianfeng Gao(参考訳) 大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図から自然言語を生成することによって、コーディングの重要な側面を自動化する大きな可能性を示している。 しかし、llmと対話する場合、ユーザは、コード提案が提供した意図を正しく満足させる保証を持っていません。 実際、自然言語は曖昧で形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。 本稿では,軽量ユーザフィードバックを活用した対話型テスト駆動コード生成のワークフローを提案する。 (a)デバッグに有用な生成テストを使用して、ユーザの意図を形式化する、 b) 候補コード提案のプルーニングとランク付けにより,改良されたコード提案セットを生成する。 言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。 我々は、コード生成ベンチマークである \emph{mbpp} と \emph{humaneval} で ticoder の自動評価を行う。 我々の最良のアルゴリズムは、1から5のシミュレートされたユーザクエリを使用して、22.49 %$から37.71 %$ for MBPP、24.79 %$から53.98 %$ for HumanEvalのコード生成精度(絶対パーセンテージ)を改善します。

Large language models (LLMs) have shown great potential in automating significant aspects of coding by producing natural code from informal natural language (NL) intent. However, when interacting with LLMs, users have no guarantees that the code suggestions produced correctly satisfy the intent they provided. In fact, it is hard to define a notion of correctness since natural language can be ambiguous and lacks a formal semantics. In this paper, we propose the workflow of {\it interactive test-driven code generation}, which leverages lightweight user feedback to (a) formalize the user intent using generated tests that can be useful for debugging, and (b) produce an improved set of code suggestions by pruning and ranking candidate code suggestions. We describe a language-agnostic abstract algorithm and a concrete implementation TiCoder. We perform an automated evaluation of TiCoder on the \emph{MBPP} and \emph{HumanEval} code generation benchmarks. Our results are promising with using the OpenAI Codex LLM: our best algorithm improves the \passk{1} code generation accuracy (in absolute percentages) between $22.49\%$ to $37.71\%$ for MBPP and between $24.79\%$ to $53.98\%$ for HumanEval using between 1 to 5 simulated user queries.
翻訳日:2023-10-05 22:51:28 公開日:2023-10-04
# 正規化フローによる直交領域適応

Gradual Domain Adaptation via Normalizing Flows ( http://arxiv.org/abs/2206.11492v3 )

ライセンス: Link先を確認
Shogo Sagawa, Hideitsu Hino(参考訳) 標準ドメイン適応メソッドは、ソースドメインとターゲットドメインの間に大きなギャップがある場合、うまく機能しない。 段階的ドメイン適応(gradual domain adaptation)は、この問題に対処するためのアプローチのひとつです。 これは、徐々にソースドメインからターゲットドメインにシフトする中間ドメインを活用することを伴う。 従来の研究では, 中間領域の数は多く, 隣接領域間の距離も小さく, ラベルなしデータセットによる自己学習を含む漸進領域適応アルゴリズムが適用可能であると考えられた。 しかし実際には、中間領域の数に制限があり、隣接領域間の距離が大きいため、徐々に自己学習が失敗する。 本稿では,教師なしドメイン適応の枠組みを維持しつつ,この問題に対処するための正規化フローの利用を提案する。 提案手法は,対象領域の分布からソース領域を介してガウス混合分布への変換を学習する。 提案手法を実世界のデータセットを用いて実験により評価し,上記の問題を緩和し,分類性能を向上させることを確認する。

Standard domain adaptation methods do not work well when a large gap exists between the source and target domains. Gradual domain adaptation is one of the approaches used to address the problem. It involves leveraging the intermediate domain, which gradually shifts from the source domain to the target domain. In previous work, it is assumed that the number of intermediate domains is large and the distance between adjacent domains is small; hence, the gradual domain adaptation algorithm, involving self-training with unlabeled datasets, is applicable. In practice, however, gradual self-training will fail because the number of intermediate domains is limited and the distance between adjacent domains is large. We propose the use of normalizing flows to deal with this problem while maintaining the framework of unsupervised domain adaptation. The proposed method learns a transformation from the distribution of the target domain to the Gaussian mixture distribution via the source domain. We evaluate our proposed method by experiments using real-world datasets and confirm that it mitigates the above-explained problem and improves the classification performance.
翻訳日:2023-10-05 22:50:48 公開日:2023-10-04
# 無バイアスレコメンデーションにおける学習目標の再検討

Reconsidering Learning Objectives in Unbiased Recommendation with Unobserved Confounders ( http://arxiv.org/abs/2206.03851v3 )

ライセンス: Link先を確認
Teng Xiao, Zhengyu Chen, Suhang Wang(参考訳) この研究は、バイアスのないフィードバックからバイアスのないアルゴリズムを学習し、推奨する問題を研究する。 我々はこの問題を新しい分布シフトの観点から解決する。 アンバイアスド・レコメンデーションの最近の研究は、再重み付け、マルチタスク学習、メタラーニングといった様々な技術で最先端の技術の進歩を遂げている。 実証的な成功にもかかわらず、そのほとんどは理論的な保証がなく、理論と最近のアルゴリズムの間に非無視的なギャップを形成している。 本稿では,既存の非偏り学習目標がなぜ偏りのない推薦に働くのかを理論的に理解する。 既存の非偏り学習目標が偏りのあるトレーニングと偏りのないテスト分布を暗黙的に調整していることを示す,偏りのない推薦と分布シフトの密接な関係を確立する。 この接続に基づいて,既存の偏りのない学習手法に対する2つの一般化境界を開発し,学習行動の解析を行う。 また, 流通シフトの結果として, 非バイアスな推薦のために, 適応自己学習(AST)の原則的枠組みをさらに提案する。 実世界および半合成データセットに関する大規模な実験は、ASTの有効性を示す。

This work studies the problem of learning unbiased algorithms from biased feedback for recommendation. We address this problem from a novel distribution shift perspective. Recent works in unbiased recommendation have advanced the state-of-the-art with various techniques such as re-weighting, multi-task learning, and meta-learning. Despite their empirical successes, most of them lack theoretical guarantees, forming non-negligible gaps between theories and recent algorithms. In this paper, we propose a theoretical understanding of why existing unbiased learning objectives work for unbiased recommendation. We establish a close connection between unbiased recommendation and distribution shift, which shows that existing unbiased learning objectives implicitly align biased training and unbiased test distributions. Built upon this connection, we develop two generalization bounds for existing unbiased learning methods and analyze their learning behavior. Besides, as a result of the distribution shift, we further propose a principled framework, Adversarial Self-Training (AST), for unbiased recommendation. Extensive experiments on real-world and semi-synthetic datasets demonstrate the effectiveness of AST.
翻訳日:2023-10-05 22:50:33 公開日:2023-10-04
# 確率的準ニュートン法の深層学習における効率性について

On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning ( http://arxiv.org/abs/2205.09121v2 )

ライセンス: Link先を確認
Mahsa Yousefi, Angeles Martinez(参考訳) 大規模深層学習問題で発生する最適化問題では,一階法が一般的だが,深刻な欠陥がある。 このような欠点を減らすために、勾配情報のみを用いてヘッセン近似を構成する準ニュートン法のような二階法を適用することには近年関心が集まっている。 我々の研究の主な焦点は、ディープニューラルネットワークを訓練するための確率的準ニュートンアルゴリズムの振る舞いを研究することです。 我々は、BFGS(Broyden-Fletcher-Goldfarb-Shanno)とSR1(Symmetric Rank One)の2つの有名な準ニュートン更新の性能を分析した。 本研究は、両更新の実際の性能に関するギャップを埋め、より堅牢なBFGS更新または不確定なヘッセン近似を許容するより安価なSR1公式を用いることで、深層学習で見られる非凸損失関数における病理的サドル点のナビゲートに役立てることができるかどうかを解析する。 本稿では,バッチ正規化とネットワークアーキテクチャ,限られたメモリパラメータ,バッチサイズ,サンプリング戦略の種類などを含む広範な実験結果について述べる。 確率的準ニュートンオプティマイザは効率が良く、よく知られたAdamオプティマイザが多数のハイパーパラメータを最適に組み合わせて実行する場合でも性能が優れていることを示す。

While first-order methods are popular for solving optimization problems that arise in large-scale deep learning problems, they come with some acute deficiencies. To diminish such shortcomings, there has been recent interest in applying second-order methods such as quasi-Newton based methods which construct Hessians approximations using only gradient information. The main focus of our work is to study the behaviour of stochastic quasi-Newton algorithms for training deep neural networks. We have analyzed the performance of two well-known quasi-Newton updates, the limited memory Broyden-Fletcher-Goldfarb-Shanno (BFGS) and the Symmetric Rank One (SR1). This study fills a gap concerning the real performance of both updates and analyzes whether more efficient training is obtained when using the more robust BFGS update or the cheaper SR1 formula which allows for indefinite Hessian approximations and thus can potentially help to better navigate the pathological saddle points present in the non-convex loss functions found in deep learning. We present and discuss the results of an extensive experimental study which includes the effect of batch normalization and network's architecture, the limited memory parameter, the batch size and the type of sampling strategy. we show that stochastic quasi-Newton optimizers are efficient and able to outperform in some instances the well-known first-order Adam optimizer run with the optimal combination of its numerous hyperparameters.
翻訳日:2023-10-05 22:49:57 公開日:2023-10-04
# 能動学習による適応量子状態トモグラフィ

Adaptive Quantum State Tomography with Active Learning ( http://arxiv.org/abs/2203.15719v5 )

ライセンス: Link先を確認
Hannah Lange, Matja\v{z} Kebri\v{c}, Maximilian Buser, Ulrich Schollw\"ock, Fabian Grusdt and Annabelle Bohrdt(参考訳) 量子シミュレーションの異なるプラットフォームと量子コンピューティング(超伝導量子ビットから中性原子まで)は、前例のないほど大きなシステムに到達し始めている。 これらのシステムをベンチマークし、物理的洞察を得るために、効率的な量子状態を特徴付けるツールの必要性が生じる。 系の大きさでヒルベルト空間が指数関数的に成長すると、必要な測定値の数で禁止的に要求される量子状態の完全な再構成が生じる。 本稿では,能動学習を用いた量子状態トモグラフィの効率的な手法を提案する。 いくつかの初期測定に基づいて、アクティブラーニングプロトコルは、最大情報ゲインを得るように設計された次の測定基準を提案する。 能動学習量子状態トモグラフィー法を用いて、異なるマルチキュービット状態と1次元のXXZモデルの基底状態と運動的に制約されたスピン鎖を再構成する。 いずれの場合も、全く同じ測定値と測定値に基づいて、無作為に選択されたベース構成に基づいて、再構成よりも大幅に改善された再構築が得られる。 提案手法は, 量子多体系や, 量子シミュレーションなどの量子デバイスのベンチマークや特徴付け, スケーラブルな適応プロトコルによる量子システム探索, 準備, 操作の方法の整備など, 物理的洞察を得るために非常に重要である。

Recently, tremendous progress has been made in the field of quantum science and technologies: different platforms for quantum simulation as well as quantum computing, ranging from superconducting qubits to neutral atoms, are starting to reach unprecedentedly large systems. In order to benchmark these systems and gain physical insights, the need for efficient tools to characterize quantum states arises. The exponential growth of the Hilbert space with system size renders a full reconstruction of the quantum state prohibitively demanding in terms of the number of necessary measurements. Here we propose and implement an efficient scheme for quantum state tomography using active learning. Based on a few initial measurements, the active learning protocol proposes the next measurement basis, designed to yield the maximum information gain. We apply the active learning quantum state tomography scheme to reconstruct different multi-qubit states with varying degree of entanglement as well as to ground states of the XXZ model in 1D and a kinetically constrained spin chain. In all cases, we obtain a significantly improved reconstruction as compared to a reconstruction based on the exact same number of measurements and measurement configurations, but with randomly chosen basis configurations. Our scheme is highly relevant to gain physical insights in quantum many-body systems as well as for benchmarking and characterizing quantum devices, e.g. for quantum simulation, and paves the way for scalable adaptive protocols to probe, prepare, and manipulate quantum systems.
翻訳日:2023-10-05 22:49:30 公開日:2023-10-04
# 複数の中間レベル表現による実環境における画像ベースナビゲーション:融合モデル、ベンチマークおよび効率的な評価

Image-based Navigation in Real-World Environments via Multiple Mid-level Representations: Fusion Models, Benchmark and Efficient Evaluation ( http://arxiv.org/abs/2202.01069v2 )

ライセンス: Link先を確認
Marco Rosano, Antonino Furnari, Luigi Gulino, Corrado Santoro, Giovanni Maria Farinella(参考訳) 複雑な屋内環境をナビゲートするには、ロボットエージェントが行動している空間の深い理解が必要となる。 近年の学習に基づくナビゲーション手法では,シミュレーションに必要な経験を収集し,エージェントのシーン理解とナビゲーション能力を同時に実現している。 残念ながら、シミュレーターがナビゲーションポリシーを訓練する効率的なツールであるとしても、現実の世界に移動すると、結果のモデルは失敗することが多い。 考えられる解決策の1つは、シーンの重要なドメイン不変特性を含む中間レベルの視覚的表現を持つナビゲーションモデルを提供することである。 しかし、モデルから実世界への転送を促進する最良の表現は何ですか? どのように組み合わせられるのか? 本研究では,ディープラーニングアーキテクチャのベンチマークを用いて,さまざまな中間レベルの視覚表現を組み合わせて,強化学習のセットアップに従ってPointGoalナビゲーションタスクを実行することで,これらの課題に対処する。 提案するナビゲーションモデルはすべて、合成オフィス環境における居住環境シミュレータを用いて訓練され、実際のロボットプラットフォームを使用して同じ実環境上でテストされている。 実環境での性能を効率的に評価するために,シミュレータ内で現実的なナビゲーションエピソードを生成するための検証ツールが提案されている。 実験の結果,ナビゲーションモデルはマルチモーダル入力の恩恵を受けることができ,検証ツールにより実世界のナビゲーション性能を予測できるとともに,時間と資源を節約できることがわかった。 Habitat上に構築されたバリデーションツールのコードとともに、取得した環境の3Dモデルと実際の3Dモデルが、以下のリンクで公開されている。

Navigating complex indoor environments requires a deep understanding of the space the robotic agent is acting into to correctly inform the navigation process of the agent towards the goal location. In recent learning-based navigation approaches, the scene understanding and navigation abilities of the agent are achieved simultaneously by collecting the required experience in simulation. Unfortunately, even if simulators represent an efficient tool to train navigation policies, the resulting models often fail when transferred into the real world. One possible solution is to provide the navigation model with mid-level visual representations containing important domain-invariant properties of the scene. But, what are the best representations that facilitate the transfer of a model to the real-world? How can they be combined? In this work we address these issues by proposing a benchmark of Deep Learning architectures to combine a range of mid-level visual representations, to perform a PointGoal navigation task following a Reinforcement Learning setup. All the proposed navigation models have been trained with the Habitat simulator on a synthetic office environment and have been tested on the same real-world environment using a real robotic platform. To efficiently assess their performance in a real context, a validation tool has been proposed to generate realistic navigation episodes inside the simulator. Our experiments showed that navigation models can benefit from the multi-modal input and that our validation tool can provide good estimation of the expected navigation performance in the real world, while saving time and resources. The acquired synthetic and real 3D models of the environment, together with the code of our validation tool built on top of Habitat, are publicly available at the following link: https://iplab.dmi.unict.it/EmbodiedVN/
翻訳日:2023-10-05 22:49:02 公開日:2023-10-04
# 反事実推論による$\mathcal{elh}$概念記述の説明

Explaining $\mathcal{ELH}$ Concept Descriptions through Counterfactual Reasoning ( http://arxiv.org/abs/2301.05109v2 )

ライセンス: Link先を確認
Leonie Nora Sieger, Stefan Heindorf, Yasir Mahmood, Lukas Bl\"ubaum, Axel-Cyrille Ngonga Ngomo(参考訳) 知識ベースは情報管理に広く使われており、Web検索、質問応答、自然言語処理などの高度なアプリケーションを可能にする。 また、医療診断や信用スコアなどの自動意思決定システムのバックボーンとしても機能している。 これらの決定によって影響を受ける利害関係者が自身の状況を理解し、その決定がどの程度公平であるかを確認するために、多くの説明アプローチが提案されている。 分類を行う本質的に透明な方法は、記述論理の概念を使用することである。 しかしながら、これらの概念は、言語化されても、非専門家にとって長くて難しいものになりうる。 一つの解決策は,「どのように特徴値を変えて異なる分類を得るか」という問いに答えるために,反事実を用いることである。最小限の機能変化に注目して,説明は短く,人間フレンドリで,予測の変化に関する明確な行動経路を提供する。 従来の研究は表型データに対する反事実について検討していたが,本論文では,反事実の概念を知識ベースと記述論理$\mathcal{ELH}$に置き換える。 提案手法は, 提案概念から, 最小限の機能変化を必要とする候補を候補として選択することから始まる。 複数のカウンターファクトが存在する場合、それらの特徴の組み合わせの類似性に基づいてそれらをランク付けする。 提案手法をユーザ調査によって評価し,どの候補が説明を好むかを判断する。

Knowledge bases are widely used for information management, enabling high-impact applications such as web search, question answering, and natural language processing. They also serve as the backbone for automatic decision systems, e.g., for medical diagnostics and credit scoring. As stakeholders affected by these decisions would like to understand their situation and verify how fair the decisions are, a number of explanation approaches have been proposed. An intrinsically transparent way to do classification is by using concepts in description logics. However, these concepts can become long and difficult to fathom for non-experts, even when verbalized. One solution is to employ counterfactuals to answer the question, ``How must feature values be changed to obtain a different classification?'' By focusing on the minimal feature changes, the explanations are short, human-friendly, and provide a clear path of action regarding the change in prediction. While previous work investigated counterfactuals for tabular data, in this paper, we transfer the notion of counterfactuals to knowledge bases and the description logic $\mathcal{ELH}$. Our approach starts by generating counterfactual candidates from concepts, followed by selecting the candidates requiring the fewest feature changes as counterfactuals. When multiple counterfactuals exist, we rank them based on the likeliness of their feature combinations. We evaluate our method by conducting a user survey to determine which counterfactual candidates participants prefer for explanation.
翻訳日:2023-10-05 22:42:43 公開日:2023-10-04
# 自動テキスト要約手法の総合的レビュー:方法、データ、評価および符号化

A comprehensive review of automatic text summarization techniques: method, data, evaluation and coding ( http://arxiv.org/abs/2301.03403v4 )

ライセンス: Link先を確認
Daniel O. Cajueiro, Arthur G. Nery, Igor Tavares, Ma\'isa K. De Melo, Silvia A. dos Reis, Li Weigang, Victor R. R. Celestino(参考訳) 本稿では,ATS(Automatic Text Summarization)システムに関する文献レビューを行う。 引用に基づくアプローチを考える。 まず、私たちがカバーしたい各トピックについて手元に持っている人気で有名な論文から始め、"backward citations"(前もって知っていた論文のセットによって引用された論文)と"forward citations"(前もって知っていた論文のセットを引用する新しい論文)を追跡しました。 異なる手法を整理するために、我々は、それらが要約を生成するメカニズムによって導かれる様々なアプローチをATSに提示する。 また,提案手法の提示に加えて,要約タスクに利用可能なデータセットや,要約の質を評価するための手法についても概説する。 最後に,CNN Corpusデータセットを用いて,抽出および抽象的手法に黄金の要約を提供する実験的な手法を提案する。

We provide a literature review about Automatic Text Summarization (ATS) systems. We consider a citation-based approach. We start with some popular and well-known papers that we have in hand about each topic we want to cover and we have tracked the "backward citations" (papers that are cited by the set of papers we knew beforehand) and the "forward citations" (newer papers that cite the set of papers we knew beforehand). In order to organize the different methods, we present the diverse approaches to ATS guided by the mechanisms they use to generate a summary. Besides presenting the methods, we also present an extensive review of the datasets available for summarization tasks and the methods used to evaluate the quality of the summaries. Finally, we present an empirical exploration of these methods using the CNN Corpus dataset that provides golden summaries for extractive and abstractive methods.
翻訳日:2023-10-05 22:42:17 公開日:2023-10-04
# 非絶対分離性に関する資源理論

Resource Theory of Non-absolute Separability ( http://arxiv.org/abs/2212.11105v2 )

ライセンス: Link先を確認
Ayan Patra, Arghya Maity, Aditi Sen De(参考訳) 我々は、絶対的に分離不能な状態(非AS)に対する資源理論を開発し、いかなる大域的ユニタリーにも絡み合わない状態(AS)も自由状態として認識され、いかなる大域的ユニタリー演算の凸混合もコストを伴わずに行うことができる。 我々は,非絶対分離可能性 (NAS) の定量化に2つの手法を用いており,その1つは距離測定に基づくものであり,もう1つは目撃者演算子によるものである。 いずれのNAS尺度も,「良い」NAS尺度に従わなければならないすべての条件に従うことを証明している。 固定次元のすべての純状態において、NAS含量は等しく、最大であることを示す。 次に距離に基づくnas測度と絡み合い定量化器との接続を確立する。 結果は非AS状態、すなわちWerner状態のクラスで説明します。

We develop a resource theory for non-absolutely separable states (non-AS) in which absolutely separable states (AS) that cannot be entangled by any global unitaries are recognised as free states and any convex mixture of global unitary operations can be performed without incurring any costs. We employ two approaches to quantify non-absolute separability (NAS) -- one based on distance measures and the other one through the use of a witness operator. We prove that both the NAS measures obey all the conditions which should be followed by a ``good'' NAS measure. We demonstrate that NAS content is equal and maximal in all pure states for a fixed dimension. We then establish a connection between the distance-based NAS measure and the entanglement quantifier. We illustrate our results with a class of non-AS states, namely Werner states.
翻訳日:2023-10-05 22:42:01 公開日:2023-10-04
# MS-PS:新しい総合的なトレーニングデータセットを備えた測光ステレオのためのマルチスケールネットワーク

MS-PS: A Multi-Scale Network for Photometric Stereo With a New Comprehensive Training Dataset ( http://arxiv.org/abs/2211.14118v2 )

ライセンス: Link先を確認
Cl\'ement Hardy, Yvain Qu\'eau, David Tschumperl\'e(参考訳) 光度ステレオ(PS)問題は、異なる照明方向で撮影された一連の写真のおかげで、物体の3次元表面を再構成する。 本稿では,psのマルチスケールアーキテクチャを提案する。新しいデータセットと組み合わせることで,最先端の成果が得られる。 提案するアーキテクチャは柔軟で,可変数のイメージと可変画像サイズを,性能を損なうことなく考慮することが可能である。 さらに,PS問題に対する畳み込みニューラルネットワークをトレーニングするために,関連する合成データセットの生成を可能にする一連の制約を定義する。 提案するデータセットは既存のデータセットよりもはるかに大きく,異方性反射率(金属,ガラスなど)を持つ難解な材料が多数含まれている。 公開ベンチマークでは,これら2つのコントリビュートの組み合わせにより,従来の最先端手法と比較して推定正規場の精度が大幅に向上することを示した。

The photometric stereo (PS) problem consists in reconstructing the 3D-surface of an object, thanks to a set of photographs taken under different lighting directions. In this paper, we propose a multi-scale architecture for PS which, combined with a new dataset, yields state-of-the-art results. Our proposed architecture is flexible: it permits to consider a variable number of images as well as variable image size without loss of performance. In addition, we define a set of constraints to allow the generation of a relevant synthetic dataset to train convolutional neural networks for the PS problem. Our proposed dataset is much larger than pre-existing ones, and contains many objects with challenging materials having anisotropic reflectance (e.g. metals, glass). We show on publicly available benchmarks that the combination of both these contributions drastically improves the accuracy of the estimated normal field, in comparison with previous state-of-the-art methods.
翻訳日:2023-10-05 22:41:43 公開日:2023-10-04
# DP-SGDを用いたプライベート広告モデリング

Private Ad Modeling with DP-SGD ( http://arxiv.org/abs/2211.11896v3 )

ライセンス: Link先を確認
Carson Denison, Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Krishna Giri Narra, Amer Sinha, Avinash V Varadarajan, Chiyuan Zhang(参考訳) プライバシー保護MLにおけるよく知られたアルゴリズムは、個人確率勾配降下(DP-SGD)である。 このアルゴリズムはテキストデータや画像データで評価されているが、以前は広告データには適用されていない。 本研究では,DP-SGDをクリックスルー率,コンバージョン率,コンバージョンイベント数などの広告モデリングタスクに適用し,実際のデータセット上でのプライバシユーティリティトレードオフを評価する。 私たちの研究は、DP-SGDが広告モデリングタスクのプライバシーとユーティリティの両方を提供できることを実証的に実証した初めてのものです。

A well-known algorithm in privacy-preserving ML is differentially private stochastic gradient descent (DP-SGD). While this algorithm has been evaluated on text and image data, it has not been previously applied to ads data, which are notorious for their high class imbalance and sparse gradient updates. In this work we apply DP-SGD to several ad modeling tasks including predicting click-through rates, conversion rates, and number of conversion events, and evaluate their privacy-utility trade-off on real-world datasets. Our work is the first to empirically demonstrate that DP-SGD can provide both privacy and utility for ad modeling tasks.
翻訳日:2023-10-05 22:41:03 公開日:2023-10-04
# 丸め約束による熱状態形成

Thermal State Preparation via Rounding Promises ( http://arxiv.org/abs/2210.01670v2 )

ライセンス: Link先を確認
Patrick Rall, Chunhao Wang, Pawel Wocjan(参考訳) 量子コンピュータ上でギブス状態を作るための有望な道は、物理的熱化過程をシミュレートすることである。 デイヴィス発生器は、熱浴と接触する開放量子系のダイナミクスを記述する。 重要なのは、熱浴自体のシミュレーションは必要ありません。 リンドブラッド方程式の量子シミュレーションのための最先端技術を用いて,デイビース生成器で指定された熱分解によるギブス状態の合成法を考案する。 デイビー発電機の実装には、システムのエネルギーを曖昧に見積もる能力が必要です。 すなわち、システムの各エネルギーは決定論的に一意な推定にマッピングされなければならない。 以前の研究は、システムが非物理的な「周囲の約束」の仮定を満たす場合にのみ可能であることを示していた。 まず,3つの問題を同時に解決するラウンド約束のランダムアンサンブルを設計することにより,この問題を解決する。 第二に、これらのデイヴィス発電機は理想のデイヴィス発電機と同様の混合時間を持つ。 第三に、これらの約束された熱状態の平均は理想的な熱状態に近い。

A promising avenue for the preparation of Gibbs states on a quantum computer is to simulate the physical thermalization process. The Davies generator describes the dynamics of an open quantum system that is in contact with a heat bath. Crucially, it does not require simulation of the heat bath itself, only the system we hope to thermalize. Using the state-of-the-art techniques for quantum simulation of the Lindblad equation, we devise a technique for the preparation of Gibbs states via thermalization as specified by the Davies generator. In doing so, we encounter a severe technical challenge: implementation of the Davies generator demands the ability to estimate the energy of the system unambiguously. That is, each energy of the system must be deterministically mapped to a unique estimate. Previous work showed that this is only possible if the system satisfies an unphysical 'rounding promise' assumption. We solve this problem by engineering a random ensemble of rounding promises that simultaneously solves three problems: First, each rounding promise admits preparation of a 'promised' thermal state via a Davies generator. Second, these Davies generators have a similar mixing time as the ideal Davies generator. Third, the average of these promised thermal states approximates the ideal thermal state.
翻訳日:2023-10-05 22:40:51 公開日:2023-10-04
# AdaGrad(Norm)の$\R^{d}$上の収束性について: 凸性、非漸近速度、加速度

On the Convergence of AdaGrad(Norm) on $\R^{d}$: Beyond Convexity, Non-Asymptotic Rate and Acceleration ( http://arxiv.org/abs/2209.14827v4 )

ライセンス: Link先を確認
Zijian Liu, Ta Duy Nguyen, Alina Ene, Huy L. Nguyen(参考訳) 滑らかな凸最適化のためのAdaGradや他の適応手法の既存の分析は、典型的には有界領域径を持つ関数に対して行われる。 制約のない問題では、以前の研究は関数クラス全体に真となる明示的な定数因子を伴わない漸近収束率を保証する。 さらに、確率的設定では、AdaGradの修正版のみが、一般的に使われているものと異なり、最新の勾配はステップサイズを更新するのに使われていない。 本稿では,これらのギャップを埋め,AdaGradとその変種を滑らかな凸関数の標準設定およびより一般的なクエーサー凸関数の設定でより深く理解することを目的とする。 まず,バニラAdaGradの収束率を決定論的,確率的両面の制約のない問題に明示的に拘束する手法を示す。 第二に、平均的な反復ではなく、最後の反復の収束を示すことのできる AdaGrad の変種を提案する。 最後に,問題パラメータに明示的に依存した決定論的設定において,新しい高速化適応アルゴリズムと収束保証を与え,先行研究で示された漸近速度を改善した。

Existing analysis of AdaGrad and other adaptive methods for smooth convex optimization is typically for functions with bounded domain diameter. In unconstrained problems, previous works guarantee an asymptotic convergence rate without an explicit constant factor that holds true for the entire function class. Furthermore, in the stochastic setting, only a modified version of AdaGrad, different from the one commonly used in practice, in which the latest gradient is not used to update the stepsize, has been analyzed. Our paper aims at bridging these gaps and developing a deeper understanding of AdaGrad and its variants in the standard setting of smooth convex functions as well as the more general setting of quasar convex functions. First, we demonstrate new techniques to explicitly bound the convergence rate of the vanilla AdaGrad for unconstrained problems in both deterministic and stochastic settings. Second, we propose a variant of AdaGrad for which we can show the convergence of the last iterate, instead of the average iterate. Finally, we give new accelerated adaptive algorithms and their convergence guarantee in the deterministic setting with explicit dependency on the problem parameters, improving upon the asymptotic rate shown in previous works.
翻訳日:2023-10-05 22:40:33 公開日:2023-10-04
# セキュリティを強化した量子セキュリティシングルピクセルイメージング

Quantum-secured single-pixel imaging with enhanced security ( http://arxiv.org/abs/2209.06365v4 )

ライセンス: Link先を確認
Jaesung Heo, Junghyun Kim, Taek Jeong, Yong Sup Ihn, Duk Y. Kim, Zaeill Kim, Yonggi Jo(参考訳) 本稿では,光子対の非古典的相関を利用した,量子セキュアな単一画素イメージング手法を提案する。 本手法は,光子対の非古典的相関を利用して,光子ヘラルディングによる強いカオス光照明を拒絶することで,それを欺こうとする試みを検出できる。 偏光相関に基づくセキュリティ解析を行い,既存の量子セキュアイメージングに比べてセキュリティが向上したことを示す。 より具体的には、真と偽の信号の混合を送信する部分決定攻撃は、現在使われている手法では検出できないが、提案した分析により検出できる。 また,本手法の実証実験と,セキュリティ解析を用いて再構成した信頼性の高い画像も提供する。 本手法は, 量子セキュア通信における成熟した技術を用いて開発することが可能であり, セキュアイメージングの実用化に有望な方向性を提供する。

In this paper, we propose a novel quantum-secured single-pixel imaging method that utilizes non-classical correlations of a photon pair. Our method can detect any attempts to deceive it by exploiting a non-classical correlation of photon pairs while rejecting strong chaotic light illumination through photon heralding. A security analysis based on polarization-correlation has been conducted, demonstrating that our method has improved security compared to existing quantum-secured imaging. More specifically, a partial deceiving attack, which sends a mixture of a true and a false signal, can be detected with our proposed analysis, while currently employed methods cannot. We also provide proof-of-principle demonstrations of our method and trustworthy images reconstructed using our security analysis. Our method can be developed using matured techniques used in quantum secure communication, thus offering a promising direction for practical applications in secure imaging.
翻訳日:2023-10-05 22:40:14 公開日:2023-10-04
# テクニカルレポート:グラフニューラルネットワークは文法的になる

Technical report: Graph Neural Networks go Grammatical ( http://arxiv.org/abs/2303.01590v4 )

ライセンス: Link先を確認
Jason Piquenot, Aldo Moscatelli, Maxime B\'erar, Pierre H\'eroux, Romain raveaux, Jean-Yves Ramel, S\'ebastien Adam(参考訳) 本稿では,代数的言語の一部とグラフニューラルネットワーク(gnn)との接続を形式的に確立するための枠組みを提案する。 このフレームワークは、文脈自由文法(CFG)を利用して、代数演算をGNN層モデルに変換可能な生成規則に整理する。 言語から直接派生したCFGは、規則や変数に冗長性を含む傾向があるため、文法還元方式を提案する。 この戦略を適用することで、MATLANGを用いた3階Weisfeiler-Lehman(3-WL)テストに適合するCFGを定義する。 この3WL CFG から GNN モデル G$^2$N$^2$ を導出する。 様々な実験を通じて,複数の下流タスクにおいて,g$^2$n$^2$が他の3-wl gnnよりも優れた効率を示す。 特に、ある実験は、我々のフレームワークにおける文法削減の利点を強調しています。

This paper introduces a framework for formally establishing a connection between a portion of an algebraic language and a Graph Neural Network (GNN). The framework leverages Context-Free Grammars (CFG) to organize algebraic operations into generative rules that can be translated into a GNN layer model. As CFGs derived directly from a language tend to contain redundancies in their rules and variables, we present a grammar reduction scheme. By applying this strategy, we define a CFG that conforms to the third-order Weisfeiler-Lehman (3-WL) test using MATLANG. From this 3-WL CFG, we derive a GNN model, named G$^2$N$^2$, which is provably 3-WL compliant. Through various experiments, we demonstrate the superior efficiency of G$^2$N$^2$ compared to other 3-WL GNNs across numerous downstream tasks. Specifically, one experiment highlights the benefits of grammar reduction within our framework.
翻訳日:2023-10-05 22:31:32 公開日:2023-10-04
# 正規化ニューラルネットワークは人間の洞察を模倣する

Regularised neural networks mimic human insight ( http://arxiv.org/abs/2302.11351v3 )

ライセンス: Link先を確認
Anika T. L\"owe, L\'eo Touzo, Paul S. Muhle-Karbe, Andrew M. Saxe, Christopher Summerfield, Nicolas W. Schuck(参考訳) 人間は時々、洞察の瞬間に結びついているタスクパフォーマンスの突然の改善を示す。 このような洞察に関連したパフォーマンス改善は、期間の延長が先行し、異常に突然であり、一部の学習者(すべてではないが)にのみ発生するため、特別に見える。 ここでは,勾配降下アルゴリズムを用いて学習したニューラルネットワークにおいて,洞察的行動も発生するかどうかを問う。 人間の学習ダイナミクスと、より効率的に解くための隠れた機会を提供する知覚的意思決定タスクにおける正規化ニューラルネットワークを比較した。 我々は、人間が徐々にではなく、洞察を通してこの規則性を発見する傾向があることを示した。 特に、正規化ゲート変調を持つニューラルネットワークは、人間の洞察の行動特性を密接に模倣し、洞察の遅延、突然性、選択的発生を示す。 ネットワーク学習のダイナミクスの分析によると、洞察的行動は勾配更新に付加されるノイズに決定的に依存しており、最初は正規化(意図的)ゲーティングによって抑制された「サイレント・ナレッジ」が先行していた。 これは、音、注意ゲーティング、正規化の複合的な影響を反映した段階的な学習から、洞察が自然に生まれることを示唆している。

Humans sometimes show sudden improvements in task performance that have been linked to moments of insight. Such insight-related performance improvements appear special because they are preceded by an extended period of impasse, are unusually abrupt, and occur only in some, but not all, learners. Here, we ask whether insight-like behaviour also occurs in artificial neural networks trained with gradient descent algorithms. We compared learning dynamics in humans and regularised neural networks in a perceptual decision task that provided a hidden opportunity which allowed to solve the task more efficiently. We show that humans tend to discover this regularity through insight, rather than gradually. Notably, neural networks with regularised gate modulation closely mimicked behavioural characteristics of human insights, exhibiting delay of insight, suddenness and selective occurrence. Analyses of network learning dynamics revealed that insight-like behaviour crucially depended on noise added to gradient updates, and was preceded by ``silent knowledge'' that is initially suppressed by regularised (attentional) gating. This suggests that insights can arise naturally from gradual learning, where they reflect the combined influences of noise, attentional gating and regularisation.
翻訳日:2023-10-05 22:31:15 公開日:2023-10-04
# ニューラルネットワーク学習の計算複雑性:滑らかさと縮退

Computational Complexity of Learning Neural Networks: Smoothness and Degeneracy ( http://arxiv.org/abs/2302.07426v2 )

ライセンス: Link先を確認
Amit Daniely, Nathan Srebro, Gal Vardi(参考訳) ニューラルネットワークが効率的に学習できるかを理解することは、学習理論の基本的な問題である。 既存の硬さは、効率的なアルゴリズムを得るためには入力分布とネットワークの重みの両方の仮定が必要であることを示唆している。 さらに, 入力分布がガウス的であり, 重み行列が非退化であると仮定して, 深さ$2$ネットワークを効率的に学習できることを示した。 本研究では,これらの仮定が深いネットワークの学習に十分であるかどうかを検証し,否定的な結果を示す。 ガウス入力分布下での学習深度3$ReLUネットワークは,ネットワークのパラメータにランダムノイズが付加されるスムーズな解析フレームワークにおいても困難であることを示す。 これは、ガウス分布の下での学習深さ-3$ relu ネットワークは、重み行列が非退化であっても難しいことを意味する。 さらに,ネットワークパラメータと入力分布の両方がスムーズであるスムーズな解析フレームワークにおいて,深度2ドルのネットワークを考慮し,学習の難しさを示す。 我々の硬度結果は、局所擬似ランダム発生器の存在についてよく研究された仮定の下にある。

Understanding when neural networks can be learned efficiently is a fundamental question in learning theory. Existing hardness results suggest that assumptions on both the input distribution and the network's weights are necessary for obtaining efficient algorithms. Moreover, it was previously shown that depth-$2$ networks can be efficiently learned under the assumptions that the input distribution is Gaussian, and the weight matrix is non-degenerate. In this work, we study whether such assumptions may suffice for learning deeper networks and prove negative results. We show that learning depth-$3$ ReLU networks under the Gaussian input distribution is hard even in the smoothed-analysis framework, where a random noise is added to the network's parameters. It implies that learning depth-$3$ ReLU networks under the Gaussian distribution is hard even if the weight matrices are non-degenerate. Moreover, we consider depth-$2$ networks, and show hardness of learning in the smoothed-analysis framework, where both the network parameters and the input distribution are smoothed. Our hardness results are under a well-studied assumption on the existence of local pseudorandom generators.
翻訳日:2023-10-05 22:30:47 公開日:2023-10-04
# 量子クエンチ実験におけるトランスモンの2レベル近似

Two-level approximation of transmons in quantum quench experiments ( http://arxiv.org/abs/2302.05169v2 )

ライセンス: Link先を確認
H. S. Yan, Yong-Yi Wang, S. K. Zhao, Z. H. Yang, Z. T. Wang, Kai Xu, Ye Tian, H. F. Yu, Heng Fan, and S. P. Zhao(参考訳) 量子クエンチは、量子多体系の非平衡力学の研究における典型的なプロトコルである。 近年, 超伝導トランスモン量子ビットを用いた実験が数多く報告されており, 個々の部位に2つのエネルギーレベルを持つスピンとハードコアボソンモデルが用いられている。 トランスモンはマルチレベルシステムであり、結合量子ビットはボース・ハバードモデルによって制御される。 2段階のシステムによっていかにうまく近似できるかが議論され、文献における特定の実験のために様々な方法で分析されている。 本稿では,ロスシュミットエコーの概念に基づくマルチレベルトランスモンの2レベル近似の精度と妥当性を数値的に検討する。 この手法を用いることで、状態リークからトランスモン高エネルギーレベルへの不確実性減衰(すなわち、進化する波動関数の時間依存性の重複)を計算することができる。 本研究では, 様々な初期状態, 量子ビット結合強度, 外部駆動を持つハミルトニアンの異なる系について, 時間反転と時間発展を伴う2種類の量子クエンチ実験を行った。 本研究では, 結合強度(あるいは, 結合強度に対するオンサイト相互作用)を変化させる時間と, 粒子数や初期状態における位置が, トランスモンの2レベル近似を評価する方法として機能するかどうかを定量的に示す。 最後に,transmon qubitsを用いた実験結果と比較した。

Quantum quench is a typical protocol in the study of nonequilibrium dynamics of quantum many-body systems. Recently, a number of experiments with superconducting transmon qubits are reported, in which the spin and hard-core boson models with two energy levels on individual sites are used. The transmons are a multilevel system and the coupled qubits are governed by the Bose-Hubbard model. How well they can be approximated by a two-level system has been discussed and analysed in different ways for specific experiments in the literature. Here, we numerically investigate the accuracy and validity of the two-level approximation for the multilevel transmons based on the concept of Loschmidt echo. Using this method, we are able to calculate the fidelity decay (i.e., the time-dependent overlap of evolving wave functions) due to the state leakage to transmon high energy levels. We present the results for different system Hamiltonians with various initial states, qubit coupling strength, and external driving, and for two kinds of quantum quench experiments with time reversal and time evolution in one direction. We show quantitatively the extent to which the fidelity decays with time for changing coupling strength (or on-site interaction over coupling strength) and filled particle number or locations in the initial states under specific system Hamiltonians, which may serve as a way for assessing the two-level approximation of transmons. Finally, we compare our results with the reported experiments using transmon qubits.
翻訳日:2023-10-05 22:30:25 公開日:2023-10-04
# raynet:強化学習駆動ネットワークプロトコル開発のためのシミュレーションプラットフォーム

RayNet: A Simulation Platform for Developing Reinforcement Learning-Driven Network Protocols ( http://arxiv.org/abs/2302.04519v2 )

ライセンス: Link先を確認
Luca Giacomoni, Basil Benny, George Parisis(参考訳) 強化学習(RL)はネットワークプロトコルの開発において大きな勢いを増している。 しかし、RLベースのプロトコルはまだ初期段階であり、デプロイ可能なソリューションを構築するにはかなりの研究が必要である。 rlに基づくプロトコルの開発は、いくつかのモデル設計の決定を伴う複雑で困難なプロセスであり、実ネットワークトポロジーとシミュレーションネットワークトポロジーにおいて重要なトレーニングと評価を必要とする。 ネットワークシミュレータは、決定論的であり並列実行が可能なため、RLベースのプロトコルの効率的なトレーニング環境を提供する。 本稿では,RL ベースのネットワークプロトコルを開発するためのスケーラブルで適応可能なシミュレーションプラットフォームである \textit{RayNet} を紹介する。 RayNetは、完全にプログラム可能なネットワークシミュレータであるOMNeT++と、分散RLのためのスケーラブルなトレーニングプラットフォームであるRay/RLlibを統合している。 raynetはrlベースのネットワークプロトコルの方法論的な開発を促進するので、研究者は研究の学習側面の実装の詳細ではなく、目の前の問題に集中することができる。 我々は,コンピュータネットワークにおけるRLベースの研究において,RayNetが有用なプラットフォームになり得ることを示す概念実証として,シンプルなRLベースの渋滞制御手法を開発した。 RayNetと同じような目的を持つプラットフォームである‘textit{ns3-gym}’と比較したところ、エージェントがRL環境での体験を迅速に収集できるという点で、RayNetは優れたパフォーマンスを示している。

Reinforcement Learning (RL) has gained significant momentum in the development of network protocols. However, RL-based protocols are still in their infancy, and substantial research is required to build deployable solutions. Developing a protocol based on RL is a complex and challenging process that involves several model design decisions and requires significant training and evaluation in real and simulated network topologies. Network simulators offer an efficient training environment for RL-based protocols, because they are deterministic and can run in parallel. In this paper, we introduce \textit{RayNet}, a scalable and adaptable simulation platform for the development of RL-based network protocols. RayNet integrates OMNeT++, a fully programmable network simulator, with Ray/RLlib, a scalable training platform for distributed RL. RayNet facilitates the methodical development of RL-based network protocols so that researchers can focus on the problem at hand and not on implementation details of the learning aspect of their research. We developed a simple RL-based congestion control approach as a proof of concept showcasing that RayNet can be a valuable platform for RL-based research in computer networks, enabling scalable training and evaluation. We compared RayNet with \textit{ns3-gym}, a platform with similar objectives to RayNet, and showed that RayNet performs better in terms of how fast agents can collect experience in RL environments.
翻訳日:2023-10-05 22:29:59 公開日:2023-10-04
# フーリエ変換を用いたニューラル時系列解析:サーベイ

Neural Time Series Analysis with Fourier Transform: A Survey ( http://arxiv.org/abs/2302.02173v3 )

ライセンス: Link先を確認
Kun Yi and Qi Zhang and Shoujin Wang and Guodong Long and Hui He and Zhendong Niu(参考訳) 近年、フーリエ変換が深層ニューラルネットワークに広く導入され、時系列解析の精度と効率の両面で最先端技術が進歩している。 効率性やグローバルビューなどの時系列解析におけるフーリエ変換の利点は急速に研究され、時系列解析のための有望なディープラーニングパラダイムが提示されている。 しかし、この新興地域では注目が高まり、研究が盛んになっているが、既存の研究の体系的な見直しが欠如している。 そこで本稿では,フーリエ変換を用いた時系列解析の研究の包括的レビューを行う。 我々は,最新の研究成果を体系的に調査し,要約することを目的とする。 そこで我々は,既存のニューラルネットワーク時系列解析手法を特徴,利用パラダイム,ネットワーク設計,応用の4つの観点から分類する新しい分類法を提案する。 我々はまた、この活気ある地域で新しい研究の方向性を共有している。

Recently, Fourier transform has been widely introduced into deep neural networks to further advance the state-of-the-art regarding both accuracy and efficiency of time series analysis. The advantages of the Fourier transform for time series analysis, such as efficiency and global view, have been rapidly explored and exploited, exhibiting a promising deep learning paradigm for time series analysis. However, although increasing attention has been attracted and research is flourishing in this emerging area, there lacks a systematic review of the variety of existing studies in the area. To this end, in this paper, we provide a comprehensive review of studies on neural time series analysis with Fourier transform. We aim to systematically investigate and summarize the latest research progress. Accordingly, we propose a novel taxonomy to categorize existing neural time series analysis methods from four perspectives, including characteristics, usage paradigms, network design, and applications. We also share some new research directions in this vibrant area.
翻訳日:2023-10-05 22:29:21 公開日:2023-10-04
# 複数の準粒子型を持つ閉および開量子多体系の系列展開

Series expansions in closed and open quantum many-body systems with multiple quasiparticle types ( http://arxiv.org/abs/2302.01000v2 )

ライセンス: Link先を確認
L. Lenke, A. Schellenberger, K. P. Schmidt(参考訳) 摂動連続ユニタリ変換(pCUTs)の確立されたアプローチは、1つの準粒子型の数を保存する摂動級数として有効な量子多体ハミルトニアンを構成する。 複素数値エネルギーを持つ複数の準粒子に対して$\mathrm{pcst}^{\texttt{++}}$allowing と呼ばれる類似変換に pCUT 法を拡張する。 これにより、任意の重畳ラダースペクトルに対応する非摂動作用素を持つ閉および開量子多体系への応用分野が拡大される。 この目的のために、シュミーディンホフとuhrig (arxiv:2203.15532) が最近導入したオープン量子システムの準粒子生成器と一般化数え算演算子を組み合わせる。 すると $\mathrm{pcst}^{\texttt{++}}$ はモデル非依存のブロック対角有効ハミルトニアンとリンドブラディアンは、従来の pCUT 法と同様の熱力学極限における連結クラスター展開を可能にする。 代表的閉かつ開かつ非エルミート量子系を議論することで、$\mathrm{pcst}^{\texttt{++}}$法の応用を説明する。

The established approach of perturbative continuous unitary transformations (pCUTs) constructs effective quantum many-body Hamiltonians as perturbative series that conserve the number of one quasiparticle type. We extend the pCUT method to similarity transformations - dubbed $\mathrm{pcst}^{\texttt{++}}$ - allowing for multiple quasiparticle types with complex-valued energies. This enlarges the field of application to closed and open quantum many-body systems with unperturbed operators corresponding to arbitrary superimposed ladder spectra. To this end, a generalized counting operator is combined with the quasiparticle generator for open quantum systems recently introduced by Schmiedinghoff and Uhrig (arXiv:2203.15532). The $\mathrm{pcst}^{\texttt{++}}$ then yields model-independent block-diagonal effective Hamiltonians and Lindbladians allowing a linked-cluster expansion in the thermodynamic limit similar to the conventional pCUT method. We illustrate the application of the $\mathrm{pcst}^{\texttt{++}}$ method by discussing representative closed, open, and non-Hermitian quantum systems.
翻訳日:2023-10-05 22:28:42 公開日:2023-10-04
# 電子構造計算のためのハイブリッドテンソルネットワークを用いた量子計算量子モンテカルロ

Quantum computing quantum Monte Carlo with hybrid tensor network for electronic structure calculations ( http://arxiv.org/abs/2303.18095v2 )

ライセンス: Link先を確認
Shu Kanno, Hajime Nakamura, Takao Kobayashi, Shigeki Gocho, Miho Hatanaka, Naoki Yamamoto, Qi Gao(参考訳) 量子計算量子モンテカルロ(Quantum computing quantum Monte Carlo, QC-QMC)は、変分量子固有解法(VQE)のような量子アルゴリズムと組み合わせて、VQEまたはQMC単独よりも高い精度で基底状態を得るアルゴリズムである。 本稿では,QC-QMCとハイブリッドテンソルネットワーク(HTN)を組み合わせるアルゴリズムを提案する。 2層量子量子木テンソルにおけるHTNの場合、$O(n^2)$-qubitトライアル波動関数のHTN+QMCは、アンシラ量子ビットを除く$n$-qubitデバイスでしか実行できない。 本アルゴリズムは, ハイゼンベルク連鎖モデル, グラファイト系ハバードモデル, 水素平面モデル, およびフル構成相互作用QMCを用いたMonoArylBiImidazoleを用いて評価した。 このアルゴリズムはVQEやQMCよりも数桁高いエネルギー精度を達成でき、HTN+QMCはシステムが適切に分解されたときにQC-QMCと同じエネルギー精度を与える。 さらに,実験波動関数と標準基底状態との重複計算を効率的に行える擬似アダマール試験法を開発した。 本手法を用いて実機実験を行ったところ,HTN+QMCの耐雑音性を示す状態ベクトルシミュレータとほぼ同等の精度が得られた。

Quantum computing quantum Monte Carlo (QC-QMC) is an algorithm that can be combined with quantum algorithms such as variational quantum eigensolver (VQE) to obtain the ground state with higher accuracy than either VQE or QMC alone. Here we propose an algorithm combining QC-QMC with hybrid tensor network (HTN) to extend the applicability of QC-QMC for the system beyond the size of a single quantum device, called HTN+QMC. For HTN in a two-layer quantum-quantum tree tensor, HTN+QMC for an $O(n^2)$-qubit trial wave function can be executed by using only a $n$-qubit device excluding ancilla qubits. Our algorithm is evaluated on the Heisenberg chain model, the graphite-based Hubbard model, the hydrogen plane model, and MonoArylBiImidazole using full configuration interaction QMC. We found that the algorithm can achieve energy accuracy several orders of magnitude higher than VQE or QMC, and HTN+QMC gives the same energy accuracy as QC-QMC when the system is appropriately decomposed. Moreover, we develop a pseudo-Hadamard test technique that enables efficient overlap calculations between a trial wave function and a standard basis state. In a real device experiment using the technique, we obtained almost the same accuracy as the statevector simulator, indicating the noise robustness of HTN+QMC.
翻訳日:2023-10-05 22:22:40 公開日:2023-10-04
# 弱監視学習のためのベンチマーク生成確率モデル

A Benchmark Generative Probabilistic Model for Weak Supervised Learning ( http://arxiv.org/abs/2303.17841v2 )

ライセンス: Link先を確認
Georgios Papadopoulos, Fran Silavong, Sean Moran(参考訳) マシンラーニングモデルのトレーニングに関連し、高品質なデータセットを見つけることは、実践者にとって大きなボトルネックである。 さらに、野心的な現実世界のユースケースに対処するためには、通常、データは教師付きモデルのトレーニングを容易にする高品質なアノテーションでラベル付けされる必要がある。 高品質なラベルでデータを手作業でラベル付けするのは、一般的には時間のかかる課題であり、マシンラーニングプロジェクトではボトルネックになることが多い。 Weak Supervised Learning (WSL) アプローチは、ヒューリスティックス、遠隔監視、知識ベースに基づく未学習データに近似ラベル(擬似ラベル)を割り当てる自動方法を提供することで、アノテーションの負担を軽減するために開発された。 確率的生成潜在変数モデル (PLVM) を用いて, 元のデータセットのヒューリスティックなラベリング表現を訓練し, 擬似ラベルを生成する精度, 高速かつコスト効率のよい方法を提案する。 PLVMは4つのデータセットにまたがって最先端のパフォーマンスを実現する。 例えば、クラス不均衡なSpuseデータセットでは、SnorkelよりもF1スコアが22%高い。 plvmはプラグイン・アンド・プレイ可能で、既存のwslフレームワーク(例えばsnorkel)に置き換えられるか、より複雑なアルゴリズムのベンチマークモデルとして使用できる。

Finding relevant and high-quality datasets to train machine learning models is a major bottleneck for practitioners. Furthermore, to address ambitious real-world use-cases there is usually the requirement that the data come labelled with high-quality annotations that can facilitate the training of a supervised model. Manually labelling data with high-quality labels is generally a time-consuming and challenging task and often this turns out to be the bottleneck in a machine learning project. Weak Supervised Learning (WSL) approaches have been developed to alleviate the annotation burden by offering an automatic way of assigning approximate labels (pseudo-labels) to unlabelled data based on heuristics, distant supervision and knowledge bases. We apply probabilistic generative latent variable models (PLVMs), trained on heuristic labelling representations of the original dataset, as an accurate, fast and cost-effective way to generate pseudo-labels. We show that the PLVMs achieve state-of-the-art performance across four datasets. For example, they achieve 22% points higher F1 score than Snorkel in the class-imbalanced Spouse dataset. PLVMs are plug-and-playable and are a drop-in replacement to existing WSL frameworks (e.g. Snorkel) or they can be used as benchmark models for more complicated algorithms, giving practitioners a compelling accuracy boost.
翻訳日:2023-10-05 22:22:13 公開日:2023-10-04
# 深層学習モデル変換器の故障とリスクの分析:ONNXエコシステムを事例として

Analysis of Failures and Risks in Deep Learning Model Converters: A Case Study in the ONNX Ecosystem ( http://arxiv.org/abs/2303.17708v2 )

ライセンス: Link先を確認
Purvish Jajal, Wenxin Jiang, Arav Tewari, Joseph Woo, George K. Thiruvathukal, James C. Davis(参考訳) 多くのソフトウェアエンジニアがディープラーニング(DL)モデルを開発、微調整、デプロイしています。 彼らは様々な開発フレームワークでDLモデルを使用し、様々なランタイム環境にデプロイします。 この多様なエコシステムにおいて、エンジニアはdlモデルコンバータを使用してモデルをフレームワークからランタイム環境に移行する。 変換エラーはモデル品質を損ね、デプロイを混乱させる。 しかし,DLモデルコンバータの故障モードやパターンは不明である。 この知識のギャップは、dl相互運用性技術にエンジニアリングリスクをもたらします。 本稿では,dlモデル変換器における最初の故障解析を行う。 具体的には、ONNX(Open Neural Network eXchange)に関連するモデルコンバータの故障を特徴付ける。 我々は、主要な2つのDLフレームワークであるPyTorchとTensorFlowのONNXコンバータの障害を分析する。 n=200問題では、症状、原因、障害の場所が報告される。 また,実環境および合成生成インスタンスの5,149モデルを変換することで,モデルがフェールする理由を評価する。 テストを通じて、 torch.onnx、tf2onnx、NNXRuntimeにまたがる11の欠陥(5つの新しい)を見つけました。 モデル演算子とコンバータ故障の関係に関する2つの仮説を評価し,一方と他方の等価な結果について検討した。 モデルコンバータの現在のテスト戦略の弱点について記述し、注意する。 我々の成果は、DLソフトウェアをメンテナンス、拡張、検証しやすくするための将来の研究を動機付けている。

Many software engineers develop, fine-tune, and deploy deep learning (DL) models. They use DL models in a variety of development frameworks and deploy to a range of runtime environments. In this diverse ecosystem, engineers use DL model converters to move models from frameworks to runtime environments. Conversion errors compromise model quality and disrupt deployment. However, failure modes and patterns of DL model converters are unknown. This knowledge gap adds engineering risk in DL interoperability technologies. In this paper, we conduct the first failure analysis on DL model converters. Specifically, we characterize failures in model converters associated with ONNX (Open Neural Network eXchange). We analyze failures in the ONNX converters for two major DL frameworks, PyTorch and TensorFlow. The symptoms, causes, and locations of failures are reported for N=200 issues. We also evaluate why models fail by converting 5,149 models, both real-world and synthetically generated instances. Through the course of our testing, we find 11 defects (5 new) across torch.onnx, tf2onnx, and the ONNXRuntime. We evaluated two hypotheses about the relationship between model operators and converter failures, falsifying one and with equivocal results on the other. We describe and note weaknesses in the current testing strategies for model converters. Our results motivate future research on making DL software simpler to maintain, extend, and validate.
翻訳日:2023-10-05 22:21:51 公開日:2023-10-04
# 改良された異方性ガウスフィルタ

Improved Anisotropic Gaussian Filters ( http://arxiv.org/abs/2303.13278v2 )

ライセンス: Link先を確認
Alex Keilmann, Michael Godehardt, Ali Moghiseh, Claudia Redenbach, Katja Schladitz(参考訳) 伸長異方性ガウスフィルタは繊維の配向推定に使用される。 計算トモグラフィ画像が騒々しく、大まかに解決され、低コントラストの場合には、仮想2次元スライスでのみ効率が良くても選択の方法である。 しかし、異方性ガウスフィルタの小さな不正確さは、向き推定に引き継がれることがある。 そこで本研究では,2次元異方性ガウスフィルタの修正アルゴリズムを提案する。 ファイババンドルの合成画像に適用すると、ノイズに対してより正確でロバストである。 最後に, 本手法の有効性を, シート成形物の実画像に適用することにより示す。

Elongated anisotropic Gaussian filters are used for the orientation estimation of fibers. In cases where computed tomography images are noisy, roughly resolved, and of low contrast, they are the method of choice even if being efficient only in virtual 2D slices. However, minor inaccuracies in the anisotropic Gaussian filters can carry over to the orientation estimation. Therefore, this paper proposes a modified algorithm for 2D anisotropic Gaussian filters and shows that this improves their precision. Applied to synthetic images of fiber bundles, it is more accurate and robust to noise. Finally, the effectiveness of the approach is shown by applying it to real-world images of sheet molding compounds.
翻訳日:2023-10-05 22:21:32 公開日:2023-10-04
# 分節情報ボトルネックを有する異型オートエンコーダ

Variantional autoencoder with decremental information bottleneck for disentanglement ( http://arxiv.org/abs/2303.12959v2 )

ライセンス: Link先を確認
Jiantao Wu, Shentong Mo, Xiang Yang, Muhammad Awais, Sara Atito, Xingshen Zhang, Lin Wang, Xiang Yang(参考訳) 変分オートエンコーダとの絡み合い学習の大きな課題は、絡み合いと再構成の忠実さのトレードオフである。 トレーニング中の情報のボトルネックを増大させる以前の研究は、絡み合いの制約を失う傾向にあり、情報拡散問題を引き起こす。 本稿では,これらの空間にまたがる情報ボトルネックを低減し,階層的潜在空間を活用し,分散表現学習のための新しい枠組みであるdevaeを提案する。 本手法の重要な革新は,不等角-不変変換を通じて階層的潜在空間を接続し,不等角化特性を空間間で共有し,許容される再構成性能を保ちながら共有することである。 一連の実験とdSpriteとShapes3Dデータセットのアブレーション研究を通じて, ゆがみと復元のバランスを達成する上でのDeVAEの有効性を実証した。 コードはhttps://github.com/erow/disentanglement_lib/tree/pytorch#devaeで入手できる。

One major challenge of disentanglement learning with variational autoencoders is the trade-off between disentanglement and reconstruction fidelity. Previous studies, which increase the information bottleneck during training, tend to lose the constraint of disentanglement, leading to the information diffusion problem. In this paper, we present a novel framework for disentangled representation learning, DeVAE, which utilizes hierarchical latent spaces with decreasing information bottlenecks across these spaces. The key innovation of our approach lies in connecting the hierarchical latent spaces through disentanglement-invariant transformations, allowing the sharing of disentanglement properties among spaces while maintaining an acceptable level of reconstruction performance. We demonstrate the effectiveness of DeVAE in achieving a balance between disentanglement and reconstruction through a series of experiments and ablation studies on dSprites and Shapes3D datasets. Code is available at https://github.com/erow/disentanglement_lib/tree/pytorch#devae.
翻訳日:2023-10-05 22:21:21 公開日:2023-10-04
# CompoDiff:Versatileの合成画像検索と遅延拡散

CompoDiff: Versatile Composed Image Retrieval With Latent Diffusion ( http://arxiv.org/abs/2303.11916v2 )

ライセンス: Link先を確認
Geonmo Gu and Sanghyuk Chun and Wonjae Kim and HeeJae Jun and Yoohoon Kang and Sangdoo Yun(参考訳) 本稿では,CIR(Compose Image Retrieval)を遅延拡散で解くための新しい拡散モデルCompoDiffを提案し,800万個の参照画像,条件,およびそれに対応するターゲット画像三重項からなるSynthTriplets18Mというデータセットを新たに作成した。 CompoDiffとSynthTriplets18Mは、小さなデータセットスケールと限られた条件による一般化性の低下など、従来のCIRアプローチの不足に対処している。 compodiffは、fashiq、cirr、circo、genecisを含む4つのcirベンチマークで新たなゼロショット状態を達成するだけでなく、ネガティブテキストやイメージマスク条件などのさまざまな条件を受け入れ、複数のクエリや推論速度と既存のcirメソッドでは利用できないパフォーマンスとのトレードオフの重要性に対する制御性によって、より汎用的で制御可能なcirを実現する。 コードとデータセットはhttps://github.com/navervision/compodiffで入手できる。

This paper proposes a novel diffusion-based model, CompoDiff, for solving Composed Image Retrieval (CIR) with latent diffusion and presents a newly created dataset, named SynthTriplets18M, of 18 million reference images, conditions, and corresponding target image triplets to train the model. CompoDiff and SynthTriplets18M tackle the shortages of the previous CIR approaches, such as poor generalizability due to the small dataset scale and the limited types of conditions. CompoDiff not only achieves a new zero-shot state-of-the-art on four CIR benchmarks, including FashionIQ, CIRR, CIRCO, and GeneCIS, but also enables a more versatile and controllable CIR by accepting various conditions, such as negative text and image mask conditions, and the controllability to the importance between multiple queries or the trade-off between inference speed and the performance which are unavailable with existing CIR methods. The code and dataset are available at https://github.com/navervision/CompoDiff
翻訳日:2023-10-05 22:21:05 公開日:2023-10-04
# 神経骨格機械 : 神経生存回帰における比例ハザード仮定を超える

Neural Frailty Machine: Beyond proportional hazard assumption in neural survival regressions ( http://arxiv.org/abs/2303.10358v2 )

ライセンス: Link先を確認
Ruofan Wu, Jiawei Qiao, Mingzhe Wu, Wen Yu, Ming Zheng, Tengfei Liu, Tianyi Zhang, Weiqiang Wang(参考訳) 我々は,生存回帰のための強力で柔軟なニューラルネットワークモデリングフレームワークであるneural frailty machine(nfm)を提案する。 NFMフレームワークは、生存分析における乗法的欠陥という古典的な考え方を利用して、個人間の不均一性を捉えると同時に、非線形共変量依存を扱うためにニューラルネットワークの強い近似力を利用することができる。 2つの具体的なモデルは、神経比例ハザードモデルと非パラメトリックハザード回帰モデルを拡張する枠組みの下で導出される。 どちらのモデルも、潜在的目的の下で効率的なトレーニングを可能にする。 理論的には,両モデルとも,その収束率を特徴付けることにより,非パラメトリック成分に対する神経関数近似の統計的保証を確立する。 理論的ステートメントを検証するための合成実験を経験的に提供する。 また、様々なスケールのベンチマークデータセットを6ドル以上にわたって実験的に評価し、提案するnfmモデルが予測性能の点で最先端のサバイバルモデルを上回ることを示した。 私たちのコードはhttps://github.com/Rorschach1989/nfmで公開されています

We present neural frailty machine (NFM), a powerful and flexible neural modeling framework for survival regressions. The NFM framework utilizes the classical idea of multiplicative frailty in survival analysis to capture unobserved heterogeneity among individuals, at the same time being able to leverage the strong approximation power of neural architectures for handling nonlinear covariate dependence. Two concrete models are derived under the framework that extends neural proportional hazard models and nonparametric hazard regression models. Both models allow efficient training under the likelihood objective. Theoretically, for both proposed models, we establish statistical guarantees of neural function approximation with respect to nonparametric components via characterizing their rate of convergence. Empirically, we provide synthetic experiments that verify our theoretical statements. We also conduct experimental evaluations over $6$ benchmark datasets of different scales, showing that the proposed NFM models outperform state-of-the-art survival models in terms of predictive performance. Our code is publicly availabel at https://github.com/Rorschach1989/nfm
翻訳日:2023-10-05 22:20:42 公開日:2023-10-04
# 説明から学ぶときの摂動の利用

Use Perturbations when Learning from Explanations ( http://arxiv.org/abs/2303.06419v2 )

ライセンス: Link先を確認
Juyeon Heo, Vihari Piratla, Matthew Wicker, Adrian Weller(参考訳) mlx(machine learning from explanations)は、モデル予測が正しい理由のために正しいことを保証するために、各入力に関連する、あるいは無関係な特徴の人間による説明を使用する学習のアプローチである。 既存のmlxアプローチは局所的なモデル解釈メソッドに依存しており、モデルと人間の説明を調整するために強力なモデル平滑化が必要である。 我々はMLXを頑健性問題として再考し、人間の説明では摂動が引き起こされる低次元多様体を規定し、このアプローチが強いモデル平滑化の必要性をいかに緩和するかを理論的および実証的に示す。 我々は、堅牢性を達成するための様々なアプローチを検討し、従来のmlxメソッドよりもパフォーマンスが向上した。 最後に,従来のMLX手法とロバスト性を組み合わせる方法を示し,合成および実世界のベンチマークで最先端の結果を得る。

Machine learning from explanations (MLX) is an approach to learning that uses human-provided explanations of relevant or irrelevant features for each input to ensure that model predictions are right for the right reasons. Existing MLX approaches rely on local model interpretation methods and require strong model smoothing to align model and human explanations, leading to sub-optimal performance. We recast MLX as a robustness problem, where human explanations specify a lower dimensional manifold from which perturbations can be drawn, and show both theoretically and empirically how this approach alleviates the need for strong model smoothing. We consider various approaches to achieving robustness, leading to improved performance over prior MLX methods. Finally, we show how to combine robustness with an earlier MLX method, yielding state-of-the-art results on both synthetic and real-world benchmarks.
翻訳日:2023-10-05 22:20:23 公開日:2023-10-04
# 自由視点照明とシーン構成のための物体中心神経散乱関数の学習

Learning Object-Centric Neural Scattering Functions for Free-Viewpoint Relighting and Scene Composition ( http://arxiv.org/abs/2303.06138v4 )

ライセンス: Link先を確認
Hong-Xing Yu, Michelle Guo, Alireza Fathi, Yen-Yu Chang, Eric Ryan Chan, Ruohan Gao, Thomas Funkhouser, Jiajun Wu(参考訳) 2次元画像からのフォトリアリスティックオブジェクトの外観モデリングは、視覚とグラフィックスにおいて一定のトピックである。 ニューラルネットワークの暗黙的手法(ニューラルネットワークの放射場など)は高忠実度なビュー合成結果を示しているが、捕獲されたオブジェクトをリフレッシュすることはできない。 より最近のニューラルネットワークの逆レンダリング手法は、物体の照準を可能にするが、表面特性を単純なBRDFとして表すため、半透明物体を扱えない。 画像のみからオブジェクトの外観を再構築する学習のためのオブジェクト指向ニューラル散乱関数(OSF)を提案する。 OSFは、自由視点オブジェクトのリライトだけでなく、不透明なオブジェクトと半透明なオブジェクトの両方をモデル化できる。 半透明物体の地下光輸送を正確にモデル化することは、非常に複雑で、神経学的手法でも難解であるが、OSFは、遠方の光から任意の空間的位置における出射方向への放射移動を近似することを学ぶ。 この近似は、複雑な地下散乱を明示的にモデル化することを避け、ニューラルネットワークの暗黙モデルを学ぶことができる。 実データと合成データの実験により、OSFは不透明な物体と半透明な物体の両方の外観を正確に再構成し、忠実な自由視点のリライティングとシーン構成を可能にした。

Photorealistic object appearance modeling from 2D images is a constant topic in vision and graphics. While neural implicit methods (such as Neural Radiance Fields) have shown high-fidelity view synthesis results, they cannot relight the captured objects. More recent neural inverse rendering approaches have enabled object relighting, but they represent surface properties as simple BRDFs, and therefore cannot handle translucent objects. We propose Object-Centric Neural Scattering Functions (OSFs) for learning to reconstruct object appearance from only images. OSFs not only support free-viewpoint object relighting, but also can model both opaque and translucent objects. While accurately modeling subsurface light transport for translucent objects can be highly complex and even intractable for neural methods, OSFs learn to approximate the radiance transfer from a distant light to an outgoing direction at any spatial location. This approximation avoids explicitly modeling complex subsurface scattering, making learning a neural implicit model tractable. Experiments on real and synthetic data show that OSFs accurately reconstruct appearances for both opaque and translucent objects, allowing faithful free-viewpoint relighting as well as scene composition.
翻訳日:2023-10-05 22:20:04 公開日:2023-10-04
# 効率的な2次元ビデオグラウンドティングのためのテキスト・ビジュアル・プロンプティング

Text-Visual Prompting for Efficient 2D Temporal Video Grounding ( http://arxiv.org/abs/2303.04995v3 )

ライセンス: Link先を確認
Yimeng Zhang, Xin Chen, Jinghan Jia, Sijia Liu, Ke Ding(参考訳) 本稿では,長編未編集ビデオにおけるテキスト記述の開始時点と終了時点の予測を目的とした,時間的ビデオグラウンドリング(TVG)の問題について検討する。 細粒度の3D視覚的特徴を活かしたTVG技術は,近年,目覚ましい進歩を遂げている。 しかし、3D畳み込みニューラルネットワーク(CNN)の複雑さが高いため、高密度な3D視覚特徴の抽出には時間を要する。 そこで我々は,TVGモデルの視覚的入力とテキスト的特徴の両方に,最適化された摂動パターン("prompts"と呼ぶ)を組み込んだ,新しいテキスト視覚プロンプト(TVP)フレームワークを提案する。 3d cnnとは対照的に,2d tvgモデルでは視覚エンコーダと言語エンコーダを効果的に共訓練でき,低複雑さのスパース2d視覚機能のみを用いたクロスモーダル特徴融合の性能が向上することを示す。 さらに,TVGを効率的に学習するための時間距離IoU(TDIoU)損失を提案する。 2つのベンチマークデータセットであるCharades-STAとActivityNet Captionsデータセットの実験では、提案されたTVPが2D TVG(例えば、Charades-STAは9.79%改善、ActivityNet Captionsは30.77%改善)の性能を大幅に向上し、TVGよりも5倍の推論加速を実現している。 コードはOpen.Intelで入手できる。

In this paper, we study the problem of temporal video grounding (TVG), which aims to predict the starting/ending time points of moments described by a text sentence within a long untrimmed video. Benefiting from fine-grained 3D visual features, the TVG techniques have achieved remarkable progress in recent years. However, the high complexity of 3D convolutional neural networks (CNNs) makes extracting dense 3D visual features time-consuming, which calls for intensive memory and computing resources. Towards efficient TVG, we propose a novel text-visual prompting (TVP) framework, which incorporates optimized perturbation patterns (that we call 'prompts') into both visual inputs and textual features of a TVG model. In sharp contrast to 3D CNNs, we show that TVP allows us to effectively co-train vision encoder and language encoder in a 2D TVG model and improves the performance of crossmodal feature fusion using only low-complexity sparse 2D visual features. Further, we propose a Temporal-Distance IoU (TDIoU) loss for efficient learning of TVG. Experiments on two benchmark datasets, Charades-STA and ActivityNet Captions datasets, empirically show that the proposed TVP significantly boosts the performance of 2D TVG (e.g., 9.79% improvement on Charades-STA and 30.77% improvement on ActivityNet Captions) and achieves 5x inference acceleration over TVG using 3D visual features. Codes are available at Open.Intel.
翻訳日:2023-10-05 22:19:41 公開日:2023-10-04
# 古典的部分同型暗号に適合するXOR不定形転送に基づく量子線形多項式評価

Quantum linear polynomial evaluation based on XOR oblivious transfer compatible with classical partially homomorphic encryption ( http://arxiv.org/abs/2305.11114v5 )

ライセンス: Link先を確認
Li Yu, Jie Xu, Fuqun Wang, Chui-Ping Yang(参考訳) XORoblivious Transferは、線形多項式評価に関連する普遍的な暗号プリミティブである。 まず、一方のパーティが不正である場合に安全でないXORオブリバスト転送のための二部量子プロトコルを導入し、そのいくつかを古典的なXOR同型暗号スキームと組み合わせて線形多項式 modulo 2 をハイブリッドセキュリティで評価する。 次に,線形多項式モジュラー2を部分情報理論のセキュリティで評価するために,XORの修正版を用いた汎用プロトコルを導入する。 任意の量子計算を行う能力と組み合わせると、これは決定論的に対話的な2要素計算につながり、入力の集合が大きければ情報理論的な意味で非常に安全である。 古典関数評価の課題として,量子計算手法は依然として有効であるが,提案する線形多項式評価プロトコルに基づく純粋に古典的後処理法についても論じる。

XOR oblivious transfer is a universal cryptographic primitive that can be related to linear polynomial evaluation. We firstly introduce some bipartite quantum protocols for XOR oblivious transfer, which are not secure if one party cheats, and some of them can be combined with a classical XOR homomorphic encryption scheme for evaluation of linear polynomials modulo 2 with hybrid security. We then introduce a general protocol using modified versions of the XOR oblivious transfer protocols to evaluate linear polynomials modulo 2 with partial information-theoretic security. When combined with the ability to perform arbitrary quantum computation, this would lead to deterministic interactive two-party computation which is quite secure in the information-theoretic sense when the allowed set of inputs is large. For the task of classical function evaluation, although the quantum computation approach is still usable, we also discuss purely classical post-processing methods based on the proposed linear polynomial evaluation protocols.
翻訳日:2023-10-05 22:10:55 公開日:2023-10-04
# 大規模ランガウジモデルにおけるシンボリック・プロンプト・エリシット計画

Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models ( http://arxiv.org/abs/2305.10276v6 )

ライセンス: Link先を確認
Hanxu Hu, Hongyuan Lu, Huajian Zhang, Yun-Ze Song, Wai Lam, Yue Zhang(参考訳) 本稿では,LLMが自然言語でシミュレートされた仮想空間環境を理解し,テキストで行動するために必要な複雑な計画課題におけるLLMの性能について検討する。 我々は、Brick World、NLVRベースのManipulations、Natural Language Navigationという一連の新しいタスクからなるNatural Language Planning and Action(Natala)というベンチマークを提案する。 現在の一般的なLLMであるChatGPTは、複雑な計画にはまだ能力がないことがわかった。 LLMは自然言語で記述された環境をよく理解しているのか、それとも記号表現のような他の代替手段はよりきれいで、LLMで理解しやすいのか? そこで本研究では,シンボリック空間表現が凝縮した複雑な環境を表現する新しい手法であるcos(chain-of-symbol prompting)を提案する。 CoSは使いやすく、LLMに関する追加のトレーニングは必要ありません。 大規模な実験の結果,CoT は ChatGPT と InstructGPT の CoT と比較して,入力に使用するトークンがさらに少ない3つの計画タスクにおいて,CoT プロンプトの性能を明らかに上回っていることがわかった。 Brick World for ChatGPTでは60.8%(31.8%から92.6%)の精度でパフォーマンスが向上した。 CoSはまた、ブリック・ワールドでのデモから中間段階のトークン(407から139まで)の65.8%まで、プロンプト内のトークンの数を明らかに削減している。 https://github.com/hanxuhu/chain-of-symbol-planning

In this paper, we take the initiative to investigate the performance of LLMs on complex planning tasks that require LLMs to understand a virtual spatial environment simulated via natural language and act correspondingly in text. We propose a benchmark named Natural Language Planning and Action (Natala) composed of a set of novel tasks: Brick World, NLVR-based Manipulations, and Natural Language Navigation. We found that current popular LLMs such as ChatGPT still lack abilities in complex planning. This arises a question -- do the LLMs have a good understanding of the environments described in natural language, or maybe other alternatives such as symbolic representations are neater and hence better to be understood by LLMs? To this end, we propose a novel method called CoS (Chain-of-Symbol Prompting) that represents the complex environments with condensed symbolic spatial representations during the chained intermediate thinking steps. CoS is easy to use and does not need additional training on LLMs. Extensive experiments indicate that CoS clearly surpasses the performance of the Chain-of-Thought (CoT) Prompting in all three planning tasks with even fewer tokens used in the inputs compared with CoT on ChatGPT and InstructGPT. The performance gain is strong, by up to 60.8% accuracy (from 31.8% to 92.6%) on Brick World for ChatGPT. CoS also reduces the number of tokens in the prompt obviously, by up to 65.8% of the tokens (from 407 to 139) for the intermediate steps from demonstrations on Brick World. Code and data available at: https://github.com/hanxuhu/chain-of-symbol-planning
翻訳日:2023-10-05 22:10:32 公開日:2023-10-04
# ブラッグパルス列のコヒーレントエンハンスメントによる原子干渉計測

Atom interferometry with coherent enhancement of Bragg pulse sequences ( http://arxiv.org/abs/2305.09507v2 )

ライセンス: Link先を確認
Ashley B\'eguin, Tangui Rodzinka, L\'eo Calmels, Baptiste Allard, Alexandre Gauguet(参考訳) 本稿では,ブラッグ遷移列に基づく大運動量移動原子光学を用いた光パルス原子干渉計の実現について報告する。 超低温原子干渉計で200個の光子反動を分離する運動量を示す。 ビームスプリッタの大幅な効率向上につながる損失の破壊的干渉のメカニズムを強調した。 擬似ブラッグパルスの固有マルチポート特性による寄生干渉計の包括的研究を行う。 最後に,位相シフトの強化を実験的に検証し,干渉計の可視性損失を特徴付ける。

We report here on the realization of light-pulse atom interferometers with Large-momentum-transfer atom optics based on a sequence of Bragg transitions. We demonstrate momentum splitting up to 200 photon recoils in an ultra-cold atom interferometer. We highlight a new mechanism of destructive interference of the losses leading to a sizeable efficiency enhancement of the beam splitters. We perform a comprehensive study of parasitic interferometers due to the inherent multi-port feature of the quasi-Bragg pulses. Finally, we experimentally verify the phase shift enhancement and characterize the interferometer visibility loss.
翻訳日:2023-10-05 22:10:04 公開日:2023-10-04
# 遠距離発話レベルの表現のための自己教師型ニューラルファクター解析

Self-supervised Neural Factor Analysis for Disentangling Utterance-level Speech Representations ( http://arxiv.org/abs/2305.08099v3 )

ライセンス: Link先を確認
Weiwei Lin, Chenhang He, Man-Wai Mak, Youzhi Tu(参考訳) wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識(ASR)における最先端の性能を示し、低ラベル・リソース設定において非常に有用であることが証明されている。 しかし、sslモデルの成功はまだ話者、感情、言語認識といった発話レベルのタスクに移行しておらず、優れたパフォーマンスを得るためにはsslモデルの教師付き微調整が必要である。 問題の原因は,異種表現の欠如と,これらの課題に対する発話レベルの学習目標にあると考える。 HuBERTがクラスタリングを使って隠れ音響ユニットを発見する方法に着想を得て、隠れ音響ユニットを用いてSSL機能を整列させる因子分析(FA)モデルを定式化した。 下位の発話レベル表現は、一致した特徴に対する確率的推論を用いて、音声の内容から切り離される。 さらに、faモデルから派生した変動下限は発話レベルの目標を提供し、エラー勾配をトランスフォーマ層にバックプロパゲーションし、高度に識別可能な音響単位を学ぶことができる。 HuBERTのマスク付き予測トレーニングと組み合わせて使用する場合、私たちのモデルは、ラベル付きデータの20%しか表示されないSUPERBベンチマークの発話レベル非意味タスクにおいて、現在の最高のモデルであるWavLMよりも優れています。

Self-supervised learning (SSL) speech models such as wav2vec and HuBERT have demonstrated state-of-the-art performance on automatic speech recognition (ASR) and proved to be extremely useful in low label-resource settings. However, the success of SSL models has yet to transfer to utterance-level tasks such as speaker, emotion, and language recognition, which still require supervised fine-tuning of the SSL models to obtain good performance. We argue that the problem is caused by the lack of disentangled representations and an utterance-level learning objective for these tasks. Inspired by how HuBERT uses clustering to discover hidden acoustic units, we formulate a factor analysis (FA) model that uses the discovered hidden acoustic units to align the SSL features. The underlying utterance-level representations are disentangled from the content of speech using probabilistic inference on the aligned features. Furthermore, the variational lower bound derived from the FA model provides an utterance-level objective, allowing error gradients to be backpropagated to the Transformer layers to learn highly discriminative acoustic units. When used in conjunction with HuBERT's masked prediction training, our models outperform the current best model, WavLM, on all utterance-level non-semantic tasks on the SUPERB benchmark with only 20% of labeled data.
翻訳日:2023-10-05 22:09:58 公開日:2023-10-04
# 連続可変最適化における量子アニールの効果

Effectiveness of quantum annealing for continuous-variable optimization ( http://arxiv.org/abs/2305.06631v2 )

ライセンス: Link先を確認
Shunta Arai, Hiroki Oshiyama and Hidetoshi Nishimori(参考訳) 連続変数関数の最適化への量子アニールの適用は、比較的未探索の研究領域である。 頑丈なエネルギーランドスケープを持つ1次元連続変数関数に適用する量子アニーリングの性能をテストする。 連続変数を離散イジング変数にマップするためにドメイン壁符号化を行った後、我々は、d-wave 2000qが計算時間の制限された領域で古典アルゴリズムにマッチすることを見つけるために、実ハードウェアであるd-wave 2000qのパフォーマンスを、連続変数問題のために設計されたいくつかの最先端の古典最適化アルゴリズムと比較した。 この領域を超えて、古典的大域的最適化アルゴリズムは量子デバイスを上回る。 次に,問題のイジング定式化に適用可能な最適化アルゴリズムについて検討する。例えば,理想的なコヒーレント量子アニーリング,シミュレーションアニーリング,シミュレーション量子アニーリング,スピンベクトルモンテカルロをシミュレートするtebd(time-evolving block decimation)などである。 このデータから、TEBDのコヒーレント量子アニールは他のアプローチよりもはるかに優れた結果が得られ、コヒーレントトンネルの有効性が示されている。 これらの2つのベンチマークから,量子アニーリングのハードウェア実現は,熱雑音や他の不完全さが十分に抑制され,デバイスがコヒーレントに動作した場合に,最良な古典的アルゴリズムを著しく上回る可能性があると結論づけた。

The application of quantum annealing to the optimization of continuous-variable functions is a relatively unexplored area of research. We test the performance of quantum annealing applied to a one-dimensional continuous-variable function with a rugged energy landscape. After domain-wall encoding to map a continuous variable to discrete Ising variables, we first benchmark the performance of the real hardware, the D-Wave 2000Q, against several state-of-the-art classical optimization algorithms designed for continuous-variable problems to find that the D-Wave 2000Q matches the classical algorithms in a limited domain of computation time. Beyond this domain, classical global optimization algorithms outperform the quantum device. Next, we examine several optimization algorithms that are applicable to the Ising formulation of the problem, such as the TEBD (time-evolving block decimation) to simulate ideal coherent quantum annealing, simulated annealing, simulated quantum annealing, and spin-vector Monte Carlo. The data show that TEBD's coherent quantum annealing achieves far better results than the other approaches, demonstrating the effectiveness of coherent tunneling. From these two types of benchmarks, we conclude that the hardware realization of quantum annealing has the potential to significantly outperform the best classical algorithms if thermal noise and other imperfections are sufficiently suppressed and the device operates coherently, as demonstrated in recent short-time quantum simulations.
翻訳日:2023-10-05 22:09:31 公開日:2023-10-04
# 凝縮相化学動力学のためのトラップイオン量子シミュレーション:量子優位性を求めて

Trapped-ion quantum simulations for condensed-phase chemical dynamics: seeking a quantum advantage ( http://arxiv.org/abs/2305.03156v2 )

ライセンス: Link先を確認
Mingyu Kang, Hanggai Nuomin, Sutirtha N. Chowdhury, Jonathon L. Yuly, Ke Sun, Jacob Whitlow, Jes\'us Valdiviezo, Zhendian Zhang, Peng Zhang, David N. Beratan, Kenneth R. Brown(参考訳) 凝縮相における分子の量子力学のシミュレーションは、化学における長年の挑戦である。 トラップイオン量子システムは、現在の古典デジタルシミュレーションの範囲を超えている化学力学のアナログ量子シミュレーションの基盤として機能する。 これらのシミュレーションの「量子優位性」を特定するには、ノイズの多いハードウェア上のアナログ量子シミュレーションと古典デジタルアルゴリズムの両方のパフォーマンス解析が必要である。 本稿では,線形振動結合を持つモデル分子ハミルトニアンの動力学をシミュレートするための,ノイズの多いアナログトラップイオンシミュレータと,いくつかの選択された古典デジタル手法の比較を行う。 分子システムをモデル化するのによく用いられるいくつかの単純なハミルトニアンについて述べる。 これらのハミルトン派は、古典的デジタル法の範囲を超えてシステムに閉じ込められたイオンシミュレーターを使用するための足場として機能する。 最後に、古典デジタルシミュレーションがアナログ量子シミュレーションに比べて最も弱い性能を持つように見える動的レジームを同定する。 これらのレジームは、潜在的な量子的な利点を生かすために最も低い吊り下げの果実を提供するかもしれない。

Simulating the quantum dynamics of molecules in the condensed phase represents a longstanding challenge in chemistry. Trapped-ion quantum systems may serve as a platform for the analog-quantum simulation of chemical dynamics that is beyond the reach of current classical-digital simulation. To identify a "quantum advantage" for these simulations, performance analysis of both analog-quantum simulation on noisy hardware and classical-digital algorithms is needed. In this Review, we make a comparison between a noisy analog trapped-ion simulator and a few choice classical-digital methods on simulating the dynamics of a model molecular Hamiltonian with linear vibronic coupling. We describe several simple Hamiltonians that are commonly used to model molecular systems, which can be simulated with existing or emerging trapped-ion hardware. These Hamiltonians may serve as stepping stones toward the use of trapped-ion simulators for systems beyond the reach of classical-digital methods. Finally, we identify dynamical regimes where classical-digital simulations seem to have the weakest performance compared to analog-quantum simulations. These regimes may provide the lowest hanging fruit to exploit potential quantum advantages.
翻訳日:2023-10-05 22:09:02 公開日:2023-10-04
# ガスおよび超臨界キセノンの2光子励起と吸収分光

Two-photon excitation and absorption spectroscopy of gaseous and supercritical xenon ( http://arxiv.org/abs/2304.12803v2 )

ライセンス: Link先を確認
Thilo vom H\"ovel, Franz Huybrechts, Eric Boltersdorf, Christian Wahl, Frank Vewinger, Martin Weitz(参考訳) 高圧条件下での気体の分光は、プラズマ物理学や天体物理学などの様々な分野に関心がある。 近年,光子ボース・アインシュタイン凝縮体の波長範囲を真空紫外状態に拡張するため,高気圧の希ガス環境を熱化媒体として利用することも提案されている。 本研究では,5p^6$電子基底状態から5p^56p$および5p^56p^\prime$励起状態への遷移を推察し,ガスおよび超臨界キセノンの2光子分光法による圧力測定結果について報告する。 将来的な真空紫外光子凝縮のポンプ方式の探求を目指して,これらの高密度キセノン試料の2光子励起スペクトルの縮退を観測した。 さらに, キセノンの第2エキシマ連続体における放射の再吸収が, ストークスシフトの影響を受け, 補助光場の照射によって促進されるかどうかを検討した。 この目的のために吸収測定が行われ、5p^6 \rightarrow 5p^56p$ 2-photon遷移を非退化させる。

Spectroscopy of gases under high-pressure conditions is of interest in various fields such as plasma physics and astrophysics. Recently, it has also been proposed to utilize a high-pressure noble gas environment as a thermalization medium to extend the wavelength range of photon Bose-Einstein condensates to the vacuum-ultraviolet regime, from the presently accessible visible and near-infrared spectral regimes. In this work, we report on experimental results of two-photon spectroscopy of gaseous and supercritical xenon for pressures as high as $95 \; \text{bar}$, probing the transitions from the $5p^6$ electronic ground-state to the $5p^56p$ and $5p^56p^\prime$ excited-state configurations. Aiming at the exploration of possible pumping schemes for future vacuum-ultraviolet photon condensates, we have recorded degenerate two-photon excitation spectra of such dense xenon samples. In further measurements, we have investigated whether irradiation of an auxiliary light field can enhance the reabsorption of the emission on the second excimer continuum of xenon, which is subject to a large Stokes shift. To this end, absorption measurements have been conducted, driving the $5p^6 \rightarrow 5p^56p$ two-photon transitions nondegenerately.
翻訳日:2023-10-05 22:08:22 公開日:2023-10-04
# Med-Tuning:医療用ボリュームセグメンテーションのための細粒化機能強化によるパラメータ効率のよい伝達学習

Med-Tuning: Parameter-Efficient Transfer Learning with Fine-Grained Feature Enhancement for Medical Volumetric Segmentation ( http://arxiv.org/abs/2304.10880v2 )

ライセンス: Link先を確認
Wenxuan Wang, Jiachen Shen, Chen Chen, Jianbo Jiao, Jing Liu, Yan Zhang, Shanshan Song, Jiangyun Li(参考訳) ディープラーニングベースの医療ボリュームセグメンテーション手法は、モデルをスクラッチからトレーニングするか、あるいは標準的な"事前トレーニングと微調整"パラダイムに従う。 下流タスクで事前訓練されたモデルを微調整することは表現力を利用することができるが、標準的な完全な微調整は計算とメモリフットプリントの点でコストがかかる。 本稿では,医療用ボリュームセグメンテーションのためのパラメータ効率変換学習について検討し,段階内特徴強調と段階間特徴相互作用に基づくMed-Tuningという新しいフレームワークを提案する。 さらに,パラメータ効率の変換学習にFourier Transformの本質的なグローバル特性を活用することを目的として,Fourier Transformブランチを適切に設計したMed-Adapterという新しいアダプタブロックを提案し,医療用ボリュームセグメンテーションにおいて重要なグローバルコンテキストを効果的にモデル化した。 本手法は,2次元自然画像の大規模事前学習モデルを用いて,スライスに沿った空間的マルチスケール特徴と容積相関の両面を精度の高いセグメンテーションに利用することができる。 3つのベンチマークデータセット(CTやMRIを含む)の大規模な実験により,従来のセグメンテーションタスクにおけるパラメータ効率の変換学習手法よりも優れた結果が得られた。 完全微調整と比較すると,提案手法は細調整されたモデルパラメータを最大4倍に減らし,セグメンテーション性能が向上する。

Deep learning-based medical volumetric segmentation methods either train the model from scratch or follow the standard "pre-training then fine-tuning" paradigm. Although fine-tuning a pre-trained model on downstream tasks can harness its representation power, the standard full fine-tuning is costly in terms of computation and memory footprint. In this paper, we present the study on parameter-efficient transfer learning for medical volumetric segmentation and propose a new framework named Med-Tuning based on intra-stage feature enhancement and inter-stage feature interaction. Additionally, aiming at exploiting the intrinsic global properties of Fourier Transform for parameter-efficient transfer learning, a new adapter block namely Med-Adapter with a well-designed Fourier Transform branch is proposed for effectively and efficiently modeling the crucial global context for medical volumetric segmentation. Given a large-scale pre-trained model on 2D natural images, our method can exploit both the crucial spatial multi-scale feature and volumetric correlations along slices for accurate segmentation. Extensive experiments on three benchmark datasets (including CT and MRI) show that our method can achieve better results than previous parameter-efficient transfer learning methods on segmentation tasks, with much less tuned parameter costs. Compared to full fine-tuning, our method reduces the finetuned model parameters by up to 4x, with even better segmentation performance.
翻訳日:2023-10-05 22:07:57 公開日:2023-10-04
# 教師なしコンセプトドリフト検出の計算性能の検討--調査と今後

Examining Computational Performance of Unsupervised Concept Drift Detection: A Survey and Beyond ( http://arxiv.org/abs/2304.08319v2 )

ライセンス: Link先を確認
Elias Werner, Nishant Kumar, Matthias Lieber, Sunna Torge, Stefan Gumhold, Wolfgang E. Nagel(参考訳) コンセプトドリフト検出は、システムの信頼性を確保するために多くのAIシステムにとって不可欠である。 これらのシステムは多くの場合、大量のデータを扱うか、リアルタイムで反応する必要がある。 したがって、ドリフト検出器は総合的な性能評価で計算要求や制約を満たす必要がある。 しかし、これまでのドリフト検出器の開発は、例えば精度などの検出品質に焦点を当てているが、実行時間などの計算性能は重視していない。 先行研究は,計算性能を二次目的としてのみ考慮し,その評価のベンチマークを持たないことを示す。 そこで本研究では,計算性能と検出品質の両方を考慮したメトリクスセットを提案する。 その中には、AIシステムに対するドリフト検出器の計算的影響を評価するためのRelative Runtime Overhead RROが含まれています。 この研究は教師なしのドリフト検出器に焦点を当てており、ラベル付きデータの可用性に制限されない。 計算性能はRROと5つの異なるデータセット上で利用可能な4つのドリフト検出器のメモリ消費に基づいて測定する。 RROの範囲は1.01から20.15までである。 さらに, 最先端検出品質指標を測定し, 評価結果について検討し, ドリフト検出器の計算性能を徹底的に検討する必要性を示す。 さらに,ドリフト検出器の包括的なベンチマークの要件を強調し,解説する。 我々の調査は、監視ドリフト検出のために拡張することもできる。

Concept drift detection is crucial for many AI systems to ensure the system's reliability. These systems often have to deal with large amounts of data or react in real time. Thus, drift detectors must meet computational requirements or constraints with a comprehensive performance evaluation. However, so far, the focus of developing drift detectors is on detection quality, e.g.~accuracy, but not on computational performance, such as running time. We show that the previous works consider computational performance only as a secondary objective and do not have a benchmark for such evaluation. Hence, we propose a set of metrics that considers both, computational performance and detection quality. Among others, our set of metrics includes the Relative Runtime Overhead RRO to evaluate a drift detector's computational impact on an AI system. This work focuses on unsupervised drift detectors, not being restricted to the availability of labeled data. We measure the computational performance based on the RRO and memory consumption of four available unsupervised drift detectors on five different data sets. The range of the RRO reaches from 1.01 to 20.15. Moreover, we measure state-of-the-art detection quality metrics to discuss our evaluation results and show the necessity of thorough computational performance considerations for drift detectors. Additionally, we highlight and explain requirements for a comprehensive benchmark of drift detectors. Our investigations can also be extended for supervised drift detection.
翻訳日:2023-10-05 22:07:26 公開日:2023-10-04
# テキストから動きへの検索:人間の動きデータと自然言語の統合理解に向けて

Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion Data and Natural Language ( http://arxiv.org/abs/2305.15842v2 )

ライセンス: Link先を確認
Nicola Messina, Jan Sedmidubsky, Fabrizio Falchi, Tom\'a\v{s} Rebok(参考訳) 近年のポーズ推定手法の進歩により、人間の動きは一般的なビデオから3Dスケルトン配列の形で抽出できる。 素晴らしい応用機会にもかかわらず、膨大な量の時空間スケルトンデータに対する効果的で効率的なコンテンツベースアクセスは依然として困難な問題である。 本稿では,特定の自然言語によるテキスト記述に基づいて,関連する動きを検索することを目的とした,コンテンツに基づくテキスト間テキスト検索タスクを提案する。 この非チャートタスクのベースラインを定義するために,BERTとCLIP言語表現を用いてテキストモダリティを符号化し,時空間モデルを成功させ,動きモダリティを符号化する。 さらに,運動トランスフォーマー (mot) と呼ばれるトランスフォーマーアプローチも導入し,スケルトン継手を空間的および時間的に効果的に集約するために,時空的注意を分割した。 テキスト対画像/ビデオマッチングの最近の進歩に触発されて,2つのメトリクス学習損失関数を実験した。 最後に、最近導入された2つのKIT Motion-LanguageデータセットとHumanML3Dデータセットを対象として、検索した動きの質を評価するための定性的指標を定義することで、共通評価プロトコルを構築した。 結果はhttps://github.com/mesnico/text-to-motion-retrieval.comで再生できます。

Due to recent advances in pose-estimation methods, human motion can be extracted from a common video in the form of 3D skeleton sequences. Despite wonderful application opportunities, effective and efficient content-based access to large volumes of such spatio-temporal skeleton data still remains a challenging problem. In this paper, we propose a novel content-based text-to-motion retrieval task, which aims at retrieving relevant motions based on a specified natural-language textual description. To define baselines for this uncharted task, we employ the BERT and CLIP language representations to encode the text modality and successful spatio-temporal models to encode the motion modality. We additionally introduce our transformer-based approach, called Motion Transformer (MoT), which employs divided space-time attention to effectively aggregate the different skeleton joints in space and time. Inspired by the recent progress in text-to-image/video matching, we experiment with two widely-adopted metric-learning loss functions. Finally, we set up a common evaluation protocol by defining qualitative metrics for assessing the quality of the retrieved motions, targeting the two recently-introduced KIT Motion-Language and HumanML3D datasets. The code for reproducing our results is available at https://github.com/mesnico/text-to-motion-retrieval.
翻訳日:2023-10-05 22:01:56 公開日:2023-10-04
# 故障信頼度推定器の修正法:ディープニューラルネットワークを用いた選択的分類のためのポストホック法の評価

How to fix a broken confidence estimator: Evaluating post-hoc methods for selective classification with deep neural networks ( http://arxiv.org/abs/2305.15508v2 )

ライセンス: Link先を確認
Lu\'is Felipe P. Cattelan and Danilo Silva(参考訳) 本稿では,モデルが低信頼予測を回避し,潜在的な誤りを回避できる深層ニューラルネットワークの選択的分類問題に対処する。 我々は,分類器の信頼度を再訓練や修正なしに置き換える,いわゆるポストホック手法に着目し,実質的に魅力的である。 ソフトマックス出力を持つニューラルネットワークを考えると、我々の目標は、非正規化されたロジットから直接計算できる最高の信頼度推定器を特定することである。 この問題は、最近の研究における興味深い観察によって、多くの分類器は、その選択的な分類性能が、対応するアキュラティシーによって予測されるよりもずっと悪いという意味で、"老朽化した"信頼度推定器を持っているように見えることに動機づけられている。 我々は,84の事前学習済みイメージネット分類器に適用された,既存および提案された信頼度推定器の広範な実験を行った。 以上の結果から,ロジットの単純な$p$ノルム正規化と最大ロジットを信頼度推定器として用いることにより,選択的分類性能が大幅に向上し,多くの分類器で観察される病的挙動を完全に改善できることが示された。 その結果、任意の分類器の選択的分類性能はその対応する精度でほぼ完全に決定される。 また,これらの結果は分布シフト下で一貫性があることが示されている。 また,ポストホック法では改善できないと思われる信頼度推定器を自然に有する分類器について検討した。

This paper addresses the problem of selective classification for deep neural networks, where a model is allowed to abstain from low-confidence predictions to avoid potential errors. We focus on so-called post-hoc methods, which replace the confidence estimator of a given classifier without retraining or modifying it, thus being practically appealing. Considering neural networks with softmax outputs, our goal is to identify the best confidence estimator that can be computed directly from the unnormalized logits. This problem is motivated by the intriguing observation in recent work that many classifiers appear to have a "broken" confidence estimator, in the sense that their selective classification performance is much worse than what could be expected by their corresponding accuracies. We perform an extensive experimental study of many existing and proposed confidence estimators applied to 84 pretrained ImageNet classifiers available from popular repositories. Our results show that a simple $p$-norm normalization of the logits, followed by taking the maximum logit as the confidence estimator, can lead to considerable gains in selective classification performance, completely fixing the pathological behavior observed in many classifiers. As a consequence, the selective classification performance of any classifier becomes almost entirely determined by its corresponding accuracy. Moreover, these results are shown to be consistent under distribution shift. We also investigate why certain classifiers innately have a good confidence estimator that apparently cannot be improved by post-hoc methods.
翻訳日:2023-10-05 22:01:09 公開日:2023-10-04
# 不均衡最適輸送の半二重定式化による生成モデル

Generative Modeling through the Semi-dual Formulation of Unbalanced Optimal Transport ( http://arxiv.org/abs/2305.14777v2 )

ライセンス: Link先を確認
Jaemoo Choi, Jaewoong Choi, Myungjoo Kang(参考訳) 最適輸送(OT)問題は、与えられたコスト関数を最小化しながら2つの分布をブリッジする輸送マップを調べる。 この点において、扱いやすい事前分布とデータの間のotは生成的モデリングタスクに利用されてきた。 しかし、OTベースの手法は、トレーニング中にアウトレーヤや最適化の課題に直面しやすい。 本稿では,不均衡最適輸送(UOT)の半二重定式化に基づく新しい生成モデルを提案する。 OTとは異なり、UOTは分布マッチングの厳しい制約を緩和する。 このアプローチは、外れ値に対する堅牢性、トレーニング中の安定性、より高速な収束を提供する。 これらの特性を実験的に検証する。 さらに,UOTにおける分布間の分岐の理論的上界について検討した。 CIFAR-10ではFIDスコアが2.97、CelebA-HQ-256では5.80である。 コードは \url{https://github.com/jae-moo/uotm} で入手できる。

Optimal Transport (OT) problem investigates a transport map that bridges two distributions while minimizing a given cost function. In this regard, OT between tractable prior distribution and data has been utilized for generative modeling tasks. However, OT-based methods are susceptible to outliers and face optimization challenges during training. In this paper, we propose a novel generative model based on the semi-dual formulation of Unbalanced Optimal Transport (UOT). Unlike OT, UOT relaxes the hard constraint on distribution matching. This approach provides better robustness against outliers, stability during training, and faster convergence. We validate these properties empirically through experiments. Moreover, we study the theoretical upper-bound of divergence between distributions in UOT. Our model outperforms existing OT-based generative models, achieving FID scores of 2.97 on CIFAR-10 and 5.80 on CelebA-HQ-256. The code is available at \url{https://github.com/Jae-Moo/UOTM}.
翻訳日:2023-10-05 22:00:04 公開日:2023-10-04
# ニューラルネットワークのニューラルネットワークカーネルサロゲートモデルによる忠実かつ効率的な説明

Faithful and Efficient Explanations for Neural Networks via Neural Tangent Kernel Surrogate Models ( http://arxiv.org/abs/2305.14585v2 )

ライセンス: Link先を確認
Andrew Engel, Zhichao Wang, Natalie S. Frank, Ioana Dumitriu, Sutanay Choudhury, Anand Sarwate, Tony Chiang(参考訳) 説明可能なAI研究の最近のトレンドは、ニューラルネットワークをカーネルマシンのような単純なMLアルゴリズムとして近似する代理モデリングに焦点を当てている。 第2の傾向は、さまざまな説明バイサンプルやデータ属性タスクにおけるカーネル関数を使用して、さまざまなニューラルネットワークの振る舞いを調べることである。 本研究では、これらの2つのトレンドを組み合わせて、データ属性に近似した経験的ニューラルネットワークカーネル(eNTK)を解析する。 近似は、eNTKを計算するのに高い計算コストのため、eNTK分析に不可欠である。 我々は、新しい近似eNTKを定義し、結果のカーネルマシンサロゲートモデルと基盤となるニューラルネットワークとの相関性について、新しい分析を行う。 本稿では,計算の時間とメモリの複雑さをユーザが調整できる近似entkの2つの新しいランダム投影方式を提案する。 ニューラルネットワークカーネルをカーネル関数として用いたカーネルマシンは実効的なサロゲートモデルであり,提案したトレースNTKが最も一貫した性能を示す。

A recent trend in explainable AI research has focused on surrogate modeling, where neural networks are approximated as simpler ML algorithms such as kernel machines. A second trend has been to utilize kernel functions in various explain-by-example or data attribution tasks to investigate a diverse set of neural network behavior. In this work, we combine these two trends to analyze approximate empirical neural tangent kernels (eNTK) for data attribution. Approximation is critical for eNTK analysis due to the high computational cost to compute the eNTK. We define new approximate eNTK and perform novel analysis on how well the resulting kernel machine surrogate models correlate with the underlying neural network. We introduce two new random projection variants of approximate eNTK which allow users to tune the time and memory complexity of their calculation. We conclude that kernel machines using approximate neural tangent kernel as the kernel function are effective surrogate models, with the introduced trace NTK the most consistent performer.
翻訳日:2023-10-05 21:59:47 公開日:2023-10-04
# 高次元マーク付き時間点過程の条件生成モデル

Conditional Generative Modeling for High-dimensional Marked Temporal Point Processes ( http://arxiv.org/abs/2305.12569v2 )

ライセンス: Link先を確認
Zheng Dong, Zekai Fan, Shixiang Zhu(参考訳) ポイントプロセスはシーケンシャルなイベントモデリングのための汎用フレームワークを提供する。 しかし、既存のポイントプロセスモデルの計算課題と制約付き表現力は、より広範な応用の可能性を妨げている。 この制限は、テキストや画像などの多次元または高次元のマークに関連するイベントデータを扱う際に特に顕著になる。 そこで本研究では,高次元マークを用いたポイントプロセスモデリングのためのイベント生成フレームワークを提案する。 条件強度や確率密度関数を明示的に指定することなく,イベントの分布を捉えることを目的とする。 代わりに、イベントの履歴を入力として取り込んだ条件付きジェネレータを使用し、以前の観測結果から得られるであろう高品質な後続イベントを生成する。 提案するフレームワークには,多次元あるいは高次元のイベント空間における複雑なダイナミクスを捉えるための表現力や,モデル学習やサンプル生成における例外的な効率性など,数多くのメリットがある。 その結果,他の最先端のベースラインに比べて優れた性能を示した。

Point processes offer a versatile framework for sequential event modeling. However, the computational challenges and constrained representational power of the existing point process models have impeded their potential for wider applications. This limitation becomes especially pronounced when dealing with event data that is associated with multi-dimensional or high-dimensional marks such as texts or images. To address this challenge, this study proposes a novel event generative framework for modeling point processes with high-dimensional marks. We aim to capture the distribution of events without explicitly specifying the conditional intensity or probability density function. Instead, we use a conditional generator that takes the history of events as input and generates the high-quality subsequent event that is likely to occur given the prior observations. The proposed framework offers a host of benefits, including considerable representational power to capture intricate dynamics in multi- or even high-dimensional event space, as well as exceptional efficiency in learning the model and generating samples. Our numerical results demonstrate superior performance compared to other state-of-the-art baselines.
翻訳日:2023-10-05 21:58:45 公開日:2023-10-04
# フローニューラルネットワークによる高次元最適輸送の計算

Computing high-dimensional optimal transport by flow neural networks ( http://arxiv.org/abs/2305.11857v3 )

ライセンス: Link先を確認
Chen Xu, Xiuyuan Cheng, Yao Xie(参考訳) フローベースのモデルは、ニューラルネットワークがデータ分散から正規分布への輸送を行うフローの正規化など、生成タスクで広く使用されている。 この研究は、フローベースのモデルを開発しており、両方のディストリビューションが有限のサンプルを通してのみアクセス可能な、$p$から任意の$q$へ輸送する。 我々は,フローニューラルネットワークの学習により,$p$ と $q$ の間の動的最適輸送を学ぶことを提案する。 このモデルは、輸送コストを最小化することで、$P$と$Q$の間の可逆輸送マップを最適に見つけるように訓練されている。 訓練された最適輸送流は、生成モデルのための潜在空間における無限小密度比の推定や分布補間を含む多くの下流タスクを実行することができる。 提案モデルが高次元データに与える影響は,相互情報推定,エネルギーベース生成モデル,画像から画像への変換において実証的に実証される。

Flow-based models are widely used in generative tasks, including normalizing flow, where a neural network transports from a data distribution $P$ to a normal distribution. This work develops a flow-based model that transports from $P$ to an arbitrary $Q$ where both distributions are only accessible via finite samples. We propose to learn the dynamic optimal transport between $P$ and $Q$ by training a flow neural network. The model is trained to find an invertible transport map between $P$ and $Q$ optimally by minimizing the transport cost. The trained optimal transport flow allows for performing many downstream tasks, including infinitesimal density ratio estimation and distribution interpolation in the latent space for generative models. The effectiveness of the proposed model on high-dimensional data is empirically demonstrated in mutual information estimation, energy-based generative models, and image-to-image translation.
翻訳日:2023-10-05 21:58:29 公開日:2023-10-04
# Sim2Realトランスファーを用いたビジョンベースDRL自律運転エージェント

Vision-based DRL Autonomous Driving Agent with Sim2Real Transfer ( http://arxiv.org/abs/2305.11589v2 )

ライセンス: Link先を確認
Dianzhao Li and Ostap Okhrin(参考訳) 完全自動運転を実現するためには、車線維持や車追従など、基本かつ十分に研究された運転タスクを継続的に行う必要がある。 しかし、以前の研究では主に個々のタスクに焦点を合わせており、自動車追従タスクは通常、最適なパフォーマンスを達成するために完全なリーダ・フォロワー情報に依存している。 この制限に対処するために,車線維持と車線追従操作を同時に行うことができるビジョンベース深部強化学習(DRL)エージェントを提案する。 DRLエージェントの性能を評価するため,ベースラインコントローラと比較し,様々な性能指標を用いて定量的解析を行った。 さらに,訓練されたDRLエージェントのSim2Real転送能力を示す実世界の評価を行った。 われわれの知る限りでは、われわれのビジョンベースの車追従およびレーン維持エージェントがsim2real転送能力を持つのは、この種の最初のものだ。

To achieve fully autonomous driving, vehicles must be capable of continuously performing various driving tasks, including lane keeping and car following, both of which are fundamental and well-studied driving ones. However, previous studies have mainly focused on individual tasks, and car following tasks have typically relied on complete leader-follower information to attain optimal performance. To address this limitation, we propose a vision-based deep reinforcement learning (DRL) agent that can simultaneously perform lane keeping and car following maneuvers. To evaluate the performance of our DRL agent, we compare it with a baseline controller and use various performance metrics for quantitative analysis. Furthermore, we conduct a real-world evaluation to demonstrate the Sim2Real transfer capability of the trained DRL agent. To the best of our knowledge, our vision-based car following and lane keeping agent with Sim2Real transfer capability is the first of its kind.
翻訳日:2023-10-05 21:58:14 公開日:2023-10-04
# Rieszカーネルを用いたジェネレーションスライスMD流れ

Generative Sliced MMD Flows with Riesz Kernels ( http://arxiv.org/abs/2305.11463v3 )

ライセンス: Link先を確認
Johannes Hertrich, Christian Wald, Fabian Altekr\"uger, Paul Hagemann(参考訳) 最大平均誤差(MMD)フローは大規模計算において高い計算コストを被る。 本稿では, Riesz カーネルによる MMD のフローが $K(x,y) = - \Vert x-y\Vert^r$, $r \in (0,2)$ であることを示す。 エネルギー距離としても知られるリース核のMDは、スライスされたバージョンのMDと一致することを証明している。 その結果、MDDの勾配の計算は1次元の設定で行うことができる。 ここでは、$r=1$の場合、単純なソートアルゴリズムを用いて複雑さを$O(MN+N^2)$から$O((M+N)\log(M+N))$に減らすことができる。 別の興味深い追従の結果として、コンパクトに支持された測度のMDDは、ワッサーシュタイン-1距離によって上下から推定できる。 実装のために、スライスした mmd の勾配を有限個のスライス数 $p$ だけを用いて近似する。 結果の誤差は複雑さ$O(\sqrt{d/P})$であり、$d$はデータ次元である。 これらの結果から,画像応用においてもニューラルネットワークによるmmd勾配流を近似して生成モデルの訓練が可能となった。 MNIST, FashionMNIST, CIFAR10の画像生成によるモデルの有効性を示す。

Maximum mean discrepancy (MMD) flows suffer from high computational costs in large scale computations. In this paper, we show that MMD flows with Riesz kernels $K(x,y) = - \Vert x-y\Vert^r$, $r \in (0,2)$ have exceptional properties which allow their efficient computation. We prove that the MMD of Riesz kernels, which is also known as energy distance, coincides with the MMD of their sliced version. As a consequence, the computation of gradients of MMDs can be performed in the one-dimensional setting. Here, for $r=1$, a simple sorting algorithm can be applied to reduce the complexity from $O(MN+N^2)$ to $O((M+N)\log(M+N))$ for two measures with $M$ and $N$ support points. As another interesting follow-up result, the MMD of compactly supported measures can be estimated from above and below by the Wasserstein-1 distance. For the implementations we approximate the gradient of the sliced MMD by using only a finite number $P$ of slices. We show that the resulting error has complexity $O(\sqrt{d/P})$, where $d$ is the data dimension. These results enable us to train generative models by approximating MMD gradient flows by neural networks even for image applications. We demonstrate the efficiency of our model by image generation on MNIST, FashionMNIST and CIFAR10.
翻訳日:2023-10-05 21:57:59 公開日:2023-10-04
# repobench: リポジトリレベルのコード自動補完システム

RepoBench: Benchmarking Repository-Level Code Auto-Completion Systems ( http://arxiv.org/abs/2306.03091v2 )

ライセンス: Link先を確認
Tianyang Liu, Canwen Xu, Julian McAuley(参考訳) 大規模言語モデル(LLM)はコードの自動補完システムが大きく進歩しており、開発者の生産性が大幅に向上する可能性がある。 しかし、現在のベンチマークは主に単一ファイルタスクに焦点を当てており、より複雑な実世界のマルチファイルプログラミングシナリオに対する評価ギャップを残している。 このギャップを埋めるために、リポジトリレベルのコード自動補完システムを評価するために特別に設計された新しいベンチマークであるRepoBenchを紹介します。 RepoBenchはPythonとJavaの両方をサポートし、RepoBench-R(Retrieval)、RepoBench-C(Code Completion)、RepoBench-P(Pipeline)の3つの相互接続評価タスクで構成される。 それぞれのタスクは、他のファイルから最も関連するコードスニペットをクロスファイルコンテキストとして取得し、クロスファイルとインファイルコンテキストで次のコードの行を予測し、検索と次行の予測の両方を必要とする複雑なタスクを処理するシステムの能力を測定する。 RepoBenchは、パフォーマンスのより完全な比較を促進し、自動補完システムの継続的改善を促進することを目的としている。 RepoBenchはhttps://github.com/Leolty/repobench.comで公開されている。

Large Language Models (LLMs) have greatly advanced code auto-completion systems, with a potential for substantial productivity enhancements for developers. However, current benchmarks mainly focus on single-file tasks, leaving an assessment gap for more complex, real-world, multi-file programming scenarios. To fill this gap, we introduce RepoBench, a new benchmark specifically designed for evaluating repository-level code auto-completion systems. RepoBench supports both Python and Java and consists of three interconnected evaluation tasks: RepoBench-R (Retrieval), RepoBench-C (Code Completion), and RepoBench-P (Pipeline). Each task respectively measures the system's ability to retrieve the most relevant code snippets from other files as cross-file context, predict the next line of code with cross-file and in-file context, and handle complex tasks that require a combination of both retrieval and next-line prediction. RepoBench aims to facilitate a more complete comparison of performance and encouraging continuous improvement in auto-completion systems. RepoBench is publicly available at https://github.com/Leolty/repobench.
翻訳日:2023-10-05 21:49:26 公開日:2023-10-04
# ゼロから乱流へ:三次元流れシミュレーションのための生成モデル

From Zero to Turbulence: Generative Modeling for 3D Flow Simulation ( http://arxiv.org/abs/2306.01776v2 )

ライセンス: Link先を確認
Marten Lienen, David L\"udke, Jan Hansen-Palmus, Stephan G\"unnemann(参考訳) 3Dにおける乱流のシミュレーションは計算流体力学(CFD)において最も高価なシミュレーションの1つである。 流体流の数値解法を高速で学習された自己回帰モデルに置き換えるため、サーロゲートモデルに多くの研究がなされている。 しかし、3次元の乱流の複雑さは、これらのモデルを非常に小さな時間ステップで訓練する必要がある一方で、現実的なフロー状態を生成するには、多くのステップと重大なエラー蓄積を伴う長いロールアウトが必要か、あるいは既知の現実的なフロー状態から始める必要がある。 その代わり, 乱流シミュレーションを, 初期流れの状態に頼らずに, 可能な全ての乱流状態の多様体を直接学習する生成タスクとして提案する。 本実験では,高分解能流れの3次元乱流データセットと各種物体による詳細な渦構造を導入し,乱流に対する2つの新しいサンプル評価指標を導出した。 本データセットでは, 生成モデルを用いて, 未確認物体による乱流の分布を把握し, 初期状態にアクセスせずに下流アプリケーションに適用可能な高品質で現実的なサンプルを生成する。

Simulations of turbulent flows in 3D are one of the most expensive simulations in computational fluid dynamics (CFD). Many works have been written on surrogate models to replace numerical solvers for fluid flows with faster, learned, autoregressive models. However, the intricacies of turbulence in three dimensions necessitate training these models with very small time steps, while generating realistic flow states requires either long roll-outs with many steps and significant error accumulation or starting from a known, realistic flow state - something we aimed to avoid in the first place. Instead, we propose to approach turbulent flow simulation as a generative task directly learning the manifold of all possible turbulent flow states without relying on any initial flow state. For our experiments, we introduce a challenging 3D turbulence dataset of high-resolution flows and detailed vortex structures caused by various objects and derive two novel sample evaluation metrics for turbulent flows. On this dataset, we show that our generative model captures the distribution of turbulent flows caused by unseen objects and generates high-quality, realistic samples amenable for downstream applications without access to any initial state.
翻訳日:2023-10-05 21:49:04 公開日:2023-10-04
# 大バッチ反復効率ニューラルベイズ設計最適化

Large-Batch, Iteration-Efficient Neural Bayesian Design Optimization ( http://arxiv.org/abs/2306.01095v3 )

ライセンス: Link先を確認
Navid Ansari, Hans-Peter Seidel, Vahid Babaei(参考訳) ベイズ最適化(BO)はブラックボックスと高価な評価関数を最適化するための強力なフレームワークを提供する。 そのため、エンジニアリング設計の問題に対する魅力的なツールであり、一般的には複数の目的がある。 製造および測定手法の急速な進歩と並列コンピューティングのインフラのおかげで、多くの設計問題への問い合わせが並列化されている。 この種の問題は、非常に大規模なバッチに対処し、サンプル効率からイテレーション効率に焦点を移すという、前例のないセットアップでBOに挑戦します。 これらの制約に対処するための新しいベイズ最適化フレームワークを提案する。 私たちの重要な貢献は、高度にスケーラブルなサンプルベースの取得関数で、目的だけでなく、関連する不確実性も非支配的なソートを実行します。 我々は,ベイズ型ニューラルネットワークサロゲートと組み合わせることで,最小限の反復数でデータ集約環境に有効であることを示す。 本手法を最先端の多目的最適化と比較し,その優越性を示す。 実世界の2つの問題 - 翼設計と3Dプリンティング -- について評価を行い, アプローチの適用性と効率性を示す。 私たちのコードは、https://github.com/an-on-ym-ous/lbn_moboで利用可能です。

Bayesian optimization (BO) provides a powerful framework for optimizing black-box, expensive-to-evaluate functions. It is therefore an attractive tool for engineering design problems, typically involving multiple objectives. Thanks to the rapid advances in fabrication and measurement methods as well as parallel computing infrastructure, querying many design problems can be heavily parallelized. This class of problems challenges BO with an unprecedented setup where it has to deal with very large batches, shifting its focus from sample efficiency to iteration efficiency. We present a novel Bayesian optimization framework specifically tailored to address these limitations. Our key contribution is a highly scalable, sample-based acquisition function that performs a non-dominated sorting of not only the objectives but also their associated uncertainty. We show that our acquisition function in combination with different Bayesian neural network surrogates is effective in data-intensive environments with a minimal number of iterations. We demonstrate the superiority of our method by comparing it with state-of-the-art multi-objective optimizations. We perform our evaluation on two real-world problems -- airfoil design and 3D printing -- showcasing the applicability and efficiency of our approach. Our code is available at: https://github.com/an-on-ym-ous/lbn_mobo
翻訳日:2023-10-05 21:48:44 公開日:2023-10-04
# 分解能増加を伴う量子化に基づく確率勾配ランゲヴィンダイナミクス

Stochastic Gradient Langevin Dynamics Based on Quantization with Increasing Resolution ( http://arxiv.org/abs/2305.18864v2 )

ライセンス: Link先を確認
JInwuk Seok and Changsik Cho(参考訳) ディープニューラルネットワークにおけるLangevin あるいは Levy 確率微分方程式 (SDEs) に基づく確率的学習ダイナミクスは、ノイズの分散をミニバッチのサイズや直接ノイズを注入する方法によって制御する。 雑音分散は近似性能に影響を与えるため,SDEに基づく学習と実践において付加雑音の設計が重要である。 本稿では,非凸目的関数の量子化最適化に基づく確率的降下学習方程式を提案する。 提案手法では,Langevin SDEのダイナミックスを利用した量子最適化手法を用いて,加算雑音やミニバッチサイズを調整することなく,同一分布の制御可能なノイズを制御できる。 数値実験により,バニラ畳み込みニューラルネットワーク(CNN)モデルとResNet-50アーキテクチャに対する提案アルゴリズムの有効性が示された。 さらに,提案アルゴリズムの簡単なPyTorch実装を提案する。

Stochastic learning dynamics based on Langevin or Levy stochastic differential equations (SDEs) in deep neural networks control the variance of noise by varying the size of the mini-batch or directly those of injecting noise. Since the noise variance affects the approximation performance, the design of the additive noise is significant in SDE-based learning and practical implementation. In this paper, we propose an alternative stochastic descent learning equation based on quantized optimization for non-convex objective functions, adopting a stochastic analysis perspective. The proposed method employs a quantized optimization approach that utilizes Langevin SDE dynamics, allowing for controllable noise with an identical distribution without the need for additive noise or adjusting the mini-batch size. Numerical experiments demonstrate the effectiveness of the proposed algorithm on vanilla convolution neural network(CNN) models and the ResNet-50 architecture across various data sets. Furthermore, we provide a simple PyTorch implementation of the proposed algorithm.
翻訳日:2023-10-05 21:47:45 公開日:2023-10-04
# 確率的画像テキスト表現の改善

Improved Probabilistic Image-Text Representations ( http://arxiv.org/abs/2305.18171v2 )

ライセンス: Link先を確認
Sanghyuk Chun(参考訳) 基本視覚言語(VL)タスクである画像テキストマッチング(ITM)タスクは、多重性や不完全なアノテーションに起因する固有の曖昧さに悩まされている。 決定論的関数はあいまいさを捉えるのに十分強力ではないため、挑戦に取り組む確率的埋め込みの探求が促進される。 しかし、既存の確率的IMMアプローチでは、モンテカルロ近似による重計算の重み付けと、大量の偽陰性に直面した損失飽和問題という2つの重大な欠点に直面する。 そこで本論文では,PCME++ という名称の確率的クロスモーダル埋め込みを改良し,新たな確率的距離をクローズドフォームで導入する手法を提案する。 さらに,pcme++をさらに強化するための2つの最適化手法が提案されている。第1に,大規模偽陰性下での損失飽和問題を防ぐための擬似正定式化,第2に確率的マッチングのための混合サンプルデータ拡張である。 MS-COCO Caption と CxC と ECCV Caption の2つの拡張ベンチマークによる実験結果から,PCME++ の有効性を最先端 ITM 法と比較した。 PCME++のロバスト性は、ノイズの多い画像-テキスト対応でも評価される。 さらに、ゼロショット分類のための自動プロンプトチューニングにおけるPCME++の適用可能性を示す。 コードはhttps://naver-ai.github.io/pcmepp/で入手できる。

Image-Text Matching (ITM) task, a fundamental vision-language (VL) task, suffers from the inherent ambiguity arising from multiplicity and imperfect annotations. Deterministic functions are not sufficiently powerful to capture ambiguity, prompting the exploration of probabilistic embeddings to tackle the challenge. However, the existing probabilistic ITM approach encounters two key shortcomings; the burden of heavy computations due to the Monte Carlo approximation, and the loss saturation issue in the face of abundant false negatives. To overcome the issues, this paper presents an improved Probabilistic Cross-Modal Embeddings (named PCME++) by introducing a new probabilistic distance with a closed-form solution. In addition, two optimization techniques are proposed to enhance PCME++ further; first, the incorporation of pseudo-positives to prevent the loss saturation problem under massive false negatives; second, mixed sample data augmentation for probabilistic matching. Experimental results on MS-COCO Caption and two extended benchmarks, CxC and ECCV Caption, demonstrate the effectiveness of PCME++ compared to state-of-the-art ITM methods. The robustness of PCME++ is also evaluated under noisy image-text correspondences. In addition, the potential applicability of PCME++ in automatic prompt tuning for zero-shot classification is shown. The code is available at https://naver-ai.github.io/pcmepp/.
翻訳日:2023-10-05 21:47:28 公開日:2023-10-04
# 回転平衡(Rotational Equilibrium) - ニューラルネットワーク間の学習バランスの低下

Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks ( http://arxiv.org/abs/2305.17212v2 )

ライセンス: Link先を確認
Atli Kosson, Bettina Messmer, Martin Jaggi(参考訳) 重崩壊はディープニューラルネットワークの最適化力学に大きな影響を与える。 ある状況では、パラメータベクトルの大きさに対する重みの減衰と勾配の更新の影響は平均でキャンセルされ、平衡と呼ばれる状態を形成する。 これにより、各更新におけるベクトルの期待回転は、その大きさとともに一定となる。 重要なことに、平衡は異なる層やニューロンの重みベクトルに対して独立に生じる。 これらの平衡は最適化と正規化の構成に対して非常に均一であり、ネットワークコンポーネント間の効果的な学習率のプロキシである平均回転のバランスが効果的である。 本研究では,AdamW や SGD など複数の最適化器の運動量との平衡状態について検討し,学習速度,重量減衰,初期化,正規化,学習速度スケジュールの相互作用について考察する。 トレーニングを通して回転平衡をどのように実施するかを示し、平衡への遷移に対応するカオス的過渡相を排除し、トレーニングダイナミクスを簡素化する。 最後に,AdamWとL2正規化と異なる正規化層の性能,学習率ウォームアップの必要性を比較検討し,回転挙動がAdamWの有効性に重要な役割を果たすことを示した。

Weight decay can significantly impact the optimization dynamics of deep neural networks. In certain situations the effects of weight decay and gradient updates on the magnitude of a parameter vector cancel out on average, forming a state known as equilibrium. This causes the expected rotation of the vector in each update to remain constant along with its magnitude. Importantly, equilibrium can arise independently for the weight vectors of different layers and neurons. These equilibria are highly homogeneous for some optimizer and normalization configurations, effectively balancing the average rotation--a proxy for the effective learning rate--across network components. In this work we explore the equilibrium states of multiple optimizers including AdamW and SGD with momentum, providing insights into interactions between the learning rate, weight decay, initialization, normalization and learning rate schedule. We show how rotational equilibrium can be enforced throughout training, eliminating the chaotic transient phase corresponding to the transition towards equilibrium, thus simplifying the training dynamics. Finally, we show that rotational behavior may play a key role in the effectiveness of AdamW compared to Adam with L2-regularization, the performance of different normalization layers, and the need for learning rate warmup.
翻訳日:2023-10-05 21:47:05 公開日:2023-10-04
# Break-A-Scene: 単一画像から複数の概念を抽出する

Break-A-Scene: Extracting Multiple Concepts from a Single Image ( http://arxiv.org/abs/2305.16311v2 )

ライセンス: Link先を確認
Omri Avrahami, Kfir Aberman, Ohad Fried, Daniel Cohen-Or, Dani Lischinski(参考訳) テキストから画像へのパーソナライゼーションは、モデルにユーザが提供する概念を導入することを目的としている。 しかし、現在の手法は主に背景やポーズの異なる複数の画像から単一の概念を学ぶこと、異なるシナリオに適応する場合に苦労することに焦点を当てている。 本研究は,複数の概念を含むシーンの1つの画像が与えられた場合,それぞれの概念に対して個別のテキストトークンを抽出し,生成されたシーンのきめ細かい制御を可能にすることを目的としている。 そこで本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。 これらのマスクは、ユーザーが提供したり、事前訓練されたセグメンテーションモデルで自動生成することができる。 次に,テキスト埋め込み(ハンドル)の集合とモデルウェイトを最適化し,概念を正確に捉えることと過度な適合を避けることの間の微妙なバランスを打つ2段階のカスタマイズプロセスを提案する。 クロス・アテンション・マップの新たな損失により、ハンドルに割り当てられた概念を生成させ、絡み合いを防止するためにマスク付き拡散損失を用いる。 また,生成画像に複数の概念を結合する能力を向上させるためのトレーニング戦略であるunion-samplingについても紹介する。 提案手法を複数のベースラインと定量的に比較するために,複数の自動測定値を用い,ユーザスタディを用いてさらに検証を行った。 最後に,本手法の応用例をいくつか紹介する。 プロジェクトページは: https://omriavrahami.com/break-a-scene/

Text-to-image model personalization aims to introduce a user-provided concept to the model, allowing its synthesis in diverse contexts. However, current methods primarily focus on the case of learning a single concept from multiple images with variations in backgrounds and poses, and struggle when adapted to a different scenario. In this work, we introduce the task of textual scene decomposition: given a single image of a scene that may contain several concepts, we aim to extract a distinct text token for each concept, enabling fine-grained control over the generated scenes. To this end, we propose augmenting the input image with masks that indicate the presence of target concepts. These masks can be provided by the user or generated automatically by a pre-trained segmentation model. We then present a novel two-phase customization process that optimizes a set of dedicated textual embeddings (handles), as well as the model weights, striking a delicate balance between accurately capturing the concepts and avoiding overfitting. We employ a masked diffusion loss to enable handles to generate their assigned concepts, complemented by a novel loss on cross-attention maps to prevent entanglement. We also introduce union-sampling, a training strategy aimed to improve the ability of combining multiple concepts in generated images. We use several automatic metrics to quantitatively compare our method against several baselines, and further affirm the results using a user study. Finally, we showcase several applications of our method. Project page is available at: https://omriavrahami.com/break-a-scene/
翻訳日:2023-10-05 21:46:45 公開日:2023-10-04
# EGO4D STAの次のアクティブオブジェクトへのガイド

Guided Attention for Next Active Object @ EGO4D STA Challenge ( http://arxiv.org/abs/2305.16066v3 )

ライセンス: Link先を確認
Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue(参考訳) 本稿では,EGO4D課題に対する短期予測(STA)課題に対するガイド・アテンション機構に基づくソリューションについて述べる。 オブジェクト検出とビデオクリップから抽出した時空間的特徴を組み合わせて、動きと文脈情報を強化し、さらにオブジェクト中心および動き中心の情報をデコードして、エゴセントリックビデオにおけるSTAの問題に対処する。 この課題に対して、我々は高速ネットワークに注意を向けながら、 stillfast 上にモデルを構築します。 本モデルは,検証セットの性能向上と,ego4d短期オブジェクトインタラクション予測チャレンジの課題テストセットにおける最先端(sota)結果の達成を図っている。

In this technical report, we describe the Guided-Attention mechanism based solution for the short-term anticipation (STA) challenge for the EGO4D challenge. It combines the object detections, and the spatiotemporal features extracted from video clips, enhancing the motion and contextual information, and further decoding the object-centric and motion-centric information to address the problem of STA in egocentric videos. For the challenge, we build our model on top of StillFast with Guided Attention applied on fast network. Our model obtains better performance on the validation set and also achieves state-of-the-art (SOTA) results on the challenge test set for EGO4D Short-Term Object Interaction Anticipation Challenge.
翻訳日:2023-10-05 21:46:18 公開日:2023-10-04
# MOF発見のためのGPT-4レチキュラーケミスト

A GPT-4 Reticular Chemist for Guiding MOF Discovery ( http://arxiv.org/abs/2306.14915v2 )

ライセンス: Link先を確認
Zhiling Zheng, Zichao Rong, Nakul Rampal, Christian Borgs, Jennifer T. Chayes, Omar M. Yaghi(参考訳) 本稿では,AIモデル GPT-4 を,AI と人間研究者の相互作用の協調的ワークフローを生かした,構造的化学実験の反復的プロセスに統合する新しいフレームワークを提案する。 このGPT-4レチキュラーケミストは3つの相からなる統合システムである。 それぞれが様々な能力でGPT-4を使用し、GPT-4は化学実験の詳細な指示を与え、人間は成功と失敗を含む実験結果に対するフィードバックを次のイテレーションでAIの文脈内学習に提供します。 この反復的な人間とAIの相互作用により、GPT-4は経験豊富な化学者のように、迅速な学習戦略によって結果から学ぶことができた。 重要なのは、このシステムは開発と運用の両方のための自然言語に基づいており、コーディングスキルの必要性をなくし、すべての化学者がアクセスできるようにする。 GPT-4 Reticular Chemistとのコラボレーションにより、各合成は反復的なフィードバックと専門家による提案によって微調整された等方的なMOFの発見が導かれた。 このワークフローは、gpt-4のような大規模言語モデルの能力を利用して研究活動の実現性と効率を高めることで、科学研究における幅広い応用の可能性を示している。

We present a new framework integrating the AI model GPT-4 into the iterative process of reticular chemistry experimentation, leveraging a cooperative workflow of interaction between AI and a human researcher. This GPT-4 Reticular Chemist is an integrated system composed of three phases. Each of these utilizes GPT-4 in various capacities, wherein GPT-4 provides detailed instructions for chemical experimentation and the human provides feedback on the experimental outcomes, including both success and failures, for the in-context learning of AI in the next iteration. This iterative human-AI interaction enabled GPT-4 to learn from the outcomes, much like an experienced chemist, by a prompt-learning strategy. Importantly, the system is based on natural language for both development and operation, eliminating the need for coding skills, and thus, make it accessible to all chemists. Our collaboration with GPT-4 Reticular Chemist guided the discovery of an isoreticular series of MOFs, with each synthesis fine-tuned through iterative feedback and expert suggestions. This workflow presents a potential for broader applications in scientific research by harnessing the capability of large language models like GPT-4 to enhance the feasibility and efficiency of research activities.
翻訳日:2023-10-05 21:40:30 公開日:2023-10-04
# ディープグラフカーネルポイントプロセス

Deep graph kernel point processes ( http://arxiv.org/abs/2306.11313v2 )

ライセンス: Link先を確認
Zheng Dong, Matthew Repasky, Xiuyuan Cheng, Yao Xie(参考訳) ポイントプロセスモデルは、連続した非同期イベントデータに広く使用され、各データポイントには、場所、ノード、イベントタイプといった「マーク」と呼ばれる時間と追加情報が含まれている。 本稿では,グラフ上の離散イベントデータに対する新しいポイントプロセスモデルを提案する。 我々のモデルは、ホークスによる初期の自己引用点過程における古典的な影響カーネルに基づく定式化に基づいており、将来の出来事の発生に対する歴史的な出来事の影響を捉えている。 キーとなるアイデアは、グラフニューラルネットワーク(GNN)による影響カーネルの表現であり、GNNの強力な表現能力を取得しながら、基盤となるグラフ構造をキャプチャする。 ニューラルネットワークを用いた条件付インテンシティ関数を直接モデル化する先行研究と比較し,統計モデルと深層モデルを組み合わせて,モデル推定/学習効率の向上と優れた予測性能を実現することにより,繰り返し発生する事象の影響パターンをより効果的にする。 本研究は,観測空間の性質がグラフではなくユークリッドであることの根本的な違いから,既存の点プロセスデータに対する深部時空間カーネルを著しく拡張する。 本稿では,合成データと実世界のデータに関する総合的な実験を行い,今後の事象予測とデータ間の関係構造を明らかにするための最先端手法の優れた性能を示す。

Point process models are widely used for continuous asynchronous event data, where each data point includes time and additional information called "marks", which can be locations, nodes, or event types. In this paper, we present a novel point process model for discrete event data over graphs, where the event interaction occurs within a latent graph structure. Our model builds upon the classic influence kernel-based formulation by Hawkes in the original self-exciting point processes work to capture the influence of historical events on future events' occurrence. The key idea is to represent the influence kernel by Graph Neural Networks (GNN) to capture the underlying graph structure while harvesting the strong representation power of GNN. Compared with prior works that focus on directly modeling the conditional intensity function using neural networks, our kernel presentation herds the repeated event influence patterns more effectively by combining statistical and deep models, achieving better model estimation/learning efficiency and superior predictive performance. Our work significantly extends the existing deep spatio-temporal kernel for point process data, which is inapplicable to our setting due to the fundamental difference in the nature of the observation space being Euclidean rather than a graph. We present comprehensive experiments on synthetic and real-world data to show the superior performance of the proposed approach against the state-of-the-art in predicting future events and uncovering the relational structure among data.
翻訳日:2023-10-05 21:39:40 公開日:2023-10-04
# 分布ロバスト最適化による確率的再重み付け勾配降下

Stochastic Re-weighted Gradient Descent via Distributionally Robust Optimization ( http://arxiv.org/abs/2306.09222v2 )

ライセンス: Link先を確認
Ramnath Kumar and Kushal Majmundar and Dheeraj Nagaraj and Arun Sai Suggala(参考訳) 我々は,最適化ステップ毎にデータポイントの重み付けを重要視する深層ニューラルネットワークの性能を向上させるために,重み付け勾配降下法を開発した。 提案手法は, 一般化保証を改良したモデルとして知られてきたf-divergencesによる分布的ロバストな最適化に着想を得たものである。 我々の再重み付け方式は単純で計算効率が高く、SGDやAdamといった多くの最適化アルゴリズムと組み合わせることができる。 実験では,教師付き学習やドメイン適応など,様々なタスクにおけるアプローチの優位性を実証する。 特に,DomainBedとTabularの分類ベンチマークでは,SOTAよりも+0.7%,+1.44%向上した。 さらに,本アルゴリズムは,GLUEベンチマーク上でのBERTを+1.94%,ImageNet-1K上でのViTを+1.01%向上させる。 これらの結果は,提案手法の有効性を示し,多様な領域における性能向上の可能性を示した。

We develop a re-weighted gradient descent technique for boosting the performance of deep neural networks, which involves importance weighting of data points during each optimization step. Our approach is inspired by distributionally robust optimization with f-divergences, which has been known to result in models with improved generalization guarantees. Our re-weighting scheme is simple, computationally efficient, and can be combined with many popular optimization algorithms such as SGD and Adam. Empirically, we demonstrate the superiority of our approach on various tasks, including supervised learning, domain adaptation. Notably, we obtain improvements of +0.7% and +1.44% over SOTA on DomainBed and Tabular classification benchmarks, respectively. Moreover, our algorithm boosts the performance of BERT on GLUE benchmarks by +1.94%, and ViT on ImageNet-1K by +1.01%. These results demonstrate the effectiveness of the proposed approach, indicating its potential for improving performance in diverse domains.
翻訳日:2023-10-05 21:39:16 公開日:2023-10-04
# 「私の性関連データは私の財務データより敏感で、同じレベルのセキュリティとプライバシが欲しい」:女性指向技術におけるユーザリスク認識と保護行動

"My sex-related data is more sensitive than my financial data and I want the same level of security and privacy": User Risk Perceptions and Protective Actions in Female-oriented Technologies ( http://arxiv.org/abs/2306.05956v2 )

ライセンス: Link先を確認
Maryam Mehrnezhad and Teresa Almeida(参考訳) 生殖体のデジタル化は、人々が親密な健康を知り、取り組むのを支援するために、最先端技術に無数の関与してきた。 一般に女性技術(いわゆる女性指向技術(FemTech))として理解されているこれらの製品やシステムは、他者と処理、転送、保存、共有される幅広い親密なデータを収集する。 本稿では, この産業の「データ・ハングリー」の性質と, 適切な保護機構の欠如, 脆弱なデータに対する基準, 規制が, 複雑な害やエージェントの可能性にどのように影響するかを考察する。 我々は,これらの技術のセキュリティとプライバシ(SP)に対するユーザの理解を探索するために,混合手法を採用した。 以上の結果から,これらの技術にまつわる危害やリスクの範囲を推測できるが,そのようなリスクから身を守るための技術技術は備わっていないことが示唆された。 本稿では,本研究の文脈において,参加型脅威モデリングや設計によるSPなど,多くのアプローチについて議論し,このようなアプローチがユーザを保護する上で重要であると結論付けた。

The digitalization of the reproductive body has engaged myriads of cutting-edge technologies in supporting people to know and tackle their intimate health. Generally understood as female technologies (aka female-oriented technologies or 'FemTech'), these products and systems collect a wide range of intimate data which are processed, transferred, saved and shared with other parties. In this paper, we explore how the "data-hungry" nature of this industry and the lack of proper safeguarding mechanisms, standards, and regulations for vulnerable data can lead to complex harms or faint agentic potential. We adopted mixed methods in exploring users' understanding of the security and privacy (SP) of these technologies. Our findings show that while users can speculate the range of harms and risks associated with these technologies, they are not equipped and provided with the technological skills to protect themselves against such risks. We discuss a number of approaches, including participatory threat modelling and SP by design, in the context of this work and conclude that such approaches are critical to protect users in these sensitive systems.
翻訳日:2023-10-05 21:39:00 公開日:2023-10-04
# インプットニューラル表現を用いたインプットと予測のための時系列連続モデリング

Time Series Continuous Modeling for Imputation and Forecasting with Implicit Neural Representations ( http://arxiv.org/abs/2306.05880v3 )

ライセンス: Link先を確認
Etienne Le Naour, Louis Serrano, L\'eon Migus, Yuan Yin, Ghislain Agoua, Nicolas Baskiotis, Patrick Gallinari, Vincent Guigue(参考訳) 時系列計算と予測のための新しいモデリング手法を導入し、不規則なサンプル、欠落データ、複数のセンサからの非整合測定など、現実世界のデータで頻繁に発生する課題に対処する。 本手法はシリーズの進化ダイナミクスの連続時間依存モデルに依存する。 シーケンシャルデータに対する条件付き暗黙のニューラル表現の適応を利用する。 メタラーニングアルゴリズムによって駆動される変調機構は、長期間の予測のために観測された時間窓を超えたサンプルと外挿への適応を可能にする。 このモデルは非常に柔軟で統一されたフレームワークを提供し、幅広い挑戦的なシナリオにわたってタスクのインプテーションと予測を行う。 古典的なベンチマークで最先端のパフォーマンスを達成し、代替の時間連続モデルより優れている。

We introduce a novel modeling approach for time series imputation and forecasting, tailored to address the challenges often encountered in real-world data, such as irregular samples, missing data, or unaligned measurements from multiple sensors. Our method relies on a continuous-time-dependent model of the series' evolution dynamics. It leverages adaptations of conditional, implicit neural representations for sequential data. A modulation mechanism, driven by a meta-learning algorithm, allows adaptation to unseen samples and extrapolation beyond observed time-windows for long-term predictions. The model provides a highly flexible and unified framework for imputation and forecasting tasks across a wide range of challenging scenarios. It achieves state-of-the-art performance on classical benchmarks and outperforms alternative time-continuous models.
翻訳日:2023-10-05 21:38:37 公開日:2023-10-04
# 樹木空間を突き抜ける--根と未根の木の連続系統解析

Leaping through tree space: continuous phylogenetic inference for rooted and unrooted trees ( http://arxiv.org/abs/2306.05739v3 )

ライセンス: Link先を確認
Matthew J Penn, Neil Scheidwasser, Joseph Penn, Christl A Donnelly, David A Duch\^ene, and Samir Bhatt(参考訳) 現在、系統学は生命科学において基本的存在であり、生命の最も初期の分岐と疫病の起源と拡散に関する洞察を与えている。 しかし、樹木の広大な空間から適切な系統を見つけることは依然として困難である。 この問題に対処するために,勾配の計算が可能な連続空間において,木探索と推論の両方を初めて行う。 この連続緩和により、根付き木と根付き木の両方で木空間を横断する大きな跳躍が可能となり、局所極小への収束の影響を受けにくくなる。 提案手法は, 未開根木に対する推定法や, シミュレーションにおいて, 超測定の場合, 木と根を正確に推定する手法よりも優れている。 本手法は, 下顎脊椎動物の系統学を実証した, 無視可能な量のデータを用いた経験的データに対して有効である。 実際、ウルトラメトリックシグナルを持つ遺伝子は、脊椎動物の主要系統を解決するのに十分であった。 立方体時間複雑性と自動微分による効率的な最適化により,本手法は最も困難でデータ不足な系統的疑問を探索する効果的な方法を示す。

Phylogenetics is now fundamental in life sciences, providing insights into the earliest branches of life and the origins and spread of epidemics. However, finding suitable phylogenies from the vast space of possible trees remains challenging. To address this problem, for the first time, we perform both tree exploration and inference in a continuous space where the computation of gradients is possible. This continuous relaxation allows for major leaps across tree space in both rooted and unrooted trees, and is less susceptible to convergence to local minima. Our approach outperforms the current best methods for inference on unrooted trees and, in simulation, accurately infers the tree and root in ultrametric cases. The approach is effective in cases of empirical data with negligible amounts of data, which we demonstrate on the phylogeny of jawed vertebrates. Indeed, only a few genes with an ultrametric signal were generally sufficient for resolving the major lineages of vertebrate. With cubic-time complexity and efficient optimisation via automatic differentiation, our method presents an effective way forwards for exploring the most difficult, data-deficient phylogenetic questions.
翻訳日:2023-10-05 21:38:24 公開日:2023-10-04
# 量子ビットによる磁性基底状態の非古典的マグノン組成の解法

Resolving nonclassical magnon composition of a magnetic ground state via a qubit ( http://arxiv.org/abs/2306.05065v2 )

ライセンス: Link先を確認
Anna-Luisa E. R\"omling, Alejandro Vivas-Via\~na, Carlos S\'anchez Mu\~noz, Akashdeep Kamra(参考訳) 近年、量子科学とテクノロジーのエキサイティングな機会にマグネットで支えられた平衡のスクイーズと絡み合いに関する洞察を得ており、これらを活用するための具体的なプロトコルが必要である。 ここでは, 量子ビットと非固有モードマグノンの直接分散結合が, 実固有モード-マグノンの基底状態を形成するマグノン数状態の量子重ね合わせの検出を可能にすることを理論的に証明する。 さらに, この一意的なカップリングにより, 平衡マグノンスクイージングの制御と, キュービット状態とその励起によるスクイズド偶数フォック状態の決定論的生成が可能となる。 本研究は、平衡スクイージングと関連する量子特性を利用する一般的な経路として、スピン系で実現可能なnoneigenmodesへの直接分散結合を示し、他のプラットフォームで同様の実現を探索する動機付けとなる。

Recently gained insights into equilibrium squeezing and entanglement harbored by magnets point towards exciting opportunities for quantum science and technology, while concrete protocols for exploiting these are needed. Here, we theoretically demonstrate that a direct dispersive coupling between a qubit and a noneigenmode magnon enables detecting the magnonic number states' quantum superposition that forms the ground state of the actual eigenmode - squeezed-magnon - via qubit excitation spectroscopy. Furthermore, this unique coupling is found to enable control over the equilibrium magnon squeezing and a deterministic generation of squeezed even Fock states via the qubit state and its excitation. Our work demonstrates direct dispersive coupling to noneigenmodes, realizable in spin systems, as a general pathway to exploiting the equilibrium squeezing and related quantum properties thereby motivating a search for similar realizations in other platforms.
翻訳日:2023-10-05 21:38:04 公開日:2023-10-04
# 地域, グローバル, 誤分類説明のための統一概念ベースシステム

A Unified Concept-Based System for Local, Global, and Misclassification Explanations ( http://arxiv.org/abs/2306.03531v2 )

ライセンス: Link先を確認
Fatemeh Aghaeipoor, Dorsa Asgarian, Mohammad Sabokrou(参考訳) 近年,Deep Neural Networks(DNN)が注目されている。 様々な説明可能性のアプローチの中で、概念に基づく手法は、個々のピクセルのみに焦点をあてるのではなく、人間に意味のある概念を活用できる能力で際立っている。 しかし、局所的な説明とグローバルな説明を一貫して提供する手法は乏しい。 さらに、ほとんどのメソッドには、誤分類ケースを説明する提案がない。 これらの課題を考慮し,地域概念とグローバル概念の教師なし学習のための統一概念ベースシステムを提案する。 私たちの主な目的は、概念の重要性を推定するために説明ネットワークを訓練することで、各データカテゴリの基礎となる本質的な概念を明らかにすることです。 実験結果は, 多様な量的, 質的評価, 忠実性, 完全性, 汎用性を通じて, 発見概念の有効性を実証した。 さらに,提案手法は,正確な予測と誤った予測の双方の説明を容易にし,対象オブジェクトとクラスの特徴を理解する上で有用なツールである。

Explainability of Deep Neural Networks (DNNs) has been garnering increasing attention in recent years. Of the various explainability approaches, concept-based techniques stand out for their ability to utilize human-meaningful concepts instead of focusing solely on individual pixels. However, there is a scarcity of methods that consistently provide both local and global explanations. Moreover, most of the methods have no offer to explain misclassification cases. Considering these challenges, we present a unified concept-based system for unsupervised learning of both local and global concepts. Our primary objective is to uncover the intrinsic concepts underlying each data category by training surrogate explainer networks to estimate the importance of the concepts. Our experimental results substantiated the efficacy of the discovered concepts through diverse quantitative and qualitative assessments, encompassing faithfulness, completeness, and generality. Furthermore, our approach facilitates the explanation of both accurate and erroneous predictions, rendering it a valuable tool for comprehending the characteristics of the target objects and classes.
翻訳日:2023-10-05 21:37:44 公開日:2023-10-04
# ValiTex -- 社会科学構成の計算テキストに基づく測定のための統合検証フレームワーク

ValiTex -- a unified validation framework for computational text-based measures of social science constructs ( http://arxiv.org/abs/2307.02863v4 )

ライセンス: Link先を確認
Lukas Birkenmaier and Claudia Wagner and Clemens Lechner(参考訳) 社会科学構造に関する計算テキストに基づく尺度の検証方法に関するガイダンスが断片化されている。 研究者は一般的に、テキストベースの尺度を検証することの重要性を認めているが、共通の用語や統一的な枠組みを欠いていることが多い。 本稿では,テキストデータに基づく社会科学構築物の有効測定を支援する新しい検証フレームワークであるValiTexを紹介する。 valitexは3種類の正当な証拠の実証を研究者に勧めている: 実証的証拠(測定方法の理論的根拠を概説する)、構造的証拠(テキストモデルとその出力の特性を概説する)、外部的証拠(測定方法が独立情報とどう関係しているかを検証する)。 このフレームワークに加えて、valitexはさまざまなユースケースに適応可能なチェックリストを通じて、有用な実践的なガイダンスを提供する。 チェックリストは、特定の検証手順を明確に定義し、概説すると同時に、妥当性を確立するために各検証ステップの重要性を十分に評価する。 ソーシャルメディアデータから性差別を検出するユースケースに適用することで,このフレームワークの有用性を実証する。

Guidance on how to validate computational text-based measures of social science constructs is fragmented. While scholars generally acknowledge the importance of validating their text-based measures, they often lack common terminology and a unified framework to do so. This paper introduces ValiTex, a new validation framework designed to assist scholars in validly measuring social science constructs based on textual data. ValiTex prescribes researchers to demonstrate three types of validity evidence: substantive evidence (outlining the theoretical underpinning of the measure), structural evidence (examining the properties of the text model and its output), and external evidence (testing for how the measure relates to independent information). In addition to the framework, ValiTex offers valuable practical guidance through a checklist that is adaptable for different use cases. The checklist clearly defines and outlines specific validation steps while also offering a knowledgeable evaluation of the importance of each validation step to establish validity. We demonstrate the utility of the framework by applying it to a use case of detecting sexism from social media data.
翻訳日:2023-10-05 21:28:27 公開日:2023-10-04
# 物理的不可逆過程における「消去」のエントロピーコスト

Entropy Cost of "Erasure" in Physically Irreversible Processes ( http://arxiv.org/abs/2307.02643v3 )

ライセンス: Link先を確認
R. E. Kastner, Andreas Schlatter(参考訳) ランダウアーの原理の制限形式は、計算的な考察とは無関係に、共役可観測物に関連した合同エントロピーを参照して、熱システムに対して成り立つ。 非可逆的物理的過程に対する補償エントロピーの源は、情報理論的なアプローチで伝統的に想定された認識的不確実性ではなく、相互に相容れない可観測性の値に付随する存在論的不確実性にあることが示されている。 特に、リセット操作による論理的(直観的)情報の消去は熱力学的エントロピーの消去と等価ではないことが明確に示され、従来のランダウアーの原理の情報理論形式は物理学では支持されない。 分析のさらなる意味は、現実世界にマクスウェルの悪魔はいないということである。

A restricted form of Landauer's Principle, independent of computational considerations, is shown to hold for thermal systems by reference to the joint entropy associated with conjugate observables. It is shown that the source of the compensating entropy for irreversible physical processes is due to the ontological uncertainty attending values of such mutually incompatible observables, rather than due to epistemic uncertainty as traditionally assumed in the information-theoretic approach. In particular, it is explicitly shown that erasure of logical (epistemic) information via reset operations is not equivalent to erasure of thermodynamic entropy, so that the traditional, information-theoretic form of Landauer's Principle is not supported by the physics. A further implication of the analysis is that there is no Maxwell's Demon in the real world.
翻訳日:2023-10-05 21:27:53 公開日:2023-10-04
# 計算社会科学における再現性

Computational Reproducibility in Computational Social Science ( http://arxiv.org/abs/2307.01918v4 )

ライセンス: Link先を確認
David Schoch, Chung-hong Chan, Claudia Wagner, Arnim Bleier(参考訳) 複製の危機は過去10年間、科学的な展望を揺るがしてきた。 潜在的な解決策として、オープンサイエンスの実践は深く議論され、様々な分野で様々な成功を収めた。 我々は、計算社会科学のような計算xの分野は、危機の症状にも影響されるが、再現性の観点からも影響を受けやすいと論じる。 我々は,オープンウォッシングの実践に逆らう外部検証可能性に基づいて再現性レベルを増加させる階層システムへの再現性の定義を二分的に拡張する。 代替データ源の利用や再現性を積極的に検討することを含む、研究者の再現可能性の最高レベルを得るのを妨げる計算社会科学の障壁に対する解決策を提供する。

Replication crises have shaken the scientific landscape during the last decade. As potential solutions, open science practices were heavily discussed and have been implemented with varying success in different disciplines. We argue that computational-x disciplines such as computational social science, are also susceptible for the symptoms of the crises, but in terms of reproducibility. We expand the binary definition of reproducibility into a tier system which allows increasing levels of reproducibility based on external verfiability to counteract the practice of open-washing. We provide solutions for barriers in Computational Social Science that hinder researchers from obtaining the highest level of reproducibility, including the use of alternate data sources and considering reproducibility proactively.
翻訳日:2023-10-05 21:27:37 公開日:2023-10-04
# 補完記憶システムを用いたオープン語彙分類における連続学習

Continual Learning in Open-vocabulary Classification with Complementary Memory Systems ( http://arxiv.org/abs/2307.01430v2 )

ライセンス: Link先を確認
Zhen Zhu, Weijie Lyu, Yao Xiao, Derek Hoiem(参考訳) オープン語彙画像分類におけるフレキシブルで効率的な連続学習法を導入し,人間の認知に観察される相補的な学習システムからインスピレーションを得た。 具体的には、サンプルのクラスが模範クラス内にあるというゼロショット推定確率を用いて、CLIPゼロショットモデルと模範モデルからの予測を組み合わせることを提案する。 また,遅延学習の原則を適応した"ツリープローブ"手法を提案し,競合精度の高い新しい例からバッチ学習線形モデルへの高速学習を実現する。 データインクリメンタル、クラスインクリメンタル、タスクインクリメンタルの設定でテストし、ゼロショットと学習されたカテゴリのさまざまなサブセットで柔軟な推論を実行します。 提案手法は,学習速度,目標課題効率,ゼロショット効果のバランスが良好である。 コードはhttps://github.com/jessemelpolio/TreeProbe.comから入手できる。

We introduce a method for flexible and efficient continual learning in open-vocabulary image classification, drawing inspiration from the complementary learning systems observed in human cognition. Specifically, we propose to combine predictions from a CLIP zero-shot model and the exemplar-based model, using the zero-shot estimated probability that a sample's class is within the exemplar classes. We also propose a "tree probe" method, an adaption of lazy learning principles, which enables fast learning from new examples with competitive accuracy to batch-trained linear models. We test in data incremental, class incremental, and task incremental settings, as well as ability to perform flexible inference on varying subsets of zero-shot and learned categories. Our proposed method achieves a good balance of learning speed, target task effectiveness, and zero-shot effectiveness. Code will be available at https://github.com/jessemelpolio/TreeProbe.
翻訳日:2023-10-05 21:27:26 公開日:2023-10-04
# MedCPT:ゼロショットバイオメディカル情報検索のための大規模PubMed検索ログ付きコントラスト事前学習トランス

MedCPT: Contrastive Pre-trained Transformers with Large-scale PubMed Search Logs for Zero-shot Biomedical Information Retrieval ( http://arxiv.org/abs/2307.00589v2 )

ライセンス: Link先を確認
Qiao Jin, Won Kim, Qingyu Chen, Donald C. Comeau, Lana Yeganova, W. John Wilbur, Zhiyong Lu(参考訳) 情報検索(IR)は、バイオメディカル知識獲得と臨床決定支援に不可欠である。 近年,言語モデルエンコーダのセマンティック検索が向上していることが示されているが,このようなモデルのトレーニングには,バイオメディシンでは入手が困難である大量のクエリーアーティクルアノテーションが必要である。 その結果、ほとんどの生体赤外系は語彙マッチングのみを行う。 バイオメディシンにおけるゼロショットセマンティックIRのためのコントラスト事前学習トランスフォーマモデルであるMedCPTを導入する。 MedCPTのトレーニングには、PubMedから2億5500万のユーザクリックログを収集しました。 このようなデータを用いて、コントラスト学習を用いて、密接に統合されたレトリバーとリランクラーのペアを訓練する。 実験の結果, medcptは6つの生物医学irタスクにおいて新たな最先端性能を設定し, gpt-3-size cpt-text-xlのようなより大きなモデルを含む様々なベースラインを上回った。 さらに、MedCPTは、意味評価のためのより良いバイオメディカル記事や文表現を生成する。 したがって、MedCPTは様々な現実世界の生体医学IRタスクに容易に適用できる。

Information retrieval (IR) is essential in biomedical knowledge acquisition and clinical decision support. While recent progress has shown that language model encoders perform better semantic retrieval, training such models requires abundant query-article annotations that are difficult to obtain in biomedicine. As a result, most biomedical IR systems only conduct lexical matching. In response, we introduce MedCPT, a first-of-its-kind Contrastively Pre-trained Transformer model for zero-shot semantic IR in biomedicine. To train MedCPT, we collected an unprecedented scale of 255 million user click logs from PubMed. With such data, we use contrastive learning to train a pair of closely-integrated retriever and re-ranker. Experimental results show that MedCPT sets new state-of-the-art performance on six biomedical IR tasks, outperforming various baselines including much larger models such as GPT-3-sized cpt-text-XL. In addition, MedCPT also generates better biomedical article and sentence representations for semantic evaluations. As such, MedCPT can be readily applied to various real-world biomedical IR tasks.
翻訳日:2023-10-05 21:27:10 公開日:2023-10-04
# グラフレベル分類のための融合gromov-wassersteinグラフ混合

Fused Gromov-Wasserstein Graph Mixup for Graph-level Classifications ( http://arxiv.org/abs/2306.15963v2 )

ライセンス: Link先を確認
Xinyu Ma, Xu Chu, Yasha Wang, Yang Lin, Junfeng Zhao, Liantao Ma, Wenwu Zhu(参考訳) グラフデータの増大は、グラフレベルの分類におけるGNNの一般化性と堅牢性を高める上で優位性を示している。 しかし、既存の手法は主にグラフ信号空間とグラフ構造空間の増大に焦点を合わせ、それらの相互作用を無視している。 本稿では,グラフ構造と信号間の相互作用を考慮した最適グラフノードマッチング戦略の探索を目的とした,最適輸送問題としてこの問題を定式化する。 この問題を解決するために、FGW-Wasserstein(Fused Gromov-Wasserstein)計量空間におけるソースグラフの中間点を求めるFGWMixupと呼ばれる新しいグラフ混合アルゴリズムを提案する。 本手法のスケーラビリティを向上させるために, 収束率を$\mathcal{o}(t^{-1})$から$\mathcal{o}(t^{-2})$に改善することにより, fgwmixupを高速化する緩和fgwソルバを導入する。 古典的(MPNN)と先進的(Graphormers)のGNNバックボーンの両方を用いて5つのデータセットで実施された大規模な実験は、FGWMixupがGNNの一般化性と堅牢性を効果的に改善することを示した。 コードはhttps://github.com/ArthurLeoM/FGWMixup.comで入手できる。

Graph data augmentation has shown superiority in enhancing generalizability and robustness of GNNs in graph-level classifications. However, existing methods primarily focus on the augmentation in the graph signal space and the graph structure space independently, neglecting the joint interaction between them. In this paper, we address this limitation by formulating the problem as an optimal transport problem that aims to find an optimal inter-graph node matching strategy considering the interactions between graph structures and signals. To solve this problem, we propose a novel graph mixup algorithm called FGWMixup, which seeks a midpoint of source graphs in the Fused Gromov-Wasserstein (FGW) metric space. To enhance the scalability of our method, we introduce a relaxed FGW solver that accelerates FGWMixup by improving the convergence rate from $\mathcal{O}(t^{-1})$ to $\mathcal{O}(t^{-2})$. Extensive experiments conducted on five datasets using both classic (MPNNs) and advanced (Graphormers) GNN backbones demonstrate that FGWMixup effectively improves the generalizability and robustness of GNNs. Codes are available at https://github.com/ArthurLeoM/FGWMixup.
翻訳日:2023-10-05 21:26:37 公開日:2023-10-04
# AutoGraph:交通観測からレーングラフを予測する

AutoGraph: Predicting Lane Graphs from Traffic Observations ( http://arxiv.org/abs/2306.15410v2 )

ライセンス: Link先を確認
Jannik Z\"urn and Ingmar Posner and Wolfram Burgard(参考訳) レーングラフ推定は、自律運転における長年の問題である。 それまでの作業は、大規模で手書きのレーングラフを頼りにすることで、この問題を解決するためのトレーニングモデルのためのデータボトルネックを導入していた。 この制限を克服するため,交通参加者の動作パターンをレーングラフアノテーションとして利用することを提案する。 オートグラフアプローチでは,事前トレーニングされたオブジェクトトラッカを使用して,車両やトラックなどのトラヒック参加者のトラックレットを収集します。 これらのトラックレットの位置に基づいて、人間の監督を必要としないオーバーヘッドRGB画像のみを用いて、後続車線グラフを初期位置から予測する。 その後の段階では、個々の後続予測を一貫したレーングラフに集約する方法を示す。 筆者らは,UrbanLaneGraphデータセットに対するアプローチの有効性を実証し,手書きグラフデータに基づいてトレーニングしたモデルとAutoGraphが同等であることを示す。 モデルとデータセットは再検討で利用可能になる。

Lane graph estimation is a long-standing problem in the context of autonomous driving. Previous works aimed at solving this problem by relying on large-scale, hand-annotated lane graphs, introducing a data bottleneck for training models to solve this task. To overcome this limitation, we propose to use the motion patterns of traffic participants as lane graph annotations. In our AutoGraph approach, we employ a pre-trained object tracker to collect the tracklets of traffic participants such as vehicles and trucks. Based on the location of these tracklets, we predict the successor lane graph from an initial position using overhead RGB images only, not requiring any human supervision. In a subsequent stage, we show how the individual successor predictions can be aggregated into a consistent lane graph. We demonstrate the efficacy of our approach on the UrbanLaneGraph dataset and perform extensive quantitative and qualitative evaluations, indicating that AutoGraph is on par with models trained on hand-annotated graph data. Model and dataset will be made available at redacted-for-review.
翻訳日:2023-10-05 21:26:01 公開日:2023-10-04
# 盗聴されたANNが人間のカテゴリー認識のワームホールを発見

Robustified ANNs Reveal Wormholes Between Human Category Percepts ( http://arxiv.org/abs/2308.06887v2 )

ライセンス: Link先を確認
Guy Gaziv, Michael J. Lee, James J. DiCarlo(参考訳) 人工ニューラルネットワーク(ANN)の視覚オブジェクトカテゴリレポートは、小さな対向的な画像摂動に対して非常に敏感である。 人間のカテゴリー報告(いわゆる人間の知覚)は、同じ小さな北の摂動に無神経であり、局所的に安定しているため、ANNは人間の視覚知覚の不完全な科学的モデルであると主張する。 これとは対照的に、標準のANNモデルによって小さなノーム画像摂動が生成される場合、人間の対象のカテゴリパーセプションは非常に安定であることを示す。 しかし、この全く同じ「人間が想定する安定な」体制では、ANNは人間の知覚を強く妨害する低ノルム画像の摂動を確実に発見する。 これらの検出不能な人間の知覚障害は振幅が大きく、ANNで見られるのと同じレベルの感度に近づいている。 さらに, 頑健化ANNが正確な知覚状態の介入を支援することを示し, 人間のカテゴリ知覚を特定の知覚に強く変化させる低ノルム画像摂動の構築を導く。 これらの観測から、画像空間の任意の開始点に対して、近傍の「ワームホール」の集合が存在し、それぞれが現在のカテゴリ知覚状態から意味的に全く異なる状態へと主題を導くことが示唆される。 さらに、現代の生物学的視覚処理のANNモデルは、常にそれらのポータルに導くのに十分正確である。

The visual object category reports of artificial neural networks (ANNs) are notoriously sensitive to tiny, adversarial image perturbations. Because human category reports (aka human percepts) are thought to be insensitive to those same small-norm perturbations -- and locally stable in general -- this argues that ANNs are incomplete scientific models of human visual perception. Consistent with this, we show that when small-norm image perturbations are generated by standard ANN models, human object category percepts are indeed highly stable. However, in this very same "human-presumed-stable" regime, we find that robustified ANNs reliably discover low-norm image perturbations that strongly disrupt human percepts. These previously undetectable human perceptual disruptions are massive in amplitude, approaching the same level of sensitivity seen in robustified ANNs. Further, we show that robustified ANNs support precise perceptual state interventions: they guide the construction of low-norm image perturbations that strongly alter human category percepts toward specific prescribed percepts. These observations suggest that for arbitrary starting points in image space, there exists a set of nearby "wormholes", each leading the subject from their current category perceptual state into a semantically very different state. Moreover, contemporary ANN models of biological visual processing are now accurate enough to consistently guide us to those portals.
翻訳日:2023-10-05 21:19:56 公開日:2023-10-04
# AQUILA: デバイス選択戦略における適応量子化によるコミュニケーション効率のよいフェデレーション学習

AQUILA: Communication Efficient Federated Learning with Adaptive Quantization in Device Selection Strategy ( http://arxiv.org/abs/2308.00258v2 )

ライセンス: Link先を確認
Zihao Zhao, Yuzhu Mao, Zhenpeng Shi, Yang Liu, Tian Lan, Wenbo Ding, and Xiao-Ping Zhang(参考訳) プライバシを保存する分散学習手法であるフェデレートラーニング(FL)の普及は、大規模モデルの伝達によって生じる高い通信オーバーヘッドの課題によって妨げられている。 これらのオーバーヘッドを軽減するために設計された既存の適応量子化法は、トレーニングラウンド毎に一様デバイスに参加するという非現実的な仮定の下で動作します。 さらに、これらの手法は、手動量子化レベルの選択が必要であり、しばしばローカルデバイスのデータに固有のバイアスを見落とし、グローバルモデルの堅牢性に影響を与えるため、適応性に制限されている。 そこで本研究では,これらの問題を効果的に処理するための新しい適応フレームワークであるAQUILA(Adaptive Quantization in Device selection Strategy)を紹介し,FLの効率性と堅牢性を高める。 AQUILAは、デバイス更新の品質と有用性を優先する高度なデバイス選択方法を統合する。 デバイスが格納する正確なグローバルモデルを利用することで、より正確なデバイス選択基準を可能にし、モデルの偏差を低減し、ハイパーパラメータ調整の必要性を制限できる。 さらに、AQUILAは、モデル収束性を確保しつつ通信効率を向上させるために最適化された革新的な量子化基準を示す。 また,非iidデータやヘテロジニアスモデルアーキテクチャなど,多様な非均質なfl設定に対して同等のモデル性能を維持しながら,aquilaが通信コストを大幅に削減できることを実証した。

The widespread adoption of Federated Learning (FL), a privacy-preserving distributed learning methodology, has been impeded by the challenge of high communication overheads, typically arising from the transmission of large-scale models. Existing adaptive quantization methods, designed to mitigate these overheads, operate under the impractical assumption of uniform device participation in every training round. Additionally, these methods are limited in their adaptability due to the necessity of manual quantization level selection and often overlook biases inherent in local devices' data, thereby affecting the robustness of the global model. In response, this paper introduces AQUILA (adaptive quantization in device selection strategy), a novel adaptive framework devised to effectively handle these issues, enhancing the efficiency and robustness of FL. AQUILA integrates a sophisticated device selection method that prioritizes the quality and usefulness of device updates. Utilizing the exact global model stored by devices, it enables a more precise device selection criterion, reduces model deviation, and limits the need for hyperparameter adjustments. Furthermore, AQUILA presents an innovative quantization criterion, optimized to improve communication efficiency while assuring model convergence. Our experiments demonstrate that AQUILA significantly decreases communication costs compared to existing methods, while maintaining comparable model performance across diverse non-homogeneous FL settings, such as Non-IID data and heterogeneous model architectures.
翻訳日:2023-10-05 21:19:30 公開日:2023-10-04
# 生成的行動クローニングのための証明可能保証--低レベル安定性と高レベル行動の橋渡し

Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level Stability and High-Level Behavior ( http://arxiv.org/abs/2307.14619v4 )

ライセンス: Link先を確認
Adam Block, Daniel Pfrommer, Max Simchowitz(参考訳) 生成モデルを用いた複雑な専門家による実験の行動クローニングに関する理論的枠組みを提案する。 我々のフレームワークは、専門家によるデモンストレーションの模倣を安定化させるために、低レベルのコントローラ(位置命令制御の学習または暗黙)を呼び出す。 私たちはそれを示します a) 適切な低レベルの安定保証及び b) 擬似学習者として十分強力な生成モデルである純粋教師付き行動クローニングは, 基本的に任意の専門的軌跡の時間毎のステップ分布を最適な輸送コストで生成することができる。 我々の分析は、学習方針の確率的連続性(英語版)(total variation continuity、TVC)に依存している。 次に、一般的なデータ拡張レジームと新しいアルゴリズムのトリックを組み合わせることで、TVCが最小限の精度の劣化で確保できることを示し、実行時に拡張ノイズを追加する。 拡散モデルによりパラメータ化されたポリシーの保証をインスタンス化し、学習者が(雑音増大した)エキスパートポリシーのスコアを正確に推定した場合、擬似軌道の分布は自然の最適輸送距離における演者分布に近くなることを示す。 提案手法は,無関心な手法である雑音提示トラジェクタ間の複雑なカップリングを構成する。 本稿では,アルゴリズムの推薦を実証的に検証し,生成モデルによる行動クローニングの改善に向けた今後の研究の方向性について論じる。

We propose a theoretical framework for studying behavior cloning of complex expert demonstrations using generative modeling. Our framework invokes low-level controllers - either learned or implicit in position-command control - to stabilize imitation around expert demonstrations. We show that with (a) a suitable low-level stability guarantee and (b) a powerful enough generative model as our imitation learner, pure supervised behavior cloning can generate trajectories matching the per-time step distribution of essentially arbitrary expert trajectories in an optimal transport cost. Our analysis relies on a stochastic continuity property of the learned policy we call "total variation continuity" (TVC). We then show that TVC can be ensured with minimal degradation of accuracy by combining a popular data-augmentation regimen with a novel algorithmic trick: adding augmentation noise at execution time. We instantiate our guarantees for policies parameterized by diffusion models and prove that if the learner accurately estimates the score of the (noise-augmented) expert policy, then the distribution of imitator trajectories is close to the demonstrator distribution in a natural optimal transport distance. Our analysis constructs intricate couplings between noise-augmented trajectories, a technique that may be of independent interest. We conclude by empirically validating our algorithmic recommendations, and discussing implications for future research directions for better behavior cloning with generative modeling.
翻訳日:2023-10-05 21:19:06 公開日:2023-10-04
# デザイナーナノダイヤモンドにおける色中心集積型量子フォトニック回路

Quantum Photonic Circuits Integrated with Color Centers in Designer Nanodiamonds ( http://arxiv.org/abs/2307.13309v2 )

ライセンス: Link先を確認
Kinfung Ngan, Yuan Zhan, Constantin Dory, Jelena Vu\v{c}kovi\'c, and Shuo Sun(参考訳) ダイヤモンドは固体量子エミッタ、量子メモリ、量子センサーの主要なホスト材料として登場した。 しかし、ダイヤモンドでフォトニックデバイスを製造する際の課題は、量子技術での使用の可能性に制限がかかっている。 ダイヤモンドカラーセンターと不均質材料で定義されたフォトニックデバイスを結合する様々なハイブリッド統合手法が開発されているが、これらの手法は材料界面における大きな挿入損失またはエバネッセント光物質結合に悩まされている。 本稿では,窒化ケイ素フォトニック回路においてダイヤモンド色中心を決定論的に組み立てる手法を提案する。 この手法を用いて, 窒化ケイ素環共振器に結合したシリコン空孔中心のパーセル増強を観察した。 当社のハイブリッド統合手法は,低挿入損失を維持しつつ,最大光マッター相互作用強度を達成する可能性を秘めており,高品質量子エミッタやスピンを集積した大規模量子フォトニック回路のスケーラブルな製造への道を開く。

Diamond has emerged as a leading host material for solid-state quantum emitters, quantum memories, and quantum sensors. However, the challenges in fabricating photonic devices in diamond have limited its potential for use in quantum technologies. While various hybrid integration approaches have been developed for coupling diamond color centers with photonic devices defined in a heterogeneous material, these methods suffer from either large insertion loss at the material interface or evanescent light-matter coupling. Here, we present a new technique that enables deterministic assembly of diamond color centers in a silicon nitride photonic circuit. Using this technique, we observe Purcell enhancement of silicon vacancy centers coupled to a silicon nitride ring resonator. Our hybrid integration approach has the potential for achieving the maximum possible light-matter interaction strength while maintaining low insertion loss, and paves the way towards scalable manufacturing of large-scale quantum photonic circuits integrated with high-quality quantum emitters and spins.
翻訳日:2023-10-05 21:18:39 公開日:2023-10-04
# 高速ベイズトモグラフィーによる非マルコフ量子過程のキャラクタリゼーション

Characterizing non-Markovian Quantum Process by Fast Bayesian Tomography ( http://arxiv.org/abs/2307.12452v2 )

ライセンス: Link先を確認
R. Y. Su, J. Y. Huang, N. Dumoulin. Stuyck, M. K. Feng, W. Gilbert, T. J. Evans, W. H. Lim, F. E. Hudson, K. W. Chan, W. Huang, Kohei M. Itoh, R. Harper, S. D. Bartlett, C. H. Yang, A. Laucht, A. Saraiva, T. Tanttu and A. S. Dzurak(参考訳) 量子誤り訂正のしきい値を超えるレベルにゲート性能をプッシュするには、量子ゲートに発生するエラーソースを特徴付けることが重要である。 しかし、非マルコフ誤差の特性は、現在の量子プロセストモグラフィー技術に挑戦している。 Fast Bayesian Tomography (FBT) は自己整合性ゲートセットトモグラフィプロトコルであり、初期の特徴的知識からブートストラップし、任意のゲートシーケンスでリアルタイムで更新できる。 ここでは、FBTが鍵となる非マルコフ的誤り過程のキャラクタリゼーションを実現する方法を示す。 シリコン量子ドット上の2量子ビット系の非マルコフ的挙動を診断するためのFBTの実験プロトコルを2つ導入する。 実験分析ループの効率性とスケーラビリティを向上させるため,オンラインFBTソフトウェアスタックを開発した。 実験コストと解析時間を削減するため,本研究では,本手法と温かいブート戦略も導入する。 以上の結果から,FBTは量子コンピューティングにおけるフォールトトレラント演算の究極的実現に寄与する非マルコフ誤差の探索に有用であることが示された。

To push gate performance to levels beyond the thresholds for quantum error correction, it is important to characterize the error sources occurring on quantum gates. However, the characterization of non-Markovian error poses a challenge to current quantum process tomography techniques. Fast Bayesian Tomography (FBT) is a self-consistent gate set tomography protocol that can be bootstrapped from earlier characterization knowledge and be updated in real-time with arbitrary gate sequences. Here we demonstrate how FBT allows for the characterization of key non-Markovian error processes. We introduce two experimental protocols for FBT to diagnose the non-Markovian behavior of two-qubit systems on silicon quantum dots. To increase the efficiency and scalability of the experiment-analysis loop, we develop an online FBT software stack. To reduce experiment cost and analysis time, we also introduce a native readout method and warm boot strategy. Our results demonstrate that FBT is a useful tool for probing non-Markovian errors that can be detrimental to the ultimate realization of fault-tolerant operation on quantum computing.
翻訳日:2023-10-05 21:18:19 公開日:2023-10-04
# l-eval:long context language modelの標準化評価

L-Eval: Instituting Standardized Evaluation for Long Context Language Models ( http://arxiv.org/abs/2307.11088v3 )

ライセンス: Link先を確認
Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun Zhang, Lingpeng Kong and Xipeng Qiu(参考訳) 近年,大きな言語モデル (LLM) の文脈長の拡張への関心が高まっており,一ターンの長い入力や,より広範な歴史を持つ会話を効果的に処理することを目指している。 GPT-4やClaudeのようなプロプライエタリなモデルは、拡張されたコンテキストで推論能力を維持することができるが、オープンソースモデルはまだ開発の初期段階にある。 このギャップを埋めるため、L-Evalは、データセット構築と評価指標の2つの主要な側面に対処する長期文脈言語モデル(LCLM)のより標準化された評価を行う。 一方で,20のサブタスク,508の長いドキュメント,2000以上の質問応答ペアを含む,さまざまな質問スタイル,ドメイン,入力長(3k$3k$sim$200kトークン)を含む,新たな評価スイートを構築した。 一方,LCLMの溶出指標の有効性について検討した。 以上の結果から,一般的なn-gramマッチング尺度は人間の判断と相関し得ないことが示唆された。 L-Evalベンチマークを用いて,4種類の商用LCMと12種類のオープンソースを総合的に検討した。 実験結果からLCLMの研究に有用な知見が得られ,これらのモデルのより原理化された評価開発の基礎を築いた。

Recently, there has been growing interest in extending the context length of large language models (LLMs), aiming to effectively process long inputs of one turn or conversations with more extensive histories. While proprietary models such as GPT-4 and Claude can largely preserve the reasoning ability in an extended context, open-source models are still progressing through the early stages of development. To bridge this gap, we propose L-Eval to institute a more standardized evaluation for long context language models (LCLMs) addressing two key aspects: dataset construction and evaluation metrics. On the one hand, we build a new evaluation suite containing 20 sub-tasks, 508 long documents, and over 2,000 human-labeled query-response pairs encompassing diverse question styles, domains, and input length (3k$\sim$200k tokens). On the other hand, we investigate the effectiveness in evalution metrics for LCLMs. Results show that popular n-gram matching metrics generally can not correlate well with human judgment, and thus we strongly advocate for length-instruction-enhanced (LIE) evaluation and employing LLM judges. We conducted a comprehensive study of 4 popular commercial LLMs and 12 open-source counterparts using the L-Eval benchmark. Our empirical findings offer useful insights into the study of LCLMs and lay the groundwork for the development of more principled evaluation of these models.
翻訳日:2023-10-05 21:17:37 公開日:2023-10-04
# グラフニューラルネットワークによる測地線埋め込みの学習

Learning the Geodesic Embedding with Graph Neural Networks ( http://arxiv.org/abs/2309.05613v2 )

ライセンス: Link先を確認
Bo Pang, Zhongtian Zheng, Guoping Wang, Peng-Shuai Wang(参考訳) 離散多面体面上の任意の2点間の近似測地距離を高速事前計算後の一定時間複雑性で計算する学習ベース手法であるgegnnを提案する。 以前の関連する方法は、単一のソースとすべての宛先の間の測地距離の計算に焦点を合わせ、少なくとも線形複雑性を持つか、あるいは長い事前計算時間を必要とする。 私たちのキーとなるアイデアは、グラフニューラルネットワークをトレーニングして、入力メッシュを高次元の埋め込み空間に埋め込み、対応する埋め込みベクトルと軽量復号関数を用いて一対の点間の測地距離を計算することです。 埋め込みの学習を容易にするために,局所測地情報を含む新しいグラフ畳み込みおよびグラフプールモジュールを提案する。 トレーニング後、前処理としてメッシュ毎のネットワークのフォワードパスを1つだけ要求する。 次に,行列乗算を数個必要とせず,GPU上で大規模に並列化可能なデコード関数を用いて,一対の点間の測地距離を計算する。 本手法は,シェープネット上での効率性と有効性を検証し,既存の手法よりも1桁高速で,同等かそれ以上の精度が得られることを示す。 さらに,本手法は,ノイズおよび不完全メッシュに対するロバスト性および分布外メッシュに対する強力な一般化能力を示す。 コードと事前訓練されたモデルはhttps://github.com/IntelligentGeometry/GeGnn.orgにある。

We present GeGnn, a learning-based method for computing the approximate geodesic distance between two arbitrary points on discrete polyhedra surfaces with constant time complexity after fast precomputation. Previous relevant methods either focus on computing the geodesic distance between a single source and all destinations, which has linear complexity at least or require a long precomputation time. Our key idea is to train a graph neural network to embed an input mesh into a high-dimensional embedding space and compute the geodesic distance between a pair of points using the corresponding embedding vectors and a lightweight decoding function. To facilitate the learning of the embedding, we propose novel graph convolution and graph pooling modules that incorporate local geodesic information and are verified to be much more effective than previous designs. After training, our method requires only one forward pass of the network per mesh as precomputation. Then, we can compute the geodesic distance between a pair of points using our decoding function, which requires only several matrix multiplications and can be massively parallelized on GPUs. We verify the efficiency and effectiveness of our method on ShapeNet and demonstrate that our method is faster than existing methods by orders of magnitude while achieving comparable or better accuracy. Additionally, our method exhibits robustness on noisy and incomplete meshes and strong generalization ability on out-of-distribution meshes. The code and pretrained model can be found on https://github.com/IntelligentGeometry/GeGnn.
翻訳日:2023-10-05 21:08:29 公開日:2023-10-04
# 音源分離における特徴不均衡の解消

Addressing Feature Imbalance in Sound Source Separation ( http://arxiv.org/abs/2309.05287v2 )

ライセンス: Link先を確認
Jaechang Kim, Jeongyeon Hwang, Soheun Yi, Jaewoong Cho, Jungseul Ok(参考訳) ニューラルネットワークはしばしば機能優先の問題に悩まされ、タスクに欠落した機能が必須であるとしても、他の機能を無視しながらタスクを解決するために特定の機能に過度に依存する傾向がある。 特徴選好問題は主に分類タスクで研究されている。 しかし,高次元回帰タスク,特にソース分離において特徴優先が生じることが観察された。 ソース分離における特徴の選好を軽減するため,FEAture BAlancing by Suppressing Easy feature (FEABASE)を提案する。 このアプローチは、無視された特徴に関する隠れた情報を学習することで、効率的なデータ利用を可能にする。 我々は,空間的特徴と音色特徴との間の特徴嗜好が現れるマルチチャネル音源分離タスクにおいて,提案手法を評価する。

Neural networks often suffer from a feature preference problem, where they tend to overly rely on specific features to solve a task while disregarding other features, even if those neglected features are essential for the task. Feature preference problems have primarily been investigated in classification task. However, we observe that feature preference occurs in high-dimensional regression task, specifically, source separation. To mitigate feature preference in source separation, we propose FEAture BAlancing by Suppressing Easy feature (FEABASE). This approach enables efficient data utilization by learning hidden information about the neglected feature. We evaluate our method in a multi-channel source separation task, where feature preference between spatial feature and timbre feature appears.
翻訳日:2023-10-05 21:08:07 公開日:2023-10-04
# 新型コロナウイルス感染時のアウト・オブ・ディストリビューション電力負荷予測:連続学習のないエネルギー負荷予測モデルのベンチマーク

Navigating Out-of-Distribution Electricity Load Forecasting during COVID-19: Benchmarking energy load forecasting models without and with continual learning ( http://arxiv.org/abs/2309.04296v3 )

ライセンス: Link先を確認
Arian Prabowo, Kaixuan Chen, Hao Xue, Subbu Sethuvenkatraman, Flora D. Salim(参考訳) 従来のディープラーニングアルゴリズムでは、トレーニングとデプロイメントの両方において、データ分布が一定である、という前提が鍵となる。 しかし、新型コロナウイルス(COVID-19)のロックダウンのようなアウト・オブ・ディストリビューション(Out-of-Distribution)の期間に直面すると、この仮定は問題になる。 本稿では,新たなデータを用いたモデル更新のための継続的学習手法と,建物の外にあるプライバシー保護歩行者カウンターから収集した人体移動データを活用するための2つの戦略を用いる。 新たに取得した知識が事前情報を消去することがしばしばあることから「破滅的な忘れ」に苦しむオンライン学習とは対照的に、継続学習は過去の洞察を保存し、新しいデータを統合するという全体論的アプローチを提供する。 この研究は、オーストラリアのメルボルンにある13の建物群から得られた実世界のデータに対して、強力な連続学習アルゴリズムFSNetを適用した。 結果は、正確なエネルギー予測、特に分布域外における連続学習の重要な役割を強調する。 モビリティや温度などの二次データは,一次予測モデルに補助的支援を与えた。 さらに重要なのは、従来の手法はロックダウン中に適応するのに苦労していたが、少なくともオンライン学習を特徴とするモデルはレジリエンスを示し、ロックダウン期間は適応学習技術で武装した場合の課題が少なくなった。 本研究は,今後のアウト・オブ・ディストリビューション期間におけるエネルギー負荷予測の改善に有効な方法論と洞察を提供する。

In traditional deep learning algorithms, one of the key assumptions is that the data distribution remains constant during both training and deployment. However, this assumption becomes problematic when faced with Out-of-Distribution periods, such as the COVID-19 lockdowns, where the data distribution significantly deviates from what the model has seen during training. This paper employs a two-fold strategy: utilizing continual learning techniques to update models with new data and harnessing human mobility data collected from privacy-preserving pedestrian counters located outside buildings. In contrast to online learning, which suffers from 'catastrophic forgetting' as newly acquired knowledge often erases prior information, continual learning offers a holistic approach by preserving past insights while integrating new data. This research applies FSNet, a powerful continual learning algorithm, to real-world data from 13 building complexes in Melbourne, Australia, a city which had the second longest total lockdown duration globally during the pandemic. Results underscore the crucial role of continual learning in accurate energy forecasting, particularly during Out-of-Distribution periods. Secondary data such as mobility and temperature provided ancillary support to the primary forecasting model. More importantly, while traditional methods struggled to adapt during lockdowns, models featuring at least online learning demonstrated resilience, with lockdown periods posing fewer challenges once armed with adaptive learning techniques. This study contributes valuable methodologies and insights to the ongoing effort to improve energy load forecasting during future Out-of-Distribution periods.
翻訳日:2023-10-05 21:07:41 公開日:2023-10-04
# ソフトウェアエンジニアリングのための信頼性とシナジスティックな人工知能:ビジョンとロードマップ

Trustworthy and Synergistic Artificial Intelligence for Software Engineering: Vision and Roadmaps ( http://arxiv.org/abs/2309.04142v2 )

ライセンス: Link先を確認
David Lo(参考訳) 何十年もの間、ソフトウェアエンジニアリングの研究は、開発者の生産性の向上とソフトウェア品質の向上を目的とした、自動化ソリューションの開発に費やされてきた。 過去20年、ソフトウェアエンジニアリングのタスクに適したインテリジェントなソリューションの開発が、例外なく急増しているのを目撃してきた。 この勢いはAI4SE(Artificial Intelligence for Software Engineering)領域を確立した。 This Future of Software Engineering (FoSE)論文は、いくつかの焦点をナビゲートする。 AI4SEの簡潔な導入と歴史から始まります。 その後、AI4SEに固有の中核的な課題、特に信頼できる、シナジスティックなAI4SEを実現する必要性を強調している。 この論文は、AI4SEの重要な課題が克服され、ソフトウェア工学 2.0への移行が示唆される場合、潜在的な飛躍のビジョンを描いている。 ひとつは信頼できるAI4SEの実現、もうひとつはシナジスティックAI4SEの育成である。 この論文は決定的なガイドとして機能しないかもしれないが、さらなる進歩を触媒する意図がある。 究極の野望は、ソフトウェアエンジニアリングの地平線を再定義する上で、ai4seをlinchpinとして位置づけ、私たちをソフトウェアエンジニアリング2.0に向かわせることです。

For decades, much software engineering research has been dedicated to devising automated solutions aimed at enhancing developer productivity and elevating software quality. The past two decades have witnessed an unparalleled surge in the development of intelligent solutions tailored for software engineering tasks. This momentum established the Artificial Intelligence for Software Engineering (AI4SE) area, which has swiftly become one of the most active and popular areas within the software engineering field. This Future of Software Engineering (FoSE) paper navigates through several focal points. It commences with a succinct introduction and history of AI4SE. Thereafter, it underscores the core challenges inherent to AI4SE, particularly highlighting the need to realize trustworthy and synergistic AI4SE. Progressing, the paper paints a vision for the potential leaps achievable if AI4SE's key challenges are surmounted, suggesting a transition towards Software Engineering 2.0. Two strategic roadmaps are then laid out: one centered on realizing trustworthy AI4SE, and the other on fostering synergistic AI4SE. While this paper may not serve as a conclusive guide, its intent is to catalyze further progress. The ultimate aspiration is to position AI4SE as a linchpin in redefining the horizons of software engineering, propelling us toward Software Engineering 2.0.
翻訳日:2023-10-05 21:07:11 公開日:2023-10-04
# テンパレート指数測度を用いた最適輸送

Optimal Transport with Tempered Exponential Measures ( http://arxiv.org/abs/2309.04015v2 )

ライセンス: Link先を確認
Ehsan Amid, Frank Nielsen, Richard Nock, and Manfred K. Warmuth(参考訳) 最適輸送の分野では、2つの顕著なサブフィールドが向かい合っている。 (i)未正規化最適輸送 "\`a-la-kantorovich" は極めて疎い計画をもたらすが、スケール性に乏しいアルゴリズムである。 (ii)エントロピーレギュラライズド最適輸送 "\`a-la-sinkhorn-cuturi" は近似近似アルゴリズムを持つが、最大にスパースな計画に繋がる。 本稿では, 間接測度正規化を伴う指数関数列の一般化である指数関数列のテンペラ指数測度への一般化が, 非常に高速な近似アルゴリズムとスパーシティパターンの制御下にあるスパーシリティの両面において, 非常に便利であることを示す。 さらに、不均衡な最適輸送問題の設定にも自然に適合する。

In the field of optimal transport, two prominent subfields face each other: (i) unregularized optimal transport, "\`a-la-Kantorovich", which leads to extremely sparse plans but with algorithms that scale poorly, and (ii) entropic-regularized optimal transport, "\`a-la-Sinkhorn-Cuturi", which gets near-linear approximation algorithms but leads to maximally un-sparse plans. In this paper, we show that a generalization of the latter to tempered exponential measures, a generalization of exponential families with indirect measure normalization, gets to a very convenient middle ground, with both very fast approximation algorithms and sparsity which is under control up to sparsity patterns. In addition, it fits naturally in the unbalanced optimal transport problem setting as well.
翻訳日:2023-10-05 21:06:49 公開日:2023-10-04
# 半古典的Bose-Hubbard鎖におけるカオスと異常輸送

Chaos and anomalous transport in a semiclassical Bose-Hubbard chain ( http://arxiv.org/abs/2308.14720v2 )

ライセンス: Link先を確認
Dragan Markovi\'c and Mihailo \v{C}ubrovi\'c(参考訳) 半古典的領域におけるボース・ハバード鎖のカオスダイナミクスと異常輸送(粒子数が無限大になる場合の限界)について研究する。 この系は、最大100個の井戸を持つ長い鎖であっても、通常の力学とカオス力学の混合位相空間を持つ。 混合位相空間の結果は占有数の空間における強い異常拡散であり、輸送指数の離散集合を持つ。 非常に長い時間の後、システムは通常の拡散を伴う流体力学系に交差する。 異常輸送は、モデル(クーロン相互作用、化学的ポテンシャル)のパラメータからほぼ完全に独立しており、主に鎖に沿った粒子の初期分布によって決定される。 我々は,異常分布のスケーリング解析と正規拡散分布のランジュバン方程式という解析的議論によって,この知見を裏付ける。

We study chaotic dynamics and anomalous transport in a Bose-Hubbard chain in the semiclassical regime (the limit when the number of particles goes to infinity). We find that the system has mixed phase space with both regular and chaotic dynamics, even for long chains with up to hundred wells. The consequence of the mixed phase space is strongly anomalous diffusion in the space of occupation numbers, with a discrete set of transport exponents. After very long times the system crosses over to the hydrodynamic regime with normal diffusion. Anomalous transport is quite universal, almost completely independent of the parameters of the model (Coulomb interaction, chemical potential): it is mainly determined by the initial distribution of particles along the chain. We corroborate our findings by analytical arguments: scaling analysis for the anomalous regime and the Langevin equation for the normal diffusion regime.
翻訳日:2023-10-05 21:06:33 公開日:2023-10-04
# 大規模言語モデルに対するベイズ低位適応

Bayesian low-rank adaptation for large language models ( http://arxiv.org/abs/2308.13111v3 )

ライセンス: Link先を確認
Adam X. Yang, Maxime Robeyns, Xi Wang, Laurence Aitchison(参考訳) 低ランク適応(LoRA)は、大規模言語モデル(LLM)のコスト効率の高い微調整のための新しいパラダイムとして登場した。 しかし、微調整LPMは、特に小さなデータセットで微調整された場合、過信されることが多い。 ベイズ的手法は、不確実性を推定する固有の能力を持ち、過信を緩和し校正を強化する強力なツールとして機能する。 本稿では,LoRAパラメータにベイズ的アプローチを適用するLaplace-LoRAを提案する。 特に、Laplace-LoRAは、LoRAパラメータの後方にLaplace近似を適用し、微調整LDMの校正を大幅に改善した。

Low-rank adaptation (LoRA) has emerged as a new paradigm for cost-efficient fine-tuning of large language models (LLMs). However, fine-tuned LLMs often become overconfident especially when fine-tuned on small datasets. Bayesian methods, with their inherent ability to estimate uncertainty, serve as potent tools to mitigate overconfidence and enhance calibration. In this work, we introduce Laplace-LoRA, which applies a Bayesian approach to the LoRA parameters. Specifically, Laplace-LoRA applies a Laplace approximation to the posterior over the LoRA parameters, considerably improving the calibration of fine-tuned LLMs.
翻訳日:2023-10-05 21:06:03 公開日:2023-10-04
# エゴセントリックビデオにおける文脈認識予測のためのnext-active objectsの活用

Leveraging Next-Active Objects for Context-Aware Anticipation in Egocentric Videos ( http://arxiv.org/abs/2308.08303v2 )

ライセンス: Link先を確認
Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue(参考訳) オブジェクトは、人間とオブジェクトの相互作用を理解するのに不可欠である。 関連するオブジェクトを特定することで、これらのオブジェクトで起こりうる潜在的な未来の相互作用やアクションを予測することもできる。 本稿では,短期的物体間相互作用予測 (sta) の問題について検討し,次にアクティブな物体 (nao) を予測し,最終的にモデルにコンテキスト認識の将来行動を予測するためのモデル誘導を行うマルチモーダル・エンドツーエンド・トランスフォーマーネットワークである naogat (next-active-object guided precipation transformer) を提案する。 このタスクは、アクションが発生するオブジェクトと、その相互作用が始まる時間、すなわち、接触する時間(ttc)とともに、将来のアクションを予測する必要があるため、難しい。 アクション予測のための既存のビデオモデリングアーキテクチャと比較して、NAOGATは、オブジェクトとグローバルシーンコンテキストの関係をキャプチャして、次のアクティブなオブジェクトの検出を予測し、これらの検出により関連する将来のアクションを予測する。 実際、我々のアプローチの重要な強みの1つは、与えられたクリップ内のオブジェクトの動作ダイナミクスを利用する能力です。 実験により,我々のモデルが既存の2つのデータセット(ego4dとepickitchens-100(unseen set))上の既存手法を上回っており,時間や接触,次にアクティブなオブジェクトのローカライズなど,いくつかの指標で測定した。 コードは受理後利用可能になる。

Objects are crucial for understanding human-object interactions. By identifying the relevant objects, one can also predict potential future interactions or actions that may occur with these objects. In this paper, we study the problem of Short-Term Object interaction anticipation (STA) and propose NAOGAT (Next-Active-Object Guided Anticipation Transformer), a multi-modal end-to-end transformer network, that attends to objects in observed frames in order to anticipate the next-active-object (NAO) and, eventually, to guide the model to predict context-aware future actions. The task is challenging since it requires anticipating future action along with the object with which the action occurs and the time after which the interaction will begin, a.k.a. the time to contact (TTC). Compared to existing video modeling architectures for action anticipation, NAOGAT captures the relationship between objects and the global scene context in order to predict detections for the next active object and anticipate relevant future actions given these detections, leveraging the objects' dynamics to improve accuracy. One of the key strengths of our approach, in fact, is its ability to exploit the motion dynamics of objects within a given clip, which is often ignored by other models, and separately decoding the object-centric and motion-centric information. Through our experiments, we show that our model outperforms existing methods on two separate datasets, Ego4D and EpicKitchens-100 ("Unseen Set"), as measured by several additional metrics, such as time to contact, and next-active-object localization. The code will be available upon acceptance.
翻訳日:2023-10-05 21:05:55 公開日:2023-10-04
# マルチエージェントシステムの学習適応安全性

Learning Adaptive Safety for Multi-Agent Systems ( http://arxiv.org/abs/2309.10657v2 )

ライセンス: Link先を確認
Luigi Berducci, Shuo Yang, Rahul Mangharam, Radu Grosu(参考訳) 動的マルチエージェントシステムにおける安全性の確保は、他のエージェントに関する情報が限られているため困難である。 制御バリア関数(CBF)は安全性の保証を約束しているが、現在の手法は他のエージェントに対して強い仮定をしており、安全、実現可能性、パフォーマンスのバランスをとるために手動チューニングに依存していることが多い。 本研究では,CBFを用いたマルチエージェントシステムにおける適応型安全学習の問題について検討する。 そこで本研究では,CBF設計に対する応答性および動的アプローチの必要性を強調し,CBF構成により創発的行動が深く影響されることを示す。 我々は,新しい適応型安全rlフレームワークasrlを提案し,ポリシー係数とcbf係数の最適化を完全自動化し,強化学習による安全性と長期的な性能を向上させる。 他のエージェントと直接対話することで、ASRLは多様なエージェントの動作に対処し、所望の限界以下のコスト違反を維持することを学ぶ。 学習ベースおよび制御理論に基づくアプローチに対して,マルチロボットシステムと競合するマルチエージェントレースシナリオでASRLを評価する。 我々は,asrlの有効性と柔軟性を実証し,分散シナリオへの一般化と拡張性を評価する。 コードと補足資料はオンラインで公開されている。

Ensuring safety in dynamic multi-agent systems is challenging due to limited information about the other agents. Control Barrier Functions (CBFs) are showing promise for safety assurance but current methods make strong assumptions about other agents and often rely on manual tuning to balance safety, feasibility, and performance. In this work, we delve into the problem of adaptive safe learning for multi-agent systems with CBF. We show how emergent behavior can be profoundly influenced by the CBF configuration, highlighting the necessity for a responsive and dynamic approach to CBF design. We present ASRL, a novel adaptive safe RL framework, to fully automate the optimization of policy and CBF coefficients, to enhance safety and long-term performance through reinforcement learning. By directly interacting with the other agents, ASRL learns to cope with diverse agent behaviours and maintains the cost violations below a desired limit. We evaluate ASRL in a multi-robot system and a competitive multi-agent racing scenario, against learning-based and control-theoretic approaches. We empirically demonstrate the efficacy and flexibility of ASRL, and assess generalization and scalability to out-of-distribution scenarios. Code and supplementary material are public online.
翻訳日:2023-10-05 21:01:12 公開日:2023-10-04
# MUSTANG: 病理組織学的全スライド画像のための多段階自己注意グラフ多重学習パイプライン

MUSTANG: Multi-Stain Self-Attention Graph Multiple Instance Learning Pipeline for Histopathology Whole Slide Images ( http://arxiv.org/abs/2309.10650v2 )

ライセンス: Link先を確認
Amaya Gallagher-Syed, Luca Rossi, Felice Rivellese, Costantino Pitzalis, Myles Lewis, Michael Barnes, Gregory Slabaugh(参考訳) Whole Slide Images (WSIs)は、ギガピクセルのサイズと多数のアーティファクトの存在により、コンピュータビジョンの課題を提示している。 しかし、それらは患者の診断と階層化のための貴重なリソースであり、しばしば診断タスクの黄金の標準を表す。 実世界の臨床データセットは、患者レベルにラベルがある異種wsisのセットとして提供されがちである。 これらの課題に対処するために,近年では,注意力の弱いマルチインスタンス学習アプローチが開発されているが,長大と短大の依存関係を解決できない場合もある。 本稿では,患者レベルでラベルを割り当てるが,スライドレベルのラベルや領域アノテーションは利用できない,弱教師付きギガピクセルマルチイメージ分類タスクを解決するために設計された,エンドツーエンドのマルチアテンショングラフ(MUSTANG)マルチインスタンス学習パイプラインを提案する。 このパイプラインは、ユークリッド距離に基づく組み込みwsiパッチの非常にスパースなk-nearest近傍グラフにオペレーションを制限することにより、自己アテンションに基づくアプローチを採用している。 提案手法は,最先端のF1スコア/AUCが0.89/0.92であることを示す。 我々のアプローチは高度にモジュール化されており、アノテーションなしで患者レベルのラベルが必要であり、グラフのサイズや構造が異なるWSIセットを受け入れるため、異なる臨床データセットに適合するように容易に修正できる。 ソースコードはhttps://github.com/AmayaGS/MUSTANGにある。

Whole Slide Images (WSIs) present a challenging computer vision task due to their gigapixel size and presence of numerous artefacts. Yet they are a valuable resource for patient diagnosis and stratification, often representing the gold standard for diagnostic tasks. Real-world clinical datasets tend to come as sets of heterogeneous WSIs with labels present at the patient-level, with poor to no annotations. Weakly supervised attention-based multiple instance learning approaches have been developed in recent years to address these challenges, but can fail to resolve both long and short-range dependencies. Here we propose an end-to-end multi-stain self-attention graph (MUSTANG) multiple instance learning pipeline, which is designed to solve a weakly-supervised gigapixel multi-image classification task, where the label is assigned at the patient-level, but no slide-level labels or region annotations are available. The pipeline uses a self-attention based approach by restricting the operations to a highly sparse k-Nearest Neighbour Graph of embedded WSI patches based on the Euclidean distance. We show this approach achieves a state-of-the-art F1-score/AUC of 0.89/0.92, outperforming the widely used CLAM model. Our approach is highly modular and can easily be modified to suit different clinical datasets, as it only requires a patient-level label without annotations and accepts WSI sets of different sizes, as the graphs can be of varying sizes and structures. The source code can be found at https://github.com/AmayaGS/MUSTANG.
翻訳日:2023-10-05 21:00:51 公開日:2023-10-04
# GPTFUZER: 自動生成のjailbreakプロンプトで大規模言語モデルをレッドチーム化

GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts ( http://arxiv.org/abs/2309.10253v2 )

ライセンス: Link先を確認
Jiahao Yu, Xingwei Lin, Zheng Yu, Xinyu Xing(参考訳) 大規模言語モデル(LLM)は最近非常に人気があり、カジュアルな会話からAI駆動プログラミングまで広く使われている。 しかし、その大きな成功にもかかわらず、LSMは完全に信頼されておらず、有害または違法な活動の実施方法について詳細なガイダンスを与えることができる。 安全対策はそのようなアウトプットのリスクを減らすことができるが、敵のジェイルブレイク攻撃はLLMを利用して有害なコンテンツを生成することができる。 これらのジェイルブレイクテンプレートは通常手動で作成されるため、大規模なテストは難しい。 本稿では,AFLファジィフレームワークに触発された新しいブラックボックスジェイルブレイクファジィフレームワークであるGPTFuzzを紹介する。 手動のエンジニアリングの代わりに、gptfuzzは、red-teaming llm用のジェイルブレイクテンプレートの生成を自動化する。 gptfuzzの中核は、人間が書いたテンプレートを初期種として始め、それを変更して新しいテンプレートを作成する。 我々はgptfuzzの3つの重要なコンポーネントについて詳述する: 効率と可変性のバランスをとるためのシード選択戦略、意味的に等価または類似した文を作成するオペレーターを変異させる、そしてジェイルブレイク攻撃の成功を評価する判断モデル。 GPTFuzzをChatGPT, LLaMa-2, Vicunaなど,様々な商用およびオープンソースLLMに対して,多様な攻撃シナリオ下で評価する。 以上の結果から,GPTFuzzは高い成功率のジェイルブレイクテンプレートを連続的に生成し,人造テンプレートを超越していることが示唆された。 注目すべきは、GPTFuzzがChatGPTおよびLlama-2モデルに対して90%以上の攻撃成功率を達成することだ。 我々は,GPTFuzzがLSMのロバスト性調査において研究者や実践者にとって有効であり,LSMの安全性向上へのさらなる探究を促進することを期待する。

Large language models (LLMs) have recently experienced tremendous popularity and are widely used from casual conversations to AI-driven programming. However, despite their considerable success, LLMs are not entirely reliable and can give detailed guidance on how to conduct harmful or illegal activities. While safety measures can reduce the risk of such outputs, adversarial jailbreak attacks can still exploit LLMs to produce harmful content. These jailbreak templates are typically manually crafted, making large-scale testing challenging. In this paper, we introduce GPTFuzz, a novel black-box jailbreak fuzzing framework inspired by the AFL fuzzing framework. Instead of manual engineering, GPTFuzz automates the generation of jailbreak templates for red-teaming LLMs. At its core, GPTFuzz starts with human-written templates as initial seeds, then mutates them to produce new templates. We detail three key components of GPTFuzz: a seed selection strategy for balancing efficiency and variability, mutate operators for creating semantically equivalent or similar sentences, and a judgment model to assess the success of a jailbreak attack. We evaluate GPTFuzz against various commercial and open-source LLMs, including ChatGPT, LLaMa-2, and Vicuna, under diverse attack scenarios. Our results indicate that GPTFuzz consistently produces jailbreak templates with a high success rate, surpassing human-crafted templates. Remarkably, GPTFuzz achieves over 90% attack success rates against ChatGPT and Llama-2 models, even with suboptimal initial seed templates. We anticipate that GPTFuzz will be instrumental for researchers and practitioners in examining LLM robustness and will encourage further exploration into enhancing LLM safety.
翻訳日:2023-10-05 21:00:19 公開日:2023-10-04
# 小さなkペア状態

Small k-pairable states ( http://arxiv.org/abs/2309.09956v2 )

ライセンス: Link先を確認
Nathan Claudet, Mehdi Mhalla, Simon Perdrix(参考訳) $k$-pairable $n$-qubit stateは、$n$ qubitsの任意の$k$-disjointペアの中で、ローカルオペレーションと古典通信(LOCC)プロトコルがEPRペアを生成することができるリソース状態である。 Bravyiらは$k$-pairable $n$-qubit状態のファミリーを導入し、$n$は$k$で指数関数的に成長する。 我々の主な貢献は「小さな」ペアリング可能な量子状態の存在を確立することである。 具体的には、$k$-pairable $n$-qubit graph状態の族を示し、$n$は$k$の多項式、すなわち$n=O(k^3\ln^3k)$である。 我々の構成は確率的方法に依存している。 さらに、共有状態を固定点として持つ任意の局所ユニタリ変換の支持に基づき、任意の量子状態のペア性に関する上限を与える。 この下限は、グラフ状態のペアビリティが、基礎となるグラフの局所補完(例えば $k(|G \rangle)\le \lceil \delta_{loc}(G)/2\rceil$)までの最小次の半分であることを意味する。 グラフ$g$が$k$-vertex-minor-universalであれば、その頂点の任意のグラフが$g$である。 グラフが2k$-vertex-minor-Universalの場合、対応するグラフ状態は$k$-pairableである。 より正確には、eprペアだけでなく、ローカル操作や古典的な通信を通じて、2k$ qubitsの任意の安定化状態も作成できる。 我々は位数$O(k^4 \ln k)$の$k$-vertex-minor-universal graphの存在を確立する。 最後に、エラーや悪意ある当事者の存在下でのペアビリティの自然な拡張について検討し、頂点と最小のユニバーシティが堅牢なペアビリティを実現することを示す。

A $k$-pairable $n$-qubit state is a resource state that allows Local Operations and Classical Communication (LOCC) protocols to generate EPR-pairs among any $k$-disjoint pairs of the $n$ qubits. Bravyi et al. introduced a family of $k$-pairable $n$-qubit states, where $n$ grows exponentially with $k$. Our primary contribution is to establish the existence of 'small' pairable quantum states. Specifically, we present a family of $k$-pairable $n$-qubit graph states, where $n$ is polynomial in $k$, namely $n=O(k^3\ln^3k)$. Our construction relies on probabilistic methods. Furthermore, we provide an upper bound on the pairability of any arbitrary quantum state based on the support of any local unitary transformation that has the shared state as a fixed point. This lower bound implies that the pairability of a graph state is at most half of the minimum degree up to local complementation of the underlying graph, i.e., $k(|G \rangle)\le \lceil \delta_{loc}(G)/2\rceil$. We also investigate the related combinatorial problem of $k$-vertex-minor-universality: a graph $G$ is $k$-vertex-minor-universal if any graph on any $k$ of its vertices is a vertex-minor of $G$. When a graph is $2k$-vertex-minor-universal, the corresponding graph state is $k$-pairable. More precisely, one can create not only EPR-pairs but also any stabilizer state on any $2k$ qubits through local operations and classical communication. We establish the existence of $k$-vertex-minor-universal graphs of order $O(k^4 \ln k)$. Finally, we explore a natural extension of pairability in the presence of errors or malicious parties and show that vertex-minor-universality ensures a robust form of pairability.
翻訳日:2023-10-05 20:59:46 公開日:2023-10-04
# スパースオートエンコーダは言語モデルで高い解釈可能な特徴を見つける

Sparse Autoencoders Find Highly Interpretable Features in Language Models ( http://arxiv.org/abs/2309.08600v3 )

ライセンス: Link先を確認
Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey(参考訳) ニューラルネットワークの内部をよりよく理解するための障害の1つは、複数の意味的に異なる文脈でニューロンが活性化しているように見える \textit{polysemanticity}である。 多義性は、ニューラルネットワークが内部で行っていることに関して、簡潔で理解可能な説明を識別することを妨げる。 多義性の原因の一つは \textit{superposition} であり、ニューラルネットワークはニューロンよりも多くの特徴を表現し、個々のニューロンではなく、活性化空間の方向の過剰な集合に特徴を割り当てる。 本稿では、スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築し、これらの方向を特定しようとする。 これらのオートエンコーダは、他の手法によって識別される方向よりも解釈可能で単意味な機能群を学習する。 さらに,学習した特徴集合を用いて,間接的対象識別タスク \citep{wang2022 interpretationability} の反事実行動に因果的に責任を持つ特徴を,従来よりも細かい程度に特定できることを示す。 本研究は,スケーラブルで教師なしの手法を用いて,言語モデルの重ね合わせを解決することができることを示す。 この手法は,今後の機械的な解釈作業の基礎となる可能性があり,モデルの透明性と操縦性の向上が期待できる。

One of the roadblocks to a better understanding of neural networks' internals is \textit{polysemanticity}, where neurons appear to activate in multiple, semantically distinct contexts. Polysemanticity prevents us from identifying concise, human-understandable explanations for what neural networks are doing internally. One hypothesised cause of polysemanticity is \textit{superposition}, where neural networks represent more features than they have neurons by assigning features to an overcomplete set of directions in activation space, rather than to individual neurons. Here, we attempt to identify those directions, using sparse autoencoders to reconstruct the internal activations of a language model. These autoencoders learn sets of sparsely activating features that are more interpretable and monosemantic than directions identified by alternative approaches, where interpretability is measured by automated methods. Moreover, we show that with our learned set of features, we can pinpoint the features that are causally responsible for counterfactual behaviour on the indirect object identification task \citep{wang2022interpretability} to a finer degree than previous decompositions. This work indicates that it is possible to resolve superposition in language models using a scalable, unsupervised method. Our method may serve as a foundation for future mechanistic interpretability work, which we hope will enable greater model transparency and steerability.
翻訳日:2023-10-05 20:59:13 公開日:2023-10-04
# 周期的に駆動される非エルミートイジング鎖の絡み合い転移

Entanglement transitions in a periodically driven non-Hermitian Ising chain ( http://arxiv.org/abs/2309.07661v2 )

ライセンス: Link先を確認
Tista Banerjee and K. Sengupta(参考訳) 我々は、駆動周波数$\omega_D$の関数として、虚横フィールド$\gamma$の存在下で周期的に駆動されるIsing鎖の絡み合い遷移を研究する。 高い駆動振幅と周波数状態において、以下の臨界値 $\gamma=\gamma_c$ は定常状態半鎖絡みエントロピー$S_{L/2}$ で、チェーン長$L$ as $S_{L/2} \sim \ln L$ でスケールし、対照的に$\gamma>\gamma_c$ では$L$ とは独立となる。 小さな$\gamma$ 極限において、フロッケ摂動理論を用いて解析的に計算した$\ln l$ 項の係数 $\alpha$ を計算し、その起源を駆動鎖の相関関数におけるフィッシャー・ハートウィッグジャンプ特異点の存在にさかのぼる。 また、$\gamma_c$の周波数依存性を調べ、特別な駆動周波数で$\gamma_c \to 0$を示し、分析的に計算したこれらの周波数では、$S_{L/2}$はすべての$\gamma$に対して$L$とは独立であることを示す。 この挙動は、Floquet Hamiltonian のこれらの駆動周波数における近似緊急対称性に遡ることができる。 最後に、駆動系の動作を低域および中間域の駆動周波数で判別する。 我々の分析は、小サブシステム長$\ell \le \ell^{\ast}(\omega_D)$に対する$S_{\ell} \sim \ell$における絡み合いの体積法的な振る舞いの存在を示している。 我々は$\ell^{\ast}(\omega_d)$を同定し、その存在を小さなサブシステムサイズで駆動鎖のフロッケハミルトニアンの効果的な長距離的性質と結びつける。 我々は、この結果の他の可積分非エルミートモデルへの適用性について論じる。

We study entanglement transitions in a periodically driven Ising chain in the presence of an imaginary transverse field $\gamma$ as a function of drive frequency $\omega_D$. In the high drive amplitude and frequency regime, we find a critical value $\gamma=\gamma_c$ below which the steady state half-chain entanglement entropy, $S_{L/2}$, scales with chain length $L$ as $S_{L/2} \sim \ln L$; in contrast, for $\gamma>\gamma_c$, it becomes independent of $L$. In the small $\gamma$ limit, we compute the coefficient, $\alpha$, of the $\ln L$ term analytically using a Floquet perturbation theory and trace its origin to the presence of Fisher-Hartwig jump singularities in the correlation function of the driven chain. We also study the frequency dependence of $\gamma_c$ and show that $\gamma_c \to 0$ at special drive frequencies; at these frequencies, which we analytically compute, $S_{L/2}$ remain independent of $L$ for all $\gamma$. This behavior can be traced to an approximate emergent symmetry of the Floquet Hamiltonian at these drive frequencies which we identify. Finally, we discus the behavior of the driven system at low and intermediate drive frequencies. Our analysis shows the presence of volume law behavior of the entanglement in this regime $S_{\ell} \sim \ell$ for small subsystem length $\ell \le \ell^{\ast}(\omega_D)$. We identify $\ell^{\ast}(\omega_D)$ and tie its existence to the effective long-range nature of the Floquet Hamiltonian of the driven chain for small subsystem size. We discuss the applicability of our results to other integrable non-hermitian models.
翻訳日:2023-10-05 20:58:46 公開日:2023-10-04
# 地球科学と基礎モデル:一般地球科学人工知能システムを目指して

When Geoscience Meets Foundation Models: Towards General Geoscience Artificial Intelligence System ( http://arxiv.org/abs/2309.06799v2 )

ライセンス: Link先を確認
Hao Zhang and Jin-Jian Xu(参考訳) 地球科学の基礎モデルは、地球系のダイナミクスをシミュレートし理解するために、巨大な学際データを統合することにより、地球科学の分野における革新的なアプローチを表している。 データ中心人工知能(AI)パラダイムとして、ペタバイト単位の構造化データと非構造化データの洞察を明らかにする。 柔軟なタスク仕様、多様なインプットとアウトプット、マルチモーダルな知識表現により、個々のデータソースで包括的な分析が不可能になる。 重要なことに、地球科学モデルのスケーラビリティと一般化性により、地球系の相互作用に関連する様々な予測、シミュレーション、決定問題に取り組むことができる。 ドメインの専門家とコンピュータ科学者のコラボレーションは、地球の歴史、現在、未来を理解するための貴重なツールに革新をもたらす。 しかし、検証と検証、スケール、解釈可能性、知識表現、社会的偏見に課題は残る。 今後は、学際的なチームワークを通じて、モデル統合、解決、正確性、エクイティを強化することが重要です。 現在の制限にもかかわらず、地球科学財団のモデルは、気候変動、自然災害、持続可能性などの問題に対する重要な洞察を提供することを約束している。 統合データ駆動モデリングへの彼らの継続的な進化は、地球科学のパラダイムシフトの可能性を秘めている。

Geoscience foundation models represent a revolutionary approach in the field of Earth sciences by integrating massive cross-disciplinary data to simulate and understand the Earth systems dynamics. As a data-centric artificial intelligence (AI) paradigm, they uncover insights from petabytes of structured and unstructured data. Flexible task specification, diverse inputs and outputs and multi-modal knowledge representation enable comprehensive analysis infeasible with individual data sources. Critically, the scalability and generalizability of geoscience models allow for tackling diverse prediction, simulation, and decision challenges related to Earth systems interactions. Collaboration between domain experts and computer scientists leads to innovations in these invaluable tools for understanding the past, present, and future of our planet. However, challenges remain in validation and verification, scale, interpretability, knowledge representation, and social bias. Going forward, enhancing model integration, resolution, accuracy, and equity through cross-disciplinary teamwork is key. Despite current limitations, geoscience foundation models show promise for providing critical insights into pressing issues including climate change, natural hazards, and sustainability through their ability to probe scenarios and quantify uncertainties. Their continued evolution toward integrated, data-driven modeling holds paradigm-shifting potential for Earth science.
翻訳日:2023-10-05 20:58:14 公開日:2023-10-04
# conr: 深い不均衡回帰のための対比正規化器

ConR: Contrastive Regularizer for Deep Imbalanced Regression ( http://arxiv.org/abs/2309.06651v2 )

ライセンス: Link先を確認
Mahsa Keramati, Lili Meng, R. David Evans(参考訳) 不均衡分布は実世界データにおいてユビキタスである。 マイノリティラベルを表現し、多数派ラベルへの偏見を避けるため、Deep Neural Networksに制約を課す。 不均衡なアプローチの広範な本体は分類ラベル空間に対処するが、ラベル空間が連続である回帰問題に効果的に拡張できない。 連続ラベル間の局所的およびグローバル的相関は、特徴空間における関係を効果的にモデル化するための貴重な洞察を提供する。 本研究では,特徴空間におけるグローバルおよびローカルなラベル類似性をモデル化し,少数のサンプルの特徴が多数派に崩壊することを防ぐコントラストレギュレータを提案する。 ConRはラベル空間と特徴空間の相違を認識し、これらの相違に対してペナルティを課す。 ConRは2つの主要な戦略でラベル空間の連続的な性質を対照的に扱い、不正確な近さはラベル類似度に比例して罰せられ、正しいものは局所類似度をモデル化するよう奨励される。 ConRは、深い不均衡な回帰に効果的に対処する、ジェネリックで、容易に統合され、効率的な方法に重要な考慮事項を集約する。 さらに、ConRは既存のアプローチと直交し、一次元および多次元のラベル空間に滑らかに拡張する。 総合実験の結果,conrは4つの大規模深部不均衡回帰ベンチマークにおいて,最先端手法の性能を著しく向上させることがわかった。 私たちのコードはhttps://github.com/borealisai/conrで公開されています。

Imbalanced distributions are ubiquitous in real-world data. They create constraints on Deep Neural Networks to represent the minority labels and avoid bias towards majority labels. The extensive body of imbalanced approaches address categorical label spaces but fail to effectively extend to regression problems where the label space is continuous. Local and global correlations among continuous labels provide valuable insights towards effectively modelling relationships in feature space. In this work, we propose ConR, a contrastive regularizer that models global and local label similarities in feature space and prevents the features of minority samples from being collapsed into their majority neighbours. ConR discerns the disagreements between the label space and feature space and imposes a penalty on these disagreements. ConR addresses the continuous nature of label space with two main strategies in a contrastive manner: incorrect proximities are penalized proportionate to the label similarities and the correct ones are encouraged to model local similarities. ConR consolidates essential considerations into a generic, easy-to-integrate, and efficient method that effectively addresses deep imbalanced regression. Moreover, ConR is orthogonal to existing approaches and smoothly extends to uni- and multi-dimensional label spaces. Our comprehensive experiments show that ConR significantly boosts the performance of all the state-of-the-art methods on four large-scale deep imbalanced regression benchmarks. Our code is publicly available in https://github.com/BorealisAI/ConR.
翻訳日:2023-10-05 20:57:56 公開日:2023-10-04
# 特殊対一般性:微調整基礎モデルにおける破滅的忘れ方に関する実証的研究

Speciality vs Generality: An Empirical Study on Catastrophic Forgetting in Fine-tuning Foundation Models ( http://arxiv.org/abs/2309.06256v2 )

ライセンス: Link先を確認
Yong Lin, Lu Tan, Hangyu Lin, Zeming Zheng, Renjie Pi, Jipeng Zhang, Shizhe Diao, Haoxiang Wang, Han Zhao, Yuan Yao, and Tong Zhang(参考訳) Vision Language Models (VLM) やLarge Language Models (LLMs) を含む基礎モデルは、様々な分散やタスクを扱うために$ Generality$を持っている。 ファウンデーションモデルの微調整は、タスクパフォーマンスを高めたり、モデルの振る舞いを人間の期待と整合させ、$speciality$を得られるようにする一般的なプラクティスである。 しかし、微調整に使われる小さなデータセットは、事前トレーニング中に遭遇する多様な分布やタスクを適切にカバーしていない可能性がある。 その結果、微調整中の特殊性の追求は、ディープラーニングにおける破滅的忘れ(CF)に関連するモデルにおける一般性の喪失につながる可能性がある。 本研究では,この現象をVLMとLLMの両方で実証する。 例えば、ImageNet上のCLIPのような微調整のVLMは、多様な分布を扱う際の一般性の喪失を招き、医療領域におけるGalacticaのような微調整のLLMは、次の指示と常識の喪失をもたらす。 専門性と一般性のトレードオフに対処するために,連続学習からの複数の正規化法,事前学習モデルと微調整モデルのパラメータを補間するout-of-distributional(ood)一般化からの重み平均化法(wise-ft),低ランク適応(lora)などのパラメータ効率の良い微調整法について検討した。 本研究は,Wise-FTが専門性と一般性のバランスを保ち,継続学習とWise-ftの両手法が汎用性の喪失を効果的に軽減することを示した。

Foundation models, including Vision Language Models (VLMs) and Large Language Models (LLMs), possess the $generality$ to handle diverse distributions and tasks, which stems from their extensive pre-training datasets. The fine-tuning of foundation models is a common practice to enhance task performance or align the model's behavior with human expectations, allowing them to gain $speciality$. However, the small datasets used for fine-tuning may not adequately cover the diverse distributions and tasks encountered during pre-training. Consequently, the pursuit of speciality during fine-tuning can lead to a loss of {generality} in the model, which is related to catastrophic forgetting (CF) in deep learning. In this study, we demonstrate this phenomenon in both VLMs and LLMs. For instance, fine-tuning VLMs like CLIP on ImageNet results in a loss of generality in handling diverse distributions, and fine-tuning LLMs like Galactica in the medical domain leads to a loss in following instructions and common sense. To address the trade-off between the speciality and generality, we investigate multiple regularization methods from continual learning, the weight averaging method (Wise-FT) from out-of-distributional (OOD) generalization, which interpolates parameters between pre-trained and fine-tuned models, and parameter-efficient fine-tuning methods like Low-Rank Adaptation (LoRA). Our findings show that both continual learning and Wise-ft methods effectively mitigate the loss of generality, with Wise-FT exhibiting the strongest performance in balancing speciality and generality.
翻訳日:2023-10-05 20:57:31 公開日:2023-10-04
# rgbdに基づくトランスフォーマーモデルと包括的モバイルデータセットによるロバストなディジタルトウィントラッキング

Towards Robust Mobile Digital-Twin Tracking via An RGBD-based Transformer Model and A Comprehensive Mobile Dataset ( http://arxiv.org/abs/2309.13570v2 )

ライセンス: Link先を確認
Zixun Huang, Keling Yao, Seth Z. Zhao, Chuanyu Pan, Tianjian Xu, Weiyu Feng, Allen Y. Yang(参考訳) 物理的オブジェクトの正確なデジタルレプリカを作成することを含むデジタルツイン技術のポテンシャルは、3DオブジェクトのトラッキングとローカライゼーションシナリオにおけるARエクスペリエンスを再形成する上で重要である。 しかし、動的なモバイルAR環境で堅牢な3Dオブジェクトトラッキングを可能にすることは、依然として大きな課題である。 これらのシナリオは、しばしば、固有のセンサーレベルの測定ノイズを扱うことができるより堅牢なポーズ推定器を必要とする。 本稿では,既存の文献における包括的解決の課題を認識し,実世界雑音データ下での最先端精度を実現するためのトランスフォーマティブ6dofポーズ推定器を提案する。 先行技術に対する新しいソリューションのパフォーマンスを体系的に検証するために、デジタルツイントラッキングデータセット(dttd)v2と呼ばれる、デジタルツインオブジェクト追跡シナリオに焦点を当てた新しいrgbdデータセットも導入する。 既存のDTTD v1から拡張されたこのデータセットは、Apple iPhone 14 Proの最先端のモバイルRGBDセンサースイートを使用してキャプチャされたデジタルツインデータを追加する。 大規模実験と奥行き解析により,既存のベースラインの性能を上回って,奥行きデータエラーによる手法の有効性を明らかにした。 コードはhttps://github.com/augcog/robust-digital-twin-trackingで公開されている。

The potential of digital-twin technology, involving the creation of precise digital replicas of physical objects, to reshape AR experiences in 3D object tracking and localization scenarios is significant. However, enabling robust 3D object tracking in dynamic mobile AR environments remains a formidable challenge. These scenarios often require a more robust pose estimator capable of handling the inherent sensor-level measurement noise. In this paper, recognizing the challenges of comprehensive solutions in existing literature, we propose a transformer-based 6DoF pose estimator designed to achieve state-of-the-art accuracy under real-world noisy data. To systematically validate the new solution's performance against the prior art, we also introduce a novel RGBD dataset called Digital Twin Tracking Dataset (DTTD) v2, which is focused on digital-twin object tracking scenarios. Expanded from an existing DTTD v1, the new dataset adds digital-twin data captured using a cutting-edge mobile RGBD sensor suite on Apple iPhone 14 Pro, expanding the applicability of our approach to iPhone sensor data. Through extensive experimentation and in-depth analysis, we illustrate the effectiveness of our methods under significant depth data errors, surpassing the performance of existing baselines. Code is made publicly available at: https://github.com/augcog/Robust-Digital-Twin-Tracking.
翻訳日:2023-10-05 20:47:32 公開日:2023-10-04
# バイオインスピレーションによるスーパーピクセルセグメンテーションの再考

Rethinking superpixel segmentation from biologically inspired mechanisms ( http://arxiv.org/abs/2309.13438v2 )

ライセンス: Link先を確認
TingYu Zhao, Bo Peng, Yuan Sun, DaiPeng Yang, ZhenGuang Zhange, and Xi Wu(参考訳) 近年,深層学習に基づくスーパーピクセルセグメンテーション法の進歩により,セグメンテーションの効率と性能が向上している。 しかし、特に表面上の色相関が物体に干渉する可能性がある場合、オブジェクトの境界に厳密に準拠するスーパーピクセルを生成することには、大きな課題が残っている。 神経構造と視覚機構からインスピレーションを得て,スーパーピクセルセグメンテーションのための拡張スクリーニングモジュール (ESM) と新しい境界認識ラベル (BAL) からなる生体ネットワークアーキテクチャを提案する。 ESMは視覚野の対話的投射機構をシミュレートすることで意味情報を強化する。 さらに、BALは視覚皮質細胞の空間周波数特性をエミュレートし、強い境界付着を持つスーパーピクセルの生成を促進する。 BSDS500データセットとNYUv2データセットの両方で評価を行い,本手法の有効性を示す。

Recently, advancements in deep learning-based superpixel segmentation methods have brought about improvements in both the efficiency and the performance of segmentation. However, a significant challenge remains in generating superpixels that strictly adhere to object boundaries while conveying rich visual significance, especially when cross-surface color correlations may interfere with objects. Drawing inspiration from neural structure and visual mechanisms, we propose a biological network architecture comprising an Enhanced Screening Module (ESM) and a novel Boundary-Aware Label (BAL) for superpixel segmentation. The ESM enhances semantic information by simulating the interactive projection mechanisms of the visual cortex. Additionally, the BAL emulates the spatial frequency characteristics of visual cortical cells to facilitate the generation of superpixels with strong boundary adherence. We demonstrate the effectiveness of our approach through evaluations on both the BSDS500 dataset and the NYUv2 dataset.
翻訳日:2023-10-05 20:46:39 公開日:2023-10-04
# 時系列予測: 差分データによる長期依存の解放

Time-Series Forecasting: Unleashing Long-Term Dependencies with Fractionally Differenced Data ( http://arxiv.org/abs/2309.13409v2 )

ライセンス: Link先を確認
Sarit Maitra, Vivek Mishra, Srashti Dwivedi, Sukanya Kundu, Goutam Kumar Kundu(参考訳) 本研究では,分数差分(FD)のパワーを利用して時系列データにおける短期的および長期的依存関係を捉える新しい予測手法を提案する。 従来の整数差分法とは異なり、FDはメモリを連続的に保存し、モデリングのために安定化する。 スパイ指標からの金融データにfdを適用し,ニュースレポートからの感情分析を組み込むことで,fdの有効性を目標変数のバイナリ分類と組み合わせて検討する。 教師付き分類アルゴリズムを用いてFDシリーズの性能を検証した。 その結果, 整数差に対するFDの優位性を示し, 受信器動作特性/Area Under the Curve (ROCAUC) とMathews correlation Coefficient (MCC) の評価で確認された。

This study introduces a novel forecasting strategy that leverages the power of fractional differencing (FD) to capture both short- and long-term dependencies in time series data. Unlike traditional integer differencing methods, FD preserves memory in series while stabilizing it for modeling purposes. By applying FD to financial data from the SPY index and incorporating sentiment analysis from news reports, this empirical analysis explores the effectiveness of FD in conjunction with binary classification of target variables. Supervised classification algorithms were employed to validate the performance of FD series. The results demonstrate the superiority of FD over integer differencing, as confirmed by Receiver Operating Characteristic/Area Under the Curve (ROCAUC) and Mathews Correlation Coefficient (MCC) evaluations.
翻訳日:2023-10-05 20:46:09 公開日:2023-10-04
# 不確実性下における在庫管理のためのシミュレーションベースハイブリダイゼーションと自己適応によるアンサンブル微分進化

Ensemble Differential Evolution with Simulation-Based Hybridization and Self-Adaptation for Inventory Management Under Uncertainty ( http://arxiv.org/abs/2309.12852v2 )

ライセンス: Link先を確認
Sarit Maitra, Vivek Mishra, Sukanya Kundu(参考訳) 本研究は,インベントリーマネジメント(IM)のためのシミュラオンベースハイブリッド化と自己適応(EDESH-SA)アプローチを用いたアンサンブル微分進化法を提案する。 本研究では,複数回実行したDEとシミュレーションに基づくハイブリダイゼーション手法を組み合わせることで,各イテレーションの成功や失敗に基づいて動的に突然変異や交叉率を変化させる自己適応機構を含む。 適応性のため、このアルゴリズムはIMに存在する複雑さと不確実性を扱うことができる。 モンテカルロシミュレーション(MCS)を用いることで、確率性や様々な需要シナリオを考慮した継続的レビュー(CR)在庫戦略を除外する。 このシミュレーションに基づくアプローチは,IMが直面する課題を現実的に解決する上で,提案するアルゴリズムの適用性を現実的に評価することを可能にする。 実験により,IMの財務性能を向上し,大規模検索空間を最適化する手法の可能性を示す。 本研究は, ackley関数によるパフォーマンステストと摂動による感度解析を用いて, 変数の変化が客観的値に与える影響を検討する。 この分析は、アルゴリズムの振る舞いと堅牢性に関する貴重な洞察を提供する。

This study proposes an Ensemble Differential Evolution with Simula-tion-Based Hybridization and Self-Adaptation (EDESH-SA) approach for inven-tory management (IM) under uncertainty. In this study, DE with multiple runs is combined with a simulation-based hybridization method that includes a self-adaptive mechanism that dynamically alters mutation and crossover rates based on the success or failure of each iteration. Due to its adaptability, the algorithm is able to handle the complexity and uncertainty present in IM. Utilizing Monte Carlo Simulation (MCS), the continuous review (CR) inventory strategy is ex-amined while accounting for stochasticity and various demand scenarios. This simulation-based approach enables a realistic assessment of the proposed algo-rithm's applicability in resolving the challenges faced by IM in practical settings. The empirical findings demonstrate the potential of the proposed method to im-prove the financial performance of IM and optimize large search spaces. The study makes use of performance testing with the Ackley function and Sensitivity Analysis with Perturbations to investigate how changes in variables affect the objective value. This analysis provides valuable insights into the behavior and robustness of the algorithm.
翻訳日:2023-10-05 20:45:55 公開日:2023-10-04
# autopet challenge 2023: スライディングウィンドウに基づくu-netの最適化

AutoPET Challenge 2023: Sliding Window-based Optimization of U-Net ( http://arxiv.org/abs/2309.12114v2 )

ライセンス: Link先を確認
Matthias Hadlich, Zdravko Marinov, Rainer Stiefelhagen(参考訳) 医用画像における腫瘍のセグメンテーションは重要であり、正確なデライン化に依存している。 Fluorodeoxyglucose Positron-Emission Tomography (FDG-PET) は代謝活性腫瘍の検出に広く用いられている。 しかし、FDG-PETスキャンは、健康な組織や良性組織の不規則なグルコース消費をがんと誤解する可能性がある。 PETとCTを組み合わせることで、代謝情報と解剖情報を統合することにより腫瘍のセグメンテーションを高めることができる。 FDG-PET/CTスキャンは、放射線標識されたフルオロデオキシグルコースを用いて代謝活性領域を強調することにより、がんのステージングと再評価に欠かせない。 腫瘍特異的摂取と正常組織の生理的摂取を正確に区別することは、腫瘍の分節化の難しい側面である。 AutoPETは1014のFDG-PET/CT研究のデータセットを提供し、FDG-PET/CTドメイン内の正確な腫瘍のセグメンテーションと解析を奨励することでこの問題に対処する。 コード:https://github.com/matt3o/AutoPET2-Submission/

Tumor segmentation in medical imaging is crucial and relies on precise delineation. Fluorodeoxyglucose Positron-Emission Tomography (FDG-PET) is widely used in clinical practice to detect metabolically active tumors. However, FDG-PET scans may misinterpret irregular glucose consumption in healthy or benign tissues as cancer. Combining PET with Computed Tomography (CT) can enhance tumor segmentation by integrating metabolic and anatomic information. FDG-PET/CT scans are pivotal for cancer staging and reassessment, utilizing radiolabeled fluorodeoxyglucose to highlight metabolically active regions. Accurately distinguishing tumor-specific uptake from physiological uptake in normal tissues is a challenging aspect of precise tumor segmentation. The AutoPET challenge addresses this by providing a dataset of 1014 FDG-PET/CT studies, encouraging advancements in accurate tumor segmentation and analysis within the FDG-PET/CT domain. Code: https://github.com/matt3o/AutoPET2-Submission/
翻訳日:2023-10-05 20:44:52 公開日:2023-10-04
# 移動最小化方式によるニューラルネットワークのモジュールワイドトレーニング

Module-wise Training of Neural Networks via the Minimizing Movement Scheme ( http://arxiv.org/abs/2309.17357v2 )

ライセンス: Link先を確認
Skander Karkar and Ibrahim Ayed and Emmanuel de B\'ezenac and Patrick Gallinari(参考訳) 階層的、あるいはモジュール的ニューラルネットワークのトレーニングは、エンドツーエンドのバックプロパゲーションの多くの問題を回避しているため、メモリが制限された制約付きデバイス上での設定において魅力的なものだ。 しかし、初期層が過剰に適合し、より深い層が特定の深さの後にテスト精度を高めるのを止めるという、停滞する問題に苦しむ。 分散空間における勾配流の最小化運動スキームに着想を得たモジュールワイズ正規化を導入することでこの問題を解決することを提案する。 本手法をTRGL(Transport Regularized Greedy Learning)と呼び,それを理論的に研究し,規則的かつ漸進的に課題を解決しているグリージーモジュールに繋がることを示す。 実験により,resnet,transformer,vggなどの各種アーキテクチャのモジュール単位でのトレーニングの精度が向上したことを示す。

Greedy layer-wise or module-wise training of neural networks is compelling in constrained and on-device settings where memory is limited, as it circumvents a number of problems of end-to-end back-propagation. However, it suffers from a stagnation problem, whereby early layers overfit and deeper layers stop increasing the test accuracy after a certain depth. We propose to solve this issue by introducing a module-wise regularization inspired by the minimizing movement scheme for gradient flows in distribution space. We call the method TRGL for Transport Regularized Greedy Learning and study it theoretically, proving that it leads to greedy modules that are regular and that progressively solve the task. Experimentally, we show improved accuracy of module-wise training of various architectures such as ResNets, Transformers and VGG, when our regularization is added, superior to that of other module-wise training methods and often to end-to-end training, with as much as 60% less memory usage.
翻訳日:2023-10-05 20:39:01 公開日:2023-10-04
# 効果的な生物プラズブル・アドバイサル・トレーニング

Efficient Biologically Plausible Adversarial Training ( http://arxiv.org/abs/2309.17348v2 )

ライセンス: Link先を確認
Matilde Tristany Farinha, Thomas Ortner, Giorgia Dellaferrera, Benjamin Grewe, Angeliki Pantazi(参考訳) バックプロパゲーション(BP)でトレーニングされた人工ニューラルネットワーク(ANN)は、驚くべきパフォーマンスを示し、日々のタスクの実行に頻繁に使用される。 しかし、ANNは敵攻撃に対して非常に脆弱であり、モデルの性能を劇的に破壊する小さな目標摂動で入力を変更する。 これらの攻撃に対してANNを堅牢にするための最も効果的な方法は、訓練データセットを模範的な対人サンプルで拡張する対人訓練である。 残念なことに、このアプローチは、対数サンプルの生成が非常に計算的に要求されるため、トレーニングの複雑さが増大する欠点がある。 ANNとは対照的に、人間は敵の攻撃を受けにくい。 そこで本研究では,生物工学的な学習アルゴリズムがBPよりも敵攻撃に対して堅牢であるかどうかを検討する。 特に,様々なコンピュータビジョンタスクにおいて,bpの対向的ロバスト性に関する広範囲な比較分析を行い,最近提案されている生物学的可読性学習アルゴリズムpepitaの入力を摂動させる誤差を提示する。 PEPITAは内向的対向性が高く, 対向的トレーニングでは, 同じ自然的アキュラシーに対して, PEPITAの対向的アキュラシーは平均0.26%減少し, BPは8.05%低下した。

Artificial Neural Networks (ANNs) trained with Backpropagation (BP) show astounding performance and are increasingly often used in performing our daily life tasks. However, ANNs are highly vulnerable to adversarial attacks, which alter inputs with small targeted perturbations that drastically disrupt the models' performance. The most effective method to make ANNs robust against these attacks is adversarial training, in which the training dataset is augmented with exemplary adversarial samples. Unfortunately, this approach has the drawback of increased training complexity since generating adversarial samples is very computationally demanding. In contrast to ANNs, humans are not susceptible to adversarial attacks. Therefore, in this work, we investigate whether biologically-plausible learning algorithms are more robust against adversarial attacks than BP. In particular, we present an extensive comparative analysis of the adversarial robustness of BP and Present the Error to Perturb the Input To modulate Activity (PEPITA), a recently proposed biologically-plausible learning algorithm, on various computer vision tasks. We observe that PEPITA has higher intrinsic adversarial robustness and, with adversarial training, has a more favourable natural-vs-adversarial performance trade-off as, for the same natural accuracies, PEPITA's adversarial accuracies decrease in average by 0.26% and BP's by 8.05%.
翻訳日:2023-10-05 20:38:39 公開日:2023-10-04
# エバネッセント電子波スピン

Evanescent Electron Wave Spin ( http://arxiv.org/abs/2309.17325v2 )

ライセンス: Link先を確認
Ju Gao and Fang Shen(参考訳) 有限円柱量子井戸におけるディラック方程式を解いて、有限量子井戸の外側にエバネッセント波スピンが存在することを示す。 解析解析は無限量子井戸内の波動関数を検証するが、井戸の外側で非零エバネッセント波を回復する。 本研究では, スピン状態全体を破壊することなく, エバネッセント波による量子スピン情報の探索や盗聴が可能であることを提案する。 スピンベースの量子プロセスやデバイスは確率的ではなく決定論的であると主張する。

We demonstrate that an evanescent wave spin exists outside a finite quantum well by solving the Dirac equation in a finite cylindrical quantum well. The analytical analysis validates the wavefunction inside an infinite quantum well but recovers a non-zero evanescent wave outside the well. We propose that it is possible to probe or eavesdrop on quantum spin information through the evanescent wave spin without destroying the entire spin state. We argue that a spin-based quantum process or device is deterministic rather than probabilistic.
翻訳日:2023-10-05 20:38:10 公開日:2023-10-04
# SU(d)-Symmetric Random Unitary:量子スクランブル、誤り訂正、機械学習

SU(d)-Symmetric Random Unitaries: Quantum Scrambling, Error Correction, and Machine Learning ( http://arxiv.org/abs/2309.16556v2 )

ライセンス: Link先を確認
Zimu Li, Han Zheng, Yunfei Wang, Liang Jiang, Zi-Wen Liu, Junyu Liu(参考訳) 連続対称性の存在下での量子情報処理は非常に重要であり、多くの新しい物理現象や数学的現象を示す。 SU(d) は、非アベリア対称性の基本型であり、量子計算において重要な役割を果たすため、特に興味のある連続対称性群である。 本稿では,su(d)対称ランダムユニタリの応用を物理学から量子コンピューティングまで,非可換保存量を持つ情報スクランブル,共変量子誤差補正確率コード,幾何学的量子機械学習という3つの異なる文脈で解説する。 まず、SU(d)対称性の存在下では、局所保存量は、量子ビットの局所パウリ基底で$\Omega(1/n^{3/2})$、システムサイズに関する一般量子ビットの局所対称基底で$\Omega(1/n^{(d+2)^2/2})$として崩壊する$t \rightarrow \infty$と、U(1)の場合の$O(1/n)$減衰と、時間外順序相関子(OTOC)の意味での非対称性の場合の指数の指数減衰に対して、残留値を示す。 第二に、SU(d)-対称ユニタリは漸近的に最適である(近似イーストン・クニル定理と呼ばれる符号誤差の基本的な極限を飽和させるという意味で)、任意の定数$k$論理クォーディットを符号化して拡張するSU(d)-共変符号(Kong \&Liu; PRXQ 3, 020314 (2022))]を構築することができる。 最後に,量子量子機械学習における一般アンサッツの指数収束保証に必要な量子ニューラルタンジェントカーネル(QNTK)によるオーバーパーティショニング閾値を導出し,パラメータの数はヒルベルト空間全体ではなく,所望の部分空間の次元にのみ一致することを示した。 我々は、連続した対称性を持つ量子情報に関するさらなる研究を期待する。

Quantum information processing in the presence of continuous symmetry is of wide importance and exhibits many novel physical and mathematical phenomena. SU(d) is a continuous symmetry group of particular interest since it represents a fundamental type of non-Abelian symmetry and also plays a vital role in quantum computation. Here, we explicate the applications of SU(d)-symmetric random unitaries in three different contexts ranging from physics to quantum computing: information scrambling with non-Abelian conserved quantities, covariant quantum error correcting random codes, and geometric quantum machine learning. First, we show that, in the presence of SU(d) symmetry, the local conserved quantities would exhibit residual values even at $t \rightarrow \infty$ which decays as $\Omega(1/n^{3/2})$ under local Pauli basis for qubits and $\Omega(1/n^{(d+2)^2/2})$ under local symmetric basis for general qudits with respect to the system size, in contrast to $O(1/n)$ decay for U(1) case and the exponential decay for no-symmetry case in the sense of out-of-time ordered correlator (OTOC). Second, we show that SU(d)-symmetric unitaries can be used to construct asymptotically optimal (in the sense of saturating the fundamental limits on the code error that have been called the approximate Eastin-Knill theorems) SU(d)-covariant codes that encodes any constant $k$ logical qudits, extending [Kong \& Liu; PRXQ 3, 020314 (2022)]. Finally, we derive an overpartameterization threshold via the quantum neural tangent kernel (QNTK) required for exponential convergence guarantee of generic ansatz for geometric quantum machine learning, which reveals that the number of parameters required scales only with the dimension of desired subspaces rather than that of the entire Hilbert space. We expect that our work invites further research on quantum information with continuous symmetries.
翻訳日:2023-10-05 20:38:01 公開日:2023-10-04
# FG-NeRF:フローGANに基づく独立推定自由不確実性推定のための確率的ニューラル放射場

FG-NeRF: Flow-GAN based Probabilistic Neural Radiance Field for Independence-Assumption-Free Uncertainty Estimation ( http://arxiv.org/abs/2309.16364v2 )

ライセンス: Link先を確認
Songlin Wei, Jiazhao Zhang, Yang Wang, Fanbo Xiang, Hao Su, He Wang(参考訳) 確率性を持つ神経放射野は、妥当な放射野のサンプリングと下流タスクの不確かさの定量化を可能にして大きな関心を集めている。 既存の著作物では、放射場の点や入力ビューの画素の独立な仮定に依拠し、確率密度関数の扱いやすい形式を得る。 しかし、この仮定は複雑な幾何学やテクスチャを扱う際の性能に不注意に影響を及ぼす。 本研究では,Flow-GANに基づく独立推定自由確率型ニューラル放射場を提案する。 逆学習の生成能力と正規化フローの強力な表現性を組み合わせることで,シーン全体の密度・放射分布を明示的にモデル化する。 確率的nerfを平均シフト確率的残留神経モデルとして表現する。 我々のモデルは明確な可能性関数を使わずに訓練され、独立性の仮定は避けられる。 具体的には、異なるストライドとセンターでトレーニングイメージをサンプリングし、パッチベースの逆学習でジェネレータをトレーニングするために使用される固定サイズのパッチを作成します。 提案手法は,より少ないレンダリング誤差と,合成データセットと実世界のデータセットの信頼性の高い不確実性を予測し,最先端の性能を示す。

Neural radiance fields with stochasticity have garnered significant interest by enabling the sampling of plausible radiance fields and quantifying uncertainty for downstream tasks. Existing works rely on the independence assumption of points in the radiance field or the pixels in input views to obtain tractable forms of the probability density function. However, this assumption inadvertently impacts performance when dealing with intricate geometry and texture. In this work, we propose an independence-assumption-free probabilistic neural radiance field based on Flow-GAN. By combining the generative capability of adversarial learning and the powerful expressivity of normalizing flow, our method explicitly models the density-radiance distribution of the whole scene. We represent our probabilistic NeRF as a mean-shifted probabilistic residual neural model. Our model is trained without an explicit likelihood function, thereby avoiding the independence assumption. Specifically, We downsample the training images with different strides and centers to form fixed-size patches which are used to train the generator with patch-based adversarial learning. Through extensive experiments, our method demonstrates state-of-the-art performance by predicting lower rendering errors and more reliable uncertainty on both synthetic and real-world datasets.
翻訳日:2023-10-05 20:37:09 公開日:2023-10-04
# GAMMA:Articulated Objectsの一般化可能なArticulation ModelとManipulation

GAMMA: Generalizable Articulation Modeling and Manipulation for Articulated Objects ( http://arxiv.org/abs/2309.16264v2 )

ライセンス: Link先を確認
Qiaojun Yu, Junbo Wang, Wenhai Liu, Ce Hao, Liu Liu, Lin Shao, Weiming Wang and Cewu Lu(参考訳) キャビネットやドアなどの人工物は日常生活に広く普及している。 しかし, 3次元関節オブジェクトを直接操作することは, 幾何学的形状, 意味的カテゴリ, 運動論的制約が多様であるため, 困難である。 先行研究は主に特定の関節型を持つ関節オブジェクトの認識と操作に焦点を当てた。 ジョイントパラメータを推定するか、軌道計画を容易にする適切な把持姿勢を区別するかのどちらかである。 これらのアプローチは、特定の種類の明瞭なオブジェクトに成功しているが、見つからないオブジェクトに対する一般化性に欠けており、より広いシナリオでのアプリケーションを大幅に妨げている。 本稿では,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデリングとポーズの相性の両方を学習するGAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の枠組みを提案する。 さらに、ガンマは適応操作を採用し、モデリングエラーを反復的に低減し、操作性能を向上させる。 我々は,partnet-mobilityデータセットを用いてガンマを訓練し,サピエンシミュレーションと実世界のフランカロボットを用いた総合実験により評価する。 その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。 最終バージョンでは、シミュレーションと実際のロボットの両方で、すべてのコードとデータセットをオープンソース化します。 画像とビデオはプロジェクトのwebサイトで公開される。 http://sites.google.com/view/gamma-articulation

Articulated objects like cabinets and doors are widespread in daily life. However, directly manipulating 3D articulated objects is challenging because they have diverse geometrical shapes, semantic categories, and kinetic constraints. Prior works mostly focused on recognizing and manipulating articulated objects with specific joint types. They can either estimate the joint parameters or distinguish suitable grasp poses to facilitate trajectory planning. Although these approaches have succeeded in certain types of articulated objects, they lack generalizability to unseen objects, which significantly impedes their application in broader scenarios. In this paper, we propose a novel framework of Generalizable Articulation Modeling and Manipulating for Articulated Objects (GAMMA), which learns both articulation modeling and grasp pose affordance from diverse articulated objects with different categories. In addition, GAMMA adopts adaptive manipulation to iteratively reduce the modeling errors and enhance manipulation performance. We train GAMMA with the PartNet-Mobility dataset and evaluate with comprehensive experiments in SAPIEN simulation and real-world Franka robot. Results show that GAMMA significantly outperforms SOTA articulation modeling and manipulation algorithms in unseen and cross-category articulated objects. We will open-source all codes and datasets in both simulation and real robots for reproduction in the final version. Images and videos are published on the project website at: http://sites.google.com/view/gamma-articulation
翻訳日:2023-10-05 20:36:49 公開日:2023-10-04
# 逆機械学習における計算エンタングルメントとその解釈について

On Computational Entanglement and Its Interpretation in Adversarial Machine Learning ( http://arxiv.org/abs/2309.15669v2 )

ライセンス: Link先を確認
YenLung Lai, Xingbo Dong, Zhe Jin(参考訳) 機械学習の敵対的な例は、一見不明瞭な入力摂動を伴うモデルを欺く顕著な能力から研究の焦点として現れており、深刻な結果をもたらす可能性がある。 本研究では,敵対的機械学習モデルを包括的に探索し,本質的な複雑性と解釈可能性に光を当てる。 本研究は,機械学習モデルの複雑性とアインシュタインの特殊相対性理論との関係を,絡み合いの概念を通して明らかにする。 より具体的には、エンタングルメントを計算的に定義し、遠方の特徴サンプルが量子空間のエンタングルメントに類似した強い相関を示すことを実証する。 この啓示は、現代の機械学習モデルで観測された対角移動可能性現象を記述する従来の視点に挑戦する。 計算中の時間拡張と長さ収縮の相対論的効果と平行して、敵機械学習の深い洞察を得て、この急速に発展する分野におけるより堅牢で解釈可能なモデルへの道を開く。

Adversarial examples in machine learning has emerged as a focal point of research due to their remarkable ability to deceive models with seemingly inconspicuous input perturbations, potentially resulting in severe consequences. In this study, we embark on a comprehensive exploration of adversarial machine learning models, shedding light on their intrinsic complexity and interpretability. Our investigation reveals intriguing links between machine learning model complexity and Einstein's theory of special relativity, through the concept of entanglement. More specific, we define entanglement computationally and demonstrate that distant feature samples can exhibit strong correlations, akin to entanglement in quantum realm. This revelation challenges conventional perspectives in describing the phenomenon of adversarial transferability observed in contemporary machine learning models. By drawing parallels with the relativistic effects of time dilation and length contraction during computation, we gain deeper insights into adversarial machine learning, paving the way for more robust and interpretable models in this rapidly evolving field.
翻訳日:2023-10-05 20:36:28 公開日:2023-10-04
# スカース画像データのためのMLOps:顕微鏡画像解析のユースケース

MLOps for Scarce Image Data: A Use Case in Microscopic Image Analysis ( http://arxiv.org/abs/2309.15521v2 )

ライセンス: Link先を確認
Angelo Yamachui Sitcheu, Nils Friederich, Simon Baeuerle, Oliver Neumann, Markus Reischl, Ralf Mikut(参考訳) 今日、機械学習(ML)は、これまで見たことのないほどの人気を誇っている。 MLモデルの運用は、MLOps(Machine Learning Operations)と呼ばれる一連の概念と手法によって管理される。 それでも研究者や専門家は、自動化の側面をより重視し、MLOpsの継続的デプロイメントと監視の側面を無視することが多い。 その結果、生産から開発へのフィードバックの流れを通じて継続的学習が欠如し、特に不足データを扱う場合には、概念ドリフトによる予期せぬモデル劣化が発生する。 この研究は、不足データ分析の文脈におけるMLOpsの完全な応用について考察する。 本稿では, バイオメディカル画像解析を改良する新たな総合的アプローチを提案する。 本手法は,画像解析タスクに対して最適なモデル,データセット,モデル開発戦略の選択を可能にするフィンガープリントプロセス,自動モデル開発ステージ,継続的学習を保証する継続的デプロイメントおよび監視プロセスを含む。 予備実験では,微視的画像データセットにおけるフィンガープリンティングの概念実証を行う。

Nowadays, Machine Learning (ML) is experiencing tremendous popularity that has never been seen before. The operationalization of ML models is governed by a set of concepts and methods referred to as Machine Learning Operations (MLOps). Nevertheless, researchers, as well as professionals, often focus more on the automation aspect and neglect the continuous deployment and monitoring aspects of MLOps. As a result, there is a lack of continuous learning through the flow of feedback from production to development, causing unexpected model deterioration over time due to concept drifts, particularly when dealing with scarce data. This work explores the complete application of MLOps in the context of scarce data analysis. The paper proposes a new holistic approach to enhance biomedical image analysis. Our method includes: a fingerprinting process that enables selecting the best models, datasets, and model development strategy relative to the image analysis task at hand; an automated model development stage; and a continuous deployment and monitoring process to ensure continuous learning. For preliminary results, we perform a proof of concept for fingerprinting in microscopic image datasets.
翻訳日:2023-10-05 20:36:09 公開日:2023-10-04
# 弱い監督下でのデータ選択の統計理論に向けて

Towards a statistical theory of data selection under weak supervision ( http://arxiv.org/abs/2309.14563v2 )

ライセンス: Link先を確認
Germain Kolossov, Andrea Montanari, Pulkit Tandon(参考訳) サイズが$n$の例を考えると、統計的な推定や学習に使用される小サイズの$n<n$のサブサンプルを選択することがしばしば有用である。 このようなデータ選択ステップは、データラベリングの要件と学習の計算複雑性を減らすのに有用である。 ラベル付けされていないサンプル$\{{\boldsymbol x}_i\}_{i\le N}$を$N$と仮定し、ランダムな推測よりも$y_i$のラベルを予測できる「代理モデル」へのアクセスを与える。 当社の目標は、サンプルのサブセットを$|g|=n<n$というサイズで$\{{\boldsymbol x}_i\}_{i\in g}$で指定することにあります。 次に、このセットのラベルを取得し、正規化された経験的リスク最小化によるモデルのトレーニングに使用します。 実データと合成データに関する数値実験と、低次元および高次元の漸近論に基づく数学的導出の混合を用いて、以下を示す。 (i)$~dataのセレクションは非常に効果的で、特にサンプル全体のトレーニングを打ち負かす場合があります。 (ii)$~あるデータ選択法(例えば、非バイアス付き再重み付きサブサンプリングや影響関数ベースのサブサンプリング)の一般的な選択は、実質的に準最適である。

Given a sample of size $N$, it is often useful to select a subsample of smaller size $n<N$ to be used for statistical estimation or learning. Such a data selection step is useful to reduce the requirements of data labeling and the computational complexity of learning. We assume to be given $N$ unlabeled samples $\{{\boldsymbol x}_i\}_{i\le N}$, and to be given access to a `surrogate model' that can predict labels $y_i$ better than random guessing. Our goal is to select a subset of the samples, to be denoted by $\{{\boldsymbol x}_i\}_{i\in G}$, of size $|G|=n<N$. We then acquire labels for this set and we use them to train a model via regularized empirical risk minimization. By using a mixture of numerical experiments on real and synthetic data, and mathematical derivations under low- and high- dimensional asymptotics, we show that: $(i)$~Data selection can be very effective, in particular beating training on the full sample in some cases; $(ii)$~Certain popular choices in data selection methods (e.g. unbiased reweighted subsampling, or influence function-based subsampling) can be substantially suboptimal.
翻訳日:2023-10-05 20:35:53 公開日:2023-10-04
# DeepSpeed Ulysses:Extreme Long Sequence Transformer Modelのトレーニング実行のためのシステム最適化

DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models ( http://arxiv.org/abs/2309.14509v2 )

ライセンス: Link先を確認
Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Shuaiwen Leon Song, Samyam Rajbhandari, Yuxiong He(参考訳) 典型的な Transformer-based large language model (LLM) の計算は、バッチサイズ、隠れ次元、層数、シーケンス長によって特徴付けられる。 これまで、llmトレーニングを加速するためのシステムは、バッチサイズのデータ並列化、隠れたサイズのテンソル並列化、モデルの深さや層に対するパイプライン並列化という、最初の3次元に焦点を当ててきた。 これらの広く研究されている並列性は、長列トランスフォーマーモデルにターゲットや最適化されていない。 長周期LLMの実用的ニーズを踏まえ、新しい注目がシーケンス並列性に向けられている。 しかし、シーケンス並列性における既存の作品は、メモリ通信の非効率によって制約され、長いシーケンスの大規模モデルに拡張性が制限される。 本稿では,非常に長いシーケンス長を持つ高効率かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な手法であるDeepSpeed-Ulyssesを紹介する。 deepspeed-ulysses at its core partitionsは入力データをシーケンス次元に沿って分割し、より効率的な全対全集団通信を用いて注意の計算を行う。 理論的な通信分析では、シーケンス長が増加するにつれて通信オーバーヘッドが発生するが、DeepSpeed-Ulyssesは、シーケンス長と計算装置が比例的に増加すると、一定の通信量を維持する。 さらに実験により,DeepSpeed-Ulyssesは既存のSOTAベースラインよりも4倍長いシーケンス長で2.5倍高速であることがわかった。

Computation in a typical Transformer-based large language model (LLM) can be characterized by batch size, hidden dimension, number of layers, and sequence length. Until now, system works for accelerating LLM training have focused on the first three dimensions: data parallelism for batch size, tensor parallelism for hidden size and pipeline parallelism for model depth or layers. These widely studied forms of parallelism are not targeted or optimized for long sequence Transformer models. Given practical application needs for long sequence LLM, renewed attentions are being drawn to sequence parallelism. However, existing works in sequence parallelism are constrained by memory-communication inefficiency, limiting their scalability to long sequence large models. In this work, we introduce DeepSpeed-Ulysses, a novel, portable and effective methodology for enabling highly efficient and scalable LLM training with extremely long sequence length. DeepSpeed-Ulysses at its core partitions input data along the sequence dimension and employs an efficient all-to-all collective communication for attention computation. Theoretical communication analysis shows that whereas other methods incur communication overhead as sequence length increases, DeepSpeed-Ulysses maintains constant communication volume when sequence length and compute devices are increased proportionally. Furthermore, experimental evaluations show that DeepSpeed-Ulysses trains 2.5x faster with 4x longer sequence length than the existing method SOTA baseline.
翻訳日:2023-10-05 20:35:24 公開日:2023-10-04
# PersA-FL:パーソナライズされた非同期フェデレーション学習

PersA-FL: Personalized Asynchronous Federated Learning ( http://arxiv.org/abs/2210.01176v2 )

ライセンス: Link先を確認
Mohammad Taha Toghani, Soomin Lee and C\'esar A. Uribe(参考訳) 我々は,パーソナライズされた連合学習問題を非同期更新で検討する。 この問題において、各クライアントは、ローカルモデルとグローバルモデルを同時に上回るパーソナライズされたモデルを求める。 パーソナライズのための最適化ベースのフレームワークを2つ検討する。 一 モデル非依存メタラーニング(MAML)及び (II)モレウ・エンベロープ(ME) MAMLは細調整によって各クライアントに適合するジョイントモデルを学習するが、MEは正規化された損失を通じてパーソナライズを強制するために暗黙の勾配を持つ二段階最適化問題を必要とする。 同期コミュニケーションの前提を取り除き,パーソナライズされた連合学習のスケーラビリティ向上に重点を置く。 さらに, 勾配ノルム上の有界性仮定を除去し, 解析関数クラスを拡張する。 我々は,MAML と ME のパーソナライズフレームワークに適用した,有界な安定度を持つ非同期フェデレーション学習の統一的証明を主目的とする。 滑らかかつ非凸な関数クラスに対して、本手法の1次定常点への収束を示す。 異種データセット上の分類課題に対する実験を通して,本手法の性能と安定性について述べる。

We study the personalized federated learning problem under asynchronous updates. In this problem, each client seeks to obtain a personalized model that simultaneously outperforms local and global models. We consider two optimization-based frameworks for personalization: (i) Model-Agnostic Meta-Learning (MAML) and (ii) Moreau Envelope (ME). MAML involves learning a joint model adapted for each client through fine-tuning, whereas ME requires a bi-level optimization problem with implicit gradients to enforce personalization via regularized losses. We focus on improving the scalability of personalized federated learning by removing the synchronous communication assumption. Moreover, we extend the studied function class by removing boundedness assumptions on the gradient norm. Our main technical contribution is a unified proof for asynchronous federated learning with bounded staleness that we apply to MAML and ME personalization frameworks. For the smooth and non-convex functions class, we show the convergence of our method to a first-order stationary point. We illustrate the performance of our method and its tolerance to staleness through experiments for classification tasks over heterogeneous datasets.
翻訳日:2023-10-05 18:48:44 公開日:2023-10-04
# 非言語クイズを用いた人間と人間の共焦点インタラクション分析:調査

Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A Survey ( http://arxiv.org/abs/2207.10574v2 )

ライセンス: Link先を確認
Cigdem Beyan and Alessandro Vinciarelli and Alessio Del Bue(参考訳) 非言語コミュニケーションを社会的・心理的現象の計測可能な証拠として利用することで、人間と人間の対話分析の自動化に対処してきた。 社会特性(リーダーシップ、支配、パーソナリティ特性)、社会的役割/関係、相互作用のダイナミクス(グループ結束、エンゲージメント、ラプポートなど)に関連する現象を検出するコンピュータ研究(2010年以降)を調査した。 我々の目標は、効果的な性能をもたらす非言語的手がかりと計算方法論を特定することである。 この調査は、最も幅広い社会現象と相互作用設定(自由な会話、会議、ダイド、群衆)を巻き込むことによって、相手と異なる。 また、関連するデータセットの概要を概説し、人工知能、データセットキュレーション、プライバシー保護相互作用分析の実装に関する今後の研究の方向性について概説する。 もっともよく使われる非言語的キュー、計算方法、相互作用環境、および知覚的アプローチは、それぞれマイクとカメラを備えた3,4人の人物で構成された音声活動、支援ベクトルマシン、ミーティングである。 また、スケーラブルなベンチマークの欠如、アノテーションの信頼性テスト、データセット間の実験、説明可能性分析など、いくつかの制限を指摘した。

Automated co-located human-human interaction analysis has been addressed by the use of nonverbal communication as measurable evidence of social and psychological phenomena. We survey the computing studies (since 2010) detecting phenomena related to social traits (e.g., leadership, dominance, personality traits), social roles/relations, and interaction dynamics (e.g., group cohesion, engagement, rapport). Our target is to identify the nonverbal cues and computational methodologies resulting in effective performance. This survey differs from its counterparts by involving the widest spectrum of social phenomena and interaction settings (free-standing conversations, meetings, dyads, and crowds). We also present a comprehensive summary of the related datasets and outline future research directions which are regarding the implementation of artificial intelligence, dataset curation, and privacy-preserving interaction analysis. Some major observations are: the most often used nonverbal cue, computational method, interaction environment, and sensing approach are speaking activity, support vector machines, and meetings composed of 3-4 persons equipped with microphones and cameras, respectively; multimodal features are prominently performing better; deep learning architectures showed improved performance in overall, but there exist many phenomena whose detection has never been implemented through deep models. We also identified several limitations such as the lack of scalable benchmarks, annotation reliability tests, cross-dataset experiments, and explainability analysis.
翻訳日:2023-10-05 18:48:27 公開日:2023-10-04
# 自動クリッピング: 異なるプライベートなディープラーニングにより、簡単かつ強力に

Automatic Clipping: Differentially Private Deep Learning Made Easier and Stronger ( http://arxiv.org/abs/2206.07136v3 )

ライセンス: Link先を確認
Zhiqi Bu, Yu-Xiang Wang, Sheng Zha, George Karypis(参考訳) ディファレンシャル・プライベート(DP)トレーニングを深層学習モデルに適用するためのアルゴリズムとして,サンプルごとの勾配クリッピングが重要となる。 しかし, クリッピングしきい値Rの選択はDP下での高精度化には不可欠である。 DP-SGD, DP-Adam, DP-LAMBなど, DPオプティマイザにRをチューニングする必要がなくなる。 自動変種は、既存のDPオプティマイザと同じくらいプライベートで計算的に効率的であるが、DP固有のハイパーパラメータを必要としないため、DPトレーニングを標準の非プライベートトレーニングと同等にすることができる。 我々は,非凸設定におけるdp-sgdの自動収束解析を厳密に行い,標準sgdと一致する漸近収束率を,サンプル毎勾配(非dp文献でよく用いられる)の対称勾配雑音条件下で享受できることを示した。 既存のコードベースに最小限の変更を加えるだけで簡単に使える、自動クリッピングが最先端に匹敵する、さまざまな言語やビジョンタスクを実演します。

Per-example gradient clipping is a key algorithmic step that enables practical differential private (DP) training for deep learning models. The choice of clipping threshold R, however, is vital for achieving high accuracy under DP. We propose an easy-to-use replacement, called automatic clipping, that eliminates the need to tune R for any DP optimizers, including DP-SGD, DP-Adam, DP-LAMB and many others. The automatic variants are as private and computationally efficient as existing DP optimizers, but require no DP-specific hyperparameters and thus make DP training as amenable as the standard non-private training. We give a rigorous convergence analysis of automatic DP-SGD in the non-convex setting, showing that it can enjoy an asymptotic convergence rate that matches the standard SGD, under a symmetric gradient noise assumption of the per-sample gradients (commonly used in the non-DP literature). We demonstrate on various language and vision tasks that automatic clipping outperforms or matches the state-of-the-art, and can be easily employed with minimal changes to existing codebases.
翻訳日:2023-10-05 18:48:05 公開日:2023-10-04
# 高速拡散モデル

Fast Diffusion Model ( http://arxiv.org/abs/2306.06991v2 )

ライセンス: Link先を確認
Zike Wu, Pan Zhou, Kenji Kawaguchi, Hanwang Zhang(参考訳) 拡散モデル (DM) は, 複雑なデータ分布を捉える際, 様々な分野に応用されている。 本稿では,高速トレーニングとサンプリングの両面において,確率的最適化の観点からDMを著しく高速化する高速拡散モデルを提案する。 まず,dmsの拡散過程は確率的勾配降下(sgd)の確率的最適化過程と一致することを見出した。 次に、勾配と余剰運動量の両方を用いてSGDよりも高速でより安定な収束を実現する運動量SGDに着想を得て、DMの拡散過程に運動量を統合する。 これは運動量に基づく拡散過程からノイズ摂動核を導出するというユニークな挑戦が伴う。 この目的のために、我々はこの過程を、核溶液である臨界減衰状態が振動を回避し、拡散過程のより速い収束速度をもたらすダンプ振動系として構成する。 実証的な結果から,当社のfdmは,vp,ve,edmなど,いくつかの人気dmフレームワークに適用可能であり,cifar-10,ffhq,afhqv2データセットで比較可能な画像合成性能で,トレーニングコストを約50%削減できることがわかった。 さらに、FDMはサンプリング工程を約3倍に減らし、同じサンプリング装置で同様の性能を実現する。 コードはhttps://github.com/sail-sg/fdmで入手できる。

Diffusion models (DMs) have been adopted across diverse fields with its remarkable abilities in capturing intricate data distributions. In this paper, we propose a Fast Diffusion Model (FDM) to significantly speed up DMs from a stochastic optimization perspective for both faster training and sampling. We first find that the diffusion process of DMs accords with the stochastic optimization process of stochastic gradient descent (SGD) on a stochastic time-variant problem. Then, inspired by momentum SGD that uses both gradient and an extra momentum to achieve faster and more stable convergence than SGD, we integrate momentum into the diffusion process of DMs. This comes with a unique challenge of deriving the noise perturbation kernel from the momentum-based diffusion process. To this end, we frame the process as a Damped Oscillation system whose critically damped state -- the kernel solution -- avoids oscillation and yields a faster convergence speed of the diffusion process. Empirical results show that our FDM can be applied to several popular DM frameworks, e.g., VP, VE, and EDM, and reduces their training cost by about 50% with comparable image synthesis performance on CIFAR-10, FFHQ, and AFHQv2 datasets. Moreover, FDM decreases their sampling steps by about 3x to achieve similar performance under the same samplers. The code is available at https://github.com/sail-sg/FDM.
翻訳日:2023-10-05 18:45:41 公開日:2023-10-04
# 深部確率力学

Deep Stochastic Mechanics ( http://arxiv.org/abs/2305.19685v2 )

ライセンス: Link先を確認
Elena Orlova, Aleksei Ustimenko, Ruoxi Jiang, Peter Y. Lu, Rebecca Willett(参考訳) 本稿では,確率力学と生成拡散モデルに着想を得た時間発展型schr\"odinger方程式の数値シミュレーションのための新しいディープラーニング手法を提案する。 問題次元で指数関数的にスケールする計算複雑性を示す既存の手法とは異なり、本手法はマルコフ拡散からサンプリングすることで波動関数の潜在低次元構造に適応できる。 潜在次元によっては、より高次元の計算複雑性がはるかに低い可能性がある。 さらに, 確率的量子力学のための新しい方程式を提案し, 次元数に関して線形計算複雑性をもたらす。 数値シミュレーションは,量子力学における他の深層学習手法と比較して,理論的な知見を検証し,本手法の大きな利点を示す。

This paper introduces a novel deep-learning-based approach for numerical simulation of a time-evolving Schr\"odinger equation inspired by stochastic mechanics and generative diffusion models. Unlike existing approaches, which exhibit computational complexity that scales exponentially in the problem dimension, our method allows us to adapt to the latent low-dimensional structure of the wave function by sampling from the Markovian diffusion. Depending on the latent dimension, our method may have far lower computational complexity in higher dimensions. Moreover, we propose novel equations for stochastic quantum mechanics, resulting in linear computational complexity with respect to the number of dimensions. Numerical simulations verify our theoretical findings and show a significant advantage of our method compared to other deep-learning-based approaches used for quantum mechanics.
翻訳日:2023-10-05 18:44:44 公開日:2023-10-04
# DNA-GPT:GPT生成テキストのトレーニング不要検出のための多様性N-Gram解析

DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text ( http://arxiv.org/abs/2305.17359v2 )

ライセンス: Link先を確認
Xianjun Yang, Wei Cheng, Yue Wu, Linda Petzold, William Yang Wang, Haifeng Chen(参考訳) 大規模言語モデル(LLM)は、機械生成テキストの流布度と多様性を著しく向上させた。 しかし、この進歩は、与えられたテキストの起源を検出する上でも重要な課題であり、LLMの急速な進化の背後にあるラグの検出方法に関する現在の研究である。 従来のトレーニングベースの方法は柔軟性に制限があり、特に新しいドメインに適応する場合、説明力に欠けることが多い。 そこで本研究では,Divergent N-Gram Analysis (DNA-GPT) と呼ばれる新たなトレーニング不要検出手法を提案する。 テキストが与えられた後、まず中央で切り刻み、次にLCMへの入力として前の部分のみを使用し、新しい残部を再生します。 ブラックボックスのN-gram解析やホワイトボックスの確率ばらつきから,元の部分と新しい部分の違いを分析することで,機械生成テキストの分布と人文テキストの分布との間に大きな相違があることを明らかにする。 我々は,GPT-NeoX-20BやLLaMa-13Bといったオープンソースモデルとともに,テキストダビンシ003,GPT-3.5-turbo,GPT-4など,OpenAIの最も先進的なLCMについて広範な実験を行った。 その結果、我々のゼロショットアプローチは、4つの英語と1つのドイツ語データセット上の人間とGPT生成したテキストを区別し、数百万のテキストで訓練されたOpenAI独自の分類器より優れていることを示す。 さらに,提案手法は,説明可能な検出のユニークな特徴であるクレームを支持する合理的な説明と証拠を提供する。 本手法は,修正テキスト攻撃においても頑健であり,さらにモデルソーシングを解決できる。 コードはhttps://github.com/Xianjun-Yang/DNA-GPTで公開されている。

Large language models (LLMs) have notably enhanced the fluency and diversity of machine-generated text. However, this progress also presents a significant challenge in detecting the origin of a given text, and current research on detection methods lags behind the rapid evolution of LLMs. Conventional training-based methods have limitations in flexibility, particularly when adapting to new domains, and they often lack explanatory power. To address this gap, we propose a novel training-free detection strategy called Divergent N-Gram Analysis (DNA-GPT). Given a text, we first truncate it in the middle and then use only the preceding portion as input to the LLMs to regenerate the new remaining parts. By analyzing the differences between the original and new remaining parts through N-gram analysis in black-box or probability divergence in white-box, we unveil significant discrepancies between the distribution of machine-generated text and the distribution of human-written text. We conducted extensive experiments on the most advanced LLMs from OpenAI, including text-davinci-003, GPT-3.5-turbo, and GPT-4, as well as open-source models such as GPT-NeoX-20B and LLaMa-13B. Results show that our zero-shot approach exhibits state-of-the-art performance in distinguishing between human and GPT-generated text on four English and one German dataset, outperforming OpenAI's own classifier, which is trained on millions of text. Additionally, our methods provide reasonable explanations and evidence to support our claim, which is a unique feature of explainable detection. Our method is also robust under the revised text attack and can additionally solve model sourcing. Codes are available at https://github.com/Xianjun-Yang/DNA-GPT.
翻訳日:2023-10-05 18:44:34 公開日:2023-10-04
# 1ショットでモデルをパーソナライズする

Personalize Segment Anything Model with One Shot ( http://arxiv.org/abs/2305.03048v2 )

ライセンス: Link先を確認
Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pan, Xianzheng Ma, Hao Dong, Peng Gao, Hongsheng Li(参考訳) 大規模データの事前トレーニングによって、セグメント化モデル(sam)は強力で迅速なフレームワークとして実証され、セグメンテーションモデルに革命をもたらした。 一般性にもかかわらず、人力プロンプトなしで特定の視覚概念のためにSAMをカスタマイズすることは、例えば、あなたのペット犬を異なる画像に自動的に分割するなど、検討されている。 本稿では, PerSAM と呼ばれる SAM の学習自由なパーソナライズ手法を提案する。 参照マスクのある1枚の画像だけを与えられると、persamはまず、ターゲットのコンセプトを以前の位置でローカライズし、それを他の画像やビデオに3つの技術(ターゲットガイドによる注意、ターゲット・セマンティクス・プロンプト、カスケード後の再定義)で分割する。 このように、SAMをトレーニングなしでプライベートな用途に効果的に適用する。 さらにマスクのあいまいさを軽減するため、効率の良いワンショット微調整変種PerSAM-Fを提案する。 SAM全体を凍結し、マルチスケールマスクに2つの学習可能な重みを導入し、性能向上のために10秒以内に2つのパラメータをトレーニングするのみである。 本手法の有効性を示すために,パーソナライズ評価のための新しいセグメンテーションデータセットpersegを構築し,競合する性能でビデオオブジェクトセグメンテーションの手法をテストする。 さらに,本手法は,テキストから画像への拡散を安定的にパーソナライズするためにdreamboothも強化する。 コードはhttps://github.com/zrrskywalker/personalize-samでリリース

Driven by large-data pre-training, Segment Anything Model (SAM) has been demonstrated as a powerful and promptable framework, revolutionizing the segmentation models. Despite the generality, customizing SAM for specific visual concepts without man-powered prompting is under explored, e.g., automatically segmenting your pet dog in different images. In this paper, we propose a training-free Personalization approach for SAM, termed as PerSAM. Given only a single image with a reference mask, PerSAM first localizes the target concept by a location prior, and segments it within other images or videos via three techniques: target-guided attention, target-semantic prompting, and cascaded post-refinement. In this way, we effectively adapt SAM for private use without any training. To further alleviate the mask ambiguity, we present an efficient one-shot fine-tuning variant, PerSAM-F. Freezing the entire SAM, we introduce two learnable weights for multi-scale masks, only training 2 parameters within 10 seconds for improved performance. To demonstrate our efficacy, we construct a new segmentation dataset, PerSeg, for personalized evaluation, and test our methods on video object segmentation with competitive performance. Besides, our approach can also enhance DreamBooth to personalize Stable Diffusion for text-to-image generation, which discards the background disturbance for better target appearance learning. Code is released at https://github.com/ZrrSkywalker/Personalize-SAM
翻訳日:2023-10-05 18:43:01 公開日:2023-10-04
# ディープニューラルネットワークにおけるプリエンプティブプルーニングクリーバーハンス戦略

Preemptively Pruning Clever-Hans Strategies in Deep Neural Networks ( http://arxiv.org/abs/2304.05727v2 )

ライセンス: Link先を確認
Lorenz Linhardt, Klaus-Robert M\"uller, Gr\'egoire Montavon(参考訳) 説明可能なAIは、マシンラーニングモデルを検証するための一般的なツールになっている。 説明されたモデルの決定戦略とユーザのドメイン知識(例えば賢いハンス効果)のミスマッチも、欠陥モデルを改善するための出発点として認識されている。 しかし、ユーザと説明が同意すれば、何をすべきかは明確ではない。 本稿では,ユーザによる説明の受け入れが,機械学習モデルがうまく機能する保証ではないことを実証する。 このような隠れたモデル欠陥を緩和することはできるが、我々は、肯定的な説明フィードバックの対象になっていないMLモデルの変動を未然に誘発する新しい手法、Explaination-Guided Exposure Minimization (EGEM) を提供することによってこれを実証する。 自然画像データを用いた実験により,本手法は隠れたClever Hans戦略への依存を強く低減し,その結果,新たなデータに対する精度の向上につながることが示された。

Explainable AI has become a popular tool for validating machine learning models. Mismatches between the explained model's decision strategy and the user's domain knowledge (e.g. Clever Hans effects) have also been recognized as a starting point for improving faulty models. However, it is less clear what to do when the user and the explanation agree. In this paper, we demonstrate that acceptance of explanations by the user is not a guarantee for a machine learning model to function well, in particular, some Clever Hans effects may remain undetected. Such hidden flaws of the model can nevertheless be mitigated, and we demonstrate this by contributing a new method, Explanation-Guided Exposure Minimization (EGEM), that preemptively prunes variations in the ML model that have not been the subject of positive explanation feedback. Experiments on natural image data demonstrate that our approach leads to models that strongly reduce their reliance on hidden Clever Hans strategies, and consequently achieve higher accuracy on new data.
翻訳日:2023-10-05 18:42:31 公開日:2023-10-04
# ToRA:数学的問題解決のためのツール統合推論エージェント

ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving ( http://arxiv.org/abs/2309.17452v2 )

ライセンス: Link先を確認
Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Minlie Huang, Nan Duan, Weizhu Chen(参考訳) 大規模言語モデルは様々な言語タスクにおいて大きな進歩を遂げてきたが、それでも複雑な数学に苦しむ。 本稿では,自然言語推論と外部ツール(例えば,計算ライブラリやシンボリックソルバ)をシームレスに統合することにより,言語の分析能力とツールの計算効率を両立させることにより,難解な数学的問題を解決するための一連のツール統合推論エージェントを提案する。 toraをトレーニングするために,数量データセットの対話的ツール利用トラジェクタをキュレーションし,アノテーションに模倣学習を適用し,モデルの推論行動をさらに洗練するための出力空間シェーピングを提案する。 結果として、toraモデルは、すべてのスケールで10の数学的推論データセットでオープンソースモデルを大きく上回り、平均で13%-19%の絶対的な改善が行われた。 特に、ToRA-7Bは競合レベルのデータセットMATHで44.6%に達し、最高のオープンソースモデルであるWizardMath-70Bを22%上回った。 また、TORA-Code-34BはMATHで50%を超える精度を達成する最初のオープンソースモデルであり、GPT-4のCoTよりも大幅に優れており、GPT-4のプログラムでの問題解決と競合する。 さらに,数学的推論のためのツールインタラクションの利点と課題を総合的に分析し,今後の研究に有用な知見を提供する。

Large language models have made significant progress in various language tasks, yet they still struggle with complex mathematics. In this paper, we propose ToRA a series of Tool-integrated Reasoning Agents designed to solve challenging mathematical problems by seamlessly integrating natural language reasoning with the utilization of external tools (e.g., computation libraries and symbolic solvers), thereby amalgamating the analytical prowess of language and the computational efficiency of tools. To train ToRA, we curate interactive tool-use trajectories on mathematical datasets, apply imitation learning on the annotations, and propose output space shaping to further refine models' reasoning behavior. As a result, ToRA models significantly outperform open-source models on 10 mathematical reasoning datasets across all scales with 13%-19% absolute improvements on average. Notably, ToRA-7B reaches 44.6% on the competition-level dataset MATH, surpassing the best open-source model WizardMath-70B by 22% absolute. ToRA-Code-34B is also the first open-source model that achieves an accuracy exceeding 50% on MATH, which significantly outperforms GPT-4's CoT result, and is competitive with GPT-4 solving problems with programs. Additionally, we conduct a comprehensive analysis of the benefits and remaining challenges of tool interaction for mathematical reasoning, providing valuable insights for future research.
翻訳日:2023-10-05 18:33:44 公開日:2023-10-04
# 医用画像における一般移動物体分割の基礎モデル

A Foundation Model for General Moving Object Segmentation in Medical Images ( http://arxiv.org/abs/2309.17264v2 )

ライセンス: Link先を確認
Zhongnuo Yan, Tong Han, Yuhao Huang, Lian Liu, Han Zhou, Jiongquan Chen, Wenlong Shi, Yan Cao, Xin Yang, Dong Ni(参考訳) 医用画像分割は, 臨床診断において重要な役割を担い, 解剖学的, 病理学的構造を明らかにすることを目的としている。 高精度の深部セグメンテーションモデルを構築するためには,高品質なアノテートデータが多く重要である。 しかし、医療アノテーションは、特に医療ビデオや3Dボリュームでは、巨大なラベル付けスペースとフレーム間の一貫性の欠如のため、非常に面倒で時間を要する。 近年,移動物体分割(MOS)という基本課題が自然画像に大きく進展している。 その目的は、最小限のアノテーションしか必要とせず、画像シーケンス内の背景から動くオブジェクトをデラインすることである。 本稿では,医療画像におけるMOSのための基礎モデルiMOSを提案する。 大規模マルチモーダル医療データセットに関する広範な実験により、提案するimosの有効性が検証された。 具体的には、シーケンス内の少数の画像のみをアノテーションすることで、imosは双方向で、シーケンス全体にわたって動くオブジェクトの十分なトラッキングとセグメンテーション性能を実現することができる。 提案したiMOSが専門家のアノテーションのスピードを加速し、医療基盤モデルの開発を促進することを願っている。

Medical image segmentation aims to delineate the anatomical or pathological structures of interest, playing a crucial role in clinical diagnosis. A substantial amount of high-quality annotated data is crucial for constructing high-precision deep segmentation models. However, medical annotation is highly cumbersome and time-consuming, especially for medical videos or 3D volumes, due to the huge labeling space and poor inter-frame consistency. Recently, a fundamental task named Moving Object Segmentation (MOS) has made significant advancements in natural images. Its objective is to delineate moving objects from the background within image sequences, requiring only minimal annotations. In this paper, we propose the first foundation model, named iMOS, for MOS in medical images. Extensive experiments on a large multi-modal medical dataset validate the effectiveness of the proposed iMOS. Specifically, with the annotation of only a small number of images in the sequence, iMOS can achieve satisfactory tracking and segmentation performance of moving objects throughout the entire sequence in bi-directions. We hope that the proposed iMOS can help accelerate the annotation speed of experts, and boost the development of medical foundation models.
翻訳日:2023-10-05 18:33:20 公開日:2023-10-04
# 言語モデルからの回答の不確かさの定量化と信頼性向上

Quantifying Uncertainty in Answers from any Language Model and Enhancing their Trustworthiness ( http://arxiv.org/abs/2308.16175v2 )

ライセンス: Link先を確認
Jiuhai Chen, Jonas Mueller(参考訳) 提案するBSDetectorは,事前学習された大規模言語モデルから,生成した任意の出力に対して数値的信頼度を推定することにより,悪い,投機的な応答を検出する手法である。 我々の不確実性定量化技術は、トレーニングデータが不明なブラックボックスAPIを通じてのみアクセス可能なLLMに対して有効である。 多少の計算を試すことによって、llm apiのユーザは、通常と同じレスポンスを得られるようになり、また、このレスポンスを信頼しないときに注意を喚起する信頼度見積もできるようになった。 クローズドおよびオープンフォームのQA-Answerベンチマークの実験では、BSDetectorは代替の不確実性推定手順(GPT-3とChatGPTの両方)よりも、誤ったLCM応答をより正確に識別している。 LLMから複数の応答をサンプリングし、最も高い信頼度を持つ応答を考慮すれば、追加のトレーニングステップなしで同じLSMからより正確な応答を得ることができる。 LLMによる自動評価を含むアプリケーションでは、信頼性スコアの計算により、ループ内および完全自動設定(GPT 3.5と4の両方)の信頼性が向上する。

We introduce BSDetector, a method for detecting bad and speculative answers from a pretrained Large Language Model by estimating a numeric confidence score for any output it generated. Our uncertainty quantification technique works for any LLM accessible only via a black-box API, whose training data remains unknown. By expending a bit of extra computation, users of any LLM API can now get the same response as they would ordinarily, as well as a confidence estimate that cautions when not to trust this response. Experiments on both closed and open-form Question-Answer benchmarks reveal that BSDetector more accurately identifies incorrect LLM responses than alternative uncertainty estimation procedures (for both GPT-3 and ChatGPT). By sampling multiple responses from the LLM and considering the one with the highest confidence score, we can additionally obtain more accurate responses from the same LLM, without any extra training steps. In applications involving automated evaluation with LLMs, accounting for our confidence scores leads to more reliable evaluation in both human-in-the-loop and fully-automated settings (across both GPT 3.5 and 4).
翻訳日:2023-10-05 18:32:34 公開日:2023-10-04
# 大規模言語モデルのためのインストラクションチューニング:サーベイ

Instruction Tuning for Large Language Models: A Survey ( http://arxiv.org/abs/2308.10792v3 )

ライセンス: Link先を確認
Shengyu Zhang, Linfeng Dong, Xiaoya Li, Sen Zhang, Xiaofei Sun, Shuhe Wang, Jiwei Li, Runyi Hu, Tianwei Zhang, Fei Wu and Guoyin Wang(参考訳) 本稿では,大規模言語モデル(LLM)の能力と制御性を向上するための重要な技術である,命令チューニング(IT)の急速な発展分野における研究成果について調査する。 インストラクションチューニング(インストラクションチューニング)とは、LLMの次の単語予測目標と、LLMを人間の指示に従わせるというユーザの目的とのギャップを埋める、教師付き方式で、‘textsc{(インストラクション、アウトプット)’ペアからなるデータセット上で、LLMをさらに訓練するプロセスを指す。 本研究は、ITの一般的な方法論、ITデータセットの構築、ITモデルの構築、異なるモダリティ、ドメイン、アプリケーションへのアプリケーション、およびITの結果に影響を与える側面(例えば、命令出力の生成、命令データセットのサイズなど)に関する分析を含む、文献の体系的なレビューを行う。 また、ITの潜在的な落とし穴とそれに対する批判、および既存の戦略の現在の欠陥を指摘し、実りある研究の道筋を提案する。 プロジェクトページ:github.com/xiaoya-li/Instruction-Tuning-Survey

This paper surveys research works in the quickly advancing field of instruction tuning (IT), a crucial technique to enhance the capabilities and controllability of large language models (LLMs). Instruction tuning refers to the process of further training LLMs on a dataset consisting of \textsc{(instruction, output)} pairs in a supervised fashion, which bridges the gap between the next-word prediction objective of LLMs and the users' objective of having LLMs adhere to human instructions. In this work, we make a systematic review of the literature, including the general methodology of IT, the construction of IT datasets, the training of IT models, and applications to different modalities, domains and applications, along with an analysis on aspects that influence the outcome of IT (e.g., generation of instruction outputs, size of the instruction dataset, etc). We also review the potential pitfalls of IT along with criticism against it, along with efforts pointing out current deficiencies of existing strategies and suggest some avenues for fruitful research. Project page: github.com/xiaoya-li/Instruction-Tuning-Survey
翻訳日:2023-10-05 18:32:12 公開日:2023-10-04
# FLASK:アライメントスキルセットに基づくきめ細かい言語モデルの評価

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets ( http://arxiv.org/abs/2307.10928v2 )

ライセンス: Link先を確認
Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo(参考訳) 大規模言語モデル(LLM)の評価は、命令追従が人的価値と整合し、必要なスキルセットが命令によって異なるため困難である。 しかし,これまでの研究は主に粗粒度評価(全体選好評価)に焦点をあてており,インスタンス毎のスキル構成を必要とするユーザ指示の性質を考慮せず,解釈可能性の制限を行っている。 本稿では,粗いスコアリングを各命令のスキルレベルスコアに分解する,人間ベースおよびモデルベース評価のための細粒度評価プロトコルであるflask (fine- grain language model evaluation based alignment skill sets)を提案する。 モデル性能の総合的視点と評価の信頼性向上には,評価の微粒度が重要であることを実験的に観察した。 FLASKを用いて、複数のオープンソースとプロプライエタリなLCMを比較し、モデルベースと人間ベースの評価との間に高い相関関係を観察する。 評価データとコードの実装はhttps://github.com/kaistAI/FLASK.comで公開しています。

Evaluation of Large Language Models (LLMs) is challenging because instruction-following necessitates alignment with human values and the required set of skills varies depending on the instruction. However, previous studies have mainly focused on coarse-grained evaluation (i.e. overall preference-based evaluation), which limits interpretability since it does not consider the nature of user instructions that require instance-wise skill composition. In this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on Alignment Skill Sets), a fine-grained evaluation protocol for both human-based and model-based evaluation which decomposes coarse-level scoring to a skill set-level scoring for each instruction. We experimentally observe that the fine-graininess of evaluation is crucial for attaining a holistic view of model performance and increasing the reliability of the evaluation. Using FLASK, we compare multiple open-source and proprietary LLMs and observe a high correlation between model-based and human-based evaluations. We publicly release the evaluation data and code implementation at https://github.com/kaistAI/FLASK.
翻訳日:2023-10-05 18:31:37 公開日:2023-10-04
# 知覚音声品質による話者識別の解釈的表現に向けて

Towards an Interpretable Representation of Speaker Identity via Perceptual Voice Qualities ( http://arxiv.org/abs/2310.02497v1 )

ライセンス: Link先を確認
Robin Netzorg, Bohan Yu, Andrea Guzman, Peter Wu, Luna McNulty, Gopala Anumanchipalli(参考訳) テキストや視覚といった他のデータモダリティとは異なり、音声は解釈が容易ではない。 素人は知覚を通じて画像や文の表現の仕方を理解できるが、専門的でない言葉の記述はしばしば、性別や年齢といった高水準の人口統計情報で終わる。 本稿では,知覚的声質(perceptual voice quality, pqs)に基づく話者識別の解釈可能な表現を提案する。 音声(cape-v)プロトコルの病理中心のコンセンサスによる聴覚知覚評価にジェンダー化されたpqを追加することで、我々のpqベースのアプローチは、高レベル層と低レベルの音響、物理、あるいは学習された表現の間の抽象の中間である成人音声の性格の知覚的潜在空間を提供する。 従来の信念とは対照的に、これらのPQは非専門家のアンサンブルによって聴取可能であることを示し、さらに、PQベースの表現に符号化された情報が様々な音声表現によって予測可能であることを示す。

Unlike other data modalities such as text and vision, speech does not lend itself to easy interpretation. While lay people can understand how to describe an image or sentence via perception, non-expert descriptions of speech often end at high-level demographic information, such as gender or age. In this paper, we propose a possible interpretable representation of speaker identity based on perceptual voice qualities (PQs). By adding gendered PQs to the pathology-focused Consensus Auditory-Perceptual Evaluation of Voice (CAPE-V) protocol, our PQ-based approach provides a perceptual latent space of the character of adult voices that is an intermediary of abstraction between high-level demographics and low-level acoustic, physical, or learned representations. Contrary to prior belief, we demonstrate that these PQs are hearable by ensembles of non-experts, and further demonstrate that the information encoded in a PQ-based representation is predictable by various speech representations.
翻訳日:2023-10-05 17:12:38 公開日:2023-10-04
# amortized optimizationにおける目的関数近似のためのパラメータ化凸マイノアント

Parameterized Convex Minorant for Objective Function Approximation in Amortized Optimization ( http://arxiv.org/abs/2310.02519v1 )

ライセンス: Link先を確認
Jinrae Kim, Youdan Kim(参考訳) アモータイズされた最適化における目的関数の近似に対して,パラメータ付き凸分母法 (PCM) を提案する。 提案手法では、目的関数近似器をPCMと非負ギャップ関数の和で表現し、最適化変数のPCM凸により目的関数近似器を下から有界にする。 提案した目的関数近似器は連続関数の普遍近似器であり,PCMの大域最小化器は目的関数近似器のグローバル最小化を実現する。 したがって、目的関数近似器のグローバル最小化は、単一の凸最適化によって得ることができる。 提案手法を実現するために,PCMとしてパラメータ化log-sum-expネットワークを用いて拡張パラメータ化log-sum-expネットワークを提案する。 非パラメトリズド凸目的関数近似と学習に基づく非線形モデル予測制御のための数値シミュレーションを行い、提案手法の性能と特性を実証した。 シミュレーションの結果,提案手法は対象関数を学習し,凸最適化アルゴリズムを用いて大域的最小化器を迅速かつ確実に探索できることがわかった。

Parameterized convex minorant (PCM) method is proposed for the approximation of the objective function in amortized optimization. In the proposed method, the objective function approximator is expressed by the sum of a PCM and a nonnegative gap function, where the objective function approximator is bounded from below by the PCM convex in the optimization variable. The proposed objective function approximator is a universal approximator for continuous functions, and the global minimizer of the PCM attains the global minimum of the objective function approximator. Therefore, the global minimizer of the objective function approximator can be obtained by a single convex optimization. As a realization of the proposed method, extended parameterized log-sum-exp network is proposed by utilizing a parameterized log-sum-exp network as the PCM. Numerical simulation is performed for non-parameterized-convex objective function approximation and for learning-based nonlinear model predictive control to demonstrate the performance and characteristics of the proposed method. The simulation results support that the proposed method can be used to learn objective functions and to find the global minimizer reliably and quickly by using convex optimization algorithms.
翻訳日:2023-10-05 17:03:13 公開日:2023-10-04
# コミュニティアーキタイプ:仮想コミュニティ感覚のユーザエクスペリエンスを反映する研究方法論の指導のための実証的フレームワーク

Community Archetypes: An Empirical Framework for Guiding Research Methodologies to Reflect User Experiences of Sense of Virtual Community ( http://arxiv.org/abs/2310.02515v1 )

ライセンス: Link先を確認
Gale H. Prinster, C. Estelle Smith, Chenhao Tan, Brian C. Keegan(参考訳) 人間はコミュニティの感覚(SOC)を必要とし、ソーシャルメディアプラットフォームはユーザーに対して仮想コミュニティの感覚(SOVC)を提供することによって、このニーズに対処する機会を与える。 本稿では, Reddit 上で SOVC を探求し, 研究者に Reddit コミュニティの研究の方法論的決定のための優れたリソースを提供すること, (2) SOVC のユーザ体験を反映した新しい研究手法とコミュニティ支援ツールの基盤を構築すること, という2つの目標に動機付けられている。 影響のあるコミュニティに対するサービスと説明責任を尊重し倫理的に設計することを保証するため、我々の研究は2つの主要な利害関係者グループと関わり、質的なコミュニティ中心のアプローチを取ります。 まず、21人の研究者にインタビューし、Redditで「コミュニティ」を研究する方法について話を聞いた。 第2に、SOVCのユーザエクスペリエンスに関する洞察を得るために、12のサブレディットを調査した。 その結果、サブレディットのトピックやタイプに関わらず、ユーザのSOVCを広く反映できる研究手法が存在することがわかった。 しかし、ユーザの反応は、トピックQ&A、ラーニング&パースペクティブブロードニング、ソーシャルサポート、コンテンツ生成、エンティティとの連携の5つの異なるコミュニティアーチタイプの存在を証明した。 我々はコミュニティアーチェタイプフレームワークを提供し、SOVCのユーザエクスペリエンスとより緊密に連携する手法の設計における将来の作業を支援するとともに、現代の世界でのSOC/SOVCの人的ニーズを有意義に養うことのできるコミュニティサポートツールを作成します。

Humans need a sense of community (SOC), and social media platforms afford opportunities to address this need by providing users with a sense of virtual community (SOVC). This paper explores SOVC on Reddit and is motivated by two goals: (1) providing researchers with an excellent resource for methodological decisions in studies of Reddit communities; and (2) creating the foundation for a new class of research methods and community support tools that reflect users' experiences of SOVC. To ensure that methods are respectfully and ethically designed in service and accountability to impacted communities, our work takes a qualitative, community-centered approach by engaging with two key stakeholder groups. First, we interviewed 21 researchers to understand how they study "community" on Reddit. Second, we surveyed 12 subreddits to gain insight into user experiences of SOVC. Results show that some research methods can broadly reflect users' SOVC regardless of the topic or type of subreddit. However, user responses also evidenced the existence of five distinct Community Archetypes: Topical Q&A, Learning & Perspective Broadening, Social Support, Content Generation, and Affiliation with an Entity. We offer the Community Archetypes framework to support future work in designing methods that align more closely with user experiences of SOVC and to create community support tools that can meaningfully nourish the human need for SOC/SOVC in our modern world.
翻訳日:2023-10-05 17:02:54 公開日:2023-10-04
# 認証ロバスト性向上のためのレシピ:容量とデータ

A Recipe for Improved Certifiable Robustness: Capacity and Data ( http://arxiv.org/abs/2310.02513v1 )

ライセンス: Link先を確認
Kai Hu, Klas Leino, Zifan Wang, Matt Fredrikson(参考訳) 理論的にも経験的にも重要な課題は、堅牢性が標準的なトレーニングよりもネットワーク容量とデータを必要とすることだ。 しかし、厳密なリプシッツ制約の下で効果的にキャパシティを追加することは、見かけ以上に困難であることが証明されており、最先端のアプローチがオーバーフィッティングよりも\emph{underfitting}に向けられているという事実から明らかである。 さらに,リプシッツを基盤とした設計空間の慎重な探索の欠如により,性能が向上する可能性が示唆された。 本稿では,lipschitzベースの認証手法の可能性を明らかにするため,より包括的な評価を行う。 新規な手法,設計最適化,先行作業の合成を組み合わせることで,様々なベンチマークデータセットに対する決定論的証明と,さまざまな摂動サイズに対して,最先端の<emph{verified robust accuracy} (VRA) を著しく向上させることができる。 特に,既存技術であるリプシッツ制御ResNetアーキテクチャの終端に,Cholesky-orthogonalized residual dense" 層を追加することは,ネットワーク容量と性能の向上に特に有効であることがわかった。 フィルタリング生成データ拡張と組み合わせて、最終結果は、最大8.5ポイントのアート決定性VRAの状態をさらに高めます。 コードは \url{https://github.com/hukkai/liresnet} で入手できる。

A key challenge, supported both theoretically and empirically, is that robustness demands greater network capacity and more data than standard training. However, effectively adding capacity under stringent Lipschitz constraints has proven more difficult than it may seem, evident by the fact that state-of-the-art approach tend more towards \emph{underfitting} than overfitting. Moreover, we posit that a lack of careful exploration of the design space for Lipshitz-based approaches has left potential performance gains on the table. In this work, we provide a more comprehensive evaluation to better uncover the potential of Lipschitz-based certification methods. Using a combination of novel techniques, design optimizations, and synthesis of prior work, we are able to significantly improve the state-of-the-art \emph{verified robust accuracy} (VRA) for deterministic certification on a variety of benchmark datasets, and over a range of perturbation sizes. Of particular note, we discover that the addition of large "Cholesky-orthogonalized residual dense" layers to the end of existing state-of-the-art Lipschitz-controlled ResNet architectures is especially effective for increasing network capacity and performance. Combined with filtered generative data augmentation, our final results further the state of the art deterministic VRA by up to 8.5 percentage points. Code is available at \url{https://github.com/hukkai/liresnet}.
翻訳日:2023-10-05 17:02:28 公開日:2023-10-04
# 拡散モデルによるVQEの予備アンサッツ

Prepare Ansatz for VQE with Diffusion Model ( http://arxiv.org/abs/2310.02511v1 )

ライセンス: Link先を確認
Yilin Shen(参考訳) 変分量子固有解法(VQE)は、与えられたハミルトンの基底状態エネルギーを見つけるために用いられる量子アルゴリズムである。 VQEの鍵となる成分はアンザッツであり、これはアルゴリズムが基底状態を近似するために使用する試行波動関数である。 優れたアンサッツの設計は、vqeアルゴリズムの性能を大幅に改善することができる。 ansatzの典型的な構造としては、ユニタリ結合クラスタ (ucc) ansatzとハードウェア効率のよいansatz (hea)がある。 これら2つの構造の主な違いは、問題とハードウェアへの依存にある。 UCCアンサッツは対象のハミルトニアンに合わせて調整され、HAAはハードウェアトポロジーによって決定される。 中間的アプローチは、UCCアンザッツの利点を組み合わせつつ、その表現性と能力を高めるために追加パラメータを導入することができると考えている。 本稿では,ansatzの生成を容易にする拡散モデルを提案する。 我々はUCCアンサゼをトレーニングデータとして生成し、このデータを拡散モデルに入力する。 モデルは入力データに類似した構造を持つ量子回路を生成する。 これらの量子回路はその後、その性能を評価するためにVQEタスクを用いてテストされる。 このアプローチは、同様の構造を維持しながら、追加のパラメータを導入し、表現性と能力を高めるアンサツェを生成するための体系的な方法を提供する。 拡散モデルがVQEのためのアンザッツ回路の調製に有効であることを示す。

The Variational Quantum Eigensolver (VQE) is a quantum algorithm used to find the ground state energy of a given Hamiltonian. The key component of VQE is the ansatz, which is a trial wavefunction that the algorithm uses to approximate the ground state. Designing a good ansatz can significantly improve the performance of the VQE algorithm. Typical ansatz structures include the Unitary Coupled Cluster (UCC) ansatz and the Hardware-Efficient Ansatz (HEA). The primary distinction between these two structures lies in their dependence on the problem and hardware. The UCC ansatz is tailored to the target Hamiltonian, whereas the HEA is determined by the hardware topology. We believe that an intermediate approach could combine the benefits of the UCC ansatz while introducing additional parameters to increase its expressiveness and capability. In this paper, we propose utilizing a diffusion model to facilitate the generation of ansatz. We create a sequence of UCC ansatzes as training data and input this data into the diffusion model. The model then generates quantum circuits that have a similar structure to the input data. These quantum circuits are subsequently tested using a VQE task to evaluate their performance. This approach provides a systematic method for generating ansatzes that maintain a similar structure while incorporating additional parameters, enhancing their expressiveness and capability. We validate on small molecules that the diffusion model can help prepare ansatz circuits for VQE.
翻訳日:2023-10-05 17:02:01 公開日:2023-10-04
# Ophiuchus: 階層的粗粒化SO(3)-等価オートエンコーダによるタンパク質構造のスケーラブルモデリング

Ophiuchus: Scalable Modeling of Protein Structures through Hierarchical Coarse-graining SO(3)-Equivariant Autoencoders ( http://arxiv.org/abs/2310.02508v1 )

ライセンス: Link先を確認
Allan dos Santos Costa and Ilan Mitnikov and Mario Geiger and Manvitha Ponnapati and Tess Smidt and Joseph Jacobson(参考訳) 自然タンパク質の3次元ネイティブ状態は反復的および階層的パターンを示す。 しかし、従来のグラフベースのタンパク質構造のモデリングは、しばしば単一のきめ細かい解像度で操作することに限られ、それらのハイレベルな構成要素を学ぶのに砂時計の神経アーキテクチャが欠如している。 標準タンパク質残基のすべての重原子上で効率的に作用するso(3)同変粗粒モデルであるophiuchusを導入することで,このギャップを狭める。 我々のモデルは、グラフモデリングを用いた現在のアプローチから外れ、代わりに局所畳み込み粗さに着目して、ログ線形長複雑性におけるシーケンス-モチフ相互作用をモデル化する。 我々はPDBモノマーの連続フラグメント上でOphiuchusを訓練し、その再構成能力を異なる圧縮速度で調べる。 PDBFlexデータセットからの補間トラジェクトリと構造スナップショットを比較し,学習した潜伏空間を検証し,コンフォメーション補間における迅速な利用法を示す。 最後に, 分散確率モデル(DDPM)を用いて, 様々なミニタンパク質の容易に分解可能な潜伏埋め込みを効率的にサンプリングする。 我々の実験は、Ophiuchusが効率的なタンパク質モデリングと生成のためのスケーラブルな基盤であることを実証した。

Three-dimensional native states of natural proteins display recurring and hierarchical patterns. Yet, traditional graph-based modeling of protein structures is often limited to operate within a single fine-grained resolution, and lacks hourglass neural architectures to learn those high-level building blocks. We narrow this gap by introducing Ophiuchus, an SO(3)-equivariant coarse-graining model that efficiently operates on all heavy atoms of standard protein residues, while respecting their relevant symmetries. Our model departs from current approaches that employ graph modeling, instead focusing on local convolutional coarsening to model sequence-motif interactions in log-linear length complexity. We train Ophiuchus on contiguous fragments of PDB monomers, investigating its reconstruction capabilities across different compression rates. We examine the learned latent space and demonstrate its prompt usage in conformational interpolation, comparing interpolated trajectories to structure snapshots from the PDBFlex dataset. Finally, we leverage denoising diffusion probabilistic models (DDPM) to efficiently sample readily-decodable latent embeddings of diverse miniproteins. Our experiments demonstrate Ophiuchus to be a scalable basis for efficient protein modeling and generation.
翻訳日:2023-10-05 17:01:39 公開日:2023-10-04
# Visuo-Lingual Transformer を用いた能動ロボットインタラクション

Proactive Human-Robot Interaction using Visuo-Lingual Transformers ( http://arxiv.org/abs/2310.02506v1 )

ライセンス: Link先を確認
Pranay Mathur(参考訳) 人間は、人間の相互作用を通じて文脈を推測するために潜在的な内舌の手がかりを抽出できる生来の能力を持っている。 コラボレーションの間、これは一連のタスクの基本的な意図を積極的な予測を可能にする。 対照的に、人間と協調するロボットエージェントは、基本的な指示に従ってタスクを完了したり、特定の手作りのトリガーを使ってゴールの完了に向けての積極的なコラボレーションを開始する。 このようなロボットをエンドゴールを推論し、積極的に中間タスクを提案することで、人間とロボットのコラボレーションのより直感的な方法がもたらされる。 そこで本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間インタラクションの知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。 具体的には、視覚言語に基づくマルチモーダルトランスフォーマーベースのアーキテクチャであるViLing-MMTを提案する。 シミュレーションと実世界のシナリオにおいて提案モデルを評価する。

Humans possess the innate ability to extract latent visuo-lingual cues to infer context through human interaction. During collaboration, this enables proactive prediction of the underlying intention of a series of tasks. In contrast, robotic agents collaborating with humans naively follow elementary instructions to complete tasks or use specific hand-crafted triggers to initiate proactive collaboration when working towards the completion of a goal. Endowing such robots with the ability to reason about the end goal and proactively suggest intermediate tasks will engender a much more intuitive method for human-robot collaboration. To this end, we propose a learning-based method that uses visual cues from the scene, lingual commands from a user and knowledge of prior object-object interaction to identify and proactively predict the underlying goal the user intends to achieve. Specifically, we propose ViLing-MMT, a vision-language multimodal transformer-based architecture that captures inter and intra-modal dependencies to provide accurate scene descriptions and proactively suggest tasks where applicable. We evaluate our proposed model in simulation and real-world scenarios.
翻訳日:2023-10-05 17:01:14 公開日:2023-10-04
# 拡散による目標達成の学習

Learning to Reach Goals via Diffusion ( http://arxiv.org/abs/2310.02505v1 )

ライセンス: Link先を確認
Vineet Jain and Siamak Ravanbakhsh(参考訳) 拡散モデル(英: Diffusion model)は、高次元空間におけるランダムノイズを反復的 denoising を通じて対象多様体にマッピングできる強力な生成モデルのクラスである。 本研究では,拡散モデリングの文脈内でのフレーミングによる目標条件強化学習の新たな視点を示す。 ガウスノイズがデータ多様体から離れるランダムな軌跡を生成する拡散過程に類似して、潜在的な目標状態から離れて移動する軌跡を構築する。 次にスコア関数に類似した目標条件付きポリシーを学習する。 Merlinと呼ばれるこのアプローチは、別の値関数を学習することなく、任意の初期状態から事前定義された、あるいは新しい目標に到達することができます。 我々は,バッファからの逆遊び,逆ダイナミクスモデル,新しい非パラメトリックアプローチという,ガウス雑音の代わりにノイズモデルを選択する3つの選択肢を考える。 理論的には我々のアプローチを正当化し、オフラインの目標達成タスクで検証する。 これはrlの拡散に関するこの視点が、シーケンシャルな意思決定のためのシンプルでスケーラブルで効果的な方向であることを示唆している。

Diffusion models are a powerful class of generative models capable of mapping random noise in high-dimensional spaces to a target manifold through iterative denoising. In this work, we present a novel perspective on goal-conditioned reinforcement learning by framing it within the context of diffusion modeling. Analogous to the diffusion process, where Gaussian noise is used to create random trajectories that walk away from the data manifold, we construct trajectories that move away from potential goal states. We then learn a goal-conditioned policy analogous to the score function. This approach, which we call Merlin, can reach predefined or novel goals from an arbitrary initial state without learning a separate value function. We consider three choices for the noise model to replace Gaussian noise in diffusion - reverse play from the buffer, reverse dynamics model, and a novel non-parametric approach. We theoretically justify our approach and validate it on offline goal-reaching tasks. Empirical results are competitive with state-of-the-art methods, which suggests this perspective on diffusion for RL is a simple, scalable, and effective direction for sequential decision-making.
翻訳日:2023-10-05 17:00:55 公開日:2023-10-04
# エンタングルメント支援量子キラル分光

Entanglement-Assisted Quantum Chiral Spectroscopy ( http://arxiv.org/abs/2310.02502v1 )

ライセンス: Link先を確認
Chong Ye, Yifan Sun, and Xiangdong Zhang(参考訳) 光学的キラル分析の最も重要な問題は、本質的に弱いキラル信号が環境ノイズに圧倒されやすいことである。 この問題を克服するために、光-分子相互作用の対称性の破れや環境騒音の低減に多大な努力が費やされた。 本稿では、周波数の絡み合った光子をプローブ信号として利用し、量子キラル分光法を用いてそれを検出する方法を提案する。 この目的のために、エンタングルメント支援量子キラル分光の理論を開発する。 その結果、量子スペクトルにおける左右の分子の信号は常に、絡み合ったプローブ光子を適切に構成することで区別できることがわかった。 構成において、2つのエナンチオマーの古典スペクトルは、相互作用の対称性が環境ノイズに圧倒されるときに区別できない。 これにより、量子キラル分光は、すべての古典的キラル分光に対して大きな利点がある。 我々の研究は、キラル分析における量子分光の深い利点を探求するエキサイティングな領域を開く。

The most important problem of spectroscopic chiral analysis is the inherently weak chiral signals are easily overwhelmed by the environment noises. Enormous efforts had been spent to overcome this problem by enhancing the symmetry break in the light-molecule interactions or reducing the environment noises. Here, we propose an alternative way to solve this problem by using frequency-entangled photons as probe signals and detecting them in coincidence, i.e., using quantum chiral spectroscopy. For this purpose, we develop the theory of entanglement-assisted quantum chiral spectroscopy. Our results show that the signals of left- and right-handed molecules in the quantum spectrum are always distinguishable by suitably configuring the entangled probe photons. In construct, the classical spectrum of the two enantiomers become indistinguishable when the symmetry break in the interactions is overwhelmed by the environment noises. This offers our quantum chiral spectroscopy a great advantage over all classical chiral spectroscopy. Our work opens up an exciting area that exploring profound advantages of quantum spectroscopy in chiral analysis.
翻訳日:2023-10-05 17:00:38 公開日:2023-10-04
# 多体系における量子相関の伝播に対する定量的境界

Quantitative bounds to propagation of quantum correlations in many-body systems ( http://arxiv.org/abs/2310.02501v1 )

ライセンス: Link先を確認
Davide Girolami and Michele Minervini(参考訳) 我々は,多体系における量子相関の量的制限を確立することにより,量子系に関する情報を独立オブザーバに同時に伝達する方法について検討する。 最近Physで報告された。 Rev. Lett. 129, 010401 (2022) は、単一の量子系とその環境、例えば多くの光子の間の量子不和と絡み合いの境界であり、環境の断片を監視する独立した観測者が必然的にシステムの古典的情報のみを取得するように指示する。 ここでは,これらの知見を裏付け,一般化する。 まず、量子不和の連続性境界を計算し、量子相関の少ない状態が古典的確率分布の埋め込みであることからどれだけの状態を逸脱するかを設定する。 また、多体量子系の任意の一対の成分間の生成の両部エンタングルメントに対する普遍的に有効な上限を示す。 その結果、宇宙における古典情報の拡散は量子相関を抑制することが確認された。

We investigate how much information about a quantum system can be simultaneously communicated to independent observers, by establishing quantitative limits to bipartite quantum correlations in many-body systems. As recently reported in Phys. Rev. Lett. 129, 010401 (2022), bounds on quantum discord and entanglement of formation between a single quantum system and its environment, e.g., a large number of photons, dictate that independent observers which monitor environment fragments inevitably acquire only classical information about the system. Here, we corroborate and generalize those findings. First, we calculate continuity bounds of quantum discord, which set how much states with a small amount of quantum correlations deviate from being embeddings of classical probability distributions. Also, we demonstrate a universally valid upper bound to the bipartite entanglement of formation between an arbitrary pair of components of a many-body quantum system. The results confirm that proliferation of classical information in the Universe suppresses quantum correlations.
翻訳日:2023-10-05 17:00:22 公開日:2023-10-04
# 数百個のキラル分子を持つ気体試料に対する単発非破壊量子センシング

Single-shot Non-destructive Quantum Sensing for Gaseous Samples with Hundreds of Chiral Molecules ( http://arxiv.org/abs/2310.02498v1 )

ライセンス: Link先を確認
Chong Ye, Yifan Sun, Yong Li, and Xiangdong Zhang(参考訳) 微量のキラル物質、特に単分子レベルで効率的であるキラル識別は非常に要求される。 本稿では,そのような問題に対処する単一ショット非破壊量子センシング法を提案する。 我々の計画には2つのステップがある。 最初のステップでは、2つのエナンチオマーはマイクロ波エナンチオ特異な状態転移によって異なる回転状態に合成される。 その後、カイラル識別は量子仮説検定に移される。 第2段階では,マイクロ波共振器を用いた非破壊量子状態検出手法を初めて導入し,分子のキラリティを出力信号の符号によって決定する。 典型的キラル分子1,2-プロパンジオールおよび球状ファブリ-P\'{e}rotキャビティに基づく実験可能なモデルを用いて, 10^2〜10^3$分子でゆっくりと動く気体試料の分子キラリティを, 単発検出において高い信頼性で識別可能であることを示す。 さらにキラル分子をトラップすることにより,本手法を用いて単一分子レベルでのキラル識別を実現することが期待できる。

Chiral discrimination that is efficient to tiny amounts of chiral substances, especially at the single-molecule level, is highly demanded. Here, we propose a single-shot nondestructive quantum sensing method addressing such an issue. Our scheme consists of two steps. In the first step, the two enantiomers are prepared in different rotational states via microwave enantio-specific state transfer. Then, the chiral discrimination is transferred to quantum hypothesis testing. In the second step, we for the first time introduce a non-destructive quantum-state detection technique assisted with a microwave resonator to chiral discrimination, through which the molecular chirality is determined by the sign of the output signals. Using a typical chiral molecule, 1,2-propanediol, and an experimentally feasible model based on spherical Fabry-P\'{e}rot cavity, we show that the molecular chirality of slowly moving enantiopure gaseous samples with $10^2 - 10^3$ molecules can be highly credibly distinguished in a single-shot detection. By further trapping chiral molecules, it is promising to achieve chiral discrimination at the single molecule level by using our approach.
翻訳日:2023-10-05 17:00:01 公開日:2023-10-04
# ラベル誤差がモデル格差指標に及ぼす影響の定量化と緩和

Quantifying and mitigating the impact of label errors on model disparity metrics ( http://arxiv.org/abs/2310.02533v1 )

ライセンス: Link先を確認
Julius Adebayo, Melissa Hall, Bowen Yu, Bobbie Chern(参考訳) ヒューマンアノテーションによって得られるラベルのエラーは、モデルのパフォーマンスに悪影響を及ぼす。 既存のアプローチでは、ラベルエラーがモデル下流の精度に与える影響を軽減する方法が提案されているが、モデルが異なるメトリクスに与える影響についてはほとんど分かっていない。 本稿では,ラベル誤りがモデルのばらつき指標に及ぼす影響について検討する。 トレーニングデータとテストデータの両方において、ラベルエラーのさまざまなレベルが、これらの格差メトリクスにどのように影響するかを実証的に特徴付けます。 グループキャリブレーションやその他のメトリクスは、特に少数派のグループでは、トレインタイムやテストタイムのラベルエラーに敏感です。 この異なる効果は、ノイズ認識アルゴリズムで訓練されたモデルでも持続する。 学習時間ラベル誤りの影響を軽減するために,トレーニング入力ラベルがモデルの集団不一致指標に与える影響を推定する手法を提案する。 我々は,様々なデータセットに対する提案手法を実証的に評価し,モデルの異質性指標を改善するトレーニング入力の識別において,代替手法と比較して有意な改善を見出した。 提案手法は,グループキャリブレーション誤差が向上した更新モデルを生成する自動レラベル・アンド・ファインチューン方式で補完する。

Errors in labels obtained via human annotation adversely affect a model's performance. Existing approaches propose ways to mitigate the effect of label error on a model's downstream accuracy, yet little is known about its impact on a model's disparity metrics. Here we study the effect of label error on a model's disparity metrics. We empirically characterize how varying levels of label error, in both training and test data, affect these disparity metrics. We find that group calibration and other metrics are sensitive to train-time and test-time label error -- particularly for minority groups. This disparate effect persists even for models trained with noise-aware algorithms. To mitigate the impact of training-time label error, we present an approach to estimate the influence of a training input's label on a model's group disparity metric. We empirically assess the proposed approach on a variety of datasets and find significant improvement, compared to alternative approaches, in identifying training inputs that improve a model's disparity metric. We complement the approach with an automatic relabel-and-finetune scheme that produces updated models with, provably, improved group calibration error.
翻訳日:2023-10-05 16:52:11 公開日:2023-10-04
# ShaSTA-Fuse:3次元多物体追跡のためのモデル形状と時空間親和性のためのカメラLiDARセンサフュージョン

ShaSTA-Fuse: Camera-LiDAR Sensor Fusion to Model Shape and Spatio-Temporal Affinities for 3D Multi-Object Tracking ( http://arxiv.org/abs/2310.02532v1 )

ライセンス: Link先を確認
Tara Sadjadpour, Rares Ambrus, Jeannette Bohg(参考訳) 3Dマルチオブジェクトトラッキング(MOT)は、自律移動エージェントが安全にシーンをナビゲートするために不可欠である。 自律エージェントの知覚能力を最大化するために,カメラとLiDARセンサ情報を融合した3次元MOTフレームワークの開発を目指している。 3次元MOTの形状と時空間親和性をモデル化した従来のLiDARのみの作業であるShaSTAに基づいて,新しいカメラ-LiDAR融合手法を提案する。 本研究は,データアソシエーション改善のための親和性評価,トラックライフサイクル管理,偽陽性除去,偽陰性伝播,トラック信頼スコア改善のための,深度や遠方物体に関する情報を取り入れたリッチな感覚信号を生成する融合技術を提案する。 我々の主な貢献は、カメラとLiDARの知覚信号を融合して親和性を学ぶための新しい融合アプローチと、2Dと3Dを融合する第一種マルチモーダルシーケンシャルトラック信頼性向上技術である。 さらに,LiDARセンサの深度知覚限界や空間性に悩まされる小さな物体に対して,カメラセンサを組み込むことによる付加的な利点を示すために,各融合ステップのアブレーション解析を行った。 本手法は,センタポイント検出を用いたマルチモーダル3次元motアルゴリズム間のnuscenesベンチマークで最先端性能を実現する。

3D multi-object tracking (MOT) is essential for an autonomous mobile agent to safely navigate a scene. In order to maximize the perception capabilities of the autonomous agent, we aim to develop a 3D MOT framework that fuses camera and LiDAR sensor information. Building on our prior LiDAR-only work, ShaSTA, which models shape and spatio-temporal affinities for 3D MOT, we propose a novel camera-LiDAR fusion approach for learning affinities. At its core, this work proposes a fusion technique that generates a rich sensory signal incorporating information about depth and distant objects to enhance affinity estimation for improved data association, track lifecycle management, false-positive elimination, false-negative propagation, and track confidence score refinement. Our main contributions include a novel fusion approach for combining camera and LiDAR sensory signals to learn affinities, and a first-of-its-kind multimodal sequential track confidence refinement technique that fuses 2D and 3D detections. Additionally, we perform an ablative analysis on each fusion step to demonstrate the added benefits of incorporating the camera sensor, particular for small, distant objects that tend to suffer from the depth-sensing limits and sparsity of LiDAR sensors. In sum, our technique achieves state-of-the-art performance on the nuScenes benchmark amongst multimodal 3D MOT algorithms using CenterPoint detections.
翻訳日:2023-10-05 16:51:52 公開日:2023-10-04
# MIDDAG:私たちのニュースはどこへ行くのか? コミュニティレベル情報経路による情報拡散の調査

MIDDAG: Where Does Our News Go? Investigating Information Diffusion via Community-Level Information Pathways ( http://arxiv.org/abs/2310.02529v1 )

ライセンス: Link先を確認
Mingyu Derek Ma, Alexander K. Taylor, Nuan Wen, Yanchen Liu, Po-Nien Kung, Wenna Qin, Shicheng Wen, Azure Zhou, Diyi Yang, Xuezhe Ma, Nanyun Peng, Wei Wang(参考訳) そこで本稿では,ソーシャルメディア上の情報伝達経路を可視化する直感的対話型システムであるmidagについて紹介する。 ユーザ間の情報フローパターンの発見に加えて,ユーザ間のコミュニティを構築し,伝播予測能力を開発し,情報の伝達方法の追跡と理解を可能にした。

We present MIDDAG, an intuitive, interactive system that visualizes the information propagation paths on social media triggered by COVID-19-related news articles accompanied by comprehensive insights including user/community susceptibility level, as well as events and popular opinions raised by the crowd while propagating the information. Besides discovering information flow patterns among users, we construct communities among users and develop the propagation forecasting capability, enabling tracing and understanding of how information is disseminated at a higher level.
翻訳日:2023-10-05 16:51:26 公開日:2023-10-04
# 視覚質問応答モデルと人間の知能の認知について:比較研究

On the Cognition of Visual Question Answering Models and Human Intelligence: A Comparative Study ( http://arxiv.org/abs/2310.02528v1 )

ライセンス: Link先を確認
Liben Chen, Long Chen, Tian Ellison-Chen, Zhuoyuan Xu(参考訳) VQA(Visual Question Answering)は、画像と自然言語の相互理解と推論を必要とする課題である。 VQAモデルと人間の認知との関連性を調べるために,人間の思考過程を記録するための調査を設計し,その成果と注目マップを比較してVQAモデルを分析した。 VQAモデルは、建築における人間の認知に似ており、認識レベルにおいて人間と同じような働きをするが、認知的推論に苦しむ。 人間の思考手順の分析は将来の研究を指示し、モデリングの特徴やアーキテクチャにより多くの認知能力を導入するのに役立つ。

Visual Question Answering (VQA) is a challenging task that requires cross-modal understanding and reasoning of visual image and natural language question. To inspect the association of VQA models to human cognition, we designed a survey to record human thinking process and analyzed VQA models by comparing the outputs and attention maps with those of humans. We found that although the VQA models resemble human cognition in architecture and performs similarly with human on the recognition-level, they still struggle with cognitive inferences. The analysis of human thinking procedure serves to direct future research and introduce more cognitive capacity into modeling features and architectures.
翻訳日:2023-10-05 16:51:16 公開日:2023-10-04
# CIING: インストラクションチューニングのためのカリキュラムを作成する大規模言語モデル

CITING: Large Language Models Create Curriculum for Instruction Tuning ( http://arxiv.org/abs/2310.02527v1 )

ライセンス: Link先を確認
Tao Feng, Zifeng Wang, Jimeng Sun(参考訳) 近年の大規模言語モデル(LLM)の進歩は、命令チューニングと人間のアライメントの組み合わせによって達成されている。 しかし、手作業による命令データセットの構築と人間のアライメントの実行は、LLMの開発をスケールするボトルネックとなる。 本稿では,人間の代わりにAIモデルを活用して,学生のLLMを訓練するアイデアを生かした。 本手法は, 教師が提示したリビジョンから, 筆跡を追従し, 書字スキルを磨く方法に着想を得たものである。 具体的には、教師のLLMを使って、学生のLLM、すなわちCurriculum Instruction Tuning(CIING)を指導するカリキュラムを作成する。 1)教師LLMは,質問の種類に応じた回答を評価するためにルーリックを製作し,(2)学生LLMは,教師が作成したリビジョンからルーリックを追従し,自己補正を行うことを学ぶ。 さらに、CIINGの手順を具体化するために、反復的に実施します。 引用と4つのデータセットの最先端のベースラインを比較した。 提案手法は, GPT-4 評価により, 明瞭度, 深度, 包括性が向上したことを示す。 具体的には、SFTが79.4%、RLHFが73.4%、RRHFが78.1%、RAFTが76.3%である。

The recent advancement of large language models (LLMs) has been achieved through a combo of instruction tuning and human alignment. However, building manually crafted instruction datasets and performing human alignment become the bottleneck for scaling the development of LLMs. In this paper, we exploit the idea of leveraging AI models in lieu of humans as the teacher to train student LLMs. Our method is inspired by how human students refine their writing skills by following the rubrics and learning from the revisions offered by their tutors. Specifically, we employ a teacher LLM to create a curriculum for instruction tuning of the student LLM, namely Curriculum Instruction TunING (CITING). It encompasses two main steps: (1) the teacher LLM crafts the rubrics for evaluating the answers corresponding to various types of questions, and (2) the student LLM learns to follow the rubrics and perform self-correction from the revision made by the teacher. We further iteratively carry out it to embody the procedure of CITING. We compare CITING to a series of state-of-the-art baselines on four datasets. Our method demonstrates strong improvement in terms of articulate, in-depth, and comprehensive by GPT-4 evaluation. Specifically, it achieves an average winning rate of 79.4% over SFT, 73.4% over RLHF, 78.1% over RRHF, and 76.3% over RAFT, respectively.
翻訳日:2023-10-05 16:51:03 公開日:2023-10-04
# 条件付き確率最適化

Federated Conditional Stochastic Optimization ( http://arxiv.org/abs/2310.02524v1 )

ライセンス: Link先を確認
Xidong Wu, Jianhui Sun, Zhengmian Hu, Junyi Li, Aidong Zhang, Heng Huang(参考訳) 条件付き確率最適化は、不変学習、AUPRCの最大化、メタ学習など、幅広い機械学習タスクに応用されている。 これらのアプリケーションでは,大規模分散データを用いたトレーニングモデルの需要が増大するにつれて,フェデレート学習アルゴリズムなどの通信効率の高い分散最適化アルゴリズムの必要性が高まっている。 本稿では,非凸条件付き確率最適化をフェデレーション学習において考慮し,条件付き確率勾配推定器と運動量に基づくアルゴリズム(FCSG-M)を用いた最初の条件付き確率最適化アルゴリズム(FCSG)を提案する。 単一マシン設定における低バウンド複雑性に適合するため,分散低減法を用いて高速化アルゴリズム(acc-fcsg-m)を設計し,最適なサンプルと通信の複雑さを達成する。 FLにおけるMAMLの既存の最適化解析と比較すると、フェデレーション条件確率最適化はタスクのサンプルを考える。 様々なタスクに関する広範な実験結果は、これらのアルゴリズムの効率を検証する。

Conditional stochastic optimization has found applications in a wide range of machine learning tasks, such as invariant learning, AUPRC maximization, and meta-learning. As the demand for training models with large-scale distributed data grows in these applications, there is an increasing need for communication-efficient distributed optimization algorithms, such as federated learning algorithms. This paper considers the nonconvex conditional stochastic optimization in federated learning and proposes the first federated conditional stochastic optimization algorithm (FCSG) with a conditional stochastic gradient estimator and a momentum-based algorithm (FCSG-M). To match the lower bound complexity in the single-machine setting, we design an accelerated algorithm (Acc-FCSG-M) via the variance reduction to achieve the best sample and communication complexity. Compared with the existing optimization analysis for MAML in FL, federated conditional stochastic optimization considers the sample of tasks. Extensive experimental results on various tasks validate the efficiency of these algorithms.
翻訳日:2023-10-05 16:50:36 公開日:2023-10-04
# 時空間注意に基づく生徒の授業行動検出手法

A Spatio-Temporal Attention-Based Method for Detecting Student Classroom Behaviors ( http://arxiv.org/abs/2310.02523v1 )

ライセンス: Link先を確認
Fan Yang(参考訳) 教室ビデオから生徒の行動を正確に検出することは,授業状況の分析と指導効率の向上に有用である。 しかし,学生の行動検出の精度が低いことが問題となっている。 この問題に対処するため,学生の授業行動検出のための時空間注意ベース手法(BDSTA)を提案する。 まず、SlowFastネットワークを使用して、動画から動きと環境情報の特徴マップを生成する。 次に、情報集約、圧縮、刺激プロセスを含む特徴マップに時空間注目モジュールを適用する。 その後、時間、チャネル、空間次元におけるアテンションマップを求め、これらのアテンションマップに基づいてマルチラベル動作分類を行う。 学生の授業行動データセットに存在する長期データ問題を解決するため、学習中のテールクラスデータにより重みを割り当てるために焦点損失関数を改良した。 STSCBという自作教室行動データセットを用いて実験を行った。 SlowFast モデルと比較すると,BDSTA を用いた学生行動分類の精度は8.94 %向上した。

Accurately detecting student behavior from classroom videos is beneficial for analyzing their classroom status and improving teaching efficiency. However, low accuracy in student classroom behavior detection is a prevalent issue. To address this issue, we propose a Spatio-Temporal Attention-Based Method for Detecting Student Classroom Behaviors (BDSTA). Firstly, the SlowFast network is used to generate motion and environmental information feature maps from the video. Then, the spatio-temporal attention module is applied to the feature maps, including information aggregation, compression and stimulation processes. Subsequently, attention maps in the time, channel and space dimensions are obtained, and multi-label behavior classification is performed based on these attention maps. To solve the long-tail data problem that exists in student classroom behavior datasets, we use an improved focal loss function to assign more weight to the tail class data during training. Experimental results are conducted on a self-made student classroom behavior dataset named STSCB. Compared with the SlowFast model, the average accuracy of student behavior classification detection improves by 8.94\% using BDSTA.
翻訳日:2023-10-05 16:50:19 公開日:2023-10-04
# SCB-Dataset3: 学生の授業行動検出のためのベンチマーク

SCB-Dataset3: A Benchmark for Detecting Student Classroom Behavior ( http://arxiv.org/abs/2310.02522v1 )

ライセンス: Link先を確認
Fan Yang and Tao Wang(参考訳) 生徒の教室行動を自動的に検出する深層学習手法は,授業成績の分析と授業効果の向上に有望なアプローチである。 しかし、学生行動に関する公開データセットの欠如は、この分野の研究者にとって課題となっている。 この問題に対処するために,実生活シナリオを表す学生クラスルーム行動データセット(SCB-dataset3)を提案する。 データセットは5686枚の画像と45578枚のラベルで構成されており、手作り、読み書き、電話の使用、頭をお辞儀、テーブルの上に傾ける6つの行動に焦点を当てている。 YOLOv5, YOLOv7, YOLOv8アルゴリズムを用いて, 平均精度(マップ)を最大80.3$\%の精度で評価した。 我々は,我々のデータセットが将来の学生行動検出研究の基盤となり,この分野の進歩に寄与すると考えている。 SCB-dataset3 は https://github.com/Whiffe/SCB-dataset でダウンロードできます。

The use of deep learning methods to automatically detect students' classroom behavior is a promising approach for analyzing their class performance and improving teaching effectiveness. However, the lack of publicly available datasets on student behavior poses a challenge for researchers in this field. To address this issue, we propose the Student Classroom Behavior dataset (SCB-dataset3), which represents real-life scenarios. Our dataset comprises 5686 images with 45578 labels, focusing on six behaviors: hand-raising, reading, writing, using a phone, bowing the head, and leaning over the table. We evaluated the dataset using the YOLOv5, YOLOv7, and YOLOv8 algorithms, achieving a mean average precision (map) of up to 80.3$\%$. We believe that our dataset can serve as a robust foundation for future research in student behavior detection and contribute to advancements in this field. Our SCB-dataset3 is available for download at: https://github.com/Whiffe/SCB-dataset
翻訳日:2023-10-05 16:50:03 公開日:2023-10-04
# 誰が監査官を監査するの? アルゴリズム監査エコシステムのフィールドスキャンからの提言

Who Audits the Auditors? Recommendations from a field scan of the algorithmic auditing ecosystem ( http://arxiv.org/abs/2310.02521v1 )

ライセンス: Link先を確認
Sasha Costanza-Chock, Emma Harvey, Inioluwa Deborah Raji, Martha Czernuszenko, Joy Buolamwini(参考訳) AI監査は、アルゴリズムによる説明責任のメカニズムとしてますます人気が高まっている。 監査の慣行を明確に理解せず、広く使われている標準や規制のガイダンスは言うまでもなく、ai製品やシステムは、第一、第二、第三の監査人によって監査されており、検証が困難であり、バイアスや危害を和らげるのではなく、悪化する可能性があると主張している。 この知識ギャップに対処するため、私たちはAI監査エコシステムの最初の包括的なフィールドスキャンを提供します。 我々は、アルゴリズム監査に従事している個人(N=438)と組織(N=189)のカタログを共有し、アルゴリズム監査に直接関連する作業を行い、グループ(N=152)を匿名で調査し、業界リーダー(N=10)にインタビューする。 我々は、新たなベストプラクティスや一般的な方法やツールを特定し、効果的な説明責任メカニズムとしてアルゴリズム監査を活用するための共通の障壁を列挙します。 我々は,これらの監査の質と影響を改善するための政策勧告を概説し,アルゴリズム監査官の幅広い支援と議論領域の紹介を行う。 私たちの勧告は、監査人だけでなく、議員、規制当局、社内政策立案者、基準設定機関にも影響します。 その通りです 1)AIシステムの所有者及び運用者は、明確に定義された基準に対する独立したアルゴリズム監査を行う必要がある。 2 アルゴリズム決定システムに該当する場合は、個人に通知すること。 3 査読のための監査所見の重要成分の開示を義務付けること。 4) 監査プロセスにおける実世界の害を、標準化された被害報告及び対応機構を通じて考慮すること。 5)アルゴリズム監査プロセスにおいてAIシステムによって害を受ける可能性が最も高い利害関係者に直接関与すること。 6) 評価を形式化し、潜在的にアルゴリズム監査人の認定を行う。

AI audits are an increasingly popular mechanism for algorithmic accountability; however, they remain poorly defined. Without a clear understanding of audit practices, let alone widely used standards or regulatory guidance, claims that an AI product or system has been audited, whether by first-, second-, or third-party auditors, are difficult to verify and may exacerbate, rather than mitigate, bias and harm. To address this knowledge gap, we provide the first comprehensive field scan of the AI audit ecosystem. We share a catalog of individuals (N=438) and organizations (N=189) who engage in algorithmic audits or whose work is directly relevant to algorithmic audits; conduct an anonymous survey of the group (N=152); and interview industry leaders (N=10). We identify emerging best practices as well as methods and tools that are becoming commonplace, and enumerate common barriers to leveraging algorithmic audits as effective accountability mechanisms. We outline policy recommendations to improve the quality and impact of these audits, and highlight proposals with wide support from algorithmic auditors as well as areas of debate. Our recommendations have implications for lawmakers, regulators, internal company policymakers, and standards-setting bodies, as well as for auditors. They are: 1) require the owners and operators of AI systems to engage in independent algorithmic audits against clearly defined standards; 2) notify individuals when they are subject to algorithmic decision-making systems; 3) mandate disclosure of key components of audit findings for peer review; 4) consider real-world harm in the audit process, including through standardized harm incident reporting and response mechanisms; 5) directly involve the stakeholders most likely to be harmed by AI systems in the algorithmic audit process; and 6) formalize evaluation and, potentially, accreditation of algorithmic auditors.
翻訳日:2023-10-05 16:49:45 公開日:2023-10-04
# MedDiffusion:拡散に基づくデータ拡張による健康リスク予測の促進

MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data Augmentation ( http://arxiv.org/abs/2310.02520v1 )

ライセンス: Link先を確認
Yuan Zhong, Suhan Cui, Jiaqi Wang, Xiaochen Wang, Ziyi Yin, Yaqing Wang, Houping Xiao, Mengdi Huai, Ting Wang, Fenglong Ma(参考訳) 健康リスク予測(Health Risk Prediction)は、医療領域における予測モデルの基本課題の一つであり、患者が将来直面する可能性のある健康リスクを、電子健康記録(EHR)を用いて予測することを目的としている。 研究者は、そのシーケンシャルな性質、高次元性、固有のノイズなど、EHRデータのユニークな課題を扱うために、いくつかのリスク予測モデルを開発した。 これらのモデルは印象的な結果をもたらした。 それでも、その効果を損なう重要な問題はデータ不足である。 基礎となるデータ分布の学習を通じて、トレーニングデータセットのサイズを拡大することにより、この問題を軽減するために、さまざまなデータ生成および拡張手法が導入されている。 しかし,これらの手法の性能はタスク非関連設計によって制限されることが多い。 これらの欠点に対処するため,本研究では,MedDiffusion という新たな拡散に基づくリスク予測モデルを提案する。 トレーニング中に合成患者データを作成してサンプル空間を拡大することにより、リスク予測性能を向上させる。 さらにmeddiffusionは、ステップワイズ・アテンション(step-wise attention)機構を用いて、患者の訪問間の隠れた関係を識別し、高品質データを生成する上で最も重要な情報を自動保持する。 4つの実世界の医療データセットに対する実験的評価は、MedDiffusionがPR-AUC、F1、Cohen's Kappaで14の最先端ベースラインを上回っていることを示している。 また、モデル設計の合理性と適応性をさらに検証するため、GANベースの代替案に対してアブレーション研究を行い、モデルをベンチマークする。 さらに,生成されたデータを分析し,モデルの解釈可能性に関する新たな洞察を提供する。

Health risk prediction is one of the fundamental tasks under predictive modeling in the medical domain, which aims to forecast the potential health risks that patients may face in the future using their historical Electronic Health Records (EHR). Researchers have developed several risk prediction models to handle the unique challenges of EHR data, such as its sequential nature, high dimensionality, and inherent noise. These models have yielded impressive results. Nonetheless, a key issue undermining their effectiveness is data insufficiency. A variety of data generation and augmentation methods have been introduced to mitigate this issue by expanding the size of the training data set through the learning of underlying data distributions. However, the performance of these methods is often limited due to their task-unrelated design. To address these shortcomings, this paper introduces a novel, end-to-end diffusion-based risk prediction model, named MedDiffusion. It enhances risk prediction performance by creating synthetic patient data during training to enlarge sample space. Furthermore, MedDiffusion discerns hidden relationships between patient visits using a step-wise attention mechanism, enabling the model to automatically retain the most vital information for generating high-quality data. Experimental evaluation on four real-world medical datasets demonstrates that MedDiffusion outperforms 14 cutting-edge baselines in terms of PR-AUC, F1, and Cohen's Kappa. We also conduct ablation studies and benchmark our model against GAN-based alternatives to further validate the rationality and adaptability of our model design. Additionally, we analyze generated data to offer fresh insights into the model's interpretability.
翻訳日:2023-10-05 16:49:12 公開日:2023-10-04
# 拡散モデルの一般化は幾何適応調和表現から生じる

Generalization in diffusion models arises from geometry-adaptive harmonic representation ( http://arxiv.org/abs/2310.02557v1 )

ライセンス: Link先を確認
Zahra Kadkhodaie, Florentin Guth, Eero P. Simoncelli, St\'ephane Mallat(参考訳) スコアベースの逆拡散アルゴリズムで生成された高品質なサンプルは、ディープニューラルネットワーク(DNN)が次元性の呪いにもかかわらず、ノイズの除去のために訓練された高次元密度を学習できることを示す。 しかし、トレーニングセットの記憶に関する最近の報告は、これらのネットワークがデータの「真の」連続密度を学習しているかどうかという問題を提起している。 本稿では,データセットの重複しない部分集合でトレーニングされた2つのdnnが,ほぼ同じスコア関数,つまり同じ密度を,驚くほど少ないトレーニング画像で学習することを示す。 この強力な一般化は、DNNアーキテクチャおよび/またはトレーニングアルゴリズムにおける強力な帰納バイアスとデータ分散の特性との整合性を示す。 我々はこれらの解析を行い、デノイザが基礎となる画像に適応して収縮操作を行うことを示す。 これらの基底を調べると、輪郭や均一な画像領域に沿って振動する調和構造が明らかになる。 本稿では,ネットワークが低次元多様体などの画像クラスで訓練された場合でも,これらの幾何学適応調和表現に対して帰納的バイアスを負うことを示した。 さらに、最適基底が幾何適応的かつ調和的であることが知られている正規画像クラスにおいて、ネットワークの雑音発生性能がほぼ最適であることを示す。

High-quality samples generated with score-based reverse diffusion algorithms provide evidence that deep neural networks (DNN) trained for denoising can learn high-dimensional densities, despite the curse of dimensionality. However, recent reports of memorization of the training set raise the question of whether these networks are learning the "true" continuous density of the data. Here, we show that two denoising DNNs trained on non-overlapping subsets of a dataset learn nearly the same score function, and thus the same density, with a surprisingly small number of training images. This strong generalization demonstrates an alignment of powerful inductive biases in the DNN architecture and/or training algorithm with properties of the data distribution. We analyze these, demonstrating that the denoiser performs a shrinkage operation in a basis adapted to the underlying image. Examination of these bases reveals oscillating harmonic structures along contours and in homogeneous image regions. We show that trained denoisers are inductively biased towards these geometry-adaptive harmonic representations by demonstrating that they arise even when the network is trained on image classes such as low-dimensional manifolds, for which the harmonic basis is suboptimal. Additionally, we show that the denoising performance of the networks is near-optimal when trained on regular image classes for which the optimal basis is known to be geometry-adaptive and harmonic.
翻訳日:2023-10-05 16:43:45 公開日:2023-10-04
# nola: 低ランクランダム基底の線形結合としてのネットワーク

NOLA: Networks as Linear Combination of Low Rank Random Basis ( http://arxiv.org/abs/2310.02556v1 )

ライセンス: Link先を確認
Soroush Abbasi Koohpayegani, KL Navaneet, Parsa Nooralinejad, Soheil Kolouri, Hamed Pirsiavash(参考訳) 大規模言語モデル(LLM)は、様々なダウンストリームタスクにまたがる印象的な数ショットのパフォーマンスのため、最近人気を集めている。 しかし、全てのパラメータを微調整し、ダウンストリームタスクやドメインごとにユニークなモデルを格納することは、チェックポイントの巨大なサイズ(例えばGPT-3では350GB)のために現実的ではない。 LoRAのような現在の文献は、LLMのもともとの重量に対する低ランクな修正の可能性を示し、タスク固有のモデルの効率的な適応と記憶を可能にしている。 これらの手法は、LLMを数桁の精度で微調整するために必要なパラメータ数を削減できる。 しかし、これらの方法は2つの主要な制限に直面している。 1)パラメーターの削減はランク1の分解によって下限となる。 2)縮小の程度は,モデルアーキテクチャと選択されたランクの両方に強く影響される。 例えば、より大きなモデルでは、階数 1 の分解でさえ、適応に必要なパラメータの数を超えるかもしれない。 本稿では,ロラに存在するランク1の下界を克服するNOLAを紹介する。 ランダム生成行列(basis)の線形結合を用いてローラの低ランク行列を再パラメータ化し、線形混合係数のみを最適化することにより、これを実現する。 このアプローチにより、トレーニング可能なパラメータの数をランクの選択とネットワークアーキテクチャの両方から切り離すことができます。 自然言語およびコンピュータビジョンタスクにおける GPT-2 と ViT を用いた適応結果を提案する。 NOLAは等価パラメータ数を持つモデルと同様に、あるいはそれより優れている。 さらに,性能を犠牲にすることなく,ランク1のLoRAに比べて大きなモデルでパラメータを半減できることを実証した。

Large Language Models (LLMs) have recently gained popularity due to their impressive few-shot performance across various downstream tasks. However, fine-tuning all parameters and storing a unique model for each downstream task or domain becomes impractical because of the massive size of checkpoints (e.g., 350GB in GPT-3). Current literature, such as LoRA, showcases the potential of low-rank modifications to the original weights of an LLM, enabling efficient adaptation and storage for task-specific models. These methods can reduce the number of parameters needed to fine-tune an LLM by several orders of magnitude. Yet, these methods face two primary limitations: 1) the parameter reduction is lower-bounded by the rank one decomposition, and 2) the extent of reduction is heavily influenced by both the model architecture and the chosen rank. For instance, in larger models, even a rank one decomposition might exceed the number of parameters truly needed for adaptation. In this paper, we introduce NOLA, which overcomes the rank one lower bound present in LoRA. It achieves this by re-parameterizing the low-rank matrices in LoRA using linear combinations of randomly generated matrices (basis) and optimizing the linear mixture coefficients only. This approach allows us to decouple the number of trainable parameters from both the choice of rank and the network architecture. We present adaptation results using GPT-2 and ViT in natural language and computer vision tasks. NOLA performs as well as, or better than models with equivalent parameter counts. Furthermore, we demonstrate that we can halve the parameters in larger models compared to LoRA with rank one, without sacrificing performance.
翻訳日:2023-10-05 16:43:22 公開日:2023-10-04
# zkFL:フェデレートラーニングのためのゼロ知識証明に基づくグラディエントアグリゲーション

zkFL: Zero-Knowledge Proof-based Gradient Aggregation for Federated Learning ( http://arxiv.org/abs/2310.02554v1 )

ライセンス: Link先を確認
Zhipeng Wang, Nanqing Dong, Jiahao Sun, William Knottenbelt(参考訳) Federated Learning(FL)は、中央アグリゲータのオーケストレーションの下で、複数の分散クライアントが協力してモデルをトレーニングできる機械学習パラダイムである。 従来のflソリューションは集中型アグリゲータの信頼の前提に依存しており、これは公正で正直な方法でクライアントのコホートを形成する。 しかし、実際には悪意のあるアグリゲータは、クライアントのトレーニングモデルを捨てて置き換えるか、偽のクライアントを挿入するためにsybil攻撃を開始することができる。 このような悪意ある行動によって、アグリゲータはfl設定でクライアントを制御でき、最終的なトレーニング結果を決定することができる。 本稿では,zkfl(zero-knowledge proofs (zkps) を利用して,トレーニングモデル集約プロセスにおける悪意のあるアグリゲータの問題に対処する。 正しい集計結果を保証するために、アグリゲータはラウンド毎の証明を提供する必要がある。 この証明は、クライアントにアグリゲータが意図した振る舞いを忠実に実行することを示すことができる。 クライアントの検証コストをさらに削減するため、マイナ(すなわち、ブロックチェーンデータの検証と維持を行うノード)がクライアントのローカルモデルや集約モデルを知ることなく、証明を検証できるゼロ知識の方法で、証明を処理するブロックチェーンを採用しました。 理論的解析と実証結果から、zkFLは基礎となるFLネットワーク構造を変更したり、トレーニング速度を著しく向上させることなく、従来のFLよりも優れたセキュリティとプライバシを実現することができることが示された。

Federated Learning (FL) is a machine learning paradigm, which enables multiple and decentralized clients to collaboratively train a model under the orchestration of a central aggregator. Traditional FL solutions rely on the trust assumption of the centralized aggregator, which forms cohorts of clients in a fair and honest manner. However, a malicious aggregator, in reality, could abandon and replace the client's training models, or launch Sybil attacks to insert fake clients. Such malicious behaviors give the aggregator more power to control clients in the FL setting and determine the final training results. In this work, we introduce zkFL, which leverages zero-knowledge proofs (ZKPs) to tackle the issue of a malicious aggregator during the training model aggregation process. To guarantee the correct aggregation results, the aggregator needs to provide a proof per round. The proof can demonstrate to the clients that the aggregator executes the intended behavior faithfully. To further reduce the verification cost of clients, we employ a blockchain to handle the proof in a zero-knowledge way, where miners (i.e., the nodes validating and maintaining the blockchain data) can verify the proof without knowing the clients' local and aggregated models. The theoretical analysis and empirical results show that zkFL can achieve better security and privacy than traditional FL, without modifying the underlying FL network structure or heavily compromising the training speed.
翻訳日:2023-10-05 16:42:58 公開日:2023-10-04
# 知識共蒸留を用いたヘテロジニアスフェデレート学習

Heterogeneous Federated Learning Using Knowledge Codistillation ( http://arxiv.org/abs/2310.02549v1 )

ライセンス: Link先を確認
Jared Lichtarge and Ehsan Amid and Shankar Kumar and Tien-Ju Yang and Rohan Anil and Rajiv Mathews(参考訳) フェデレーション平均化(Federated Averaging)や、それに基づいて構築される多くのフェデレーション学習アルゴリズムのバリエーションには制限がある。 その結果、多くのクライアントで未使用のモデリング能力が発生し、モデル性能が制限される。 この問題に対処するために,プール全体の小さなモデルをトレーニングし,キャパシティの高いクライアントのサブセットでより大きなモデルをトレーニングする手法を提案する。 モデルは、パラメータを共有することなく、サーバ上のラベルなしデータセットを利用して、知識蒸留を介して情報を双方向に交換する。 本稿では,画像分類と言語モデリングタスクにおける平均化を改善する2種類の手法を提案する。 ドメイン外またはドメイン内蒸留データに制限がある場合でも,本手法は有用であることを示す。 さらに、双方向の知識蒸留は、異なるプール人口がドメインシフトを導入したとき、モデル間のドメイン転送を可能にする。

Federated Averaging, and many federated learning algorithm variants which build upon it, have a limitation: all clients must share the same model architecture. This results in unused modeling capacity on many clients, which limits model performance. To address this issue, we propose a method that involves training a small model on the entire pool and a larger model on a subset of clients with higher capacity. The models exchange information bidirectionally via knowledge distillation, utilizing an unlabeled dataset on a server without sharing parameters. We present two variants of our method, which improve upon federated averaging on image classification and language modeling tasks. We show this technique can be useful even if only out-of-domain or limited in-domain distillation data is available. Additionally, the bi-directional knowledge distillation allows for domain transfer between the models when different pool populations introduce domain shift.
翻訳日:2023-10-05 16:42:31 公開日:2023-10-04
# 可変係数ポアソン方程式に対する物理情報ニューラルネットワークの厳密な境界条件

Exact and soft boundary conditions in Physics-Informed Neural Networks for the Variable Coefficient Poisson equation ( http://arxiv.org/abs/2310.02548v1 )

ライセンス: Link先を確認
Sebastian Barschkis(参考訳) 境界条件(BC)は、すべての物理情報ニューラルネットワーク(PINN)において重要な要素である。 領域境界に沿った偏微分方程式(PDE)の解を定義することにより、BCはPINNが近似しようとする基礎となる境界値問題(BVP)を制約する。 それらなしでは、ユニークなPDEソリューションは存在せず、PINNとの近似を見つけることは難しいが、不可能ではない。 本研究は, PINNに適用した場合, 軟弱損失関数と精密距離関数に基づくBC法との違いについて検討する。 有名な変数係数ポアソン方程式は、この研究で訓練された全てのピン模型の目標 pde である。 BCの実装アプローチの比較に加えて、この作業の目標は、これらのPINNの実装方法に関するリソースを提供することである。 この目的のために、Tensorflowバックエンドを備えたKerasモデルと、コード例とステップバイステップでBC PINNを構築する方法の説明が、このレビューと共に公開されている。

Boundary conditions (BCs) are a key component in every Physics-Informed Neural Network (PINN). By defining the solution to partial differential equations (PDEs) along domain boundaries, BCs constrain the underlying boundary value problem (BVP) that a PINN tries to approximate. Without them, unique PDE solutions may not exist and finding approximations with PINNs would be a challenging, if not impossible task. This study examines how soft loss-based and exact distance function-based BC imposition approaches differ when applied in PINNs. The well known variable coefficient Poisson equation serves as the target PDE for all PINN models trained in this work. Besides comparing BC imposition approaches, the goal of this work is to also provide resources on how to implement these PINNs in practice. To this end, Keras models with Tensorflow backend as well as a Python notebook with code examples and step-by-step explanations on how to build soft/exact BC PINNs are published alongside this review.
翻訳日:2023-10-05 16:42:17 公開日:2023-10-04
# モチーフに基づくタンパク質配列と構造の共同設計

Joint Design of Protein Sequence and Structure based on Motifs ( http://arxiv.org/abs/2310.02546v1 )

ライセンス: Link先を確認
Zhenqiao Song, Yunlong Zhao, Yufei Song, Wenxian Shi, Yang Yang, Lei Li(参考訳) 望ましい機能を持つ新規タンパク質の設計は、生物学と化学において不可欠である。 しかし、既存の研究はタンパク質配列の設計に重点を置いており、タンパク質配列と構造は未解明のままである。 本稿では,タンパク質骨格構造と配列を協調的に設計する手法であるgeoproを提案する。 我々のモチベーションは、タンパク質配列とその骨格構造が互いに制約しあうことであり、両者の共同設計は、非折り畳みやミスフォールディングを避けるだけでなく、望ましい機能を持つより多様な候補を生み出すことができる。 この目的のために、GeoProは3次元(3D)バックボーン構造のための同変エンコーダと3次元幾何学でガイドされるタンパク質配列デコーダによって駆動される。 生物学的に重要な2つのメタロプロテアーゼデータセット($\beta$-lactamasesやmyoglobins)の実験結果から、提案したGeoProは、ほとんどの指標においていくつかの強力なベースラインを上回ります。 注目すべきは、タンパク質データバンク(PDB)やUniProtに存在しない新規な$\beta$-lactamasesおよびmyoglobinsを発見することである。 これらのタンパク質は安定な折りたたみと活性部位環境を示し、生物学的に機能する優れた可能性を示している。

Designing novel proteins with desired functions is crucial in biology and chemistry. However, most existing work focus on protein sequence design, leaving protein sequence and structure co-design underexplored. In this paper, we propose GeoPro, a method to design protein backbone structure and sequence jointly. Our motivation is that protein sequence and its backbone structure constrain each other, and thus joint design of both can not only avoid nonfolding and misfolding but also produce more diverse candidates with desired functions. To this end, GeoPro is powered by an equivariant encoder for three-dimensional (3D) backbone structure and a protein sequence decoder guided by 3D geometry. Experimental results on two biologically significant metalloprotein datasets, including $\beta$-lactamases and myoglobins, show that our proposed GeoPro outperforms several strong baselines on most metrics. Remarkably, our method discovers novel $\beta$-lactamases and myoglobins which are not present in protein data bank (PDB) and UniProt. These proteins exhibit stable folding and active site environments reminiscent of those of natural proteins, demonstrating their excellent potential to be biologically functional.
翻訳日:2023-10-05 16:41:58 公開日:2023-10-04
# SlowFormer: 推論効率の良い視覚変換器の計算とエネルギー効率に対するユニバーサル逆パッチ

SlowFormer: Universal Adversarial Patch for Attack on Compute and Energy Efficiency of Inference Efficient Vision Transformers ( http://arxiv.org/abs/2310.02544v1 )

ライセンス: Link先を確認
KL Navaneet, Soroush Abbasi Koohpayegani, Essam Sleiman, Hamed Pirsiavash(参考訳) 近年,推論時間における深部モデルの計算の削減に多くの進展があった。 これらの手法は、深層モデルの計算ニーズと電力使用量の両方を削減できる。 これらのアプローチのいくつかは、入力インスタンスに基づいて計算を適応的にスケールする。 そこでは,攻撃者が任意の画像に貼り付けると,そのモデルの計算量や消費電力が増加するパッチに対して最適化を行う。 画像領域の8\%しか占有していないパッチを貼るだけで、攻撃者が可能な最大レベルまで計算を増やせることを示すため、3つの異なる効率的な視覚トランスフォーマー法を用いて実験を行った。 また,標準的な対人訓練防衛手法により,攻撃の成功のいくつかを低減できることを示す。 我々は,深層モデルの電力使用量を減らすためには適応的効率的な手法が必要であると信じており,本論文は,これらの手法の堅牢性について研究し,提案した攻撃に対するより良い防御方法の開発をコミュニティに促すことを願っている。

Recently, there has been a lot of progress in reducing the computation of deep models at inference time. These methods can reduce both the computational needs and power usage of deep models. Some of these approaches adaptively scale the compute based on the input instance. We show that such models can be vulnerable to a universal adversarial patch attack, where the attacker optimizes for a patch that when pasted on any image, can increase the compute and power consumption of the model. We run experiments with three different efficient vision transformer methods showing that in some cases, the attacker can increase the computation to the maximum possible level by simply pasting a patch that occupies only 8\% of the image area. We also show that a standard adversarial training defense method can reduce some of the attack's success. We believe adaptive efficient methods will be necessary for the future to lower the power usage of deep models, so we hope our paper encourages the community to study the robustness of these methods and develop better defense methods for the proposed attack.
翻訳日:2023-10-05 16:41:35 公開日:2023-10-04
# グラフ情報を用いた確率的テンソル補完

Provable Tensor Completion with Graph Information ( http://arxiv.org/abs/2310.02543v1 )

ライセンス: Link先を確認
Kaidong Wang, Yao Wang, Xiuwu Liao, Shaojie Tang, Can Yang and Deyu Meng(参考訳) 変数間の相互関係を記述するグラフは、様々なマトリックス/テンソルリカバリ関連アプリケーションにおいて、正確なデータリカバリのための効果的なサイド情報として広く使われている。 本稿では,グラフ情報を用いたテンソル補完問題について検討する。 グラフ正規化テンソル完備化に関する現在の研究はタスク固有であり、一般性や体系的なアプローチが欠如している。 また、性能を確保するための回復理論は残っていない。 さらに、これらのアプローチはグラフの動的な側面を見落とし、グラフがテンソル関連のシナリオでダイナミズムを示すとしても、グラフを行列に似た静的なものとして扱う。 本稿では, 動的グラフ正規化テンソル補完問題を解くための新しいモデル, 理論, アルゴリズムを体系的に定式化する, 先駆的枠組みを提案する。 このモデルに対して、動的グラフの厳密な数学的表現を確立し、新しいテンソル指向グラフの滑らか度正規化を導出する。 この正規化を変換されたt-SVDに基づくテンソル分解モデルに統合することにより、テンソルの低ランクおよび類似度構造を同時に捉える包括的モデルを構築する。 理論の観点からは、提案したグラフの滑らか度正規化と重み付きテンソル核ノルムとの整合性を示す。 その後,モデルに対する統計的一貫性の保証を確立し,グラフ情報を用いたテンソル回復問題に対する理論的考察のギャップを効果的に橋渡しする。 提案アルゴリズムでは,高い効率性,保証された収束を伴う解を開発し,結果のモデルに対処する。 提案モデルが確立したモデルと対照的に優れていることを示すため,合成データと実世界のデータセットを含む詳細な数値実験を行った。

Graphs, depicting the interrelations between variables, has been widely used as effective side information for accurate data recovery in various matrix/tensor recovery related applications. In this paper, we study the tensor completion problem with graph information. Current research on graph-regularized tensor completion tends to be task-specific, lacking generality and systematic approaches. Furthermore, a recovery theory to ensure performance remains absent. Moreover, these approaches overlook the dynamic aspects of graphs, treating them as static akin to matrices, even though graphs could exhibit dynamism in tensor-related scenarios. To confront these challenges, we introduce a pioneering framework in this paper that systematically formulates a novel model, theory, and algorithm for solving the dynamic graph regularized tensor completion problem. For the model, we establish a rigorous mathematical representation of the dynamic graph, based on which we derive a new tensor-oriented graph smoothness regularization. By integrating this regularization into a tensor decomposition model based on transformed t-SVD, we develop a comprehensive model simultaneously capturing the low-rank and similarity structure of the tensor. In terms of theory, we showcase the alignment between the proposed graph smoothness regularization and a weighted tensor nuclear norm. Subsequently, we establish assurances of statistical consistency for our model, effectively bridging a gap in the theoretical examination of the problem involving tensor recovery with graph information. In terms of the algorithm, we develop a solution of high effectiveness, accompanied by a guaranteed convergence, to address the resulting model. To showcase the prowess of our proposed model in contrast to established ones, we provide in-depth numerical experiments encompassing synthetic data as well as real-world datasets.
翻訳日:2023-10-05 16:41:16 公開日:2023-10-04
# XORクラスタデータのためのReLUネットワークの冗長なオーバーフィッティングとグロッキング

Benign Overfitting and Grokking in ReLU Networks for XOR Cluster Data ( http://arxiv.org/abs/2310.02541v1 )

ライセンス: Link先を確認
Zhiwei Xu, Yutong Wang, Spencer Frei, Gal Vardi, Wei Hu(参考訳) 勾配降下(GD)によって訓練されたニューラルネットワークは、多くの驚くべき一般化挙動を示した。 まず、ノイズの多いトレーニングデータに完全に適合し、なおもほぼ最適に一般化することができ、過度に適合することがあることを示す。 第二に、彼らは古典的で有害なオーバーフィッティングの期間を経ることができます -- テストデータに対するほぼランダムなパフォーマンスを持つトレーニングデータに完璧に適合した上で、後にトレーニングにおいてほぼ最適な一般化に移行します。 本研究では,これら2つの現象が,トレーニングラベルの一定割合をフリップするXORクラスタデータ上でGDによりトレーニングされた2層ReLUネットワークで実現可能であることを示す。 この設定では、GDの最初のステップの後、ネットワークは100%のトレーニング精度を達成し、トレーニングデータにノイズラベルを完全に適合させるが、ほぼランダムなテスト精度を実現する。 後続のトレーニングステップでは、ネットワークはトレーニングデータにランダムラベルをいまだに適合させながら、ほぼ最適のテスト精度を達成し、"グロッキング"現象を示す。 これにより、データ分布が線形に分離できない場合、ニューラルネットワーク分類における良性オーバーフィットの最初の理論的結果が得られる。 我々の証明はgd下での機能学習プロセスを分析することに依存しており、ネットワークは1ステップ後に非一般化線形分類器を実装し、後段で徐々に一般化可能な特徴を学習する。

Neural networks trained by gradient descent (GD) have exhibited a number of surprising generalization behaviors. First, they can achieve a perfect fit to noisy training data and still generalize near-optimally, showing that overfitting can sometimes be benign. Second, they can undergo a period of classical, harmful overfitting -- achieving a perfect fit to training data with near-random performance on test data -- before transitioning ("grokking") to near-optimal generalization later in training. In this work, we show that both of these phenomena provably occur in two-layer ReLU networks trained by GD on XOR cluster data where a constant fraction of the training labels are flipped. In this setting, we show that after the first step of GD, the network achieves 100% training accuracy, perfectly fitting the noisy labels in the training data, but achieves near-random test accuracy. At a later training step, the network achieves near-optimal test accuracy while still fitting the random labels in the training data, exhibiting a "grokking" phenomenon. This provides the first theoretical result of benign overfitting in neural network classification when the data distribution is not linearly separable. Our proofs rely on analyzing the feature learning process under GD, which reveals that the network implements a non-generalizable linear classifier after one step and gradually learns generalizable features in later steps.
翻訳日:2023-10-05 16:40:47 公開日:2023-10-04
# Auto-FP: タブラルデータの自動特徴前処理の実験的検討

Auto-FP: An Experimental Study of Automated Feature Preprocessing for Tabular Data ( http://arxiv.org/abs/2310.02540v1 )

ライセンス: Link先を確認
Danrui Qi and Jinglin Peng and Yongjun He and Jiannan Wang(参考訳) 線形モデルやツリーベースモデルといった古典的な機械学習モデルは、業界で広く使われている。 これらのモデルはデータ分散に敏感であるため、機能前処理(機能前処理)は、優れたモデル品質を保証するための重要なステップである。 データサイエンティストは、どのプリプロセッサを選択し、どの順番でそれらを構成するかという難しい決断をする必要があるため、手動で機能前処理パイプラインを構築することは難しい。 本稿では,表データに対する機能前処理(Auto-FP)の自動化について検討する。 検索スペースが大きいため、ブルートフォースソリューションは極めて高価である。 この課題に対処するために、我々はauto-fpをハイパーパラメータ最適化(hpo)またはニューラルネットワーク探索(nas)問題としてモデル化できることを興味深い観察する。 この観測により、Auto-FP問題を解決するために様々なHPOおよびNASアルゴリズムを拡張できる。 45のパブリックmlデータセット上で,15のアルゴリズムの包括的評価と解析を行う。 全体としては、進化に基づくアルゴリズムが平均ランクをリードしている。 驚くべきことに、ランダム検索は強力なベースラインであることが判明した。 HPO や NAS に優れた性能を持つサロゲートモデルと帯域ベース検索アルゴリズムの多くは,Auto-FP のランダム検索に勝っていない。 この結果の理由を分析し、ボトルネック分析を行い、これらのアルゴリズムを改良する機会を特定する。 さらに、パラメータ検索をサポートするためにAuto-FPを拡張し、この目標を達成するための2つの方法を比較する。 最後に、Auto-FPをAutoMLコンテキストで評価し、人気のあるAutoMLツールの限界について議論する。 私たちの知る限りでは、これは自動機能前処理に関する最初の研究です。 われわれの研究が、Auto-FPに適した新しいアルゴリズムの開発を促すことを願っている。

Classical machine learning models, such as linear models and tree-based models, are widely used in industry. These models are sensitive to data distribution, thus feature preprocessing, which transforms features from one distribution to another, is a crucial step to ensure good model quality. Manually constructing a feature preprocessing pipeline is challenging because data scientists need to make difficult decisions about which preprocessors to select and in which order to compose them. In this paper, we study how to automate feature preprocessing (Auto-FP) for tabular data. Due to the large search space, a brute-force solution is prohibitively expensive. To address this challenge, we interestingly observe that Auto-FP can be modelled as either a hyperparameter optimization (HPO) or a neural architecture search (NAS) problem. This observation enables us to extend a variety of HPO and NAS algorithms to solve the Auto-FP problem. We conduct a comprehensive evaluation and analysis of 15 algorithms on 45 public ML datasets. Overall, evolution-based algorithms show the leading average ranking. Surprisingly, the random search turns out to be a strong baseline. Many surrogate-model-based and bandit-based search algorithms, which achieve good performance for HPO and NAS, do not outperform random search for Auto-FP. We analyze the reasons for our findings and conduct a bottleneck analysis to identify the opportunities to improve these algorithms. Furthermore, we explore how to extend Auto-FP to support parameter search and compare two ways to achieve this goal. In the end, we evaluate Auto-FP in an AutoML context and discuss the limitations of popular AutoML tools. To the best of our knowledge, this is the first study on automated feature preprocessing. We hope our work can inspire researchers to develop new algorithms tailored for Auto-FP.
翻訳日:2023-10-05 16:40:22 公開日:2023-10-04
# グラフニューラルネットワークにおける表現的位置符号化の安定性について

On the Stability of Expressive Positional Encodings for Graph Neural Networks ( http://arxiv.org/abs/2310.02579v1 )

ライセンス: Link先を確認
Yinan Huang, William Lu, Joshua Robinson, Yu Yang, Muhan Zhang, Stefanie Jegelka, Pan Li(参考訳) グラフのための効果的な位置符号化を設計することは、強力なグラフトランスフォーマーを構築し、メッセージパッシンググラフニューラルネットワークを強化する鍵となる。 位置符号化としてラプラシアン固有ベクトルを用いることは、(1)同じラプラシアンに多くの異なる固有デコンポジションが存在すること(2)ラプラシアンへの小さな摂動は、完全に異なる固有空間をもたらす可能性があり、位置符号化の予測不能な変化をもたらす。 非特異性に対処しようとする多くの試みにもかかわらず、ほとんどの手法は安定性を見落とし、目に見えないグラフ構造への一般化が不十分になる。 不安定性の原因を固有空間の「ハードパーティション」であると同定する。 そこで我々は,固有ベクトルを処理し,固有空間を「ソフトに分割する」ためのアーキテクチャであるSPE(Stable and Expressive Positional Encodings)を導入する。 SPEは(1)確率的に安定であり、(2)固有ベクトルのすべての対称性を尊重しながら基底不変関数に対して普遍的に表現される最初のアーキテクチャである。 保証された安定性に加えて、SPEは既存の手法と同じくらい表現力があり、グラフ構造を数えることができることを示す。 最後に,本手法の分子特性予測および分散一般化タスクにおける有効性を評価し,既存の位置符号化法と比較して一般化が改善されたことを示す。

Designing effective positional encodings for graphs is key to building powerful graph transformers and enhancing message-passing graph neural networks. Although widespread, using Laplacian eigenvectors as positional encodings faces two fundamental challenges: (1) \emph{Non-uniqueness}: there are many different eigendecompositions of the same Laplacian, and (2) \emph{Instability}: small perturbations to the Laplacian could result in completely different eigenspaces, leading to unpredictable changes in positional encoding. Despite many attempts to address non-uniqueness, most methods overlook stability, leading to poor generalization on unseen graph structures. We identify the cause of instability to be a "hard partition" of eigenspaces. Hence, we introduce Stable and Expressive Positional Encodings (SPE), an architecture for processing eigenvectors that uses eigenvalues to "softly partition" eigenspaces. SPE is the first architecture that is (1) provably stable, and (2) universally expressive for basis invariant functions whilst respecting all symmetries of eigenvectors. Besides guaranteed stability, we prove that SPE is at least as expressive as existing methods, and highly capable of counting graph structures. Finally, we evaluate the effectiveness of our method on molecular property prediction, and out-of-distribution generalization tasks, finding improved generalization compared to existing positional encoding methods.
翻訳日:2023-10-05 16:33:17 公開日:2023-10-04
# 画像異常検出と位置推定のためのプロトタイプベースニューラルネットワーク

A Prototype-Based Neural Network for Image Anomaly Detection and Localization ( http://arxiv.org/abs/2310.02576v1 )

ライセンス: Link先を確認
Chao Huang, Zhao Kang, Hong Wu(参考訳) 画像異常検出と局所化は画像レベルの異常分類を行うだけでなく、画素レベルの異常領域を特定する。 近年,様々な分野に広く応用され,研究が盛んに行われている。 本稿では,画像の異常検出と局所化のためのプロトタイプベースニューラルネットワークProtoADを提案する。 まず,自然画像に事前学習したディープネットワークにより,通常の画像のパッチの特徴を抽出する。 そして、非パラメトリッククラスタリングにより、通常のパッチ特徴のプロトタイプを学習する。 最後に,特徴抽出ネットワークに$L2$機能正規化,$1\times1$畳み込み層,チャネル最大プール,サブトラクション演算を付加することにより,画像異常局所化ネットワーク(ProtoAD)を構築する。 我々はプロトタイプを1\times1$畳み込み層のカーネルとして使用するため、ニューラルネットワークはトレーニングフェーズを必要とせず、エンドツーエンドで異常検出とローカライズを行うことができる。 mvtec ad と btad という2つの挑戦的な産業異常検出データセットに関する広範囲な実験により、protoad は推論速度の高い最先端の手法と比較して競合性能を発揮できることが示されている。 ソースコードは、https://github.com/98chao/ProtoAD.comで入手できる。

Image anomaly detection and localization perform not only image-level anomaly classification but also locate pixel-level anomaly regions. Recently, it has received much research attention due to its wide application in various fields. This paper proposes ProtoAD, a prototype-based neural network for image anomaly detection and localization. First, the patch features of normal images are extracted by a deep network pre-trained on nature images. Then, the prototypes of the normal patch features are learned by non-parametric clustering. Finally, we construct an image anomaly localization network (ProtoAD) by appending the feature extraction network with $L2$ feature normalization, a $1\times1$ convolutional layer, a channel max-pooling, and a subtraction operation. We use the prototypes as the kernels of the $1\times1$ convolutional layer; therefore, our neural network does not need a training phase and can conduct anomaly detection and localization in an end-to-end manner. Extensive experiments on two challenging industrial anomaly detection datasets, MVTec AD and BTAD, demonstrate that ProtoAD achieves competitive performance compared to the state-of-the-art methods with a higher inference speed. The source code is available at: https://github.com/98chao/ProtoAD.
翻訳日:2023-10-05 16:32:49 公開日:2023-10-04
# AdaMerging:マルチタスク学習のための適応モデルマージ

AdaMerging: Adaptive Model Merging for Multi-Task Learning ( http://arxiv.org/abs/2310.02575v1 )

ライセンス: Link先を確認
Enneng Yang, Zhenyi Wang, Li Shen, Shiwei Liu, Guibing Guo, Xingwei Wang, Dacheng Tao(参考訳) マルチタスク学習(MTL)は、モデルを複数のタスクに同時に取り組む能力を高めることを目的としている。 タスク算術として知られる最近の研究により、個々のタスクに微調整された複数のモデルを直接1つのモデルにマージしてMTLを実行することができ、初期トレーニングデータを使って再学習プロセスを実行する必要がなくなることが明らかになった。 しかし、この直接的なモデルの追加は、しばしばマージされたモデル全体の性能を著しく低下させる。 この減少は、潜在的な競合と複数のタスク間の複雑な相関によって起こる。 その結果、元のトレーニングデータを使用することなく、事前学習したモデルをより効率的にマージする方法が課題となる。 本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。 このアプローチは、オリジナルのトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目的としている。 具体的には,提案手法は自動教師なしタスク演算スキームとして動作する。 マルチタスク設定の未ラベルテストサンプルのエントロピー最小化を代理目的関数として利用し、複数のモデルのマージ係数を反復的に洗練する。 8つの課題にまたがる実験結果から,提案手法の有効性が示された。 現在の最先端のタスク演算マージスキームと比較すると、アダマジングのパフォーマンスは11対%向上している。 特に、AdaMergingは、ダウンストリームの未確認タスクに適用すると、優れた一般化能力を示す。 さらに、テストフェーズ中に発生する可能性のあるデータ分散シフトに対して、大幅に強化された堅牢性を示す。

Multi-task learning (MTL) aims to empower a model to tackle multiple tasks simultaneously. A recent development known as task arithmetic has revealed that several models, each fine-tuned for distinct tasks, can be directly merged into a single model to execute MTL without necessitating a retraining process using the initial training data. Nevertheless, this direct addition of models often leads to a significant deterioration in the overall performance of the merged model. This decline occurs due to potential conflicts and intricate correlations among the multiple tasks. Consequently, the challenge emerges of how to merge pre-trained models more effectively without using their original training data. This paper introduces an innovative technique called Adaptive Model Merging (AdaMerging). This approach aims to autonomously learn the coefficients for model merging, either in a task-wise or layer-wise manner, without relying on the original training data. Specifically, our AdaMerging method operates as an automatic, unsupervised task arithmetic scheme. It leverages entropy minimization on unlabeled test samples from the multi-task setup as a surrogate objective function to iteratively refine the merging coefficients of the multiple models. Our experimental findings across eight tasks demonstrate the efficacy of the AdaMerging scheme we put forth. Compared to the current state-of-the-art task arithmetic merging scheme, AdaMerging showcases a remarkable 11\% improvement in performance. Notably, AdaMerging also exhibits superior generalization capabilities when applied to unseen downstream tasks. Furthermore, it displays a significantly enhanced robustness to data distribution shifts that may occur during the testing phase.
翻訳日:2023-10-05 16:32:28 公開日:2023-10-04
# 教師の説明による知識蒸留の改善

Improving Knowledge Distillation with Teacher's Explanation ( http://arxiv.org/abs/2310.02572v1 )

ライセンス: Link先を確認
Sayantan Chowdhury, Ben Liang, Ali Tizghadam, and Ilijc Albanese(参考訳) 知識蒸留(KD)は、より強力な教師の助けを借りて、低複雑さの学生モデルの性能を向上させる。 KDの教師はブラックボックスモデルであり、その予測を通じてのみ生徒に知識を与える。 これは伝達された知識の量を制限する。 本研究では,教師の予測だけでなく,教師の説明からも学習できる新しい知識説明蒸留(KED)フレームワークを提案する。 そこで本研究では,機能群に関する説明を行う教師のクラスと,それに対応する生徒モデルを提案する。 また,超機能を構築する手法を提案する。 次にkkを拡張し,畳み込みニューラルネットワークの複雑性を低減し,隠れ表現蒸留法による拡張を可能にし,キメラ集合を用いた限られた量のトレーニングデータを扱う。 様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。

Knowledge distillation (KD) improves the performance of a low-complexity student model with the help of a more powerful teacher. The teacher in KD is a black-box model, imparting knowledge to the student only through its predictions. This limits the amount of transferred knowledge. In this work, we introduce a novel Knowledge Explaining Distillation (KED) framework, which allows the student to learn not only from the teacher's predictions but also from the teacher's explanations. We propose a class of superfeature-explaining teachers that provide explanation over groups of features, along with the corresponding student model. We also present a method for constructing the superfeatures. We then extend KED to reduce complexity in convolutional neural networks, to allow augmentation with hidden-representation distillation methods, and to work with a limited amount of training data using chimeric sets. Our experiments over a variety of datasets show that KED students can substantially outperform KD students of similar complexity.
翻訳日:2023-10-05 16:31:49 公開日:2023-10-04
# ReForm-Eval:タスク指向ベンチマークの統一再定式化による大規模視覚言語モデルの評価

ReForm-Eval: Evaluating Large Vision Language Models via Unified Re-Formulation of Task-Oriented Benchmarks ( http://arxiv.org/abs/2310.02569v1 )

ライセンス: Link先を確認
Zejun Li, Ye Wang, Mengfei Du, Qingwen Liu, Binhao Wu, Jiwen Zhang, Chengxing Zhou, Zhihao Fan, Jie Fu, Jingjing Chen, Xuanjing Huang, Zhongyu Wei(参考訳) 近年,大型視覚言語モデル(lvlms)の開発が目覚ましい進展を遂げている。 強力な言語バックボーンと効率的なクロスモーダルアライメント戦略により、LVLMは視覚信号を知覚し、視覚的に接地された推論を行う驚くべき能力を示す。 しかし,LVLMの能力は包括的かつ定量的に評価されていない。 既存のマルチモーダルベンチマークの多くはタスク指向の入力出力フォーマットを必要としており、LVLMのフリーフォームテキスト出力を自動的に評価する上で大きな課題となっている。 既存のベンチマークで利用可能なアノテーションを効果的に活用し、新しいベンチマーク構築に必要な手作業を削減するため、既存のベンチマークをLVLM互換の統一フォーマットに再フォーマットすることを提案する。 系統的なデータ収集と再構成を通じて,LVLMの様々な機能を評価するための重要なデータを提供するReForm-Evalベンチマークを提案する。 改革評価に基づいて広範な実験を行い、既存のlvlmの強みと弱みを徹底的に分析し、基礎となる要因を特定する。 当社のベンチマークおよび評価フレームワークは,LVLMの開発を進めるための基盤としてオープンソース化される予定である。

Recent years have witnessed remarkable progress in the development of large vision-language models (LVLMs). Benefiting from the strong language backbones and efficient cross-modal alignment strategies, LVLMs exhibit surprising capabilities to perceive visual signals and perform visually grounded reasoning. However, the capabilities of LVLMs have not been comprehensively and quantitatively evaluate. Most existing multi-modal benchmarks require task-oriented input-output formats, posing great challenges to automatically assess the free-form text output of LVLMs. To effectively leverage the annotations available in existing benchmarks and reduce the manual effort required for constructing new benchmarks, we propose to re-formulate existing benchmarks into unified LVLM-compatible formats. Through systematic data collection and reformulation, we present the ReForm-Eval benchmark, offering substantial data for evaluating various capabilities of LVLMs. Based on ReForm-Eval, we conduct extensive experiments, thoroughly analyze the strengths and weaknesses of existing LVLMs, and identify the underlying factors. Our benchmark and evaluation framework will be open-sourced as a cornerstone for advancing the development of LVLMs.
翻訳日:2023-10-05 16:31:24 公開日:2023-10-04
# グラフニューラルネットワークで誤報を予測する「何か」か「転倒」か

Stand for Something or Fall for Everything: Predict Misinformation Spread with Stance-Aware Graph Neural Networks ( http://arxiv.org/abs/2310.02568v1 )

ライセンス: Link先を確認
Zihan Chen, Jingyi Sun, Rong Liu, Feng Mai(参考訳) ソーシャルメディアプラットフォーム上での誤報の広汎化は大きな課題となっているが、既存のプラットフォームによる介入は、拡散を抑制することには限界がある。 本研究では,ユーザの姿勢を利用して誤情報の拡散を積極的に予測するスタンスアウェアグラフニューラルネットワーク(stance-aware gnn)を提案する。 異なるユーザの姿勢が独自のエコーチャンバーを形成することができるため、姿勢認識型GNNでは4つの情報パスパスをカスタマイズする一方、トレーニング可能な注意重みは、各構造の重要性を強調して説明性を提供する。 実際のデータセットに基づいて評価され、スタンス対応のGNNはベンチマークを32.65%上回り、ユーザのスタンスを4.69%上回る。 注意重みは, 利用者の反対姿勢が支援行動よりも近隣住民の行動に強い影響があることを示し, 誤情報伝達を阻止するための社会的修正として機能している。 本研究は, プラットフォームが誤情報と戦うための効果的な予測モデルを提供し, 誤情報伝播におけるユーザスタンスの影響を明らかにする。

Although pervasive spread of misinformation on social media platforms has become a pressing challenge, existing platform interventions have shown limited success in curbing its dissemination. In this study, we propose a stance-aware graph neural network (stance-aware GNN) that leverages users' stances to proactively predict misinformation spread. As different user stances can form unique echo chambers, we customize four information passing paths in stance-aware GNN, while the trainable attention weights provide explainability by highlighting each structure's importance. Evaluated on a real-world dataset, stance-aware GNN outperforms benchmarks by 32.65% and exceeds advanced GNNs without user stance by over 4.69%. Furthermore, the attention weights indicate that users' opposition stances have a higher impact on their neighbors' behaviors than supportive ones, which function as social correction to halt misinformation propagation. Overall, our study provides an effective predictive model for platforms to combat misinformation, and highlights the impact of user stances in the misinformation propagation.
翻訳日:2023-10-05 16:30:41 公開日:2023-10-04
# 大規模言語モデルを用いたVQA自動評価の改善

Improving Automatic VQA Evaluation Using Large Language Models ( http://arxiv.org/abs/2310.02567v1 )

ライセンス: Link先を確認
Oscar Ma\~nas, Benno Krojer, Aishwarya Agrawal(参考訳) 視覚的質問応答(VQA)タスクが提案されてから8年後も,精度が自動評価の主要な指標である。 IID評価ではVQA精度が有効である。 しかし、我々のコミュニティは、オープンな生成モデルとOOD評価にシフトしている。 この新しいパラダイムでは、既存のVQA精度メトリックは過度に厳密であり、VQAシステムの性能を過小評価している。 したがって、人間の判断のプロキシとして機能する、より堅牢な自動VQAメトリクスを開発する必要がある。 本研究では,命令調整型大規模言語モデル(LLM)のコンテキスト内学習機能を活用して,より良いVQA尺度を構築することを提案する。 我々は、LLMに基準回答のセットが与えられた場合の候補回答の精度を評価するように指示された回答作成タスクとしてVQA評価を定式化する。 提案手法は,VQAモデルおよびベンチマークにおける既存の指標と比較して,人間の判断と相関することを示す。 VQAタスクにおける研究の進捗をよりよく見積もる上で、我々のメトリクスの広範な採用が貢献することを期待します。

8 years after the visual question answering (VQA) task was proposed, accuracy remains the primary metric for automatic evaluation. VQA Accuracy has been effective so far in the IID evaluation setting. However, our community is undergoing a shift towards open-ended generative models and OOD evaluation. In this new paradigm, the existing VQA Accuracy metric is overly stringent and underestimates the performance of VQA systems. Thus, there is a need to develop more robust automatic VQA metrics that serve as a proxy for human judgment. In this work, we propose to leverage the in-context learning capabilities of instruction-tuned large language models (LLMs) to build a better VQA metric. We formulate VQA evaluation as an answer-rating task where the LLM is instructed to score the accuracy of a candidate answer given a set of reference answers. We demonstrate the proposed metric better correlates with human judgment compared to existing metrics across several VQA models and benchmarks. We hope wide adoption of our metric will contribute to better estimating the research progress on the VQA task.
翻訳日:2023-10-05 16:30:16 公開日:2023-10-04
# アテンショントランスフォーマーネットワークによるドラムロボットの改良

Improving Drumming Robot Via Attention Transformer Network ( http://arxiv.org/abs/2310.02565v1 )

ライセンス: Link先を確認
Yang Yi, Zonghan Li(参考訳) ロボット技術は現代社会で広く使われており、農業、製造業、娯楽など様々な分野で大きな進歩を遂げている。 本稿では,エンターテイメントにおけるドラムロボットの話題に焦点を当てる。 そこで本研究では,注目機構に基づく人気ビジョントランスフォーマーネットワークに基づいて,音楽の書き起こしを自動的に完了させることができる改良型ドラムロボットを提案する。 本手法は,アテンショントランスフォーマーネットワークを具備し,シーケンシャルな音声埋め込み入力を効率的に処理し,そのグローバルな長距離依存性をモデル化する。 大規模な実験結果から,ドラムロボットはドラム分類性能の向上に寄与し,様々なスマートアプリケーションやサービスを楽しむ上でも有効であることがわかった。

Robotic technology has been widely used in nowadays society, which has made great progress in various fields such as agriculture, manufacturing and entertainment. In this paper, we focus on the topic of drumming robots in entertainment. To this end, we introduce an improving drumming robot that can automatically complete music transcription based on the popular vision transformer network based on the attention mechanism. Equipped with the attention transformer network, our method can efficiently handle the sequential audio embedding input and model their global long-range dependencies. Massive experimental results demonstrate that the improving algorithm can help the drumming robot promote drum classification performance, which can also help the robot to enjoy a variety of smart applications and services.
翻訳日:2023-10-05 16:29:44 公開日:2023-10-04
# 共同作業の価値の実践的・私的保証

Practical, Private Assurance of the Value of Collaboration ( http://arxiv.org/abs/2310.02563v1 )

ライセンス: Link先を確認
Hassan Jameel Asghar and Zhigang Lu and Zhongrui Zhao and Dali Kaafar(参考訳) 2つのパーティーは、データセットで協力したいと思っています。 しかし、彼らがお互いにデータセットを公開する前に、当事者はコラボレーションが実りあることを保証したいと考えています。 我々は、機械学習の観点から、この問題を考察する。一方の当事者は、他方からのデータを組み込むことで、予測モデルの改善を約束する。 当事者は、更新されたモデルが精度の向上を示した場合にのみ、さらなる協力を希望する。 これを確認する前に、両者はモデルとデータセットを公開したくないだろう。 本研究では,Torus(TFHE)上の完全同型暗号方式と,基礎となる機械学習モデルがニューラルネットワークであるラベル差分プライバシーに基づいて,この問題に対する対話的プロトコルを構築する。 ラベル差分プライバシーは、計算が完全に暗号化されたドメインで行われていないことを保証するために使用される。 我々は,我々の計画の安全性を,誠実だが正確であると考える普遍的な構成可能性フレームワークで証明する。 実験により、完全にFHE演算を用いて、プロトコルよりも桁違いに高速に、出力、すなわち、更新されたモデルの精度が得られることが示された。

Two parties wish to collaborate on their datasets. However, before they reveal their datasets to each other, the parties want to have the guarantee that the collaboration would be fruitful. We look at this problem from the point of view of machine learning, where one party is promised an improvement on its prediction model by incorporating data from the other party. The parties would only wish to collaborate further if the updated model shows an improvement in accuracy. Before this is ascertained, the two parties would not want to disclose their models and datasets. In this work, we construct an interactive protocol for this problem based on the fully homomorphic encryption scheme over the Torus (TFHE) and label differential privacy, where the underlying machine learning model is a neural network. Label differential privacy is used to ensure that computations are not done entirely in the encrypted domain, which is a significant bottleneck for neural network training according to the current state-of-the-art FHE implementations. We prove the security of our scheme in the universal composability framework assuming honest-but-curious parties, but where one party may not have any expertise in labelling its initial dataset. Experiments show that we can obtain the output, i.e., the accuracy of the updated model, with time many orders of magnitude faster than a protocol using entirely FHE operations.
翻訳日:2023-10-05 16:29:31 公開日:2023-10-04
# セミフェデレーション学習:ハイブリッド学習フレームワークの収束解析と最適化

Semi-Federated Learning: Convergence Analysis and Optimization of A Hybrid Learning Framework ( http://arxiv.org/abs/2310.02559v1 )

ライセンス: Link先を確認
Jingheng Zheng, Wanli Ni, Hui Tian, Deniz Gunduz, Tony Q. S. Quek, Zhu Han(参考訳) ベースステーション(bs)の組織の下で、無線フェデレーションラーニング(fl)は複数のデバイス間の協調モデルトレーニングを可能にする。 しかし、BSは単にトレーニングプロセス中にローカル更新を集約する責任があるだけであり、BSでは計算リソースの無駄が発生する。 この問題に対処するために,BSとデバイスの両方の計算能力を活用して,集中型学習(CL)とFLのハイブリッド実装を実現するためのセミフェデレーション学習(SemiFL)パラダイムを提案する。 具体的には、各デバイスはローカル勾配とデータサンプルの両方をBSに送信し、共有グローバルモデルをトレーニングする。 同時に通信効率を向上させるため,新しいトランシーバ構造を設計することにより,アグリゲーションのためのオーバー・ザ・エア計算と伝送のための非直交多重アクセスを統合した。 より深い洞察を得るために,SemiFLの閉形式最適性ギャップを導出して収束解析を行い,その結果を2つの追加ケースに拡張する。 第1のケースでは、BSは蓄積したすべてのデータサンプルを使用してCL勾配を計算し、第2のケースでは学習率が低下する。 解析結果は,無線通信の破壊効果を捉えるとともに,FLとCLがSemiFLの特殊な場合であることを示す。 次に、送信電力と受信ビームフォーマを共同で最適化し、最適ギャップを低減するために非凸問題を定式化する。 そこで本研究では,この難解な問題を解くために,ビームフォーマに閉形式解を与える二段階アルゴリズムを提案する。 2つの実世界のデータセットの広範なシミュレーション結果から,提案手法は従来のflを上回り,mnistデータセットでは最先端ベンチマークと比較して3.2%の精度向上を達成した。

Under the organization of the base station (BS), wireless federated learning (FL) enables collaborative model training among multiple devices. However, the BS is merely responsible for aggregating local updates during the training process, which incurs a waste of the computational resource at the BS. To tackle this issue, we propose a semi-federated learning (SemiFL) paradigm to leverage the computing capabilities of both the BS and devices for a hybrid implementation of centralized learning (CL) and FL. Specifically, each device sends both local gradients and data samples to the BS for training a shared global model. To improve communication efficiency over the same time-frequency resources, we integrate over-the-air computation for aggregation and non-orthogonal multiple access for transmission by designing a novel transceiver structure. To gain deep insights, we conduct convergence analysis by deriving a closed-form optimality gap for SemiFL and extend the result to two extra cases. In the first case, the BS uses all accumulated data samples to calculate the CL gradient, while a decreasing learning rate is adopted in the second case. Our analytical results capture the destructive effect of wireless communication and show that both FL and CL are special cases of SemiFL. Then, we formulate a non-convex problem to reduce the optimality gap by jointly optimizing the transmit power and receive beamformers. Accordingly, we propose a two-stage algorithm to solve this intractable problem, in which we provide the closed-form solutions to the beamformers. Extensive simulation results on two real-world datasets corroborate our theoretical analysis, and show that the proposed SemiFL outperforms conventional FL and achieves 3.2% accuracy gain on the MNIST dataset compared to state-of-the-art benchmarks.
翻訳日:2023-10-05 16:29:09 公開日:2023-10-04
# グラフニューラルネットワークを用いた不規則空間データのニューラルベイズ推定

Neural Bayes Estimators for Irregular Spatial Data using Graph Neural Networks ( http://arxiv.org/abs/2310.02600v1 )

ライセンス: Link先を確認
Matthew Sainsbury-Dale, Jordan Richards, Andrew Zammit-Mangion, and Rapha\"el Huser(参考訳) ニューラルベイズ推定器は、ベイズ推定器を高速かつ可能性のない方法で近似するニューラルネットワークである。 彼らは、推定がしばしば計算のボトルネックとなる空間モデルやデータの利用をアピールしている。 しかし、空間的応用におけるニューラルベイズ推定器は、これまで通常のグリッド上で収集されたデータに限定されていた。 これらの推定器は現在、所定の空間的位置に依存するため、ニューラルネットワークを新たなデータセットのために再トレーニングする必要がある。 本研究では,任意の空間上のデータからパラメータ推定を行う重要な問題に,グラフニューラルネットワークを用いて取り組む。 ニューラルベイズ推定を不規則な空間データに拡張することに加えて、推定器は任意の配置や位置の数、独立した複製で使用することができ、与えられた空間モデルのトレーニングコストを償却することができるため、我々のアーキテクチャはかなりの計算上の利点をもたらす。 また, 近接するニューラルベイズ推定器を訓練することにより, 高速不確実性定量化の促進を図る。 ガウス過程と最大安定過程の方法論を説明する。 最後に,本手法を大域的な海面温度アプリケーションで紹介し,ガウス過程モデルのパラメータを2,161の領域で推定し,それぞれに不規則に配置された数千のデータポイントを1つのグラフィック処理ユニットでほんの数分で格納する。

Neural Bayes estimators are neural networks that approximate Bayes estimators in a fast and likelihood-free manner. They are appealing to use with spatial models and data, where estimation is often a computational bottleneck. However, neural Bayes estimators in spatial applications have, to date, been restricted to data collected over a regular grid. These estimators are also currently dependent on a prescribed set of spatial locations, which means that the neural network needs to be re-trained for new data sets; this renders them impractical in many applications and impedes their widespread adoption. In this work, we employ graph neural networks to tackle the important problem of parameter estimation from data collected over arbitrary spatial locations. In addition to extending neural Bayes estimation to irregular spatial data, our architecture leads to substantial computational benefits, since the estimator can be used with any arrangement or number of locations and independent replicates, thus amortising the cost of training for a given spatial model. We also facilitate fast uncertainty quantification by training an accompanying neural Bayes estimator that approximates a set of marginal posterior quantiles. We illustrate our methodology on Gaussian and max-stable processes. Finally, we showcase our methodology in a global sea-surface temperature application, where we estimate the parameters of a Gaussian process model in 2,161 regions, each containing thousands of irregularly-spaced data points, in just a few minutes with a single graphics processing unit.
翻訳日:2023-10-05 16:23:18 公開日:2023-10-04
# SweetDreamer: テキストから3Dへの2次元拡散における幾何学的優先順位の調整

SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D ( http://arxiv.org/abs/2310.02596v1 )

ライセンス: Link先を確認
Weiyu Li, Rui Chen, Xuelin Chen, Ping Tan(参考訳) 事前学習した拡散モデルからテキストから3D生成のための3次元世界へ2D結果を持ち上げることは本質的に曖昧である。 2次元拡散モデルは、視界に依存しない先行知識のみを学習し、リフト中に3次元知識が欠如し、多視点不整合問題を引き起こす。 この問題は主に幾何学的不整合に起因し、誤配置された幾何学的構造が最終出力の問題を実質的に緩和することを避ける。 そこで, 浮揚時の拡散モデルにおける2次元幾何学的先行と3次元形状との整合性を改善し, 問題の大部分に対処する。 これは、2次元拡散モデルを視点対応に微調整し、正準指向の3次元オブジェクトのビュー固有座標マップを作成することで達成される。 このプロセスでは、粗い3d情報のみを整列に使用する。 この「コアス」アライメントは、ジオメトリのマルチビューの不整合を解消するだけでなく、3dデータセットにない詳細かつ多様化した高品質なオブジェクトを生成する2d拡散モデルの能力も保持する。 さらに,アライメント幾何前駆体 (agp) は汎用的であり,様々な最先端パイプラインにシームレスに統合でき,マルチビュー不整合問題を大幅に緩和しながら,目立たない形状や視覚的な外観で高い一般化性を得ることができる。 提案手法は,人間による評価では85+%の一貫性率で,従来の手法では30%程度であった。 プロジェクトページはhttps://sweetdreamer3d.github.io/

It is inherently ambiguous to lift 2D results from pre-trained diffusion models to a 3D world for text-to-3D generation. 2D diffusion models solely learn view-agnostic priors and thus lack 3D knowledge during the lifting, leading to the multi-view inconsistency problem. We find that this problem primarily stems from geometric inconsistency, and avoiding misplaced geometric structures substantially mitigates the problem in the final outputs. Therefore, we improve the consistency by aligning the 2D geometric priors in diffusion models with well-defined 3D shapes during the lifting, addressing the vast majority of the problem. This is achieved by fine-tuning the 2D diffusion model to be viewpoint-aware and to produce view-specific coordinate maps of canonically oriented 3D objects. In our process, only coarse 3D information is used for aligning. This "coarse" alignment not only resolves the multi-view inconsistency in geometries but also retains the ability in 2D diffusion models to generate detailed and diversified high-quality objects unseen in the 3D datasets. Furthermore, our aligned geometric priors (AGP) are generic and can be seamlessly integrated into various state-of-the-art pipelines, obtaining high generalizability in terms of unseen shapes and visual appearance while greatly alleviating the multi-view inconsistency problem. Our method represents a new state-of-the-art performance with an 85+% consistency rate by human evaluation, while many previous methods are around 30%. Our project page is https://sweetdreamer3d.github.io/
翻訳日:2023-10-05 16:22:51 公開日:2023-10-04
# I$^2$KD-SLU:ゼロショット音声言語理解のためのイントライントラ知識蒸留フレームワーク

I$^2$KD-SLU: An Intra-Inter Knowledge Distillation Framework for Zero-Shot Cross-Lingual Spoken Language Understanding ( http://arxiv.org/abs/2310.02594v1 )

ライセンス: Link先を確認
Tianjun Mao and Chenghong Zhang(参考訳) 音声言語理解(SLU)は通常、インテント検出とスロットフィリングの2つのサブタスクを含む。 現時点では、高リソース言語で大きな成功を収めているが、ラベル付きトレーニングデータが不足しているため、低リソース言語では依然として困難である。 したがって、ゼロショット言語間SLUへの関心が高まっている。 既存のゼロショット・クロスランガルSLUモデルの成功にもかかわらず、そのほとんどはインテントとスロット間の相互誘導を怠っている。 この問題を解決するために,ゼロショット言語間言語理解のためのイントラインター知識蒸留フレームワーク(I$^2$KD-SLU)を提案する。 具体的には,意図予測と同一発話のスロット予測の間に知識内蒸留を適用するだけでなく,意図予測と同一発話のスロット予測との間に知識間蒸留を適用する。 実験結果から,提案するフレームワークは,MultiATIS++データセットにおいて,強いベースラインと比較して性能を著しく向上し,新しい最先端性能を実現し,全体の精度において過去のベストモデルよりも大幅に向上したことを示す。

Spoken language understanding (SLU) typically includes two subtasks: intent detection and slot filling. Currently, it has achieved great success in high-resource languages, but it still remains challenging in low-resource languages due to the scarcity of labeled training data. Hence, there is a growing interest in zero-shot cross-lingual SLU. Despite of the success of existing zero-shot cross-lingual SLU models, most of them neglect to achieve the mutual guidance between intent and slots. To address this issue, we propose an Intra-Inter Knowledge Distillation framework for zero-shot cross-lingual Spoken Language Understanding (I$^2$KD-SLU) to model the mutual guidance. Specifically, we not only apply intra-knowledge distillation between intent predictions or slot predictions of the same utterance in different languages, but also apply inter-knowledge distillation between intent predictions and slot predictions of the same utterance. Our experimental results demonstrate that our proposed framework significantly improves the performance compared with the strong baselines and achieves the new state-of-the-art performance on the MultiATIS++ dataset, obtaining a significant improvement over the previous best model in overall accuracy.
翻訳日:2023-10-05 16:22:22 公開日:2023-10-04
# インテリジェント医療知識抽出のためのモデルOpsベースのフレームワーク

A ModelOps-based Framework for Intelligent Medical Knowledge Extraction ( http://arxiv.org/abs/2310.02593v1 )

ライセンス: Link先を確認
Hongxin Ding, Peinie Zou, Zhiyuan Wang, Junfeng Zhao, Yasha Wang and Qiang Zhou(参考訳) 医療用テキストから医療知識を抽出することで、医療知識グラフの構築や臨床意思決定といった下流業務が強化される。 しかし、知識抽出モデルの構築と適用は、自動化、再利用性、統一管理が欠如しており、研究者の非効率性や、医師などの非ai専門家が知識抽出を利用するための高い障壁を生んでいる。 本稿では,モデル選択,トレーニング,評価,最適化のためのローコードシステムを提供する,modelopsベースの知的医療知識抽出フレームワークを提案する。 具体的には、多層コールバック関数に基づくデータセット抽象化機構、再利用可能なモデルトレーニング、監視、管理機構を含む。 また,データセットの類似性に基づいたモデル推薦手法を提案する。 我々のフレームワークは、研究者がモデルを開発し、医師のような非AI専門家のモデルアクセスを簡易化するのに役立つ。

Extracting medical knowledge from healthcare texts enhances downstream tasks like medical knowledge graph construction and clinical decision-making. However, the construction and application of knowledge extraction models lack automation, reusability and unified management, leading to inefficiencies for researchers and high barriers for non-AI experts such as doctors, to utilize knowledge extraction. To address these issues, we propose a ModelOps-based intelligent medical knowledge extraction framework that offers a low-code system for model selection, training, evaluation and optimization. Specifically, the framework includes a dataset abstraction mechanism based on multi-layer callback functions, a reusable model training, monitoring and management mechanism. We also propose a model recommendation method based on dataset similarity, which helps users quickly find potentially suitable models for a given dataset. Our framework provides convenience for researchers to develop models and simplifies model access for non-AI experts such as doctors.
翻訳日:2023-10-05 16:22:00 公開日:2023-10-04
# 胸部x線写真からの肺炎症診断のための微調整型inception-resnet深層学習モデル

Hybrid Inception Architecture with Residual Connection: Fine-tuned Inception-ResNet Deep Learning Model for Lung Inflammation Diagnosis from Chest Radiographs ( http://arxiv.org/abs/2310.02591v1 )

ライセンス: Link先を確認
Mehdi Neshat, Muktar Ahmedb, Hossein Askarid, Menasha Thilakaratnee, Seyedali Mirjalilia(参考訳) 肺炎症、特に肺炎の診断は、疾患を効果的に治療し、管理するために重要である。 肺炎は細菌、ウイルス、真菌によって引き起こされる一般的な呼吸器感染症であり、あらゆる年齢の人々に無差別に影響を及ぼす。 世界保健機関(WHO)が強調したように、この流行病は5歳未満の子どもの世界の死亡率の15%を悲劇的に占めている。 本稿では,胸部x線写真からの肺炎診断におけるinception-resnet deep learning modelの性能の比較検討を行った。 この研究は、ウイルス性肺炎と細菌性肺炎のx線画像を含む5856枚の2d画像を含むmendeleysの胸部x線画像データセットを活用する。 inception-resnetモデルは、他の7つの最先端畳み込みニューラルネットワーク(cnns)と比較され、本質的な特徴抽出と計算ランタイムの節約におけるinception-resnetモデルの優位性が実証された。 さらに,深層畳み込みモデルの性能向上における微調整による伝達学習の影響について検討した。 本研究は,肺炎診断における深層学習モデルの利用に関する貴重な知見を提供し,この分野でのInception-ResNetモデルの可能性を強調した。 分類精度において、Inception-ResNet-V2はResNet152V2、MobileNet-V3 (Large and Small)、EfficientNetV2 (Large and Small)、InceptionV3、NASNet-Mobileといった他のモデルと比較して優れた性能を示した。 それぞれ2.6%、6.5%、7.1%、13%、16.1%、3.9%、および1.6%を上回り、正確な分類において大きな優位性を示した。

Diagnosing lung inflammation, particularly pneumonia, is of paramount importance for effectively treating and managing the disease. Pneumonia is a common respiratory infection caused by bacteria, viruses, or fungi and can indiscriminately affect people of all ages. As highlighted by the World Health Organization (WHO), this prevalent disease tragically accounts for a substantial 15% of global mortality in children under five years of age. This article presents a comparative study of the Inception-ResNet deep learning model's performance in diagnosing pneumonia from chest radiographs. The study leverages Mendeleys chest X-ray images dataset, which contains 5856 2D images, including both Viral and Bacterial Pneumonia X-ray images. The Inception-ResNet model is compared with seven other state-of-the-art convolutional neural networks (CNNs), and the experimental results demonstrate the Inception-ResNet model's superiority in extracting essential features and saving computation runtime. Furthermore, we examine the impact of transfer learning with fine-tuning in improving the performance of deep convolutional models. This study provides valuable insights into using deep learning models for pneumonia diagnosis and highlights the potential of the Inception-ResNet model in this field. In classification accuracy, Inception-ResNet-V2 showed superior performance compared to other models, including ResNet152V2, MobileNet-V3 (Large and Small), EfficientNetV2 (Large and Small), InceptionV3, and NASNet-Mobile, with substantial margins. It outperformed them by 2.6%, 6.5%, 7.1%, 13%, 16.1%, 3.9%, and 1.6%, respectively, demonstrating its significant advantage in accurate classification.
翻訳日:2023-10-05 16:21:45 公開日:2023-10-04
# ViT-ReciproCAM:視覚変換器のグラディエント・アテンションフリーな視覚説明

ViT-ReciproCAM: Gradient and Attention-Free Visual Explanations for Vision Transformer ( http://arxiv.org/abs/2310.02588v1 )

ライセンス: Link先を確認
Seok-Yong Byun, Wonju Lee(参考訳) 本稿では,視覚変換器(ViT)における予測プロセスとデバッギング予測エラーの理解という課題に対して,画像分類や物体検出などのコンピュータビジョンタスクにおいて,優れた性能を示す新しいアプローチを提案する。 CAM、Grad-CAM、Score-CAM、Recipro-CAMなどの視覚的説明可能性技術は、畳み込みニューラルネットワーク(CNN)のために広く研究されているが、ViTでは限られた研究がなされている。 現在のViTの最先端ソリューションは、クラス非依存のアテンション・ロールアウトとレバレンス技術に依存している。 本研究では、注意行列や勾配情報を必要としないViT-ReciproCAMと呼ばれる、新しい勾配のない視覚的説明法を提案する。 ViT-ReciproCAMはトークンマスキングを利用して、ターゲット層の入力から新たなレイヤ出力を生成し、アクティブトークンとターゲットクラスのネットワーク予測の相関を利用する。 提案手法は, 平均ドロップコヒーレンス・複雑度(ADCC)測定値において, 4.58 %$ から 5.80 %$ に向上し, より局所的なサリエンシマップを生成する。 実験では,ViT-ReciproCAMの有効性を実証し,ViTモデルの理解とデバッグの可能性を示した。 提案手法は,コンピュータビジョンの分野における様々な応用に有用であり,注意や勾配の情報を必要とせず,視覚的説明を生成するための効率的で実装の容易な代替手段を提供する。

This paper presents a novel approach to address the challenges of understanding the prediction process and debugging prediction errors in Vision Transformers (ViT), which have demonstrated superior performance in various computer vision tasks such as image classification and object detection. While several visual explainability techniques, such as CAM, Grad-CAM, Score-CAM, and Recipro-CAM, have been extensively researched for Convolutional Neural Networks (CNNs), limited research has been conducted on ViT. Current state-of-the-art solutions for ViT rely on class agnostic Attention-Rollout and Relevance techniques. In this work, we propose a new gradient-free visual explanation method for ViT, called ViT-ReciproCAM, which does not require attention matrix and gradient information. ViT-ReciproCAM utilizes token masking and generated new layer outputs from the target layer's input to exploit the correlation between activated tokens and network predictions for target classes. Our proposed method outperforms the state-of-the-art Relevance method in the Average Drop-Coherence-Complexity (ADCC) metric by $4.58\%$ to $5.80\%$ and generates more localized saliency maps. Our experiments demonstrate the effectiveness of ViT-ReciproCAM and showcase its potential for understanding and debugging ViT models. Our proposed method provides an efficient and easy-to-implement alternative for generating visual explanations, without requiring attention and gradient information, which can be beneficial for various applications in the field of computer vision.
翻訳日:2023-10-05 16:21:09 公開日:2023-10-04
# 量子相関顕微鏡による2つのサブディフュージョンエミッタの3次元配置

Localising two sub-diffraction emitters in 3D using quantum correlation microscopy ( http://arxiv.org/abs/2310.02585v1 )

ライセンス: Link先を確認
Shuo Li, Wenchao Li, Qiang Sun, Bill Moran, Timothy C. Brown, Brant C. Gibson, Andrew D. Greentree(参考訳) フルオロフォアの局在は、細胞系の生物学的機能を決定する重要な側面である。 量子相関顕微鏡(Quantum correlation microscopy, QCM)は、共焦点モードまたは広視野モードで使用できる回折無限エミッター局在を提供するための有望な技術である。 しかし、QCMは3次元局所化問題には適用されていない。 ここでは, 量子相関顕微鏡により, 1つの回折領域内における2つのエミッタの回折非制限3次元局在を示す。 2段階の極大推定器を導入することにより、局所化精度は1/\sqrt{t}$で、$t$は全検出時間であることを示す。 回折無限局所化は、ハンベリー・ブラウンとツイスの4つの測定所での強度と光子相関の両方を用いて達成される。

The localisation of fluorophores is an important aspect of the determination of the biological function of cellular systems. Quantum correlation microscopy (QCM) is a promising technique for providing diffraction unlimited emitter localisation that can be used with either confocal or widefield modalities. However, so far, QCM has not been applied to three dimensional localisation problems. Here we show that quantum correlation microscopy provides diffraction-unlimited three-dimensional localisation for two emitters within a single diffraction-limited spot. By introducing a two-stage maximum likelihood estimator, our modelling shows that localisation precision scales as $1/\sqrt{t}$ where $t$ is the total detection time. Diffraction unlimited localisation is achieved using both intensity and photon correlation from Hanbury Brown and Twiss measurements at as few as four measurement locations.
翻訳日:2023-10-05 16:20:39 公開日:2023-10-04
# 先端熱アクチュエータにおける機械学習による高精度位置制御と温度制御

Machine Learning-Enabled Precision Position Control and Thermal Regulation in Advanced Thermal Actuators ( http://arxiv.org/abs/2310.02583v1 )

ライセンス: Link先を確認
Seyed Mo Mirvakili, Ehsan Haghighat, Douglas Sim(参考訳) 人間の筋肉の約100倍のエネルギー密度とジェットエンジンの出力に類似した5.3kw/kgのパワー密度という特徴のユニークな組み合わせにより、ナイロン人工筋肉は特にロボット工学の応用に適している。 しかし、センサーとコントローラを統合する必要性は、その実用化に限界をもたらす。 本稿では,機械学習に基づく定電力オープンループコントローラについて報告する。 外部センサを使わずにナイロン人工筋肉の位置を制御できることが示される。 この目的のために,アンサンブルエンコーダ型フィードフォワードニューラルネットワークを用いて,所望の変位軌跡から所要電力へのマッピングを構築する。 ニューラルコントローラは、物理ベースの分別データセットで慎重に訓練され、ヒステリシスの有無に関わらず、様々なタイプのサーマル人工筋肉に対応するように微調整することができる。

With their unique combination of characteristics - an energy density almost 100 times that of human muscle, and a power density of 5.3 kW/kg, similar to a jet engine's output - Nylon artificial muscles stand out as particularly apt for robotics applications. However, the necessity of integrating sensors and controllers poses a limitation to their practical usage. Here we report a constant power open-loop controller based on machine learning. We show that we can control the position of a nylon artificial muscle without external sensors. To this end, we construct a mapping from a desired displacement trajectory to a required power using an ensemble encoder-style feed-forward neural network. The neural controller is carefully trained on a physics-based denoised dataset and can be fine-tuned to accommodate various types of thermal artificial muscles, irrespective of the presence or absence of hysteresis.
翻訳日:2023-10-05 16:20:24 公開日:2023-10-04
# 強化学習におけるロバスト政策評価のためのオンライン推定と推論

Online Estimation and Inference for Robust Policy Evaluation in Reinforcement Learning ( http://arxiv.org/abs/2310.02581v1 )

ライセンス: Link先を確認
Weidong Liu, Jiyuan Tu, Yichen Zhang, Xi Chen(参考訳) 近年,現代統計学において強化学習が注目され,政策評価が重要な要素となっている。 本研究は,従来の機械学習文献とは異なり,強化学習アルゴリズムを用いて計算したパラメータ推定の統計的推論に重点を置いている。 既存の分析ではランダム報酬が標準分布に従うと仮定しており、適用性が制限されているが、我々は統一されたフレームワークの中で、異常汚染と重み付き報酬の問題を同時に取り扱うことで強化学習における堅牢な統計学の概念を取り入れている。 本稿では,オンラインのロバストな政策評価手法を開発し,そのバハドゥル表現に基づく推定値の限定分布を確立する。 さらに,漸近分布に基づく統計的推論を効率的に行うための完全オンライン手法を開発した。 本稿では,強化学習におけるロバスト統計と統計的推論のギャップを橋渡しし,より汎用的で信頼性の高い政策評価手法を提案する。 最後に,実世界の強化学習実験で行った数値実験により,本アルゴリズムの有効性を検証する。

Recently, reinforcement learning has gained prominence in modern statistics, with policy evaluation being a key component. Unlike traditional machine learning literature on this topic, our work places emphasis on statistical inference for the parameter estimates computed using reinforcement learning algorithms. While most existing analyses assume random rewards to follow standard distributions, limiting their applicability, we embrace the concept of robust statistics in reinforcement learning by simultaneously addressing issues of outlier contamination and heavy-tailed rewards within a unified framework. In this paper, we develop an online robust policy evaluation procedure, and establish the limiting distribution of our estimator, based on its Bahadur representation. Furthermore, we develop a fully-online procedure to efficiently conduct statistical inference based on the asymptotic distribution. This paper bridges the gap between robust statistics and statistical inference in reinforcement learning, offering a more versatile and reliable approach to policy evaluation. Finally, we validate the efficacy of our algorithm through numerical experiments conducted in real-world reinforcement learning experiments.
翻訳日:2023-10-05 16:20:09 公開日:2023-10-04
# 自己整合多体メトロジー

Self-consistent many-body metrology ( http://arxiv.org/abs/2310.02580v1 )

ライセンス: Link先を確認
Jae-Gyun Baak and Uwe R. Fischer(参考訳) マルチコンフィグレーション型Hartree型の自己整合多体アプローチにおいて、トラップボソンと相互作用する古典的および量子的メタロジを考察する。 傾斜した二重井戸形状に着目して, 動的に変化する軌道と, フォック空間係数のみが時間発展する固定軌道の従来の2モード干渉法との比較を行った。 その結果、古典的なフィッシャー情報や最大可能性推定器などのコンクリートの測定値が、力学進化中の軌道の変化に深く影響していることが証明された。 したがって、相互作用する閉じ込められた量子気体の進化の自己矛盾は、与えられたメトロロジープロトコルとそのパラメータ推定精度の解釈に根本的に影響する。

We consider the classical and quantum metrology of interacting trapped bosons in a self-consistent many-body approach of the multiconfigurational Hartree type. Focusing on a tilted double-well geometry, we compare a self-consistently determined and monitored two-mode truncation, with dynamically changing orbitals, to the conventional two-mode interferometry of fixed orbitals, where only Fock space coefficients evolve in time. We demonstrate that, as a consequence, various metrological quantities of a concrete measurement such as the classical Fisher information and the maximum likelihood estimator are deeply affected by the orbitals' change during dynamical evolution. Self-consistency of the evolution of interacting trapped quantum gases thus fundamentally affects the interpretation of a given metrological protocol and its parameter estimation accuracy.
翻訳日:2023-10-05 16:19:53 公開日:2023-10-04
# P2CADNet:ポイントクラウドからのパラメトリック3次元CADモデルのためのエンドツーエンド再構成ネットワーク

P2CADNet: An End-to-End Reconstruction Network for Parametric 3D CAD Model from Point Clouds ( http://arxiv.org/abs/2310.02638v1 )

ライセンス: Link先を確認
Zhihao Zong, Fazhi He, Rubin Fan, Yuxin Liu(参考訳) コンピュータ支援設計(CAD)、特に特徴に基づくパラメトリックCADは、現代産業や社会において重要な役割を担っている。 しかし,CADモデルの再構築は,他のCADモデルの再構築よりも困難である。 そこで本稿では,ポイントクラウド(P2CADNet)から特徴量CADモデルを再構築するためのエンドツーエンドネットワークを提案する。 当初提案したP2CADNetアーキテクチャは、ポイントクラウド特徴抽出器、CADシーケンス再構成器、パラメータオプティマイザを組み合わせたものである。 その後、特徴付きcadモデルを自己回帰的に再構成するために、cadシーケンス再構成器は、ターゲットマスク付きとマスクなしの2つのトランスフォーマデコーダを適用する。 最後に、パラメータをより正確に予測するために、CAD特徴パラメータをさらに洗練するクロスアテンション機構を備えたパラメータオプティマイザを設計する。 公開データセット上でP2CADNetを評価し,実験結果から,P2CADNetは再現性および精度に優れることが示された。 我々の知る限り、P2CADNetは特徴あるCADモデルをポイントクラウドから再構築する最初のエンドツーエンドネットワークであり、将来の作業のベースラインとみなすことができる。 そのため、ソースコードはhttps://github.com/blice0415/p2cadnetで公開しています。

Computer Aided Design (CAD), especially the feature-based parametric CAD, plays an important role in modern industry and society. However, the reconstruction of featured CAD model is more challenging than the reconstruction of other CAD models. To this end, this paper proposes an end-to-end network to reconstruct featured CAD model from point cloud (P2CADNet). Initially, the proposed P2CADNet architecture combines a point cloud feature extractor, a CAD sequence reconstructor and a parameter optimizer. Subsequently, in order to reconstruct the featured CAD model in an autoregressive way, the CAD sequence reconstructor applies two transformer decoders, one with target mask and the other without mask. Finally, for predicting parameters more precisely, we design a parameter optimizer with cross-attention mechanism to further refine the CAD feature parameters. We evaluate P2CADNet on the public dataset, and the experimental results show that P2CADNet has excellent reconstruction quality and accuracy. To our best knowledge, P2CADNet is the first end-to-end network to reconstruct featured CAD model from point cloud, and can be regarded as baseline for future works. Therefore, we open the source code at https://github.com/Blice0415/P2CADNet.
翻訳日:2023-10-05 16:11:32 公開日:2023-10-04
# ファウンデーション強化学習--ファウンデーション事前支援による具体化されたジェネラリストエージェントを目指して

Foundation Reinforcement Learning: towards Embodied Generalist Agents with Foundation Prior Assistance ( http://arxiv.org/abs/2310.02635v1 )

ライセンス: Link先を確認
Weirui Ye, Yunsheng Zhang, Mengchen Wang, Shengjie Wang, Xianfan Gu, Pieter Abbeel, Yang Gao(参考訳) 最近、nlpで見られるように、インターネット規模のデータからの大規模事前トレーニングがジェネラリストモデル構築の鍵であることが示された。 具体的ジェネラリストエージェントを構築するために、私たちや他の多くの研究者は、そのような基礎が必要不可欠な要素でもあると仮定した。 しかし、それらの具体化された基礎の優先順位を表す適切な具体的形式と、下流タスクでどのように使用するべきかは明らかでない。 本稿では,基本方針,価値,成功報酬から構成される,直感的で効果的な具体化前の組を提案する。 提案手法は, 目標条件付きMDPに基づく。 その効果を検証するために,前者が支援するアクタ-クリティック法をファウンデーション・アクタ-クリティック (fac) と呼ぶ。 私たちは私たちのフレームワークを Foundation Reinforcement Learning (FRL) と名付けています。 FRLの利点は3倍である。 1) 効率的なサンプル。 ファンデーションの先行で、FACは従来のRLよりもかなり速く学習する。 メタワールドの評価により、facは200k以下のフレームで7/8のタスクで100%の成功率を達成できることが証明された。 (2)うるさい事前処理に頑健である。 本手法は,組込み基礎モデルにおける避けられないノイズを許容する。 重騒音や量子化誤差下においてもFACは良好に動作することを示す。 (3) 最小限の人的介入: FACは、人為的な厳密な報酬や遠隔操作によるデモを必要とせず、基礎から完全に学習する。 これにより、FACを容易にスケールアップすることができる。 我々のFRLフレームワークは、未来のロボットが物理的世界への人間の介入なしに自律的に探索し、学習することができると信じています。 まとめると、提案するFRLは、具体的汎用エージェントの実現に向けて、新しく強力な学習パラダイムである。

Recently, people have shown that large-scale pre-training from internet-scale data is the key to building generalist models, as witnessed in NLP. To build embodied generalist agents, we and many other researchers hypothesize that such foundation prior is also an indispensable component. However, it is unclear what is the proper concrete form to represent those embodied foundation priors and how they should be used in the downstream task. In this paper, we propose an intuitive and effective set of embodied priors that consist of foundation policy, value, and success reward. The proposed priors are based on the goal-conditioned MDP. To verify their effectiveness, we instantiate an actor-critic method assisted by the priors, called Foundation Actor-Critic (FAC). We name our framework as Foundation Reinforcement Learning (FRL), since it completely relies on embodied foundation priors to explore, learn and reinforce. The benefits of FRL are threefold. (1) Sample efficient. With foundation priors, FAC learns significantly faster than traditional RL. Our evaluation on the Meta-World has proved that FAC can achieve 100% success rates for 7/8 tasks under less than 200k frames, which outperforms the baseline method with careful manual-designed rewards under 1M frames. (2) Robust to noisy priors. Our method tolerates the unavoidable noise in embodied foundation models. We show that FAC works well even under heavy noise or quantization errors. (3) Minimal human intervention: FAC completely learns from the foundation priors, without the need of human-specified dense reward, or providing teleoperated demos. Thus, FAC can be easily scaled up. We believe our FRL framework could enable the future robot to autonomously explore and learn without human intervention in the physical world. In summary, our proposed FRL is a novel and powerful learning paradigm, towards achieving embodied generalist agents.
翻訳日:2023-10-05 16:11:12 公開日:2023-10-04
# 改良Aitchison-Aitken関数に基づくベイズ最適化を用いた複合爆発決定木のマルチルールマイニングアルゴリズム

Multi-rules mining algorithm for combinatorially exploded decision trees with modified Aitchison-Aitken function-based Bayesian optimization ( http://arxiv.org/abs/2310.02633v1 )

ライセンス: Link先を確認
Yuto Omae, Masaya Mori, Yohei Kakimoto(参考訳) 決定木は、if-thenルールに基づいた入力データの分類を可能にするため、簡単な解釈の利点を提供する。 しかし、決定木は最小限のルールで明確な分類を行うアルゴリズムによって構築されるため、データに様々な潜在ルールが存在する場合でも、最小限のルールだけを抽出する欠点がある。 ランダムに選択された特徴部分集合を用いて複数の木を構築するアプローチが存在する。 しかし、特徴部分集合の数は組合せ爆発であるので、構築可能な木の数は同じ規模に留まっている。 さらに、複数の木が作られると、多くのルールが生成され、そのうちのいくつかは信頼できないか、あるいは非常に類似している。 そこで本研究では,計算量が少ない木に対して高い推定性能を持つ木を戦略的に構築し,信頼度の高い木と非類似のルールのみを抽出する「maabo-mt」と「gs-mrm」アルゴリズムを提案する。 提案手法の有効性を解析するために,複数のオープンデータセットを用いて実験を行った。 その結果,maabo-mtはランダム性に依存する他の手法よりも低い計算コストで信頼性の高いルールを発見できることが確認された。 さらに,提案手法は,従来の研究で一般的に用いられてきた単一の決定木よりも深い洞察を与える。 したがって、MAABO-MTとGS-MRMは組合せ爆発決定木から規則を効率的に抽出することができる。

Decision trees offer the benefit of easy interpretation because they allow the classification of input data based on if--then rules. However, as decision trees are constructed by an algorithm that achieves clear classification with minimum necessary rules, the trees possess the drawback of extracting only minimum rules, even when various latent rules exist in data. Approaches that construct multiple trees using randomly selected feature subsets do exist. However, the number of trees that can be constructed remains at the same scale because the number of feature subsets is a combinatorial explosion. Additionally, when multiple trees are constructed, numerous rules are generated, of which several are untrustworthy and/or highly similar. Therefore, we propose "MAABO-MT" and "GS-MRM" algorithms that strategically construct trees with high estimation performance among all possible trees with small computational complexity and extract only reliable and non-similar rules, respectively. Experiments are conducted using several open datasets to analyze the effectiveness of the proposed method. The results confirm that MAABO-MT can discover reliable rules at a lower computational cost than other methods that rely on randomness. Furthermore, the proposed method is confirmed to provide deeper insights than single decision trees commonly used in previous studies. Therefore, MAABO-MT and GS-MRM can efficiently extract rules from combinatorially exploded decision trees.
翻訳日:2023-10-05 16:10:40 公開日:2023-10-04
# Koopman VAEを用いた正規および不規則時系列データの生成モデリング

Generative Modeling of Regular and Irregular Time Series Data via Koopman VAEs ( http://arxiv.org/abs/2310.02619v1 )

ライセンス: Link先を確認
Ilan Naiman, N. Benjamin Erichson, Pu Ren, Michael W. Mahoney, Omri Azencot(参考訳) 現実的な時系列データを生成することは、多くの工学や科学的応用にとって重要である。 既存の作業では、gans(generative adversarial network)を使用してこの問題に取り組んでいる。 しかし、ganは訓練中に不安定であり、モード崩壊に苦しむことがある。 変分オートエンコーダ(VAE)はこれらの問題に対してより堅牢であることが知られているが、(当然ながら)時系列生成では考慮されない。 そこで本研究では,モデルの新しい設計に基づく新しい生成フレームワークであるKoopman VAE(KVAE)を紹介し,正規および不規則なトレーニングデータに最適化することができる。 クープマン理論に触発され、線形写像を用いて潜在条件付き事前ダイナミクスを表現する。 我々のアプローチは、2つの望ましい特徴を持つ生成的モデリングを強化する。 (i)線形写像の固有値の制約を規定するスペクトルツールを利用することにより、ドメイン知識を組み込むことができる。 (ii)力学系理論のツールを用いて、システムの質的挙動と安定性を研究することができる。 以上の結果から,KVAEは,合成および実世界の時系列生成ベンチマークにおいて,最先端のGANおよびVAE手法よりも優れていた。 正規データでも不規則データでも、KVAEは識別指標と予測指標の両方を改善する時系列を生成する。 また,kvaeが経験的基底真理分布を近似する確率密度関数を学習することを示す視覚的な証拠も提示する。

Generating realistic time series data is important for many engineering and scientific applications. Existing work tackles this problem using generative adversarial networks (GANs). However, GANs are often unstable during training, and they can suffer from mode collapse. While variational autoencoders (VAEs) are known to be more robust to these issues, they are (surprisingly) less often considered for time series generation. In this work, we introduce Koopman VAE (KVAE), a new generative framework that is based on a novel design for the model prior, and that can be optimized for either regular and irregular training data. Inspired by Koopman theory, we represent the latent conditional prior dynamics using a linear map. Our approach enhances generative modeling with two desired features: (i) incorporating domain knowledge can be achieved by leverageing spectral tools that prescribe constraints on the eigenvalues of the linear map; and (ii) studying the qualitative behavior and stablity of the system can be performed using tools from dynamical systems theory. Our results show that KVAE outperforms state-of-the-art GAN and VAE methods across several challenging synthetic and real-world time series generation benchmarks. Whether trained on regular or irregular data, KVAE generates time series that improve both discriminative and predictive metrics. We also present visual evidence suggesting that KVAE learns probability density functions that better approximate empirical ground truth distributions.
翻訳日:2023-10-05 16:10:17 公開日:2023-10-04
# マルチエージェントシステムにおける量子可観測性解析について

On Quantified Observability Analysis in Multiagent Systems ( http://arxiv.org/abs/2310.02614v1 )

ライセンス: Link先を確認
Chunyan Mu and Jun Pang(参考訳) マルチエージェントシステム(MAS)では、エージェントがシステム動作を観察することでチーム全体のパフォーマンスが向上するが、観察者に機密情報を漏らすこともある。 したがって、実測による性能効果と情報露出の関係を最適化しようとするオペレーターによるマス意思決定を支援するには、定量観測可能性分析が有用である。 本稿では,質量の観測可能性特性を定量的に解析する新しい手法を提案する。 不透明性の概念は、部分可観測マルチエージェントシステムとしてモデル化された質量における可観測性のキャラクタリゼーションを形式的に表現するために適用される。 本稿では,エージェントの観測可能性と定量的な目標を推定するための時間論理oPATLを提案し,観測者に対するシステム動作の情報透明性の確率を計測し,その特性を定量的に解析する検証手法を開発した。 提案手法はPRISMモデルチェッカーの拡張として実装され,いくつかの例を通して適用性を示す。

In multiagent systems (MASs), agents' observation upon system behaviours may improve the overall team performance, but may also leak sensitive information to an observer. A quantified observability analysis can thus be useful to assist decision-making in MASs by operators seeking to optimise the relationship between performance effectiveness and information exposure through observations in practice. This paper presents a novel approach to quantitatively analysing the observability properties in MASs. The concept of opacity is applied to formally express the characterisation of observability in MASs modelled as partially observable multiagent systems. We propose a temporal logic oPATL to reason about agents' observability with quantitative goals, which capture the probability of information transparency of system behaviours to an observer, and develop verification techniques for quantitatively analysing such properties. We implement the approach as an extension of the PRISM model checker, and illustrate its applicability via several examples.
翻訳日:2023-10-05 16:09:53 公開日:2023-10-04
# otベースのadversarialネットワークの解析と改善

Analyzing and Improving OT-based Adversarial Networks ( http://arxiv.org/abs/2310.02611v1 )

ライセンス: Link先を確認
Jaemoo Choi, Jaewoong Choi, Myungjoo Kang(参考訳) 最適輸送(ot)問題は、与えられたコスト関数を最小化しながら2つの分布を橋渡しする輸送計画を見つけることを目的としている。 OT理論は生成モデリングに広く利用されている。 当初、OT距離はデータと生成された分布の間の距離を評価する尺度として用いられてきた。 近年,データと先行分布間のOTトランスポートマップを生成モデルとして利用している。 これらのOTベースの生成モデルは、同様の敵の訓練目標を共有している。 本稿では,これらotベースの敵メソッドを一つのフレームワークで統一することから始める。 次に,この統一フレームワークの包括的分析を通じて,学習ダイナミクスにおける各コンポーネントの役割を解明する。 さらに,従来で最も優れたOTモデルを改善するための,単純だが斬新な手法を提案する。 直感的に,本手法では,生成した分布を段階的に洗練し,データ分布と漸進的に調整する。 CIFAR-10のFIDスコアは2.51であり、OTベースの対角法よりも優れていた。

Optimal Transport (OT) problem aims to find a transport plan that bridges two distributions while minimizing a given cost function. OT theory has been widely utilized in generative modeling. In the beginning, OT distance has been used as a measure for assessing the distance between data and generated distributions. Recently, OT transport map between data and prior distributions has been utilized as a generative model. These OT-based generative models share a similar adversarial training objective. In this paper, we begin by unifying these OT-based adversarial methods within a single framework. Then, we elucidate the role of each component in training dynamics through a comprehensive analysis of this unified framework. Moreover, we suggest a simple but novel method that improves the previously best-performing OT-based model. Intuitively, our approach conducts a gradual refinement of the generated distribution, progressively aligning it with the data distribution. Our approach achieves a FID score of 2.51 on CIFAR-10, outperforming unified OT-based adversarial approaches.
翻訳日:2023-10-05 16:09:37 公開日:2023-10-04
# 光学結合ナノ粒子の非エルミートダイナミクスと非相反性

Non-Hermitian dynamics and nonreciprocity of optically coupled nanoparticles ( http://arxiv.org/abs/2310.02610v1 )

ライセンス: Link先を確認
Manuel Reisenbauer, Henning Rudolph, Livia Egyed, Klaus Hornberger, Anton V. Zasedatelev, Murad Abuzarli, Benjamin A. Stickler, Uro\v{s} Deli\'c(参考訳) 非エルミート力学は、光子、原子、電気、光機械のプラットフォームで観察され、信号処理やセンシングの応用に大きな可能性がある。 近年, 浮遊ナノ粒子間の完全可変非相互光相互作用が実証されている。 本研究では、このチューナビリティを用いて、2つの非共役および非線形相互作用するナノ粒子の集団非エルミタンダイナミクスの研究を行う。 我々はパリティ時対称性の破れを観察し、十分に強い結合のために、粒子が安定な極限周期に沿って移動する集合的な機械的ラシング遷移を観察する。 この研究は、ツイーザーアレイ内の個々の部位の動的制御によって調整された非平衡多粒子集合効果の研究の道を開く。

Non-Hermitian dynamics has been observed in photonic, atomic, electrical, and optomechanical platforms with great potential for signal processing and sensing applications. Recently, fully tunable nonreciprocal optical interaction has been demonstrated between levitated nanoparticles. In this work, we use this tunability to investigate the collective non-Hermitian dynamics of two nonreciprocally and nonlinearly interacting nanoparticles. We observe parity-time symmetry breaking and, for sufficiently strong coupling, a collective mechanical lasing transition, where the particles move along stable limit cycles. This work opens up a research avenue of nonequilibrium multi-particle collective effects, tailored by the dynamic control of individual sites in a tweezer array.
翻訳日:2023-10-05 16:09:24 公開日:2023-10-04
# 動的グラフニューラルネットワークのための学習隣接行列

Learning adjacency matrix for dynamic graph neural network ( http://arxiv.org/abs/2310.02606v1 )

ライセンス: Link先を確認
Osama Ahmad, Omer Abdul Jalil, Usman Nazir, Murtaza Taj(参考訳) 最近の研究で[1]は時空間データの表現にBlock Adjacency Matrix (BA)を使うという概念を導入した。 それらの手法は,1つのグラフに時空間関係をカプセル化するために隣接行列の連結に成功したが,非連結グラフを形成した。 この制限は、時間的リンクが存在しないため、異なる時間ステップに属するノード間でメッセージを転送するグラフ畳み込みネットワーク(gcns)の能力を妨げるものであった。 この課題を克服するために、これらの欠落した時間リンクを学習するために特別に設計されたエンコーダブロックを導入する。 エンコーダブロックはbaを処理し、未接続のサブグラフ間の接続を予測し、時空間ブロック隣接行列(stbam)を生成する。 このリッチマトリックスはグラフニューラルネットワーク(GNN)に入力され、ネットワークの複雑な時空間トポロジーをキャプチャする。 ベンチマークデータセット surgVisDom と C2D2 による評価により,我々の手法は,複雑さがわずかに高く,最先端の結果よりも優れた結果が得られることが示された。 提案手法の計算オーバーヘッドは,時空間データに対する従来の非グラフベースの手法に比べて有意に低い。

In recent work, [1] introduced the concept of using a Block Adjacency Matrix (BA) for the representation of spatio-temporal data. While their method successfully concatenated adjacency matrices to encapsulate spatio-temporal relationships in a single graph, it formed a disconnected graph. This limitation hampered the ability of Graph Convolutional Networks (GCNs) to perform message passing across nodes belonging to different time steps, as no temporal links were present. To overcome this challenge, we introduce an encoder block specifically designed to learn these missing temporal links. The encoder block processes the BA and predicts connections between previously unconnected subgraphs, resulting in a Spatio-Temporal Block Adjacency Matrix (STBAM). This enriched matrix is then fed into a Graph Neural Network (GNN) to capture the complex spatio-temporal topology of the network. Our evaluations on benchmark datasets, surgVisDom and C2D2, demonstrate that our method, with slightly higher complexity, achieves superior results compared to state-of-the-art results. Our approach's computational overhead remains significantly lower than conventional non-graph-based methodologies for spatio-temporal data.
翻訳日:2023-10-05 16:09:12 公開日:2023-10-04
# 電力グリッドトポロジー最適化のためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Power Grid Topology Optimization ( http://arxiv.org/abs/2310.02605v1 )

ライセンス: Link先を確認
Erica van der Sar, Alessandro Zocca, Sandjai Bhulai(参考訳) 最近の電力ネットワークの課題は、エネルギー需要の増加と風や太陽といった予測できない再生可能エネルギー源から生じている。 強化学習(RL)はこれらのネットワークを管理する上で有望であるが、バスや線路の切替といったトポロジ的行動を通じて、ネットワークの成長に伴って大きなアクション空間を効率的に扱うことが重要である。 本稿では,これらの拡張的動作空間に適した階層型マルチエージェント強化学習(marl)フレームワークを提案する。 MARLフレームワークのシングルエージェントRL法との競合性能を示す実験結果を得た。 また、下位エージェントに対する異なるRLアルゴリズムと上位エージェントに対する異なるポリシーを比較する。

Recent challenges in operating power networks arise from increasing energy demands and unpredictable renewable sources like wind and solar. While reinforcement learning (RL) shows promise in managing these networks, through topological actions like bus and line switching, efficiently handling large action spaces as networks grow is crucial. This paper presents a hierarchical multi-agent reinforcement learning (MARL) framework tailored for these expansive action spaces, leveraging the power grid's inherent hierarchical nature. Experimental results indicate the MARL framework's competitive performance with single-agent RL methods. We also compare different RL algorithms for lower-level agents alongside different policies for higher-order agents.
翻訳日:2023-10-05 16:08:54 公開日:2023-10-04
# MagicDrive: 横3次元形状制御によるストリートビュー生成

MagicDrive: Street View Generation with Diverse 3D Geometry Control ( http://arxiv.org/abs/2310.02601v1 )

ライセンス: Link先を確認
Ruiyuan Gao, Kai Chen, Enze Xie, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung, Qiang Xu(参考訳) 拡散モデルの最近の進歩は、2次元制御によるデータ合成を大幅に強化した。 しかし、ストリートビュー生成における正確な3d制御は、3d知覚タスクに欠かせない。 特に、Bird's-Eye View (BEV) を一次条件として利用すると、特に3次元物体検出タスクにおいて、知覚データ合成に不可欠な物体形状、閉塞パターン、路面標高の表現に影響を及ぼす幾何学的制御(高さなど)の課題につながることが多い。 本稿では,カメラポーズ,道路地図,および3dバウンディングボックスを含む多様な3次元形状制御を行う新しいストリートビュー生成フレームワークであるmagicdriveを紹介する。 さらに、当社の設計にはクロスビューアテンションモジュールが組み込まれており、複数のカメラビュー間の一貫性を確保しています。 MagicDriveで高忠実なストリートビュー合成を実現し、ニュアンスな3D幾何学と様々なシーン記述をキャプチャし、BEVセグメンテーションや3Dオブジェクト検出といったタスクを強化します。

Recent advancements in diffusion models have significantly enhanced the data synthesis with 2D control. Yet, precise 3D control in street view generation, crucial for 3D perception tasks, remains elusive. Specifically, utilizing Bird's-Eye View (BEV) as the primary condition often leads to challenges in geometry control (e.g., height), affecting the representation of object shapes, occlusion patterns, and road surface elevations, all of which are essential to perception data synthesis, especially for 3D object detection tasks. In this paper, we introduce MagicDrive, a novel street view generation framework offering diverse 3D geometry controls, including camera poses, road maps, and 3D bounding boxes, together with textual descriptions, achieved through tailored encoding strategies. Besides, our design incorporates a cross-view attention module, ensuring consistency across multiple camera views. With MagicDrive, we achieve high-fidelity street-view synthesis that captures nuanced 3D geometry and various scene descriptions, enhancing tasks like BEV segmentation and 3D object detection.
翻訳日:2023-10-05 16:08:42 公開日:2023-10-04
# OpenStreetMapデータとオブジェクト指向トランスを用いた高分解能画像を用いた土地被覆変化検出

Land-cover change detection using paired OpenStreetMap data and optical high-resolution imagery via object-guided Transformer ( http://arxiv.org/abs/2310.02674v1 )

ライセンス: Link先を確認
Hongruixuan Chen and Cuiling Lan and Jian Song and Clifford Broni-Bediako and Junshi Xia and Naoto Yokoya(参考訳) 光高分解能画像とopenstreetmap(osm)データは、土地被覆変化検出のための2つの重要なデータ源である。 これら2つのデータソースにおける従来の研究は、OSMデータの情報を利用して、マルチ時間光高解像度画像の変化検出に役立っている。 本稿では,OSMデータと光学画像を用いた土地被覆変化の直接検出を先導し,よりダイナミックな地球観測を包含する変化検出タスクの地平線を拡大する。 そこで本研究では、オブジェクト指向画像解析(OBIA)技術と高度な視覚変換器アーキテクチャを自然に組み合わせ、オブジェクト指向変換器(ObjFormer)アーキテクチャを提案する。 OBIAの導入により、自己保持モジュールの計算オーバーヘッドとメモリ負荷を大幅に削減できる。 具体的には、ObjFormerは、OSMデータと光画像から異なるレベルの代表的特徴を抽出するオブジェクト誘導自己アテンションモジュールからなる階層的な擬似スキームエンコーダを持ち、オブジェクト誘導相互アテンションモジュールからなるデコーダは、抽出した異種特徴から土地被覆変化を段階的に回復することができる。 本稿では,基本的な2値変化検出タスクに加えて,手動でアノテートされた光学画像のランドカバーラベルを必要としない半教師付きセマンティックな変化検出タスクを提起する。 このタスクを効率的に達成するために、2つの軽量セマンティックデコーダがObjFormerに追加されている。 逆クロスエントロピー損失は負のサンプルを十分に活用するように設計され、このタスクの性能向上に寄与する。 1,287の地図画像ペア(1024$\times$ 1024 pixels for each sample)を含む最初の大規模ベンチマークデータセットは、6大陸の40の領域をカバーしている。

Optical high-resolution imagery and OpenStreetMap (OSM) data are two important data sources for land-cover change detection. Previous studies in these two data sources focus on utilizing the information in OSM data to aid the change detection on multi-temporal optical high-resolution images. This paper pioneers the direct detection of land-cover changes utilizing paired OSM data and optical imagery, thereby broadening the horizons of change detection tasks to encompass more dynamic earth observations. To this end, we propose an object-guided Transformer (ObjFormer) architecture by naturally combining the prevalent object-based image analysis (OBIA) technique with the advanced vision Transformer architecture. The introduction of OBIA can significantly reduce the computational overhead and memory burden in the self-attention module. Specifically, the proposed ObjFormer has a hierarchical pseudo-siamese encoder consisting of object-guided self-attention modules that extract representative features of different levels from OSM data and optical images; a decoder consisting of object-guided cross-attention modules can progressively recover the land-cover changes from the extracted heterogeneous features. In addition to the basic supervised binary change detection task, this paper raises a new semi-supervised semantic change detection task that does not require any manually annotated land-cover labels of optical images to train semantic change detectors. Two lightweight semantic decoders are added to ObjFormer to accomplish this task efficiently. A converse cross-entropy loss is designed to fully utilize the negative samples, thereby contributing to the great performance improvement in this task. The first large-scale benchmark dataset containing 1,287 map-image pairs (1024$\times$ 1024 pixels for each sample) covering 40 regions on six continents ...(see the manuscript for the full abstract)
翻訳日:2023-10-05 16:03:11 公開日:2023-10-04
# 拡散モデルの記憶について

On Memorization in Diffusion Models ( http://arxiv.org/abs/2310.02664v1 )

ライセンス: Link先を確認
Xiangming Gu, Chao Du, Tianyu Pang, Chongxuan Li, Min Lin, Ye Wang(参考訳) 新規で高品質なサンプルを生成する能力のため、拡散モデルは近年大きな研究関心を集めている。 特に、拡散モデルの典型的な訓練目的、すなわちスコアマッチングを復調することで、サンプルを複製するトレーニングデータしか生成できないクローズドフォームの最適解が得られる。 これは、記憶行動が理論的に期待されることを示し、最先端拡散モデルの一般的な一般化能力と矛盾し、より深い理解を求める。 そこで本研究では,学習拡散モデルが理論的最適値に近似するトレーニングデータの最大サイズを測定する指標であるEMMの定義を動機付ける,より小さなデータセット上での記憶挙動が生じる傾向があることを最初に観察する。 そして,データ分布,モデル構成,訓練手順を中心に,これらの記憶行動に及ぼす影響因子の影響を,EMMの観点から定量化する。 有意な要因を特定する包括的な実験結果の他に,不定形確率ラベルの条件付トレーニングデータが拡散モデルの記憶を著しく引き起こしていることがわかった。 本研究は,拡散モデル利用者にとって実用的意義を持ち,深部生成モデルの理論研究の手がかりを提供する。 コードはhttps://github.com/sail-sg/diffmemorizeで入手できる。

Due to their capacity to generate novel and high-quality samples, diffusion models have attracted significant research interest in recent years. Notably, the typical training objective of diffusion models, i.e., denoising score matching, has a closed-form optimal solution that can only generate training data replicating samples. This indicates that a memorization behavior is theoretically expected, which contradicts the common generalization ability of state-of-the-art diffusion models, and thus calls for a deeper understanding. Looking into this, we first observe that memorization behaviors tend to occur on smaller-sized datasets, which motivates our definition of effective model memorization (EMM), a metric measuring the maximum size of training data at which a learned diffusion model approximates its theoretical optimum. Then, we quantify the impact of the influential factors on these memorization behaviors in terms of EMM, focusing primarily on data distribution, model configuration, and training procedure. Besides comprehensive empirical results identifying the influential factors, we surprisingly find that conditioning training data on uninformative random labels can significantly trigger the memorization in diffusion models. Our study holds practical significance for diffusion model users and offers clues to theoretical research in deep generative models. Code is available at https://github.com/sail-sg/DiffMemorize.
翻訳日:2023-10-05 16:02:35 公開日:2023-10-04
# MedPrompt: マルチタスク医療画像翻訳のためのクロスモーダルプロンプト

MedPrompt: Cross-Modal Prompting for Multi-Task Medical Image Translation ( http://arxiv.org/abs/2310.02663v1 )

ライセンス: Link先を確認
Xuhang Chen, Chi-Man Pun and Shuqiang Wang(参考訳) 臨床診断において欠落したモダリティデータを合成するためには,クロスモーダルな医用画像翻訳が不可欠である。 しかし、現在の学習ベースの技術は、モダリティとグローバルな特徴を捉えるのに制限があり、特定のモダリティのペアに対する適合性を制限している。 この汎用性の欠如は、特に欠落したモダリティが異なるケースで異なることを考えると、その実用性を損なう。 本研究では,異なるモダリティを効率的に翻訳するマルチタスクフレームワークであるmedpromptを提案する。 具体的には,翻訳ネットワークを動的に異なるモダリティへと導く自己適応型プロンプトブロックを提案する。 本フレームワークでは,クロスモーダルプロンプトを効率的にエンコードするために,プロンプト抽出ブロックとプロンプト融合ブロックを導入する。 多様なモダリティにまたがるグローバル特徴の抽出を促進するために,トランスフォーマーモデルを組み込んだ。 5つのデータセットと4組のモダリティを含む大規模な実験結果から,提案モデルが最先端の視覚的品質を実現し,優れた一般化能力を示した。

Cross-modal medical image translation is an essential task for synthesizing missing modality data for clinical diagnosis. However, current learning-based techniques have limitations in capturing cross-modal and global features, restricting their suitability to specific pairs of modalities. This lack of versatility undermines their practical usefulness, particularly considering that the missing modality may vary for different cases. In this study, we present MedPrompt, a multi-task framework that efficiently translates different modalities. Specifically, we propose the Self-adaptive Prompt Block, which dynamically guides the translation network towards distinct modalities. Within this framework, we introduce the Prompt Extraction Block and the Prompt Fusion Block to efficiently encode the cross-modal prompt. To enhance the extraction of global features across diverse modalities, we incorporate the Transformer model. Extensive experimental results involving five datasets and four pairs of modalities demonstrate that our proposed model achieves state-of-the-art visual quality and exhibits excellent generalization capability.
翻訳日:2023-10-05 16:02:16 公開日:2023-10-04
# 複数構成問題の解決:Choco Solverによる性能解析

Solving Multi-Configuration Problems: A Performance Analysis with Choco Solver ( http://arxiv.org/abs/2310.02658v1 )

ライセンス: Link先を確認
Benjamin Ritz, Alexander Felfernig, Viet-Man Le, Sebastian Lubos(参考訳) 多くのシナリオにおいて、コンフィギュレータは、単一のユーザの好みを満たすソリューションの構成をサポートする。 emph{multi-configuration}の概念は、一連の設定を設定するという考え方に基づいている。 このような機能は、パーソナライズされた試験の構成、プロジェクトチームの構成、観光グループ(例えば、特定の都市を訪れる場合)の個々のメンバーに対する異なるトリップの構成といったシナリオに関係しています。 本稿では,マルチコンフィギュレーションの個人化試験への適用例を示す。 また、対応するパフォーマンス問題に対する洞察を得るのに役立つ制約解決器のパフォーマンス分析も提供します。

In many scenarios, configurators support the configuration of a solution that satisfies the preferences of a single user. The concept of \emph{multi-configuration} is based on the idea of configuring a set of configurations. Such a functionality is relevant in scenarios such as the configuration of personalized exams, the configuration of project teams, and the configuration of different trips for individual members of a tourist group (e.g., when visiting a specific city). In this paper, we exemplify the application of multi-configuration for generating individualized exams. We also provide a constraint solver performance analysis which helps to gain some insights into corresponding performance issues.
翻訳日:2023-10-05 16:01:58 公開日:2023-10-04
# AGIR: 自然言語生成によるサイバー脅威情報報告の自動化

AGIR: Automating Cyber Threat Intelligence Reporting with Natural Language Generation ( http://arxiv.org/abs/2310.02655v1 )

ライセンス: Link先を確認
Filippo Perrina, Francesco Marchiori, Mauro Conti, Nino Vincenzo Verde(参考訳) サイバー脅威インテリジェンス(CTI)の報告は、現代のリスク管理戦略において重要である。 ctiレポートの量が増え続けるにつれ、レポート生成を合理化する自動化ツールの需要がますます高まっている。 自然言語処理技術はテキストデータを扱う可能性を示しているが、多種多様なデータソースと複雑な相互関係の複雑さに対処するのに苦労することが多い。 さらに、STIXのような確立されたパラダイムはCTIコミュニティ内の事実上の標準として現れ、一貫性のあるデータ共有を容易にするためのエンティティと関係の正式な分類を強調している。 本稿では,ctiレポーティングにおける差し迫った課題に対処するための,トランスフォーメーションな自然言語生成ツールであるagir(automatic generation of intelligence reports)を紹介する。 AGIRの主な目的は、エンティティグラフの形式的表現から包括的なインテリジェンスレポートを生成するための労働集約的なタスクを自動化することで、セキュリティアナリストを強化することである。 AGIRはテンプレートベースのアプローチの利点とChatGPTのような大規模言語モデルの能力を組み合わせることで、2段階のパイプラインを利用する。 我々はAGIRのレポート生成能力を定量的かつ質的に評価する。 生成したレポートは、ホルマリン言語で表現された情報を正確に伝達し、幻覚を起こすことなく高いリコール値(0.99)を達成する。 さらに,本報告の流布度と有効性を比較し,Syntactic Log-Odds Ratio (SLOR) やアンケートを通じてAGIRがより高いスコアを得られるかを示した。 このツールを用いることで,レポート作成時間を40%以上削減できると推定し,任意の組織のcti生産を合理化し,複数のctiタスクの自動化に寄与する。

Cyber Threat Intelligence (CTI) reporting is pivotal in contemporary risk management strategies. As the volume of CTI reports continues to surge, the demand for automated tools to streamline report generation becomes increasingly apparent. While Natural Language Processing techniques have shown potential in handling text data, they often struggle to address the complexity of diverse data sources and their intricate interrelationships. Moreover, established paradigms like STIX have emerged as de facto standards within the CTI community, emphasizing the formal categorization of entities and relations to facilitate consistent data sharing. In this paper, we introduce AGIR (Automatic Generation of Intelligence Reports), a transformative Natural Language Generation tool specifically designed to address the pressing challenges in the realm of CTI reporting. AGIR's primary objective is to empower security analysts by automating the labor-intensive task of generating comprehensive intelligence reports from formal representations of entity graphs. AGIR utilizes a two-stage pipeline by combining the advantages of template-based approaches and the capabilities of Large Language Models such as ChatGPT. We evaluate AGIR's report generation capabilities both quantitatively and qualitatively. The generated reports accurately convey information expressed through formal language, achieving a high recall value (0.99) without introducing hallucination. Furthermore, we compare the fluency and utility of the reports with state-of-the-art approaches, showing how AGIR achieves higher scores in terms of Syntactic Log-Odds Ratio (SLOR) and through questionnaires. By using our tool, we estimate that the report writing time is reduced by more than 40%, therefore streamlining the CTI production of any organization and contributing to the automation of several CTI tasks.
翻訳日:2023-10-05 16:01:48 公開日:2023-10-04
# リソース制約fpgaの時系列変圧器モデルにおける量子化アウェアトレーニングに関する研究

A Study of Quantisation-aware Training on Time Series Transformer Models for Resource-constrained FPGAs ( http://arxiv.org/abs/2310.02654v1 )

ライセンス: Link先を確認
Tianheng Ling, Chao Qian, Lukas Einhaus, Gregor Schiele(参考訳) 本研究では,時系列トランスフォーマーモデルにおける量子化対応トレーニング(QAT)について検討する。 qat位相中に対称スキームと非対称スキームを動的に選択する適応量子化スキームを提案する。 提案手法は,量子化方式と実データ分布とのマッチングにより,許容精度を維持しつつ計算オーバーヘッドを低減できることを示す。 さらに、実世界のデータと混合精度の量子化に適用した場合、ほとんどのオブジェクトは4ビットに量子化される。 本研究は,量子化技術の発展のための基盤を提供しながら,モデル量子化と展開決定を通知する。

This study explores the quantisation-aware training (QAT) on time series Transformer models. We propose a novel adaptive quantisation scheme that dynamically selects between symmetric and asymmetric schemes during the QAT phase. Our approach demonstrates that matching the quantisation scheme to the real data distribution can reduce computational overhead while maintaining acceptable precision. Moreover, our approach is robust when applied to real-world data and mixed-precision quantisation, where most objects are quantised to 4 bits. Our findings inform model quantisation and deployment decisions while providing a foundation for advancing quantisation techniques.
翻訳日:2023-10-05 16:01:20 公開日:2023-10-04
# 必要な時に採用する: オークションベースのフェデレーションラーニングのための個人参加型リクルート

Hire When You Need to: Gradual Participant Recruitment for Auction-based Federated Learning ( http://arxiv.org/abs/2310.02651v1 )

ライセンス: Link先を確認
Xavier Tan and Han Yu(参考訳) FL(Federated Learning)の成功は、データ所有者(DO)の量と品質と、FLモデルトレーニングに参加する動機に依存する。 評価に基づくFL選択法が提案されている。 しかし、コールドスタート問題と高い信頼性を持つDOに対する潜在的な選択バイアスの課題に直面している。 このようなバイアスは、将来のflトレーニングラウンドから評価dosが早期に除外される結果となり、トレーニングデータの多様性と結果モデルの一般化性が低下する。 これらの課題に対処するために,オークションベース連合学習(gps-afl)のための段階的参加者選択方式を提案する。 FLタスクに必要な全てのDOを1回に選択する必要があると一般的に仮定する既存のAFLインセンティブメカニズムとは異なり、GPS-AFLは繰り返しの相互作用を通じてより多くの情報が明らかにされるため、複数の訓練ラウンドで必要なDOを徐々に選択する。 評価に基づくFLにおける選択バイアスの欠点を軽減しつつ、コスト削減と性能向上のバランスをとるように設計されている。 実世界のデータセットに基づく広範囲な実験により、gps-aflの重要な利点が示され、これはコストを33.65%削減し、平均で2.91%改善した。

The success of federated Learning (FL) depends on the quantity and quality of the data owners (DOs) as well as their motivation to join FL model training. Reputation-based FL participant selection methods have been proposed. However, they still face the challenges of the cold start problem and potential selection bias towards highly reputable DOs. Such a bias can result in lower reputation DOs being prematurely excluded from future FL training rounds, thereby reducing the diversity of training data and the generalizability of the resulting models. To address these challenges, we propose the Gradual Participant Selection scheme for Auction-based Federated Learning (GPS-AFL). Unlike existing AFL incentive mechanisms which generally assume that all DOs required for an FL task must be selected in one go, GPS-AFL gradually selects the required DOs over multiple rounds of training as more information is revealed through repeated interactions. It is designed to strike a balance between cost saving and performance enhancement, while mitigating the drawbacks of selection bias in reputation-based FL. Extensive experiments based on real-world datasets demonstrate the significant advantages of GPS-AFL, which reduces costs by 33.65% and improved total utility by 2.91%, on average compared to the best-performing state-of-the-art approach.
翻訳日:2023-10-05 16:01:09 公開日:2023-10-04
# マルチエージェントコラボレーションのためのアクティブビジュアルローカライズ:データ駆動アプローチ

Active Visual Localization for Multi-Agent Collaboration: A Data-Driven Approach ( http://arxiv.org/abs/2310.02650v1 )

ライセンス: Link先を確認
Matthew Hanlon, Boyang Sun, Marc Pollefeys, Hermann Blum(参考訳) 新たに配備されたロボットが周囲のマップを独自に作成する代わりに、SLAM対応デバイスの普及により、他のロボットやデバイスのマップに単純にローカライズするオプションが提供される。 マルチロボットやヒューマンロボットのコラボレーションのような場合、同じマップにすべてのエージェントをローカライズする必要がある。 しかし、例えば、ドローンやヘッドマウントMRヘッドセットの地図上の地上ロボットのローカライズは、視点の変化による固有の課題を提示する。 本研究では,このような視点変化の課題を克服するために,アクティブな視覚的ローカライゼーションをどのように利用できるかを検討する。 具体的には,特定の場所での最適視点の選択の問題に焦点をあてる。 文献における既存のアプローチと新たなベースラインを比較し,新しいデータ駆動アプローチを提案する。 その結果、制御されたシミュレーション実験と実世界のデプロイの両方において、既存の方法と比較してデータ駆動アプローチが優れた性能を示す。

Rather than having each newly deployed robot create its own map of its surroundings, the growing availability of SLAM-enabled devices provides the option of simply localizing in a map of another robot or device. In cases such as multi-robot or human-robot collaboration, localizing all agents in the same map is even necessary. However, localizing e.g. a ground robot in the map of a drone or head-mounted MR headset presents unique challenges due to viewpoint changes. This work investigates how active visual localization can be used to overcome such challenges of viewpoint changes. Specifically, we focus on the problem of selecting the optimal viewpoint at a given location. We compare existing approaches in the literature with additional proposed baselines and propose a novel data-driven approach. The result demonstrates the superior performance of the data-driven approach when compared to existing methods, both in controlled simulation experiments and real-world deployment.
翻訳日:2023-10-05 16:00:45 公開日:2023-10-04
# GET: イベントベースのビジョンのためのグループイベントトランスフォーマー

GET: Group Event Transformer for Event-Based Vision ( http://arxiv.org/abs/2310.02642v1 )

ライセンス: Link先を確認
Yansong Peng and Yueyi Zhang and Zhiwei Xiong and Xiaoyan Sun and Feng Wu(参考訳) イベントカメラはニューロモルフィックなsen-sorの一種であり、注目を集めている。 既存のイベントベースのバックボーンは、主に画像ベースの設計に基づいて、イベントから変換された画像内の空間情報を抽出する。 本稿では,特徴抽出プロセスを通じて空間的インフォメーションから時間極性情報を分離するグループイベントトランスフォーマー(GET)と呼ばれる,イベントベースのビジョンのための新しいグループベースビジョントランスフォーマーのバックボーンを提案する。 まず最初に、そのタイムスタンプと極性に基づいて非同期イベントをグループ化するグループトークンという、GETの新しいイベント表現を提案する。 次に、GETはイベントデュアル自己認識ブロックとグループトークン集約モジュールをap-pし、空間的および時間的極性ドメインの両方で効果的な特徴の共有と統合を容易にする。 その後、GETは可変ヘッドと接続することで、異なる下流タスクと統合できる。 本稿では,4つのイベントベース分類データセット (cifar10-dvs, n-mnist, n-cars, dvs128gesture) と2つのイベントベースオブジェクト検出データセット (1mpx, gen1) について評価を行った。 コードはhttps://github.com/Peterande/GET-Group-Event-Transformerで公開されている。

Event cameras are a type of novel neuromorphic sen-sor that has been gaining increasing attention. Existing event-based backbones mainly rely on image-based designs to extract spatial information within the image transformed from events, overlooking important event properties like time and polarity. To address this issue, we propose a novel Group-based vision Transformer backbone for Event-based vision, called Group Event Transformer (GET), which de-couples temporal-polarity information from spatial infor-mation throughout the feature extraction process. Specifi-cally, we first propose a new event representation for GET, named Group Token, which groups asynchronous events based on their timestamps and polarities. Then, GET ap-plies the Event Dual Self-Attention block, and Group Token Aggregation module to facilitate effective feature commu-nication and integration in both the spatial and temporal-polarity domains. After that, GET can be integrated with different downstream tasks by connecting it with vari-ous heads. We evaluate our method on four event-based classification datasets (Cifar10-DVS, N-MNIST, N-CARS, and DVS128Gesture) and two event-based object detection datasets (1Mpx and Gen1), and the results demonstrate that GET outperforms other state-of-the-art methods. The code is available at https://github.com/Peterande/GET-Group-Event-Transformer.
翻訳日:2023-10-05 16:00:28 公開日:2023-10-04
# 変形不変ニューラルネットワークとその歪画像復元・解析への応用

Deformation-Invariant Neural Network and Its Applications in Distorted Image Restoration and Analysis ( http://arxiv.org/abs/2310.02641v1 )

ライセンス: Link先を確認
Han Zhang, Qiguang Chen, Lok Ming Lui(参考訳) 幾何学的歪みによって劣化した画像は、画像や物体認識などのコンピュータビジョンタスクにおいて重要な課題となる。 深層学習に基づく画像モデルは、通常、幾何学的に歪んだ画像に対して正確な性能を与えることができない。 本稿では、幾何学的に歪んだ画像の撮像課題に対処するフレームワークである変形不変ニューラルネットワーク(DINN)を提案する。 DINNは、幾何学的に歪んでいるが、同じ基礎となるオブジェクトやシーンを表す画像に対して一貫した遅延特徴を出力する。 DINNの考え方は、準コンフォーマルトランスフォーマーネットワーク(QCTN)と呼ばれる単純なコンポーネントを、イメージングタスクのために既存のディープネットワークに組み込むことである。 QCTNは準等角写像を出力するディープニューラルネットワークであり、幾何学的に歪んだ画像を自然な画像や良い画像の分布に近い改良版に変換するのに使用できる。 まず、出力変形写像の準共形性を測定するベルトラミ係数を出力する。 ベルトラミ係数を制御することにより、準共形写像下の局所幾何学的歪みを制御することができる。 QCTNは軽量でシンプルで、既存のディープニューラルネットワークと容易に統合してパフォーマンスを向上させることができる。 フレームワークを活用し,歪み画像の正確な分類を実現する画像分類ネットワークを開発した。 提案手法は, 大気乱流と水乱流による幾何歪み画像の復元に応用されている。 DINNはこれらのシナリオ下で既存のGANベースの復元手法より優れており、提案フレームワークの有効性を実証している。 さらに, 提案手法を大気乱流下での人間の顔画像の1-1検証に適用し, 良好な性能を実現し, 提案手法の有効性を実証する。

Images degraded by geometric distortions pose a significant challenge to imaging and computer vision tasks such as object recognition. Deep learning-based imaging models usually fail to give accurate performance for geometrically distorted images. In this paper, we propose the deformation-invariant neural network (DINN), a framework to address the problem of imaging tasks for geometrically distorted images. The DINN outputs consistent latent features for images that are geometrically distorted but represent the same underlying object or scene. The idea of DINN is to incorporate a simple component, called the quasiconformal transformer network (QCTN), into other existing deep networks for imaging tasks. The QCTN is a deep neural network that outputs a quasiconformal map, which can be used to transform a geometrically distorted image into an improved version that is closer to the distribution of natural or good images. It first outputs a Beltrami coefficient, which measures the quasiconformality of the output deformation map. By controlling the Beltrami coefficient, the local geometric distortion under the quasiconformal mapping can be controlled. The QCTN is lightweight and simple, which can be readily integrated into other existing deep neural networks to enhance their performance. Leveraging our framework, we have developed an image classification network that achieves accurate classification of distorted images. Our proposed framework has been applied to restore geometrically distorted images by atmospheric turbulence and water turbulence. DINN outperforms existing GAN-based restoration methods under these scenarios, demonstrating the effectiveness of the proposed framework. Additionally, we apply our proposed framework to the 1-1 verification of human face images under atmospheric turbulence and achieve satisfactory performance, further demonstrating the efficacy of our approach.
翻訳日:2023-10-05 15:59:59 公開日:2023-10-04
# 連続する対比的な話し言葉理解

Continual Contrastive Spoken Language Understanding ( http://arxiv.org/abs/2310.02699v1 )

ライセンス: Link先を確認
Umberto Cappellazzo, Enrico Fini, Muqiao Yang, Daniele Falavigna, Alessio Brutti, Bhiksha Raj(参考訳) 近年、ニューラルネットワークは様々な分野において顕著な進歩を見せており、音声処理は例外ではない。 しかし、この分野における最近のブレークスルーは、大規模なデータセットと膨大なコンピューティングリソースを使用した広範なオフライントレーニングを必要とする。 残念なことに、これらのモデルは、新しいタスクを継続的に学習する際に、以前取得した知識を維持するのに苦労している。 本稿では,クラスインクリメンタルラーニング(CIL)設定における音声言語理解のためのシーケンス・ツー・シーケンス学習モデルの問題点を考察し,経験再現とコントラスト学習の組み合わせに依存するCIL手法であるCOCONUTを提案する。 リハーサルサンプルにのみ適用される標準教師付きコントラスト損失の修正版を通じて、ココナッツは同じクラスからより近いサンプルを取り出して他のクラスを押し出すことで学習した表現を保存する。 さらに,音声とテキストの特徴を整合させることにより,モデルが新たなデータのより識別的な表現を学ぶのに役立つマルチモーダルなコントラストロスを活用する。 また, コントラスト損失の強みと, 蒸留に用いる教師・学生建築の強みを組み合わせるため, 異なるコントラスト設計について検討した。 2つのSLUデータセットに対する実験により,提案手法の有効性とベースラインに対する大幅な改善が示された。 また,ココナッツをモデルのデコーダ側で動作させる手法と組み合わせることで,さらなるメトリクス改善が期待できることを示した。

Recently, neural networks have shown impressive progress across diverse fields, with speech processing being no exception. However, recent breakthroughs in this area require extensive offline training using large datasets and tremendous computing resources. Unfortunately, these models struggle to retain their previously acquired knowledge when learning new tasks continually, and retraining from scratch is almost always impractical. In this paper, we investigate the problem of learning sequence-to-sequence models for spoken language understanding in a class-incremental learning (CIL) setting and we propose COCONUT, a CIL method that relies on the combination of experience replay and contrastive learning. Through a modified version of the standard supervised contrastive loss applied only to the rehearsal samples, COCONUT preserves the learned representations by pulling closer samples from the same class and pushing away the others. Moreover, we leverage a multimodal contrastive loss that helps the model learn more discriminative representations of the new data by aligning audio and text features. We also investigate different contrastive designs to combine the strengths of the contrastive loss with teacher-student architectures used for distillation. Experiments on two established SLU datasets reveal the effectiveness of our proposed approach and significant improvements over the baselines. We also show that COCONUT can be combined with methods that operate on the decoder side of the model, resulting in further metrics improvements.
翻訳日:2023-10-05 15:51:31 公開日:2023-10-04
# 適応型アンバイアスクライアントサンプリングのばらつき低減によるフェデレート最適化の探索

Exploring Federated Optimization by Reducing Variance of Adaptive Unbiased Client Sampling ( http://arxiv.org/abs/2310.02698v1 )

ライセンス: Link先を確認
Dun Zeng, Zenglin Xu, Yu Pan, Qifan Wang, Xiaoying Tang(参考訳) フェデレーション学習(fl)システムは、通常、トレーニングプロセスを実行するために少数のクライアントをサンプリングする。 特に、サンプルクライアントの情報に基づいて構築されたグローバルモデルを更新するためのグローバル推定のばらつきは、フェデレートされた最適化品質に大きく関係している。 本稿では,サーバが追加のローカル通信や計算を必要とせずに,有望なサンプリング確率と信頼性の高いグローバル推定を構築できる,フェデレート最適化における"フリー"適応クライアントサンプリング手法について検討する。 サンプリング手順のマイナーな変種をキャプチャし,それに従ってグローバル推定を改善する。 そこで本研究では,クライアントサンプリングに配慮したオンライン凸最適化を実現するK-Vibという新しいサンプル手法を提案する。 これは、通信予算$k$で、後悔に縛られた$\tilde{\mathcal{o}}\big(n^{\frac{1}{3}}t^{\frac{2}{3}}/k^{\frac{4}{3}}\big)$の線形速度向上を実現する。 その結果,フェデレート最適化の性能が大幅に向上した。 古典的なフェデレーションタスクに関する理論的改善と集中的な実験が得られた。

Federated Learning (FL) systems usually sample a fraction of clients to conduct a training process. Notably, the variance of global estimates for updating the global model built on information from sampled clients is highly related to federated optimization quality. This paper explores a line of "free" adaptive client sampling techniques in federated optimization, where the server builds promising sampling probability and reliable global estimates without requiring additional local communication and computation. We capture a minor variant in the sampling procedure and improve the global estimation accordingly. Based on that, we propose a novel sampler called K-Vib, which solves an online convex optimization respecting client sampling in federated optimization. It achieves improved a linear speed up on regret bound $\tilde{\mathcal{O}}\big(N^{\frac{1}{3}}T^{\frac{2}{3}}/K^{\frac{4}{3}}\big)$ with communication budget $K$. As a result, it significantly improves the performance of federated optimization. Theoretical improvements and intensive experiments on classic federated tasks demonstrate our findings.
翻訳日:2023-10-05 15:51:06 公開日:2023-10-04
# 高次配列のモデリングのための確率的ブロック項分解

Probabilistic Block Term Decomposition for the Modelling of Higher-Order Arrays ( http://arxiv.org/abs/2310.02694v1 )

ライセンス: Link先を確認
Jesper L{\o}ve Hinrich, Morten M{\o}rup(参考訳) テンソルは科学や工学においてユビキタスであり、テンソル分解アプローチは高次構造を特徴づけるための重要なツールとなっている。 因子分解には、外積階カノニカルポリアディック分解(CPD)と、ブロック項分解(BTD)がこれらの2つの表現の間を補間する構造化中間体である多線形階タッカー分解が含まれる。 CPD、タッカー、BTDは伝統的に最大様相推定に依存してきたが、ベイズ推定は確率的CPDとタッカーを形成するために使われてきた。 本稿では,von-mises fisher行列分布を用いてbtdを形成する多線タッカー部分の直交性を課す効率的な変分ベイズ確率btdを提案する。 合成データと2つの実データについてベイズ推定法を強調し,提案するpbtdを雑音データとモデルオーダーの定量化に用いた。 確率的BTDは、多線形データにおけるパターンのロバストな推論手段を提供する適切な多線形構造を定量化することができる。

Tensors are ubiquitous in science and engineering and tensor factorization approaches have become important tools for the characterization of higher order structure. Factorizations includes the outer-product rank Canonical Polyadic Decomposition (CPD) as well as the multi-linear rank Tucker decomposition in which the Block-Term Decomposition (BTD) is a structured intermediate interpolating between these two representations. Whereas CPD, Tucker, and BTD have traditionally relied on maximum-likelihood estimation, Bayesian inference has been use to form probabilistic CPD and Tucker. We propose, an efficient variational Bayesian probabilistic BTD, which uses the von-Mises Fisher matrix distribution to impose orthogonality in the multi-linear Tucker parts forming the BTD. On synthetic and two real datasets, we highlight the Bayesian inference procedure and demonstrate using the proposed pBTD on noisy data and for model order quantification. We find that the probabilistic BTD can quantify suitable multi-linear structures providing a means for robust inference of patterns in multi-linear data.
翻訳日:2023-10-05 15:50:46 公開日:2023-10-04
# クラスタリングによる画像テキストグラフマッチングによる領域ギャップのブリッジ

Bridging the Domain Gap by Clustering-based Image-Text Graph Matching ( http://arxiv.org/abs/2310.02692v1 )

ライセンス: Link先を確認
Nokyung Park, Daewon Chae, Jeongyong Shim, Sangpil Kim, Eun-Sol Kim, Jinkyu Kim(参考訳) ドメイン不変表現の学習は、対象とするタスクドメインを十分に一般化できるモデルを訓練する上で重要である。 テキスト記述は本質的に概念のセマンティック構造を含み、そのような補助的なセマンティックキューはドメインの一般化問題に対する効果的なピボット埋め込みとして利用することができる。 ここでは,画像とテキストを融合したマルチモーダルグラフ表現を用いて,局所画像とテキスト記述子間の固有の意味構造を考慮し,ドメイン不変なピボット埋め込みを実現する。 具体的には、ドメイン不変の特徴を学習することを目的とする。 (i)図による画像及びテキスト記述、及びそれによる表現 (ii)グラフベースの画像ノードの特徴をテキストグラフに同時マッチングすること。 我々は,CUB-DGやDomainBedといった大規模公開データセットを実験し,これらのデータセット上での適合あるいは最先端のパフォーマンスを実現する。 私たちのコードは出版時に公開されます。

Learning domain-invariant representations is important to train a model that can generalize well to unseen target task domains. Text descriptions inherently contain semantic structures of concepts and such auxiliary semantic cues can be used as effective pivot embedding for domain generalization problems. Here, we use multimodal graph representations, fusing images and text, to get domain-invariant pivot embeddings by considering the inherent semantic structure between local images and text descriptors. Specifically, we aim to learn domain-invariant features by (i) representing the image and text descriptions with graphs, and by (ii) clustering and matching the graph-based image node features into textual graphs simultaneously. We experiment with large-scale public datasets, such as CUB-DG and DomainBed, and our model achieves matched or better state-of-the-art performance on these datasets. Our code will be publicly available upon publication.
翻訳日:2023-10-05 15:50:28 公開日:2023-10-04
# フーリエニューラル演算子を用いたロバスト海洋サブグリッドスケールパラメータ化

Robust Ocean Subgrid-Scale Parameterizations Using Fourier Neural Operators ( http://arxiv.org/abs/2310.02691v1 )

ライセンス: Link先を確認
Victor Mangeleer and Gilles Louppe(参考訳) 気候シミュレーションでは、小規模プロセスは海洋力学を形作るが、直接解決するには計算コストがかかる。 このため、それらの寄与は経験的パラメータ化を用いて概ね近似され、長期射影において重大な誤差をもたらす。 本研究では,フーリエニューラル演算子に基づくパラメータ化手法を開発し,他の手法と比較してその精度と一般化性を示す。 最後に、周波数領域で動作するニューラルネットワークの可能性と限界について論じ、今後の研究の道を開く。

In climate simulations, small-scale processes shape ocean dynamics but remain computationally expensive to resolve directly. For this reason, their contributions are commonly approximated using empirical parameterizations, which lead to significant errors in long-term projections. In this work, we develop parameterizations based on Fourier Neural Operators, showcasing their accuracy and generalizability in comparison to other approaches. Finally, we discuss the potential and limitations of neural networks operating in the frequency domain, paving the way for future investigation.
翻訳日:2023-10-05 15:50:12 公開日:2023-10-04
# 精神疾患診断のための多次元埋め込み型モダリティ融合変圧器

Multi-Dimension-Embedding-Aware Modality Fusion Transformer for Psychiatric Disorder Clasification ( http://arxiv.org/abs/2310.02690v1 )

ライセンス: Link先を確認
Guoxin Wang, Xuyang Cao, Shan An, Fengmei Fan, Chao Zhang, Jinsong Wang, Feng Yu, Zhiren Wang(参考訳) 深層学習のアプローチは、神経画像技術とともに、精神疾患の分類において重要な役割を果たす。 精神疾患の診断に関するこれまでの研究は、主に、sending-state functional magnetic resonance imaging (rs-fMRI)の機能的接続行列を入力として使用することに焦点を当てており、なおも、時系列のrs-fMRIデータの豊富な時間情報を完全に活用する必要がある。 本研究では,統合失調症と双極性障害分類のための多次元埋め込み型モダリティ融合トランス (MFFormer) について, rs-fMRIとT1重み付き構造MRI (T1w sMRI) を用いた検討を行った。 具体的には、rs-fMRIの時間的情報とsMRIの空間的情報を完全に活用するために、入力2次元時系列のrs-fMRIと3次元ボリュームT1wの深層学習アーキテクチャを構築した。 さらに,多モードのハイブリッド特徴写像を多モードで自己アテンションすることで,モダリティ内への注意と情報融合を促進するために,FTM(Fusion Transformer Module)を設計する。 さらに,多次元特徴写像を異なるモジュラリティから適切に整列させるために,次元アップと次元ダウンの戦略を提案する。 今回提案したMFFormerは,統合失調症と双極性障害の診断において,単モードMRIや多モードMRIより優れていた。

Deep learning approaches, together with neuroimaging techniques, play an important role in psychiatric disorders classification. Previous studies on psychiatric disorders diagnosis mainly focus on using functional connectivity matrices of resting-state functional magnetic resonance imaging (rs-fMRI) as input, which still needs to fully utilize the rich temporal information of the time series of rs-fMRI data. In this work, we proposed a multi-dimension-embedding-aware modality fusion transformer (MFFormer) for schizophrenia and bipolar disorder classification using rs-fMRI and T1 weighted structural MRI (T1w sMRI). Concretely, to fully utilize the temporal information of rs-fMRI and spatial information of sMRI, we constructed a deep learning architecture that takes as input 2D time series of rs-fMRI and 3D volumes T1w. Furthermore, to promote intra-modality attention and information fusion across different modalities, a fusion transformer module (FTM) is designed through extensive self-attention of hybrid feature maps of multi-modality. In addition, a dimension-up and dimension-down strategy is suggested to properly align feature maps of multi-dimensional from different modalities. Experimental results on our private and public OpenfMRI datasets show that our proposed MFFormer performs better than that using a single modality or multi-modality MRI on schizophrenia and bipolar disorder diagnosis.
翻訳日:2023-10-05 15:50:03 公開日:2023-10-04
# USB-NeRF: シャッターバンドル調整ニューラルラジアンスフィールドの展開

USB-NeRF: Unrolling Shutter Bundle Adjusted Neural Radiance Fields ( http://arxiv.org/abs/2310.02687v1 )

ライセンス: Link先を確認
Moyang Li, Peng Wang, Lingzhe Zhao, Bangyan Liao and Peidong Liu(参考訳) neural radiance fields (nerf)は、3dシーンを表現し、新しいビューイメージを合成する素晴らしい能力により、近年注目を集めている。 既存の作業は通常、入力画像がグローバルシャッターカメラによってキャプチャされると仮定する。 したがって、ローリングシャッター(RS)画像は、新規なビュー合成のための既製のNeRFアルゴリズムに自明に適用できない。 ローリングシャッター効果はカメラポーズ推定の精度にも影響し(例えばCOLMAP)、RS画像によるNeRFアルゴリズムの成功をさらに防ぐことができる。 本稿では,USB-NeRF(Unrolling Shutter Bundle Adjusted Neural Radiance Fields)を提案する。 USB-NeRFは、RSカメラの物理的画像形成過程をモデル化することにより、回転シャッター歪みを補正し、NeRFの枠組みの下で同時に正確なカメラ運動軌跡を復元することができる。 実験結果から, RS効果除去, 新規視像合成, カメラモーション推定の両面で, USB-NeRFは従来よりも優れた性能を示した。 さらに,我々のアルゴリズムは,RS画像から高忠実度高フレームレートグローバルシャッター映像の復元にも利用できる。

Neural Radiance Fields (NeRF) has received much attention recently due to its impressive capability to represent 3D scene and synthesize novel view images. Existing works usually assume that the input images are captured by a global shutter camera. Thus, rolling shutter (RS) images cannot be trivially applied to an off-the-shelf NeRF algorithm for novel view synthesis. Rolling shutter effect would also affect the accuracy of the camera pose estimation (e.g. via COLMAP), which further prevents the success of NeRF algorithm with RS images. In this paper, we propose Unrolling Shutter Bundle Adjusted Neural Radiance Fields (USB-NeRF). USB-NeRF is able to correct rolling shutter distortions and recover accurate camera motion trajectory simultaneously under the framework of NeRF, by modeling the physical image formation process of a RS camera. Experimental results demonstrate that USB-NeRF achieves better performance compared to prior works, in terms of RS effect removal, novel view image synthesis as well as camera motion estimation. Furthermore, our algorithm can also be used to recover high-fidelity high frame-rate global shutter video from a sequence of RS images.
翻訳日:2023-10-05 15:49:34 公開日:2023-10-04
# 測定式量子イジングチェーンにおけるエンタングルメントの増強

Enhanced Entanglement in the Measurement-Altered Quantum Ising Chain ( http://arxiv.org/abs/2310.02686v1 )

ライセンス: Link先を確認
Alessio Paviglianiti and Xhek Turkeshi and Marco Schir\`o and Alessandro Silva(参考訳) 多体系の特性に対する測定の影響を理解することは、量子力学および量子技術における根本的な問題である。 本稿では,確率的局所測定の有限密度が与えられた状態の絡み合い構造をどのように修正するかを考察する。 様々な測定プロトコルを考慮して、量子イジングモデルの基底状態から生じる投影されたアンサンブルの典型的な量子相関について検討する。 大規模数値シミュレーションを用いて,非等価な測定プロトコル間で有意な差異を示す。 驚くべきことに、強制的オンサイト計測は二部構造と多部構造の両方の絡み合いを高めることができる。 本稿では,これらの結果を解析的に裏付ける現象論的玩具モデルと摂動計算について述べる。 さらに、これらの考察を、光学監視系で自然に発生する非エルミートイジングモデルに拡張し、その定性的絡み合い特性が有限密度の射影測定によって変化しないことを示す。 全体として、これらの結果は、局所的な量子測定が単に自由度を乱すだけでなく、実際に系の絡み合いを強める複雑な現象論を明らかにする。

Understanding the influence of measurements on the properties of many-body systems is a fundamental problem in quantum mechanics and for quantum technologies. This paper explores how a finite density of stochastic local measurement modifies a given state's entanglement structure. Considering various measurement protocols, we explore the typical quantum correlations of their associated projected ensembles arising from the ground state of the quantum Ising model. Using large-scale numerical simulations, we demonstrate substantial differences among inequivalent measurement protocols. Surprisingly, we observe that forced on-site measurements can enhance both bipartite and multipartite entanglement. We present a phenomenological toy model and perturbative calculations to analytically support these results. Furthermore, we extend these considerations to the non-Hermitian Ising model, naturally arising in optically monitored systems, and we show that its qualitative entanglement features are not altered by a finite density of projective measurements. Overall, these results reveal a complex phenomenology where local quantum measurements do not simply disentangle degrees of freedom, but may actually strengthen the entanglement in the system.
翻訳日:2023-10-05 15:49:13 公開日:2023-10-04
# 拡散生成フローサンプリング:部分軌道最適化による学習信号の改善

Diffusion Generative Flow Samplers: Improving learning signals through partial trajectory optimization ( http://arxiv.org/abs/2310.02679v1 )

ライセンス: Link先を確認
Dinghuai Zhang, Ricky Tian Qi Chen, Cheng-Hao Liu, Aaron Courville, Yoshua Bengio(参考訳) 機械学習や統計学でよく見られる基本課題である,難解な高次元密度関数からのサンプリング問題に取り組む。 対象密度から近似サンプルをモデル化するために,制御確率過程を利用した最近のサンプリングベースアプローチを拡張する。 これらのアプローチの主な欠点は、トレーニング対象が計算に完全な軌道を必要とすることであり、結果として、全軌道と終端時間のみに存在する学習信号の使用によるクレジット割り当ての問題が緩やかになる。 そこで本研究では, 学習過程を比較的短い部分的軌道セグメントに分割し, 追加の「フロー関数」をパラメータ化できるサンプリングベースフレームワークである拡散生成フローサンプラー(dgfs)を提案する。 本手法は,生成フローネットワーク(gflownets)で開発された理論から着想を得て,中間学習信号の利用を可能にし,オフポリシー探索能力の恩恵を受ける。 様々な挑戦的な実験を通して、DGFSはより正確な正規化定数の推定結果が得られることを示した。

We tackle the problem of sampling from intractable high-dimensional density functions, a fundamental task that often appears in machine learning and statistics. We extend recent sampling-based approaches that leverage controlled stochastic processes to model approximate samples from these target densities. The main drawback of these approaches is that the training objective requires full trajectories to compute, resulting in sluggish credit assignment issues due to use of entire trajectories and a learning signal present only at the terminal time. In this work, we present Diffusion Generative Flow Samplers (DGFS), a sampling-based framework where the learning process can be tractably broken down into short partial trajectory segments, via parameterizing an additional "flow function". Our method takes inspiration from the theory developed for generative flow networks (GFlowNets), allowing us to make use of intermediate learning signals and benefit from off-policy exploration capabilities. Through a variety of challenging experiments, we demonstrate that DGFS results in more accurate estimates of the normalization constant than closely-related prior methods.
翻訳日:2023-10-05 15:48:54 公開日:2023-10-04
# PostRainBench: 包括的なベンチマークと降水予測の新しいモデル

PostRainBench: A comprehensive benchmark and a new model for precipitation forecasting ( http://arxiv.org/abs/2310.02676v1 )

ライセンス: Link先を確認
Yujin Tang, Jiaming Zhou, Xiang Pan, Zeying Gong, Junwei Liang(参考訳) 正確な降水予測は科学的・社会的に重要な課題である。 データ駆動アプローチは、この課題に対処するために広く使われているソリューションとして現れています。 しかし、データ駆動アプローチのみに依存することは、基礎となる物理学のモデル化に制限があり、正確な予測は困難である。 AIベースの後処理技術を従来の数値気象予測(NWP)手法と組み合わせることで、予測精度を向上させるためのより効果的なソリューションを提供する。 降雨量の予測は, 降雨量の不均衡や複数の気象変数の複雑な関係が原因で, 従来から行われてきた豪雨の正確な予測は困難である。 これらの制約に対処するため、我々は、NWP後処理に基づく降水予測のための3つのデータセットからなる包括的多変数NWP後処理ベンチマークであるPostRainBenchを紹介した。 重み付き損失関数を特別に設計した,シンプルで効果的なチャネル注意強化マルチタスク学習フレームワークであるCAMTを提案する。 フレキシブルなデザインで、様々なバックボーンと簡単にプラグ&プレイできる。 提案ベンチマークの広範な実験結果から,本手法は3つのデータセットの降雨csiの6.3%,4.7%,26.8%で最先端手法を上回った。 最も注目すべきは, 降水条件下での従来の数値気象予測(NWP)手法よりも優れた深層学習に基づく手法である。 各データセットの豪雨csiにおけるnwp予測に対する15.6%、17.4%、31.8%の改善を示している。 これらの結果から,極度の気象事象による深刻な影響を低減できる可能性が示唆された。

Accurate precipitation forecasting is a vital challenge of both scientific and societal importance. Data-driven approaches have emerged as a widely used solution for addressing this challenge. However, solely relying on data-driven approaches has limitations in modeling the underlying physics, making accurate predictions difficult. Coupling AI-based post-processing techniques with traditional Numerical Weather Prediction (NWP) methods offers a more effective solution for improving forecasting accuracy. Despite previous post-processing efforts, accurately predicting heavy rainfall remains challenging due to the imbalanced precipitation data across locations and complex relationships between multiple meteorological variables. To address these limitations, we introduce the PostRainBench, a comprehensive multi-variable NWP post-processing benchmark consisting of three datasets for NWP post-processing-based precipitation forecasting. We propose CAMT, a simple yet effective Channel Attention Enhanced Multi-task Learning framework with a specially designed weighted loss function. Its flexible design allows for easy plug-and-play integration with various backbones. Extensive experimental results on the proposed benchmark show that our method outperforms state-of-the-art methods by 6.3%, 4.7%, and 26.8% in rain CSI on the three datasets respectively. Most notably, our model is the first deep learning-based method to outperform traditional Numerical Weather Prediction (NWP) approaches in extreme precipitation conditions. It shows improvements of 15.6%, 17.4%, and 31.8% over NWP predictions in heavy rain CSI on respective datasets. These results highlight the potential impact of our model in reducing the severe consequences of extreme weather events.
翻訳日:2023-10-05 15:48:34 公開日:2023-10-04
# モジュールデカップリングを用いた時間グラフネットワークの活用

Leveraging Temporal Graph Networks Using Module Decoupling ( http://arxiv.org/abs/2310.02721v1 )

ライセンス: Link先を確認
Or Feldman, Chaim Baskin(参考訳) 動的グラフを学習するための現代的なアプローチでは、更新をひとつずつ適用するのではなく、バッチを使用するようになった。 バッチを使用することで,グラフ更新を極端な速度で受信するストリーミングシナリオにおいて,これらのテクニックが有効になる。 しかしバッチを使用することで、モデルを頻繁に更新する必要がなくなり、結果としてパフォーマンスが低下する。 本研究では,バッチを用いたモデル更新を頻繁に行うためのデカップリング戦略を提案する。 時間グラフネットワークのコアモジュールを分離し,最小限の学習可能なパラメータを用いて実装することにより,動的グラフを学習するための極めて効率的なモデルである軽量分離時間グラフネットワーク(LDTGN)を開発した。 LDTGは、様々な動的グラフベンチマークで検証され、従来の技術よりもはるかに高いスループットで、同等または最先端の結果が得られた。 特に,uslegis や untrade などの高速モデル更新率を必要とするベンチマークでは,従来のアプローチを20 %以上上回っている。 実験を再現するコードは、 \href{https://orfeld415.github.io/module-decoupling}{this http url}で利用できます。

Modern approaches for learning on dynamic graphs have adopted the use of batches instead of applying updates one by one. The use of batches allows these techniques to become helpful in streaming scenarios where updates to graphs are received at extreme speeds. Using batches, however, forces the models to update infrequently, which results in the degradation of their performance. In this work, we suggest a decoupling strategy that enables the models to update frequently while using batches. By decoupling the core modules of temporal graph networks and implementing them using a minimal number of learnable parameters, we have developed the Lightweight Decoupled Temporal Graph Network (LDTGN), an exceptionally efficient model for learning on dynamic graphs. LDTG was validated on various dynamic graph benchmarks, providing comparable or state-of-the-art results with significantly higher throughput than previous art. Notably, our method outperforms previous approaches by more than 20\% on benchmarks that require rapid model update rates, such as USLegis or UNTrade. The code to reproduce our experiments is available at \href{https://orfeld415.github.io/module-decoupling}{this http url}.
翻訳日:2023-10-05 15:43:51 公開日:2023-10-04
# マルチビュー幾何学における条件数、相対ポーズ推定における不安定性とRANSAC

Condition numbers in multiview geometry, instability in relative pose estimation, and RANSAC ( http://arxiv.org/abs/2310.02719v1 )

ライセンス: Link先を確認
Hongyi Fan, Joe Kileel, Benjamin Kimia(参考訳) 本稿では,多視点幾何学における最小問題の数値条件付けを計算代数学とリーマン幾何学のツールを用いて解析する一般的な枠組みを提案する。 特別な動機は、標準の5ポイントまたは7ポイントのランダムサンプルコンセンサス(RANSAC)アルゴリズムに基づく相対ポーズ推定が、外れ値が存在しなくてもフェールし、仮説を支持する十分なデータが存在するという事実にある。 これらのケースは5点と7点の極小問題の本質的不安定性に起因すると論じている。 本研究では,無限の条件数につながる世界シーンと,不条件の画像データの両方において,不安定性を特徴付ける枠組みを適用した。 このアプローチは、最小問題を解決する前に条件数を評価するための計算テストを生成する。 最後に、合成および実データ実験は、RANSACが外れ値の除去だけでなく、我々の理論が予測したように、画像データの選択にも役立っていることを示唆している。

In this paper we introduce a general framework for analyzing the numerical conditioning of minimal problems in multiple view geometry, using tools from computational algebra and Riemannian geometry. Special motivation comes from the fact that relative pose estimation, based on standard 5-point or 7-point Random Sample Consensus (RANSAC) algorithms, can fail even when no outliers are present and there is enough data to support a hypothesis. We argue that these cases arise due to the intrinsic instability of the 5- and 7-point minimal problems. We apply our framework to characterize the instabilities, both in terms of the world scenes that lead to infinite condition number, and directly in terms of ill-conditioned image data. The approach produces computational tests for assessing the condition number before solving the minimal problem. Lastly synthetic and real data experiments suggest that RANSAC serves not only to remove outliers, but also to select for well-conditioned image data, as predicted by our theory.
翻訳日:2023-10-05 15:43:32 公開日:2023-10-04
# 一般化逆数によるパンシャープの理解

Understanding Pan-Sharpening via Generalized Inverse ( http://arxiv.org/abs/2310.02718v1 )

ライセンス: Link先を確認
Shiqi Liu, Yutong Bai, Xinyang Han, Alan Yuille(参考訳) パンシャーピングアルゴリズムは、パンクロマティック画像とマルチスペクトル画像を用いて、高空間および高スペクトル画像を得る。 しかし、アルゴリズムの最適化は異なる基準で設計されている。 我々はパンシャープ化問題を記述するために単純な行列式を採用する。 解の存在条件とスペクトルと空間分解能の獲得について論じる。 空間的およびスペクトル的ダウンサンプル行列をより良く取得するために、ダウンサンプリング強化法が導入された。 一般化された逆理論により、汎逆行列の2つの形式を導出し、パンシャープニングの2つの顕著なクラス、すなわち成分置換法と多重解像度解析法に対応できる。 特に、Gram Schmidt Adaptive (GSA) は、成分置換の一般的な逆行列の定式化に従うことが証明された。 スペクトル関数の一般逆行列に先行するモデルを描画した。 理論的誤りを解析する。 合成実験と実データ実験が実施されている。 提案手法は, 合成実験と実実験の両方において, 定性的に他の方法よりも優れ, 鋭い。 ダウンサンプル増強効果は実実験において定量的にも質的にも良好な結果を示す。 一般化された逆行列理論はパンシャルペンの理解を深める助けとなる。

Pan-sharpening algorithm utilizes panchromatic image and multispectral image to obtain a high spatial and high spectral image. However, the optimizations of the algorithms are designed with different standards. We adopt the simple matrix equation to describe the Pan-sharpening problem. The solution existence condition and the acquirement of spectral and spatial resolution are discussed. A down-sampling enhancement method was introduced for better acquiring the spatial and spectral down-sample matrices. By the generalized inverse theory, we derived two forms of general inverse matrix formulations that can correspond to the two prominent classes of Pan-sharpening methods, that is, component substitution and multi-resolution analysis methods. Specifically, the Gram Schmidt Adaptive(GSA) was proved to follow the general inverse matrix formulation of component substitution. A model prior to the general inverse matrix of the spectral function was rendered. The theoretical errors are analyzed. Synthetic experiments and real data experiments are implemented. The proposed methods are better and sharper than other methods qualitatively in both synthetic and real experiments. The down-sample enhancement effect is shown of better results both quantitatively and qualitatively in real experiments. The generalized inverse matrix theory help us better understand the Pan-sharpening.
翻訳日:2023-10-05 15:43:14 公開日:2023-10-04
# 未特定ユーザモデルによる帯域のオンラインクラスタリング

Online Clustering of Bandits with Misspecified User Models ( http://arxiv.org/abs/2310.02717v1 )

ライセンス: Link先を確認
Zhiyong Wang, Jize Xie, Xutong Liu, Shuai Li, John C.S. Lui(参考訳) 文脈線形帯域は、与えられた腕の特徴が与えられた場合、学習エージェントが各ラウンドの腕を選択して、長期の累積報酬を最大化する重要なオンライン学習問題である。 バンドイットのクラスタリング(cb)と呼ばれる一連の作品は、ユーザの好みに対する協調効果を利用し、古典的な線形バンドイットアルゴリズムよりも大幅に改善されている。 しかし、既存のCBアルゴリズムは明確に定義された線形ユーザモデルを必要としており、この臨界仮定が成立しない場合に失敗する可能性がある。 CBアルゴリズムが不特定ユーザモデルでより実用的なシナリオのために設計できるかどうかは未解決の問題である。 本稿では,不特定ユーザモデル (CBMUM) を用いたバンドのクラスタリングにおいて,ユーザモデルに期待される報酬を完全な線形モデルから遠ざけるという重要な問題を初めて提示する。 モデルの誤特定による不正確なユーザの選好推定と誤クラスタリングに対応する2つの頑健なCBアルゴリズムであるRCLUMBとRCLUMB(動的グラフと集合で学習されたクラスタリング構造を表現する)を考案する。 o(\epsilon_*t\sqrt{md\log t} + d\sqrt{mt}\log t)$ 従来の cb よりも穏やかな仮定の下でのアルゴリズムに対する後悔の限界(特に、腕の分布に関する制限的な技術的仮定を乗り越える)は、t$ から対数因子までの漸近的に下限に一致し、またいくつかの退化の場合における最先端の結果にも一致する。 ミスクラスタリングによる後悔を証明する技術は非常に一般的で、独立した関心事である可能性がある。 合成データと実世界のデータの両方の実験では、過去のアルゴリズムよりも性能が優れていた。

The contextual linear bandit is an important online learning problem where given arm features, a learning agent selects an arm at each round to maximize the cumulative rewards in the long run. A line of works, called the clustering of bandits (CB), utilize the collaborative effect over user preferences and have shown significant improvements over classic linear bandit algorithms. However, existing CB algorithms require well-specified linear user models and can fail when this critical assumption does not hold. Whether robust CB algorithms can be designed for more practical scenarios with misspecified user models remains an open problem. In this paper, we are the first to present the important problem of clustering of bandits with misspecified user models (CBMUM), where the expected rewards in user models can be perturbed away from perfect linear models. We devise two robust CB algorithms, RCLUMB and RSCLUMB (representing the learned clustering structure with dynamic graph and sets, respectively), that can accommodate the inaccurate user preference estimations and erroneous clustering caused by model misspecifications. We prove regret upper bounds of $O(\epsilon_*T\sqrt{md\log T} + d\sqrt{mT}\log T)$ for our algorithms under milder assumptions than previous CB works (notably, we move past a restrictive technical assumption on the distribution of the arms), which match the lower bound asymptotically in $T$ up to logarithmic factors, and also match the state-of-the-art results in several degenerate cases. The techniques in proving the regret caused by misclustering users are quite general and may be of independent interest. Experiments on both synthetic and real-world data show our outperformance over previous algorithms.
翻訳日:2023-10-05 15:42:55 公開日:2023-10-04
# getavatar: 想像可能な人間のアバターのための生成的なテクスチャメッシュ

GETAvatar: Generative Textured Meshes for Animatable Human Avatars ( http://arxiv.org/abs/2310.02714v1 )

ライセンス: Link先を確認
Xuanmeng Zhang, Jianfeng Zhang, Rohan Chacko, Hongyi Xu, Guoxian Song, Yi Yang, Jiashi Feng(参考訳) 高品質なテクスチャとジオメトリーを備えたアニマタブルな人体アバターを製作することを目的とした,3D対応フルボディヒューマンジェネレーションの課題について検討した。 一般的にこの分野では2つの課題が残っている。 一 衣服のしわ等の写実的な詳細が豊かな測地線の作成に苦しむ既存の方法 ii) 通常、合成プロセスではボリュームラミアンスフィールドとニューラルレンダラーを使用し、高分解能レンダリングは自明ではない。 これらの問題を克服するため,getavatar を提案する。getavatar は,映像化可能なアバターのテクスチャ付き3dメッシュを直接生成する生成モデルであり,フォトリアリスティックな外観と詳細な幾何学的詳細を持つ。 具体的には,3次元スキャンデータの2次元正規マップから学習することにより,明瞭な表面モデリングによる明瞭な3次元表現をまず設計し,生成された人間をリアルな表面詳細で豊かにする。 第二に、明示的なメッシュ表現により、ラスタライズベースのレンダラーを使用して表面レンダリングを行い、高解像度の画像生成を効率的に行うことができる。 広汎な実験により,GETAvatarは外観と幾何学的品質の両方において,3次元認識された人為的生成に対して最先端の性能を達成することが示された。 特に、GETAvatarは17FPSの512x512解像度と14FPSの1024x1024解像度で画像を生成でき、以前の方法よりも2倍改善されている。 コードとモデルが利用可能になります。

We study the problem of 3D-aware full-body human generation, aiming at creating animatable human avatars with high-quality textures and geometries. Generally, two challenges remain in this field: i) existing methods struggle to generate geometries with rich realistic details such as the wrinkles of garments; ii) they typically utilize volumetric radiance fields and neural renderers in the synthesis process, making high-resolution rendering non-trivial. To overcome these problems, we propose GETAvatar, a Generative model that directly generates Explicit Textured 3D meshes for animatable human Avatar, with photo-realistic appearance and fine geometric details. Specifically, we first design an articulated 3D human representation with explicit surface modeling, and enrich the generated humans with realistic surface details by learning from the 2D normal maps of 3D scan data. Second, with the explicit mesh representation, we can use a rasterization-based renderer to perform surface rendering, allowing us to achieve high-resolution image generation efficiently. Extensive experiments demonstrate that GETAvatar achieves state-of-the-art performance on 3D-aware human generation both in appearance and geometry quality. Notably, GETAvatar can generate images at 512x512 resolution with 17FPS and 1024x1024 resolution with 14FPS, improving upon previous methods by 2x. Our code and models will be available.
翻訳日:2023-10-05 15:42:18 公開日:2023-10-04
# scHyena:脳における全長シングルセルRNAシーク解析の基礎モデル

scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis in Brain ( http://arxiv.org/abs/2310.02713v1 )

ライセンス: Link先を確認
Gyutaek Oh, Baekgyu Choi, Inkyung Jung, and Jong Chul Ye(参考訳) 単細胞RNAシークエンシング(scRNA-seq)は、複雑な組織内の複雑な細胞多様性の解明に大きく貢献している。 これは脳において特に重要であり、他の組織型よりも多様な細胞型を示し、様々な細胞コンテキストにおける脳機能のより深い理解を得る。 しかし、scRNA-seqデータの解析は、ドロップアウト現象に起因する固有の測定ノイズと、広範な遺伝子発現情報の限定的利用のため、依然として課題である。 本研究では,これらの課題に対処し,脳内scRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。 具体的には,近年のハイエナ演算子に触発されて,線形適応層,遺伝子埋め込みによる位置符号化,双方向ハイエナ演算子を備えた,Singe-cell Hyena(scHyena)と呼ばれるトランスフォーマーアーキテクチャを設計する。 これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。 特に, このモデルでは, scRNA-seq データの完全長を用いて, scHyena の事前学習により, 細胞および遺伝子の一般化可能な特徴を学習する。 セル型分類やscRNA-seq計算を含む下流タスクにおける他のベンチマーク手法と比較して, scHyenaの優れた性能を示す。

Single-cell RNA sequencing (scRNA-seq) has made significant strides in unraveling the intricate cellular diversity within complex tissues. This is particularly critical in the brain, presenting a greater diversity of cell types than other tissue types, to gain a deeper understanding of brain function within various cellular contexts. However, analyzing scRNA-seq data remains a challenge due to inherent measurement noise stemming from dropout events and the limited utilization of extensive gene expression information. In this work, we introduce scHyena, a foundation model designed to address these challenges and enhance the accuracy of scRNA-seq analysis in the brain. Specifically, inspired by the recent Hyena operator, we design a novel Transformer architecture called singe-cell Hyena (scHyena) that is equipped with a linear adaptor layer, the positional encoding via gene-embedding, and a {bidirectional} Hyena operator. This enables us to process full-length scRNA-seq data without losing any information from the raw data. In particular, our model learns generalizable features of cells and genes through pre-training scHyena using the full length of scRNA-seq data. We demonstrate the superior performance of scHyena compared to other benchmark methods in downstream tasks, including cell type classification and scRNA-seq imputation.
翻訳日:2023-10-05 15:41:49 公開日:2023-10-04
# ED-NeRF:潜時空間NeRFを用いた3次元シーンの効率的なテキストガイド編集

ED-NeRF: Efficient Text-Guided Editing of 3D Scene using Latent Space NeRF ( http://arxiv.org/abs/2310.02712v1 )

ライセンス: Link先を確認
Jangho Park, Gihyun Kwon, Jong Chul Ye(参考訳) 近年,テキスト・画像拡散モデルが大幅に進歩し,2次元画像生成における画期的な性能が向上した。 これらの進歩は3dモデルに拡張され、テキスト記述から新しい3dオブジェクトを生成することができる。 これは、テキストコンディショニングによる既存の3Dオブジェクトの操作を可能にするNeRF編集方法へと進化した。 しかし、既存のNeRF編集技術は、訓練速度の遅いことと、編集を適切に考慮しない損失関数の使用により、その性能に限界に直面している。 そこで本研究では,LDM(潜伏拡散モデル)の潜伏空間に現実のシーンを埋め込むことにより,ED-NeRFと呼ばれる新しい3次元NeRF編集手法を提案する。 このアプローチにより、従来の画像空間のNeRF編集に比べて、より高速であるだけでなく、より編集しやすいNeRFバックボーンが得られる。 さらに, 2次元画像編集に用いられたデルタ脱離スコア(dds)蒸留損失を3次元領域に移行し, 編集用に調整した損失関数の改良を提案する。 この新たな損失関数は、よく知られたスコア蒸留サンプリング(SDS)の損失を、編集目的に適した点において上回る。 実験により, ED-NeRFは, 最先端の3D編集モデルと比較して, 出力品質の向上を図りながら, 高速な編集を実現することを示した。

Recently, there has been a significant advancement in text-to-image diffusion models, leading to groundbreaking performance in 2D image generation. These advancements have been extended to 3D models, enabling the generation of novel 3D objects from textual descriptions. This has evolved into NeRF editing methods, which allow the manipulation of existing 3D objects through textual conditioning. However, existing NeRF editing techniques have faced limitations in their performance due to slow training speeds and the use of loss functions that do not adequately consider editing. To address this, here we present a novel 3D NeRF editing approach dubbed ED-NeRF by successfully embedding real-world scenes into the latent space of the latent diffusion model (LDM) through a unique refinement layer. This approach enables us to obtain a NeRF backbone that is not only faster but also more amenable to editing compared to traditional image space NeRF editing. Furthermore, we propose an improved loss function tailored for editing by migrating the delta denoising score (DDS) distillation loss, originally used in 2D image editing to the three-dimensional domain. This novel loss function surpasses the well-known score distillation sampling (SDS) loss in terms of suitability for editing purposes. Our experimental results demonstrate that ED-NeRF achieves faster editing speed while producing improved output quality compared to state-of-the-art 3D editing models.
翻訳日:2023-10-05 15:41:26 公開日:2023-10-04
# ローカル検索GFlowNets

Local Search GFlowNets ( http://arxiv.org/abs/2310.02710v1 )

ライセンス: Link先を確認
Minsu Kim, Taeyoung Yun, Emmanuel Bengio, Dinghuai Zhang, Yoshua Bengio, Sungsoo Ahn, Jinkyoo Park(参考訳) Generative Flow Networks (GFlowNets) は、報酬に比例した離散オブジェクト上の分布を学習するアモータイズされたサンプリング手法である。 gflownetsは多種多様なサンプルを生成できるが、広いサンプル空間での過剰な爆発により、常に高い報酬でサンプルを生成するのに苦労することがある。 本稿では,高報酬サンプル空間の活用に着目した局所探索によるgflownetsの学習手法を提案する。 我々の主目的は、それぞれ後方政策と前方政策によって導かれた破壊と再建を通じて、地域を探索することである。 これにより、サンプルをハイリワードソリューションに偏り付けることができ、これは典型的なGFlowNetソリューション生成スキームでは不可能であり、前方ポリシーを使ってソリューションをスクラッチから生成する。 大規模な実験は、いくつかの生化学的タスクにおいて顕著な性能改善を示す。 ソースコードは: \url{https://github.com/dbsxodud-11/ls_gfn}.

Generative Flow Networks (GFlowNets) are amortized sampling methods that learn a distribution over discrete objects proportional to their rewards. GFlowNets exhibit a remarkable ability to generate diverse samples, yet occasionally struggle to consistently produce samples with high rewards due to over-exploration on wide sample space. This paper proposes to train GFlowNets with local search which focuses on exploiting high rewarded sample space to resolve this issue. Our main idea is to explore the local neighborhood via destruction and reconstruction guided by backward and forward policies, respectively. This allows biasing the samples toward high-reward solutions, which is not possible for a typical GFlowNet solution generation scheme which uses the forward policy to generate the solution from scratch. Extensive experiments demonstrate a remarkable performance improvement in several biochemical tasks. Source code is available: \url{https://github.com/dbsxodud-11/ls_gfn}.
翻訳日:2023-10-05 15:40:46 公開日:2023-10-04
# 全方位磁場センシングのためのナノチューブスピン欠陥

Nanotube spin defects for omnidirectional magnetic field sensing ( http://arxiv.org/abs/2310.02709v1 )

ライセンス: Link先を確認
Xingyu Gao, Sumukh Vaidya, Saakshi Dikshit, Peng Ju, Kunhong Shen, Yuanbin Jin, Shixiong Zhang, Tongcang Li(参考訳) 3次元(3d)結晶と2次元(2d)ファンデルワールス(vdw)材料におけるスピン欠陥は、ナノスケールの量子センシングに革命をもたらす。 1次元の(1D)vdWナノチューブのスピン欠陥は、2次元の小さなサイズと側壁上の結合の欠如により、ユニークな機会をもたらす。 しかし、ナノチューブ内の局在スピン欠陥の光学的磁気共鳴は報告されていない。 本稿では, 室温における窒化ホウ素ナノチューブ(BNNT)の単一光応答性スピン欠陥の観察について報告する。 これらのBNNTスピン欠陥は、固有量子化軸を持たないスピン=S=1/2$基底状態を有しており、向きに依存しない磁場センシングをもたらすことが示唆された。 この特異な特徴を利用して、2次元磁石の磁場中における磁気異方性磁化を直交方向に沿って観測する。 さらに、BNNTをカンチレバーに決定的に転送し、それを用いて走査型プローブ磁気メトリーを実証する手法を開発した。 このアプローチのさらなる改良により、任意の方向の磁場の原子スケール量子センシングが可能となる。

Optically addressable spin defects in three-dimensional (3D) crystals and two-dimensional (2D) van der Waals (vdW) materials are revolutionizing nanoscale quantum sensing. Spin defects in one-dimensional (1D) vdW nanotubes will provide unique opportunities due to their small sizes in two dimensions and absence of dangling bonds on side walls. However, optically detected magnetic resonance of localized spin defects in a nanotube has not been reported. Here, we report the observation of single optically addressable spin defects in boron nitride nanotubes (BNNTs) at room temperature. Our findings suggest that these BNNT spin defects possess a spin $S=1/2$ ground state without an intrinsic quantization axis, leading to orientation-independent magnetic field sensing. We harness this unique feature to observe anisotropic magnetization of a 2D magnet in magnetic fields along orthogonal directions, a challenge for conventional spin $S=1$ defects such as diamond nitrogen-vacancy centers. Additionally, we develop a method to deterministically transfer a BNNT onto a cantilever and use it to demonstrate scanning probe magnetometry. Further refinement of our approach will enable atomic scale quantum sensing of magnetic fields in any direction.
翻訳日:2023-10-05 15:40:23 公開日:2023-10-04
# 勾配多様性最大化によるフェデレーション最適化におけるハイブリッド不均質性への取り組み

Tackling Hybrid Heterogeneity on Federated Optimization via Gradient Diversity Maximization ( http://arxiv.org/abs/2310.02702v1 )

ライセンス: Link先を確認
Dun Zeng, Zenglin Xu, Yu Pan, Qifan Wang, Xiaoying Tang(参考訳) フェデレートラーニング(Federated Learning)とは、データサンプルを分散化し、複数のクライアントに分散する分散機械学習パラダイムである。 これらのサンプルは統計的に異質性を示し、これはデータ分布がクライアント間で独立で同一ではないことを意味する。 さらに、システムの不均一性(あるいはクライアントの計算能力の変動)は、連合学習にバイアスを導入する。 統計学とシステム不均一性の複合効果は、フェデレート最適化の効率を著しく低下させる。 しかし、ハイブリッドな異質性の影響は厳密には議論されていない。 本稿では,ハイブリッドな異種性が,サーバサイド最適化によるフェデレーション最適化に与える影響について検討する。 理論的には,サーバ更新方向の勾配の多様性を適応的に最大化することは,ハイブリッド不均一性の潜在的な負の結果を軽減するのに役立つ。 そこで我々は,新しいサーバサイド勾配型最適化器 \textsc{fedaware} を提案する。 ヘテロジニアス・フェデレーテッド・セッティングにおける集中的な実験により,提案するオプティマイザは,ハイブリッド・ヘテロゲニティの様々な程度にわたるフェデレーテッド・ラーニングの性能を著しく向上させることができることを示した。

Federated learning refers to a distributed machine learning paradigm in which data samples are decentralized and distributed among multiple clients. These samples may exhibit statistical heterogeneity, which refers to data distributions are not independent and identical across clients. Additionally, system heterogeneity, or variations in the computational power of the clients, introduces biases into federated learning. The combined effects of statistical and system heterogeneity can significantly reduce the efficiency of federated optimization. However, the impact of hybrid heterogeneity is not rigorously discussed. This paper explores how hybrid heterogeneity affects federated optimization by investigating server-side optimization. The theoretical results indicate that adaptively maximizing gradient diversity in server update direction can help mitigate the potential negative consequences of hybrid heterogeneity. To this end, we introduce a novel server-side gradient-based optimizer \textsc{FedAWARE} with theoretical guarantees provided. Intensive experiments in heterogeneous federated settings demonstrate that our proposed optimizer can significantly enhance the performance of federated learning across varying degrees of hybrid heterogeneity.
翻訳日:2023-10-05 15:39:30 公開日:2023-10-04
# ハイブリッド量子機械学習によるCTスキャンからのCOVID-19の分類支援

Hybrid Quantum Machine Learning Assisted Classification of COVID-19 from Computed Tomography Scans ( http://arxiv.org/abs/2310.02748v1 )

ライセンス: Link先を確認
Leo S\"unkel, Darya Martyniuk, Julia J. Reichwald, Andrei Morariu, Raja Havish Seggoju, Philipp Altmann, Christoph Roch, Adrian Paschke(参考訳) 現実的な量子コンピューティング(QC)はまだ初期段階であり、特に古典的な量子機械学習と比較した場合、考慮される問題は比較的小さい。 特に画像処理アプリケーションは、大量の機能を処理できるモデルを必要としており、古典的なアプローチは簡単に対処できるが、これは現代のqcにおいて厳しい制限の要因であり、大きな課題である。 本稿では,実世界データと実際に関連する問題に対して,ハイブリッド量子機械学習手法を適用する。 すなわち、医用画像処理の分野における画像処理タスクにハイブリッド量子転送学習を適用する。 より具体的には、肺の大きなCTスキャンをCOVID-19、CAP、または正常に分類する。 量子画像埋め込みとハイブリッド量子機械学習を議論し、様々な量子回路と埋め込み技術を用いて量子転送学習のいくつかのアプローチを評価する。

Practical quantum computing (QC) is still in its infancy and problems considered are usually fairly small, especially in quantum machine learning when compared to its classical counterpart. Image processing applications in particular require models that are able to handle a large amount of features, and while classical approaches can easily tackle this, it is a major challenge and a cause for harsh restrictions in contemporary QC. In this paper, we apply a hybrid quantum machine learning approach to a practically relevant problem with real world-data. That is, we apply hybrid quantum transfer learning to an image processing task in the field of medical image processing. More specifically, we classify large CT-scans of the lung into COVID-19, CAP, or Normal. We discuss quantum image embedding as well as hybrid quantum machine learning and evaluate several approaches to quantum transfer learning with various quantum circuits and embedding techniques.
翻訳日:2023-10-05 15:31:14 公開日:2023-10-04
# SALSA: セマンティックなラテントスペースオートエンコーダ

SALSA: Semantically-Aware Latent Space Autoencoder ( http://arxiv.org/abs/2310.02744v1 )

ライセンス: Link先を確認
Kathryn E. Kirchoff, Travis Maxfield, Alexander Tropsha, Shawn M. Gomez(参考訳) 薬物発見のためのディープラーニングでは、化学データは単純な分子入力ラインエントリーシステム(smiles)シーケンスとして表現され、自然言語処理方法論の簡単な実装を可能にする。 しかし、SMILESにのみ依存するオートエンコーダの訓練は、意味論的意味を持つ分子表現を学ぶには不十分であり、そこでは意味論は分子間の構造的(グラフ間)類似性によって定義される。 例えば、オートエンコーダは構造的に類似した分子を遠方の符号にマッピングし、分子間の構造的類似性を尊重しない非一貫性な潜在空間となることを実証する。 この欠点に対処するため、我々は分子間のグラフ対グラフの類似性を学ぶために特別に調整された、コントラストタスクで修正されたトランスフォーマーオートエンコーダである意味論的に認識された潜在空間オートエンコーダ(salsa)を提案する。 形式的には、対照的な目的は構造的に類似した分子(単一のグラフ編集で区切られた)を潜在空間の近傍の符号にマッピングすることである。 これを実現するために、構造的に類似した分子の集合からなる新しいデータセットを生成し、全正のサンプルを組み込むことができる教師付きコントラスト損失を選択する。 salsa と ablated の比較を行い, 構成された訓練目標(再構築と対比作業)がより高品質な潜在空間へと導くことを実証的に示す。 1)構造的認識 2)意味的連続、及び 3) 財産を意識する。

In deep learning for drug discovery, chemical data are often represented as simplified molecular-input line-entry system (SMILES) sequences which allow for straightforward implementation of natural language processing methodologies, one being the sequence-to-sequence autoencoder. However, we observe that training an autoencoder solely on SMILES is insufficient to learn molecular representations that are semantically meaningful, where semantics are defined by the structural (graph-to-graph) similarities between molecules. We demonstrate by example that autoencoders may map structurally similar molecules to distant codes, resulting in an incoherent latent space that does not respect the structural similarities between molecules. To address this shortcoming we propose Semantically-Aware Latent Space Autoencoder (SALSA), a transformer-autoencoder modified with a contrastive task, tailored specifically to learn graph-to-graph similarity between molecules. Formally, the contrastive objective is to map structurally similar molecules (separated by a single graph edit) to nearby codes in the latent space. To accomplish this, we generate a novel dataset comprised of sets of structurally similar molecules and opt for a supervised contrastive loss that is able to incorporate full sets of positive samples. We compare SALSA to its ablated counterparts, and show empirically that the composed training objective (reconstruction and contrastive task) leads to a higher quality latent space that is more 1) structurally-aware, 2) semantically continuous, and 3) property-aware.
翻訳日:2023-10-05 15:31:02 公開日:2023-10-04
# Reward Model Ensemblesは過度な最適化を支援する

Reward Model Ensembles Help Mitigate Overoptimization ( http://arxiv.org/abs/2310.02743v1 )

ライセンス: Link先を確認
Thomas Coste, Usman Anwar, Robert Kirk, David Krueger(参考訳) RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルを微調整して指示に従うための標準手法である。 このプロセスの一環として、学習された報酬モデルを使用して、人間の好みをモデル化する。 しかし、「真の」報酬の完全な表現として、これらの学習された報酬モデルは \textit{overoptimization} の影響を受けやすい。 Gao et al. (2023)は、この現象を、(人間の代わりに)真の報酬として働くはるかに大きな「金」報酬モデルを用いて、合成人間のフィードバック設定で研究し、プロキシ報酬モデルのサイズや使用したトレーニングデータに関わらず、過最適化が永続的な問題であることを示した。 同様の設定を用いて,アンサンブルに基づく保守的最適化目標,特に最悪のケース最適化 (WCO) と不確実性重み付け最適化 (UWO) を用いて,2つの最適化手法を用いた報酬モデル過度最適化の緩和効果を評価する。 (a)ベスト・オブ・nサンプリング(BoN) (b)近位政策最適化(PPO) また、Gao et al. (2023) のセットアップを25%ラベルノイズを含むように拡張し、現実世界の状況をより良く反映する。 ラベルノイズを伴わずとも、保守的な最適化は過度な最適化を実質的に排除し、BoNサンプリングの性能を最大70%向上させる。 PPOの場合、アンサンブルに基づく保守的な最適化は常に過度な最適化を減らし、単一の報酬モデル最適化よりも優れる。 さらに、小さなKLペナルティと組み合わせることで、パフォーマンスコストを伴わずに過度な最適化を防げる。 全体として,アンサンブルに基づく保守的最適化は過剰最適化に効果的に対抗できることを示した。

Reinforcement learning from human feedback (RLHF) is a standard approach for fine-tuning large language models to follow instructions. As part of this process, learned reward models are used to approximately model human preferences. However, as imperfect representations of the "true" reward, these learned reward models are susceptible to \textit{overoptimization}. Gao et al. (2023) studied this phenomenon in a synthetic human feedback setup with a significantly larger "gold" reward model acting as the true reward (instead of humans) and showed that overoptimization remains a persistent problem regardless of the size of the proxy reward model and training data used. Using a similar setup, we conduct a systematic study to evaluate the efficacy of using ensemble-based conservative optimization objectives, specifically worst-case optimization (WCO) and uncertainty-weighted optimization (UWO), for mitigating reward model overoptimization when using two optimization methods: (a) best-of-n sampling (BoN) (b) proximal policy optimization (PPO). We additionally extend the setup of Gao et al. (2023) to include 25% label noise to better mirror real-world conditions. Both with and without label noise, we find that conservative optimization practically eliminates overoptimization and improves performance by up to 70% for BoN sampling. For PPO, ensemble-based conservative optimization always reduces overoptimization and outperforms single reward model optimization. Moreover, combining it with a small KL penalty successfully prevents overoptimization at no performance cost. Overall, our results demonstrate that ensemble-based conservative optimization can effectively counter overoptimization.
翻訳日:2023-10-05 15:30:36 公開日:2023-10-04
# トランスファーラーニングを用いた不均衡マルウェアバイトプロット画像分類の比較解析

Comparative Analysis of Imbalanced Malware Byteplot Image Classification using Transfer Learning ( http://arxiv.org/abs/2310.02742v1 )

ライセンス: Link先を確認
Jayasudha M, Ayesha Shaik, Gaurav Pendharkar, Soham Kumar, Muhesh Kumar B, Sudharshanan Balaji(参考訳) サイバーセキュリティは、技術と相互接続システムへの依存が増しているため、大きな懸念事項である。 マルウェア検知器は、マルウェアの署名を比較することでサイバー攻撃を緩和する。 機械学習は、特徴抽出の自動化、パターンの識別、動的解析の強化により、これらの検出器を改善することができる。 本稿では,Malimgデータセット,Blendedデータセット,Malevisデータセットの6つのクラス分類モデルの性能を比較し,モデル性能と収束性に対するクラス不均衡の影響について考察する。 クラス不均衡が大きくなるほど、収束に必要なエポックの数が少なくなり、異なるモデルの性能に高いばらつきが生じることが観察された。 さらに、マルウェア検出用ResNet50、EfficientNetB0、DenseNet169は、不均衡およびバランスの取れたデータをうまく処理できる。 不均衡データセットの最大精度は97%、中間不均衡データセットの最大精度は95%、完全均衡データセットの最大精度は95%である。

Cybersecurity is a major concern due to the increasing reliance on technology and interconnected systems. Malware detectors help mitigate cyber-attacks by comparing malware signatures. Machine learning can improve these detectors by automating feature extraction, identifying patterns, and enhancing dynamic analysis. In this paper, the performance of six multiclass classification models is compared on the Malimg dataset, Blended dataset, and Malevis dataset to gain insights into the effect of class imbalance on model performance and convergence. It is observed that the more the class imbalance less the number of epochs required for convergence and a high variance across the performance of different models. Moreover, it is also observed that for malware detectors ResNet50, EfficientNetB0, and DenseNet169 can handle imbalanced and balanced data well. A maximum precision of 97% is obtained for the imbalanced dataset, a maximum precision of 95% is obtained on the intermediate imbalance dataset, and a maximum precision of 95% is obtained for the perfectly balanced dataset.
翻訳日:2023-10-05 15:30:05 公開日:2023-10-04
# エルゴードと混合量子チャネル:2量子ビットから多体量子システムへ

Ergodic and mixing quantum channels: From two-qubit to many-body quantum systems ( http://arxiv.org/abs/2310.02740v1 )

ライセンス: Link先を確認
S. Aravinda, Shilpak Banerjee and Ranjan Modak(参考訳) 古典エルゴード理論の発展は、数学、物理学、そして一般に応用科学の分野で大きな影響を与えた。 ハミルトン力学の量子エルゴード理論は熱力学と統計力学を理解する動機を持ち、現在も多くの議論が続いている。 完全な正のトレース保存写像である量子チャネルは、量子力学の最も一般的な表現であり、量子情報理論と量子計算の重要な側面である。 本研究では, 量子チャネルのエルゴード理論を, エンゴード階層の異なるレベルを積分可能から混合可能に特徴付けることによって研究する。 単一系上の量子チャネルは、二部状態に作用し環境をトレースするユニタリ演算子から構成される。 これらのユニタリ作用素の相互作用強度は、作用素の絡み合いによって測定され、チャネルが混合されるのに十分な条件を提供する。 ブロック対角ユニタリ演算子を用いて、非エルゴードチャネルの集合を構築する。 可積分から混合は、2量子ユニタリ作用素の場合明示的に特徴づけられる。 さらに、有名なsachdev-ye-kitaev(syk)モデルを含む多体量子システムとの相互作用を研究し、量子チャネルの枠組み内で混合を示すことを示した。

The development of classical ergodic theory has had a significant impact in the areas of mathematics, physics, and, in general, applied sciences. The quantum ergodic theory of Hamiltonian dynamics has its motivations to understand thermodynamics and statistical mechanics and is still debated a lot. Quantum channel, a completely positive trace-preserving map, represents a most general representation of quantum dynamics and is an essential aspect of quantum information theory and quantum computation. In this work, we study the ergodic theory of quantum channels by characterizing different levels of ergodic hierarchy from integrable to mixing. The quantum channels on single systems are constructed from the unitary operators acting on bipartite states and tracing out the environment. The interaction strength of these unitary operators measured in terms of operator entanglement provides sufficient conditions for the channel to be mixing. By using block diagonal unitary operators, we construct a set of non-ergodic channels. From integrable to mixing is characterized explicitly in the case of the two-qubit unitary operator. Moreover, we also study interacting many-body quantum systems that include the famous Sachdev-Ye-Kitaev (SYK) model and show that they display mixing within the framework of the quantum channel.
翻訳日:2023-10-05 15:29:46 公開日:2023-10-04
# 学習計画のためのイベントデータからのルール抽出

Extracting Rules from Event Data for Study Planning ( http://arxiv.org/abs/2310.02735v1 )

ライセンス: Link先を確認
Majid Rafiei and Duygu Bayrak and Mahsa Pourbafrani and Gyunam Park and Hayyan Helal and Gerhard Lakemeyer and Wil M.P. van der Aalst(参考訳) 本研究では,高校生の学習経路を分析するために,キャンパス管理システムからのイベントデータをいかに活用できるかを検討する。 主な目標は、研究計画に貴重なガイダンスを提供することです。 我々は,採点コースのシーケンスが学術的成功に与える影響を探究するために,プロセスとデータマイニング技術を用いる。 決定木モデルを用いて,学習計画のルールとしてデータ駆動型推薦を生成し,それを推奨研究計画と比較する。 本評価は,Aachen大学コンピュータサイエンス学学士課程の学生を対象に行われ,提案したコースシーケンスが学力評価に有効であることを示す。 さらに, より適応的な研究計画開発への道筋が示唆された。

In this study, we examine how event data from campus management systems can be used to analyze the study paths of higher education students. The main goal is to offer valuable guidance for their study planning. We employ process and data mining techniques to explore the impact of sequences of taken courses on academic success. Through the use of decision tree models, we generate data-driven recommendations in the form of rules for study planning and compare them to the recommended study plan. The evaluation focuses on RWTH Aachen University computer science bachelor program students and demonstrates that the proposed course sequence features effectively explain academic performance measures. Furthermore, the findings suggest avenues for developing more adaptable study plans.
翻訳日:2023-10-05 15:29:25 公開日:2023-10-04
# 周期駆動システムのための対断駆動

Counterdiabatic Driving for Periodically Driven Systems ( http://arxiv.org/abs/2310.02728v1 )

ライセンス: Link先を確認
Paul Manuel Schindler and Marin Bukov(参考訳) 周期駆動型システムは量子システムの特性を設計する上で有用な技術として登場し、量子シミュレーションの標準ツールボックスとして開発されている。 このツールボックスを不完全な状態にしておくことは、強い周期ドライブにdressした状態の操作である。 フロッケ制御の最先端はパラメータの断熱的変化である。 しかし、これは実験におけるコヒーレンス時間の制限と矛盾する長いプロトコルを必要とする。 非平衡量子物質を高速に制御するために、フロッケ系に着目した平衡から変分反断熱駆動の概念を一般化する。 本稿では, 逆周波数展開と非摂動的変動原理に基づいて, 有効フロッケハミルトニアンに対する断熱ゲージポテンシャルの局所近似を求める2つの方法を提案する。 それらは断熱体制から遠く離れたフロッケ固有状態の過渡的駆動を可能にする。 2レベルFloquetバンドへの応用と周期駆動モデルとの相互作用について論じる。 特に, 提案手法により, 非摂動光子共鳴を捕捉し, アクセス可能な制御項の局所性などの実験的制約を尊重する高忠実度プロトコルが得られることを示す。 我々の研究は、非平衡系の量子制御理論の基礎を築いた。

Periodically driven systems have emerged as a useful technique to engineer the properties of quantum systems, and are in the process of being developed into a standard toolbox for quantum simulation. An outstanding challenge that leaves this toolbox incomplete is the manipulation of the states dressed by strong periodic drives. The state-of-the-art in Floquet control is the adiabatic change of parameters. Yet, this requires long protocols conflicting with the limited coherence times in experiments. To achieve fast control of nonequilibrium quantum matter, we generalize the notion of variational counterdiabatic driving away from equilibrium focusing on Floquet systems. We propose two approaches to find local approximations to the adiabatic gauge potential for the effective Floquet Hamiltonian, based on the inverse-frequency expansion and a non-perturbative variational principle. They enable transitionless driving of Floquet eigenstates far away from the adiabatic regime. We discuss applications to two-level, Floquet band, and interacting periodically-driven models. In particular, we demonstrate that the developed methods allow us to capture non-perturbative photon resonances and obtain high-fidelity protocols that respect experimental limitations like the locality of the accessible control terms. Our work lays the foundations for a quantum control theory of nonequilibrium systems.
翻訳日:2023-10-05 15:29:14 公開日:2023-10-04
# 統計的に有効なテストによるAIシステムの機能的信頼性

Functional trustworthiness of AI systems by statistically valid testing ( http://arxiv.org/abs/2310.02727v1 )

ライセンス: Link先を確認
Bernhard Nessler, Thomas Doms, Sepp Hochreiter(参考訳) 著者らは、AIシステムの適合性評価に関する現在のEU人工知能(AI)法の草案で要求される不適切な措置と手続きのために、欧州市民の安全、健康、および権利を懸念している。 私たちは、現在のEU AI Actの草案だけでなく、CEN/CENELECの標準化活動も、AIシステムの真の機能保証は非現実的であり、複雑すぎるという立場に頼っていることを観察しています。 しかし、不十分に評価されたAIシステムにおける信頼の誤った錯覚を生み出す整合性評価手順を実践することは、最も単純であり、最悪の過敏である。 したがって、EUのAI法は、機能的信頼性と責任の適切な帰属によって品質を保証する点を見逃している。 ai決定システムの信頼性は、ランダムに選択されたサンプルの正しい統計テストとアプリケーションドメインの定義の精度において第一に第一に存在し、そもそもサンプルを描画することができる。 これをテスト可能な品質機能信頼性と呼びます。 関連するすべての機能の正しい統計テストを可能にする設計、開発、デプロイが含まれている。 我々は、AIシステムの統計的機能特性の信頼性評価が、適合性評価の必須かつ必須の核である必要があると強く確信し、主張する。 本稿では,(1)アプリケーションの技術的分布の定義,(2)リスクベースの最小性能要件,(3)独立したランダムサンプルに基づく統計的に有効なテスト,という,信頼性の高い機能的信頼性を確立するために必要な3つの要素について述べる。

The authors are concerned about the safety, health, and rights of the European citizens due to inadequate measures and procedures required by the current draft of the EU Artificial Intelligence (AI) Act for the conformity assessment of AI systems. We observe that not only the current draft of the EU AI Act, but also the accompanying standardization efforts in CEN/CENELEC, have resorted to the position that real functional guarantees of AI systems supposedly would be unrealistic and too complex anyways. Yet enacting a conformity assessment procedure that creates the false illusion of trust in insufficiently assessed AI systems is at best naive and at worst grossly negligent. The EU AI Act thus misses the point of ensuring quality by functional trustworthiness and correctly attributing responsibilities. The trustworthiness of an AI decision system lies first and foremost in the correct statistical testing on randomly selected samples and in the precision of the definition of the application domain, which enables drawing samples in the first place. We will subsequently call this testable quality functional trustworthiness. It includes a design, development, and deployment that enables correct statistical testing of all relevant functions. We are firmly convinced and advocate that a reliable assessment of the statistical functional properties of an AI system has to be the indispensable, mandatory nucleus of the conformity assessment. In this paper, we describe the three necessary elements to establish a reliable functional trustworthiness, i.e., (1) the definition of the technical distribution of the application, (2) the risk-based minimum performance requirements, and (3) the statistically valid testing based on independent random samples.
翻訳日:2023-10-05 15:28:56 公開日:2023-10-04
# ラベルと遷移確率を持つニューラルHMMのエンドツーエンドトレーニング

End-to-End Training of a Neural HMM with Label and Transition Probabilities ( http://arxiv.org/abs/2310.02724v1 )

ライセンス: Link先を確認
Daniel Mann, Tina Raissi, Wilfried Michel, Ralf Schl\"uter, Hermann Ney(参考訳) 本研究では,隠れ状態間の遷移確率をモデル化し,明示的に学習する隠れマルコフモデル(hmm)を用いて,エンドツーエンドニューラルネットワークトレーニングのための新しいモデリング手法を提案する。 現代のシーケンシャル・ツー・シーケンスモデルの多くは、与えられたトポロジー内のすべての可能なラベルセグメンテーションを総和することで、スクラッチからトレーニングを可能にする。 提案手法では,時間統計を暗黙的にエンコードするブランクラベルとは対照的に,セグメント間の遷移に関する明示的で学習可能な確率が存在する。 ラベルと遷移確率の同時トレーニングを可能にするGPUベースのフォワードバックワードアルゴリズムを実装した。 本モデルでは,認識結果とビタビアライメントについても検討する。 遷移モデルトレーニングでは認識性能は向上しないが,アライメント品質に肯定的な影響を与えることがわかった。 生成されたアライメントは、最先端のビタビトレーニングで実行可能なターゲットであることが示されている。

We investigate a novel modeling approach for end-to-end neural network training using hidden Markov models (HMM) where the transition probabilities between hidden states are modeled and learned explicitly. Most contemporary sequence-to-sequence models allow for from-scratch training by summing over all possible label segmentations in a given topology. In our approach there are explicit, learnable probabilities for transitions between segments as opposed to a blank label that implicitly encodes duration statistics. We implement a GPU-based forward-backward algorithm that enables the simultaneous training of label and transition probabilities. We investigate recognition results and additionally Viterbi alignments of our models. We find that while the transition model training does not improve recognition performance, it has a positive impact on the alignment quality. The generated alignments are shown to be viable targets in state-of-the-art Viterbi trainings.
翻訳日:2023-10-05 15:28:30 公開日:2023-10-04
# 多層ネットワーク上の離散時間量子ウォーク

Discrete-time Quantum Walk on Multilayer Networks ( http://arxiv.org/abs/2310.02722v1 )

ライセンス: Link先を確認
M. N. Jayakody, Priodyuti Pradhan, Dana Ben Porath, E. Cohen(参考訳) 多層ネットワークは,複数種類の関係を持つネットワーク内のエンティティ間の相互作用を研究するための強力なプラットフォームである。 本研究では,多層ネットワーク上での離散時間量子ウォークのダイナミクスを詳細に検討する。 有限個のノードを持つ非有向グラフ上の量子ウォーカーの波動関数の係数の繰り返し公式を導出する。 これらの公式を余分な層を含むように拡張することにより、多層ネットワーク上での量子ウォーカーの時間進化を記述するシミュレーションモデルを構築する。 量子ウォーカーの時間平均確率と戻り確率は、多層ネットワーク上のフーリエとグローバーウォークとの関係で研究されている。 さらに、デコヒーレンスが量子輸送に与える影響を分析し、環境相互作用が多層ネットワーク構造における量子ウォーカーの挙動に与える影響について光を遮蔽する。

Multilayer network is a potent platform which paves a way to study the interactions among entities in various networks with multiple types of relationships. In this study, the dynamics of discrete-time quantum walk on a multilayer network are explored in detail. We derive recurrence formulae for the coefficients of the wave function of a quantum walker on an undirected graph with finite number of nodes. By extending these formulae to include extra layers, we develop a simulation model to describe the time-evolution of the quantum walker on a multilayer network. The time-averaged probability and the return probability of the quantum walker are studied in relation to Fourier and Grover walks on multilayer networks. Furthermore, we analyze the impact of decoherence on the quantum transport, shedding light on how environmental interactions may impact the behavior of quantum walkers on multilayer network structures.
翻訳日:2023-10-05 15:28:14 公開日:2023-10-04
# エンタングルメント型量子ネットワークのための古典フレームによるハイブリッドパケットスイッチング

Hybrid packet switching assisted by classical frame for entanglement-based quantum networks ( http://arxiv.org/abs/2310.02770v1 )

ライセンス: Link先を確認
Hao Zhang, Yuan Li, Chen Zhang, and Tao Huang(参考訳) 量子インターネットを研究する最初の問題の1つは、量子ネットワークにおけるユーザ間の量子相互接続を実現する方法である。 上記の問題に対処するためには、従来のインターネットを参照して、量子ネットワークのパケット切替を開発することが有望な方法である。 本稿では,古典フレームを用いたエンタングルメント型量子ネットワークのための新しいハイブリッドパケットスイッチを提案する。 従来の単一光子に基づく量子ネットワークのパケットスイッチングとは異なり、この方式で使用されるフレームは古典的量子構造よりも純粋に古典的であり、物理チャネル上での古典的および量子的信号の伝送は独立であり、この方式は有意なエンタングルメント生成を伴う量子ネットワークにも有効である。 我々のハイブリッドパケットスイッチングを用いて、終端ノード間の絡み合いチャネルを構築するプロセスは、従来のパケット切替ネットワークと類似しており、大規模なパケット切替型量子インターネットを構築する効果的な方法を提供する。 実現可能性を検証するために,量子ネットワークにおけるハイブリッドパケットスイッチングを用いたエンドツーエンドの絡み合い分布を行い,ホップ数に対する分散状態のフィパリティをシミュレーションする。

One of the first problems of studying the quantum internet is how to realize quantum interconnection between users in a quantum network. To address above problem, by referencing the classical Internet, developing the packet switching of quantum networks is a promising way. In this paper, we propose a new hybrid packet switching for entanglement-based quantum networks assisted by classical frame. Different from the previous packet switching for quantum networks based on single photon, the frame used in our scheme is pure classical rather than the classical-quantum structure, and the transmission of classical and quantum signals over physical channels can be independent, which makes our scheme is also valid for quantum networks with heralded entanglement generation. Using our hybrid packet switching, the process of building entanglement channel between end nodes is analogous to the classical packet-switched networks, which provides an effective way to build large-scale packet-switched entanglement-based quantum internet. To verify the feasibility, we perform end-to-end entanglement distribution using our hybrid packet switching in a quantum network and simulate the fidelities of distributed state with respect to the number of hops.
翻訳日:2023-10-05 15:22:14 公開日:2023-10-04
# 動的および非定常環境におけるカーネルに基づく関数学習

Kernel-based function learning in dynamic and non stationary environments ( http://arxiv.org/abs/2310.02767v1 )

ライセンス: Link先を確認
Alberto Giaretta, Mauro Bisiacco, Gianluigi Pillonetto(参考訳) 機械学習の中心的なテーマは、スパースデータとノイズデータからの関数推定である。 例えば、トレーニングセットの要素がカップルであるような教師あり学習では、それぞれが入力位置と出力応答を含む。 過去数十年間、未知の関数に対する推定器の設計や、最適な予測器への収束の研究、学習率の特定に多くの研究が費やされてきた。 これらの結果は、通常、時間的に変化しない確率分布から入力位置が引き出される定常的な仮定に依存する。 本研究では,非定常分布下での,カーネルに基づくリッジ回帰と収束条件を導出し,確率的適応が無限に頻繁に発生する場合にも対処する。 例えば、エージェント/ロボットのセットは、センサーフィールドを再構築するために環境を監視しなければならず、それらの移動規則は、フィールドおよび/または周囲の環境に関する取得した知識に基づいて継続的に更新される。

One central theme in machine learning is function estimation from sparse and noisy data. An example is supervised learning where the elements of the training set are couples, each containing an input location and an output response. In the last decades, a substantial amount of work has been devoted to design estimators for the unknown function and to study their convergence to the optimal predictor, also characterizing the learning rate. These results typically rely on stationary assumptions where input locations are drawn from a probability distribution that does not change in time. In this work, we consider kernel-based ridge regression and derive convergence conditions under non stationary distributions, addressing also cases where stochastic adaption may happen infinitely often. This includes the important exploration-exploitation problems where e.g. a set of agents/robots has to monitor an environment to reconstruct a sensorial field and their movements rules are continuously updated on the basis of the acquired knowledge on the field and/or the surrounding environment.
翻訳日:2023-10-05 15:21:52 公開日:2023-10-04
# 確率ベース手法によるオピニオンダイナミクスモデルにおけるパラメータ推定の改善

Likelihood-Based Methods Improve Parameter Estimation in Opinion Dynamics Models ( http://arxiv.org/abs/2310.02766v1 )

ライセンス: Link先を確認
Jacopo Lenti, Gianmarco De Francisci Morales, Corrado Monti(参考訳) エージェントベースモデル (abms) におけるパラメータ推定の最大帰納法が, 典型的なシミュレーションベースアプローチよりも優れていることを示す。 シミュレーションに基づくアプローチでは、観測したパラメータに似たデータを生成する一連のパラメータを探索して、繰り返しモデルをシミュレートする。 対照的に、確率に基づくアプローチは、統計的に原理化された方法で未知のパラメータを観測データに接続する確率関数を導出する。 これらの2つのアプローチを、よく知られた意見力学の有界信頼モデルで比較する。 データ可用性に応じて複雑さを増大させる現実的なシナリオを3つ挙げる。 i) 完全に観察された意見と相互作用 (ii) 部分的に観察された相互作用 (iii)意見のノイズプロキシとの相互作用を観察した。 モデルとデータを結ぶ上で,観測変数と潜在変数の識別が基本である点を強調する。 確率に基づくアプローチを実現するために、我々はまずモデルを適切なデータ可能性をサポートする確率的生成ギーズにキャストする。 次に,確率的グラフィカルモデルを用いて3つのシナリオを説明し,モデルを翻訳するニュアンスを示す。 最後に,結果の確率モデルを自動微分フレームワーク(pytorch)で実装する。 このステップは、勾配降下による簡易かつ効率的な最大推定を可能にする。 実験の結果,最大確率推定値は最大4倍精度が高く,計算時間も最大200倍削減できることがわかった。

We show that a maximum likelihood approach for parameter estimation in agent-based models (ABMs) of opinion dynamics outperforms the typical simulation-based approach. Simulation-based approaches simulate the model repeatedly in search of a set of parameters that generates data similar enough to the observed one. In contrast, likelihood-based approaches derive a likelihood function that connects the unknown parameters to the observed data in a statistically principled way. We compare these two approaches on the well-known bounded-confidence model of opinion dynamics. We do so on three realistic scenarios of increasing complexity depending on data availability: (i) fully observed opinions and interactions, (ii) partially observed interactions, (iii) observed interactions with noisy proxies of the opinions. We highlight how identifying observed and latent variables is fundamental for connecting the model to the data. To realize the likelihood-based approach, we first cast the model into a probabilistic generative guise that supports a proper data likelihood. Then, we describe the three scenarios via probabilistic graphical models and show the nuances that go into translating the model. Finally, we implement the resulting probabilistic models in an automatic differentiation framework (PyTorch). This step enables easy and efficient maximum likelihood estimation via gradient descent. Our experimental results show that the maximum likelihood estimates are up to 4x more accurate and require up to 200x less computational time.
翻訳日:2023-10-05 15:21:36 公開日:2023-10-04
# 電力移動問題に対するハイブリッド量子-古典的アプローチ

A Hybrid Quantum-Classical Approach to the Electric Mobility Problem ( http://arxiv.org/abs/2310.02760v1 )

ライセンス: Link先を確認
Margarita Veshchezerova, Mikhail Somov, David Bertsche, Steffen Limmer, Sebastian Schmitt, Michael Perelshtein, Ayush Joshi Tripathi(参考訳) NP-hard Electric Vehicle Fleet Charging and Allocation Problemのためのハイブリッド量子古典ルーチンを提案する。 元の定式化は連続変数と不等式制約を持つ混合整数線形プログラムである。 量子ルーチンで難しい不等式制約を分離するために、我々はマスターと価格の問題の分解を使用する: 前者は予約への車両の割り当てを目標とし、後者はバッテリーの充電状態の制約を尊重する車両利用計画を提案する。 マスター問題は最適な集合分割の探索と等価である。 本手法では、DWaveアドバンテージシステム上での量子アニーリングで解くことができる2次非制約二元最適化問題において、マスター問題を再構成する。 NECによる模擬アニール,タブ探索,ベクトルアニールなど,古典的および量子的メタヒューリスティックスによる分解手法の性能評価を行った。 純粋に古典的な解法を用いた数値計算結果は、解品質の点で従来の混合整数線形計画法による解に匹敵する。 さらに、大きなインスタンスに対してスケール性も向上している。 提案手法の主な利点は、多くの不等式制約のある現実的な問題に対して量子ベースの方法を可能にすることである。 これをDWaveハードウェアの初期研究で示しており、小さなインスタンスに対して最適な解を見つけることができる。

We suggest a hybrid quantum-classical routine for the NP-hard Electric Vehicle Fleet Charging and Allocation Problem. The original formulation is a Mixed Integer Linear Program with continuous variables and inequality constraints. To separate inequality constraints that are difficult for quantum routines we use a decomposition in master and pricing problems: the former targets the assignment of vehicles to reservations and the latter suggests vehicle exploitation plans that respect the battery state-of-charge constraints. The master problem is equivalent to the search for an optimal set partition. In our hybrid scheme, the master problem is reformulated in a quadratic unconstrained binary optimization problem which can be solved with quantum annealing on the DWave Advantage system. On large instances, we benchmark the performance of the decomposition technique with classical and quantum-inspired metaheuristics: simulated annealing, tabu search, and vector annealing by NEC. The numerical results with purely classical solvers are comparable to the solutions from the traditional mixed integer linear programming approaches in terms of solution quality while being faster. In addition, it scales better to larger instances. The major advantage of the proposed approach is that it enables quantum-based methods for this realistic problem with many inequality constraints. We show this by initial studies on DWave hardware where optimal solutions can be found for small instances.
翻訳日:2023-10-05 15:21:19 公開日:2023-10-04
# 要約自動評価のための比較研究とフレームワーク:LangChainとハイブリッドアルゴリズム

Comparative Study and Framework for Automated Summariser Evaluation: LangChain and Hybrid Algorithms ( http://arxiv.org/abs/2310.02759v1 )

ライセンス: Link先を確認
Bagiya Lakshmi S, Sanjjushri Varshini R, Rohith Mahadevan, Raja CSP Raman(参考訳) AES(Automated Essay Score)は最先端技術のひとつであることが証明されている。 装飾技術は様々な目的で用いられる。 信頼性スコアは、影響力のある変数に基づいて計算される。 このような変数はドメインに基づいて異なるメソッドによって計算できる。 研究は、あるトピックに対するユーザの理解に集中している。 分析は、大規模言語モデルを用いたスコア付けインデックスに基づいている。 ユーザは、最近学んだトピックの理解を比較して、対比することができる。 結果が学習分析に寄与し、学習能力を高めるための進歩が得られます。 本研究では,PDF文書を要約し,ユーザのコンテンツに対する理解を深めることに焦点を当てた。 このプロセスはLangchainツールを使用してPDFを要約し、必須情報を抽出する。 この手法を用いることで,ユーザがどのようにコンテンツを理解しているかを判断することを目的とする。

Automated Essay Score (AES) is proven to be one of the cutting-edge technologies. Scoring techniques are used for various purposes. Reliable scores are calculated based on influential variables. Such variables can be computed by different methods based on the domain. The research is concentrated on the user's understanding of a given topic. The analysis is based on a scoring index by using Large Language Models. The user can then compare and contrast the understanding of a topic that they recently learned. The results are then contributed towards learning analytics and progression is made for enhancing the learning ability. In this research, the focus is on summarizing a PDF document and gauging a user's understanding of its content. The process involves utilizing a Langchain tool to summarize the PDF and extract the essential information. By employing this technique, the research aims to determine how well the user comprehends the summarized content.
翻訳日:2023-10-05 15:20:59 公開日:2023-10-04
# ガススマートメータデータに基づく再適合ヒートポンプの年次・日次電力需要のモデル化

Modeling of Annual and Daily Electricity Demand of Retrofitted Heat Pumps based on Gas Smart Meter Data ( http://arxiv.org/abs/2310.02756v1 )

ライセンス: Link先を確認
Daniel R. Bayer and Marco Pruckner(参考訳) 現在、ガス炉はヨーロッパで一般的な暖房システムである。 エネルギー部門全体を脱炭素化する努力のため、ヒートポンプは既存のガス炉を引き続き置き換えるべきである。 同時に、暖房部門の電化は電力グリッドとその運営者にとって大きな課題となっている。 したがって、ヒートポンプを運用するための追加電力需要を見積もるためには、新たなアプローチが必要となる。 熱ポンプが所定の量の熱を発生させるために必要な電気は季節的性能因子(SPF)に依存するが、これは多くの影響要因により理論上はモデル化が困難であり、ヒートポンプが生成する熱を測定できないため実測が困難である。 そこで本論文では,熱需要とSPFをモデル化するためのビルディングレベルに基づいて,スマートメータデータを収集する手法について述べる。 本研究では,jensen-shannon divergence (jsd) を用いた分布を比較することにより,同一都市内の建物から得られたヒートポンプ電力およびガス消費データから平均spfを推定する新しい手法を提案する。 実世界のデータセットに基づいて,都市内のすべてのガス炉がヒートポンプに置き換えられた場合に必要な電力需要を予測し,その利用事例を簡潔に強調することで,この新手法を評価する。

Currently, gas furnaces are common heating systems in Europe. Due to the efforts for decarbonizing the complete energy sector, heat pumps should continuously replace existing gas furnaces. At the same time, the electrification of the heating sector represents a significant challenge for the power grids and their operators. Thus, new approaches are required to estimate the additional electricity demand to operate heat pumps. The electricity required by a heat pump to produce a given amount of heat depends on the Seasonal Performance Factor (SPF), which is hard to model in theory due to many influencing factors and hard to measure in reality as the heat produced by a heat pump is usually not measured. Therefore, we show in this paper that collected smart meter data forms an excellent data basis on building level for modeling heat demand and the SPF. We present a novel methodology to estimate the mean SPF based on an unpaired dataset of heat pump electricity and gas consumption data taken from buildings within the same city by comparing the distributions using the Jensen-Shannon Divergence (JSD). Based on a real-world dataset, we evaluate this novel method by predicting the electricity demand required if all gas furnaces in a city were replaced by heat pumps and briefly highlight possible use cases.
翻訳日:2023-10-05 15:20:49 公開日:2023-10-04
# lc-score:テキスト理解難易度の参照レス推定

LC-Score: Reference-less estimation of Text Comprehension Difficulty ( http://arxiv.org/abs/2310.02754v1 )

ライセンス: Link先を確認
Paul Tardy, Charlotte Roze, Paul Poupet(参考訳) 文章を読んだり理解したりすることは、デジタル時代において重要なことです。 しかし、調査の結果、人口の大多数は理解の問題を経験している。 この文脈では、オーディエンステキスト理解を改善するためにアクセシビリティのさらなる取り組みが必要である。 しかし、作家は容易に理解できるコンテンツを作るのをほとんど助けたり奨励したりしない。 さらに、自動テキスト簡易化(ats)モデルの開発は、正確な理解難易度を推定するためのメトリクスの欠如に苦しむ。ここでは、任意のフランス語テキストに対するテキスト理解度をトレーニングするための単純なアプローチである \textsc{lc-score} を紹介し、与えられたテキストが[0, 100]$スケールでどれだけ簡単に理解できるかを予測する。 このスケールの目的は、英語プレーン言語と密接に関連するフランスのイニシアチブである \textit{Langage Clair} (LC, \textit{Clear Language}) ガイドラインにテキストが適合する範囲を定量的に把握することである。 2つのアプローチを探求します 一 統計モデルの訓練に用いられる言語的動機付け指標を用いて、 (II)事前学習言語モデルを活用したテキストからのニューラルラーニング。 分類タスクとして,理解難易度学習のための簡易なプロキシタスクを提案する。 モデルを評価するために、2つの異なる人間のアノテーション実験を行い、両方のアプローチ(インディクタベースとニューラルネットワーク)が、fkglやsamsaのような可読性と理解のメトリクスよりも優れていることを見出しました。

Being able to read and understand written text is critical in a digital era. However, studies shows that a large fraction of the population experiences comprehension issues. In this context, further initiatives in accessibility are required to improve the audience text comprehension. However, writers are hardly assisted nor encouraged to produce easy-to-understand content. Moreover, Automatic Text Simplification (ATS) model development suffers from the lack of metric to accurately estimate comprehension difficulty We present \textsc{LC-Score}, a simple approach for training text comprehension metric for any French text without reference \ie predicting how easy to understand a given text is on a $[0, 100]$ scale. Our objective with this scale is to quantitatively capture the extend to which a text suits to the \textit{Langage Clair} (LC, \textit{Clear Language}) guidelines, a French initiative closely related to English Plain Language. We explore two approaches: (i) using linguistically motivated indicators used to train statistical models, and (ii) neural learning directly from text leveraging pre-trained language models. We introduce a simple proxy task for comprehension difficulty training as a classification task. To evaluate our models, we run two distinct human annotation experiments, and find that both approaches (indicator based and neural) outperforms commonly used readability and comprehension metrics such as FKGL and SAMSA.
翻訳日:2023-10-05 15:20:26 公開日:2023-10-04
# MUNCH:ユニークな「Nコントロール可能なヘッド」をモデル化

MUNCH: Modelling Unique 'N Controllable Heads ( http://arxiv.org/abs/2310.02753v1 )

ライセンス: Link先を確認
Debayan Deb, Suvidha Tripathi, and Pranit Puri(参考訳) 3d人間の頭部の自動生成は、コンピュータビジョン研究者にとって興味深く挑戦的なタスクだ。 一般的な方法は現実的なアバターを合成するが、出力の多様性と品質を限定的に制御し、文字の形状とテクスチャの相関が限定されている。 そこで本稿では,品質,多様性,コントロール,リアリズム,ネットワークデザインなど,ドメイン内のゲームデザインアーチストに望ましい特徴を提示する手法を提案する。 まず,提案する幾何発生器は,乱れ方向を識別し,新しい多様なサンプルを生成する。 Render Map Generatorは、Albedo、Glossiness、Specular、Normalsなど、多機能で高忠実な物理ベースのレンダリングマップの合成を学ぶ。 出力の細かな制御を好むアーティストには,生成地図上で意味的な色制御を可能にする新しいカラートランスフォーマーモデルを導入する。 また、Uniqueness and Noveltyと呼ばれる定量メトリクスと、モデル全体のパフォーマンスをテストするための組み合わせメトリクスも導入しています。 形状とテクスチャのデモは、https://munch-seven.vercel.app/で見ることができる。 合成データセットとともにモデルをリリースします。

The automated generation of 3D human heads has been an intriguing and challenging task for computer vision researchers. Prevailing methods synthesize realistic avatars but with limited control over the diversity and quality of rendered outputs and suffer from limited correlation between shape and texture of the character. We propose a method that offers quality, diversity, control, and realism along with explainable network design, all desirable features to game-design artists in the domain. First, our proposed Geometry Generator identifies disentangled latent directions and generate novel and diverse samples. A Render Map Generator then learns to synthesize multiply high-fidelty physically-based render maps including Albedo, Glossiness, Specular, and Normals. For artists preferring fine-grained control over the output, we introduce a novel Color Transformer Model that allows semantic color control over generated maps. We also introduce quantifiable metrics called Uniqueness and Novelty and a combined metric to test the overall performance of our model. Demo for both shapes and textures can be found: https://munch-seven.vercel.app/. We will release our model along with the synthetic dataset.
翻訳日:2023-10-05 15:20:01 公開日:2023-10-04
# 公平な特徴選択:多目的遺伝的アルゴリズムの比較

Fair Feature Selection: A Comparison of Multi-Objective Genetic Algorithms ( http://arxiv.org/abs/2310.02752v1 )

ライセンス: Link先を確認
James Brookhouse and Alex Freitas(参考訳) 機械学習分類器は、人々の生活に大きな影響を与える意思決定(例えば、ローンの受け入れや拒否、雇用決定など)に広く使われている。 このような応用においては、学習された分類器は、性別や人種などの異なる変数の値を持つ異なる集団に対して正確かつ公平である必要がある。 本稿では,分類器による予測の精度と公平性の両方を最大化するための特徴部分集合を選択する手法として,分類のための公平な特徴選択に焦点を当てる。 具体的には、2つの異なる多目的最適化アプローチに基づく公平な特徴選択のための2つの最近提案された遺伝的アルゴリズム(GA)を比較した。 (a)パレート支配に基づくGA、及び b) 精度の最大化が公正度を最大化するよりも優先される語彙最適化に基づくGA。 両方のガスは同じ正確さと公平さの尺度を使い、比較を制御できる。 われわれの知る限りでは、これは公正な分類のためのパレート法とレキソグラフィ法の最初の比較である。 その結果,レキシコグラフィーGAは,学習した分類器の公平さを損なうことなく,精度においてパレートGAよりも優れていた。 これは、現在フェア分類のほとんど全てのガスがパレートアプローチに基づいているため重要な結果であり、これらの結果はこの分野の研究に有望な新しい方向性を示唆している。

Machine learning classifiers are widely used to make decisions with a major impact on people's lives (e.g. accepting or denying a loan, hiring decisions, etc). In such applications,the learned classifiers need to be both accurate and fair with respect to different groups of people, with different values of variables such as sex and race. This paper focuses on fair feature selection for classification, i.e. methods that select a feature subset aimed at maximising both the accuracy and the fairness of the predictions made by a classifier. More specifically, we compare two recently proposed Genetic Algorithms (GAs) for fair feature selection that are based on two different multi-objective optimisation approaches: (a) a Pareto dominance-based GA; and (b) a lexicographic optimisation-based GA, where maximising accuracy has higher priority than maximising fairness. Both GAs use the same measures of accuracy and fairness, allowing for a controlled comparison. As far as we know, this is the first comparison between the Pareto and lexicographic approaches for fair classification. The results show that, overall, the lexicographic GA outperformed the Pareto GA with respect to accuracy without degradation of the fairness of the learned classifiers. This is an important result because at present nearly all GAs for fair classification are based on the Pareto approach, so these results suggest a promising new direction for research in this area.
翻訳日:2023-10-05 15:19:46 公開日:2023-10-04
# SHOT: 勾配に基づくメタラーニングのための最適化軌道に沿ったヘシアンの抑制

SHOT: Suppressing the Hessian along the Optimization Trajectory for Gradient-Based Meta-Learning ( http://arxiv.org/abs/2310.02751v1 )

ライセンス: Link先を確認
JunHoo Lee, Jayeon Yoo, and Nojun Kwak(参考訳) 本稿では,グラデーションベースメタラーニング(gbml)が内部ループの最適化軌道に沿ってヘシアンを暗黙的に抑制することを仮定する。 この仮説に基づいて、ターゲットのパラメータと参照モデルの間の距離を最小化し、内部ループにおけるヘッセンを抑制するアルゴリズムSHOT(Suppressing the Hessian along the Optimization Trajectory)を導入する。 高次項を扱うにもかかわらず、SHOTはベースラインモデルの計算複雑性をあまり増やさない。 GBMLで使用されるアルゴリズムとアーキテクチャの両方に非依存であり、非常に汎用的で、あらゆるGBMLベースラインに適用できる。 ショットの有効性を検証するために,標準的な少数ショット学習タスクで経験的テストを行い,そのダイナミクスを定性的に解析する。 本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。 コードは、https://github.com/JunHoo-Lee/SHOTで入手できる。

In this paper, we hypothesize that gradient-based meta-learning (GBML) implicitly suppresses the Hessian along the optimization trajectory in the inner loop. Based on this hypothesis, we introduce an algorithm called SHOT (Suppressing the Hessian along the Optimization Trajectory) that minimizes the distance between the parameters of the target and reference models to suppress the Hessian in the inner loop. Despite dealing with high-order terms, SHOT does not increase the computational complexity of the baseline model much. It is agnostic to both the algorithm and architecture used in GBML, making it highly versatile and applicable to any GBML baseline. To validate the effectiveness of SHOT, we conduct empirical tests on standard few-shot learning tasks and qualitatively analyze its dynamics. We confirm our hypothesis empirically and demonstrate that SHOT outperforms the corresponding baseline. Code is available at: https://github.com/JunHoo-Lee/SHOT
翻訳日:2023-10-05 15:19:25 公開日:2023-10-04
# 計算的絡み合い理論

Computational Entanglement Theory ( http://arxiv.org/abs/2310.02783v1 )

ライセンス: Link先を確認
Rotem Arnon-Friedman, Zvika Brakerski and Thomas Vidick(参考訳) 計算複雑性における量子情報理論からのアイデアの有用性に着想を得た,計算絡み理論の厳密な研究を開始する。 我々は, エンタングルメントの新しい操作的計算尺度 -- 計算的ワンショットエンタングルメントコストと蒸留可能なエンタングルメントを定義する。 次に,それらの間隙を提示することにより,計算方法と情報理論的手法とが根本的に異なることを示す。 我々は,aaronsonらが2022年に導入したpseudo-entanglementの定義を,新たな操作手段を用いて精錬・拡張し,量子後暗号の仮定に基づいて疑似エンタングル状態(新たな定義のために)を構築する。 最後に、計算の絡み合い理論と量子暗号や擬似エントロピーの概念など他の話題との関係、およびads/cft対応の研究における新たな定義の関連性について論じる。 現在の写本に提示された貢献に加えて、我々の研究は、理論量子情報理論のコミュニティと量子ネットワークと暗号の将来の応用の両方に関連のある、複数の研究の方向性を開くと信じている。

We initiate a rigorous study of computational entanglement theory, inspired by the emerging usefulness of ideas from quantum information theory in computational complexity. We define new operational computational measures of entanglement -- the computational one-shot entanglement cost and distillable entanglement. We then show that the computational measures are fundamentally different from their information-theoretic counterparts by presenting gaps between them. We proceed by refining and extending the definition of pseudo-entanglement, introduced by Aaronson et al., 2022, using the new operational measures; and we present constructions of pseudo-entangled states (for our new definition) based on post-quantum cryptographic assumptions. Finally, we discuss the relations between computational entanglement theory and other topics, such as quantum cryptography and notions of pseudoentropy, as well as the relevance of our new definitions to the study of the AdS/CFT correspondence. We believe that, in addition to the contributions presented in the current manuscript, our work opens multiple research directions, of relevance both to the theoretical quantum information theory community as well as for future applications of quantum networks and cryptography.
翻訳日:2023-10-05 15:11:10 公開日:2023-10-04
# 逆環境設計による一般強化学習アルゴリズムの発見

Discovering General Reinforcement Learning Algorithms with Adversarial Environment Design ( http://arxiv.org/abs/2310.02782v1 )

ライセンス: Link先を確認
Matthew Thomas Jackson, Minqi Jiang, Jack Parker-Holder, Risto Vuorio, Chris Lu, Gregory Farquhar, Shimon Whiteson, Jakob Nicolaus Foerster(参考訳) 過去10年間、人間の研究者が手動で設計したアルゴリズムの裏側で、深層強化学習(RL)が大幅に進歩してきた。 近年,多岐にわたるRLタスクでよく機能するアルゴリズムの発見を期待して,メタ学習型更新ルールが可能であることが示されている。 学習ポリシー勾配(lpg)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが未知の環境に適用された場合、一般化のギャップは残る。 本研究では,これらのアルゴリズムの一般化性能にメタトレーニング分布の特性がどのように影響するかを検討する。 この分析と、Unsupervised Environment Design (UED) のアイデアに基づいて、メタ学習したオプティマイザの後悔を最大化するために、アルゴリズム的後悔(AR)と呼ばれる新しい後悔の近似に加えて、キュリキュラの自動生成手法を提案する。 その結果,一般RLオプティマイザは環境設計 (GROOVE) に適合した。 一連の実験において,GROOVE は LPG に優れた一般化を実現し,UED の基準値に対する AR の評価を行い,環境設計における重要な要素として認識した。 このアプローチは、真に一般的なRLアルゴリズムの発見への一歩であり、幅広い現実世界環境を解決できると考えている。

The past decade has seen vast progress in deep reinforcement learning (RL) on the back of algorithms manually designed by human researchers. Recently, it has been shown that it is possible to meta-learn update rules, with the hope of discovering algorithms that can perform well on a wide range of RL tasks. Despite impressive initial results from algorithms such as Learned Policy Gradient (LPG), there remains a generalization gap when these algorithms are applied to unseen environments. In this work, we examine how characteristics of the meta-training distribution impact the generalization performance of these algorithms. Motivated by this analysis and building on ideas from Unsupervised Environment Design (UED), we propose a novel approach for automatically generating curricula to maximize the regret of a meta-learned optimizer, in addition to a novel approximation of regret, which we name algorithmic regret (AR). The result is our method, General RL Optimizers Obtained Via Environment Design (GROOVE). In a series of experiments, we show that GROOVE achieves superior generalization to LPG, and evaluate AR against baseline metrics from UED, identifying it as a critical component of environment design in this setting. We believe this approach is a step towards the discovery of truly general RL algorithms, capable of solving a wide range of real-world environments.
翻訳日:2023-10-05 15:10:26 公開日:2023-10-04
# LROC-PANGU-GAN:プラネタリーシミュレータを用いた学習クレーターセグメンテーションにおけるシミュレーションギャップの閉鎖

LROC-PANGU-GAN: Closing the Simulation Gap in Learning Crater Segmentation with Planetary Simulators ( http://arxiv.org/abs/2310.02781v1 )

ライセンス: Link先を確認
Jaewon La, Jaime Phadke, Matt Hutton, Marius Schwinning, Gabriele De Canio, Florian Renk, Lars Kunze, Matthew Gadd(参考訳) 例えば、急な崖や深いクレーターは、探査機の着陸と運用の成功に重大なリスクをもたらす可能性がある。 この問題に対するディープラーニングの最近の応用は有望な結果を示している。 しかしながら、これらのモデルは、注釈付きデータセットに対する明確な監督によってしばしば学習される。 ルナー・リコネッサンス・オービター・カメラ(LROC)のような人間の衝突したクレーターデータベースは、不完全なラベルや不正確なラベルが監視信号にノイズをもたらすため、一貫性と品質に欠ける可能性がある。 プラネットや小惑星自然シーン生成ユーティリティのような物理ベースのシミュレータは、その対照的に完全な地上真理を持ち、シーンをレンダリングするのに使用する内部状態は正確さで知られている。 しかし、シミュレーション環境とモデリングの前提から生じる実世界との根本的な違い、物理的相互作用や環境変動など、本質的なシミュレーションと現実のドメインギャップを導入する。 したがって、トレーニングデータディストリビューションで遭遇していない現実主義に直面してデプロイされると、アウトプットでトレーニングされたモデルは苦しむことになる。 そこで本稿では,ラベル忠実性を維持しつつ,この「現実主義」ギャップを解消するシステムを提案する。 PANGU(Planet and Asteroid Natural Scene Generation Utility)画像からLROCを合成するために、CycleGANモデルを訓練する。 PANGU画像のみを用いた場合に比べて、実LROC画像のテストセットでのセグメンテーション性能が向上し、下流クレーターセグメンテーションネットワークのトレーニングが向上したことを示す。

It is critical for probes landing on foreign planetary bodies to be able to robustly identify and avoid hazards - as, for example, steep cliffs or deep craters can pose significant risks to a probe's landing and operational success. Recent applications of deep learning to this problem show promising results. These models are, however, often learned with explicit supervision over annotated datasets. These human-labelled crater databases, such as from the Lunar Reconnaissance Orbiter Camera (LROC), may lack in consistency and quality, undermining model performance - as incomplete and/or inaccurate labels introduce noise into the supervisory signal, which encourages the model to learn incorrect associations and results in the model making unreliable predictions. Physics-based simulators, such as the Planet and Asteroid Natural Scene Generation Utility, have, in contrast, perfect ground truth, as the internal state that they use to render scenes is known with exactness. However, they introduce a serious simulation-to-real domain gap - because of fundamental differences between the simulated environment and the real-world arising from modelling assumptions, unaccounted for physical interactions, environmental variability, etc. Therefore, models trained on their outputs suffer when deployed in the face of realism they have not encountered in their training data distributions. In this paper, we therefore introduce a system to close this "realism" gap while retaining label fidelity. We train a CycleGAN model to synthesise LROC from Planet and Asteroid Natural Scene Generation Utility (PANGU) images. We show that these improve the training of a downstream crater segmentation network, with segmentation performance on a test set of real LROC images improved as compared to using only simulated PANGU images.
翻訳日:2023-10-05 15:10:00 公開日:2023-10-04
# 確率環境における期待フローネットワークと2プレイヤーゼロサムゲーム

Expected flow networks in stochastic environments and two-player zero-sum games ( http://arxiv.org/abs/2310.02779v1 )

ライセンス: Link先を確認
Marco Jiralerspong, Bilun Sun, Danilo Vucetic, Tianyu Zhang, Yoshua Bengio, Gauthier Gidel, Nikolay Malkin(参考訳) 生成フローネットワーク(GFlowNets)は、所定の分布に合わせてトレーニングされた逐次サンプリングモデルである。 gflownetsは様々な構造化オブジェクト生成タスクにうまく適用され、様々なハイリワードオブジェクトのセットを迅速にサンプリングしている。 我々は,GFlowNetsを確率的環境に拡張する予測フローネットワーク(EFlowNets)を提案する。 本稿では,タンパク質設計などの確率的タスクにおいて,EFlowNetが他のGFlowNetよりも優れていることを示す。 次に、EFlowNetsの概念を敵環境に拡張し、2プレイヤーゼロサムゲームのための敵フローネットワーク(AFlowNets)を提案する。 我々は,AFlowNetsが,トーナメントにおけるAlphaZeroの自己プレイとパフォーマンスを通じて,Connect-4の最適動作の80%以上を学習していることを示す。

Generative flow networks (GFlowNets) are sequential sampling models trained to match a given distribution. GFlowNets have been successfully applied to various structured object generation tasks, sampling a diverse set of high-reward objects quickly. We propose expected flow networks (EFlowNets), which extend GFlowNets to stochastic environments. We show that EFlowNets outperform other GFlowNet formulations in stochastic tasks such as protein design. We then extend the concept of EFlowNets to adversarial environments, proposing adversarial flow networks (AFlowNets) for two-player zero-sum games. We show that AFlowNets learn to find above 80% of optimal moves in Connect-4 via self-play and outperform AlphaZero in tournaments.
翻訳日:2023-10-05 15:09:26 公開日:2023-10-04
# 医療における大規模言語モデルの現実性向上のためのUMLS強化フレームワーク

A UMLS-Augmented Framework for Improving Factuality in Large Language Models within Healthcare ( http://arxiv.org/abs/2310.02778v1 )

ライセンス: Link先を確認
Rui Yang, Edison Marrese-Taylor, Yuhe Ke, Lechao Cheng, Qingyu Chen, Irene Li(参考訳) 大規模言語モデル(llm)は強力なテキスト生成能力を示し、医療分野に前例のないイノベーションをもたらした。 LLMは医療分野での応用には大きな可能性を秘めているが、実際の臨床シナリオに適用すると、これらのモデルが確立した医療事実から逸脱したコンテンツを生成し、潜在的なバイアスを示す可能性があるため、大きな課題が示される。 本研究では,umls(unified medical language system)に基づく拡張llmフレームワークを開発し,医療コミュニティへのサービス向上を目指す。 ベンチマークモデルとしてLLaMa2-13b-chatとChatGPT-3.5を採用し、LiveQAテストセットから104の質問に対してROUGEスコアとBERTScoreを用いて自動評価を行う。 さらに,医師評価の基準を,事実性,完全性,可読性,関連度という4次元に基づいて定めている。 ChatGPT-3.5は、LiveQAテストセットに関する20の質問で医師の評価に使用される。 複数の医師がブラインドレビューを行い、生成内容の評価を行い、この枠組みが生成内容の事実性、完全性、および関連性を効果的に向上することを示した。 本研究は, UMLS 拡張 LLM の有効性を実証し, 医療質問応答における LLM の適用価値を明らかにする。

Large language models (LLMs) have demonstrated powerful text generation capabilities, bringing unprecedented innovation to the healthcare field. While LLMs hold immense promise for applications in healthcare, applying them to real clinical scenarios presents significant challenges, as these models may generate content that deviates from established medical facts and even exhibit potential biases. In our research, we develop an augmented LLM framework based on the Unified Medical Language System (UMLS), aiming to better serve the healthcare community. We employ LLaMa2-13b-chat and ChatGPT-3.5 as our benchmark models, and conduct automatic evaluations using the ROUGE Score and BERTScore on 104 questions from the LiveQA test set. Additionally, we establish criteria for physician-evaluation based on four dimensions: Factuality, Completeness, Readability and Relevancy. ChatGPT-3.5 is used for physician evaluation with 20 questions on the LiveQA test set. Multiple resident physicians conducted blind reviews to evaluate the generated content, and the results indicate that this framework effectively enhances the factuality, completeness, and relevance of generated content. Our research demonstrates the effectiveness of using UMLS-augmented LLMs and highlights the potential application value of LLMs in in medical question-answering.
翻訳日:2023-10-05 15:09:14 公開日:2023-10-04
# 視覚言語モデルの合成汎化計測における言語先行の役割

The Role of Linguistic Priors in Measuring Compositional Generalization of Vision-Language Models ( http://arxiv.org/abs/2310.02777v1 )

ライセンス: Link先を確認
Chenwei Wu, Li Erran Li, Stefano Ermon, Patrick Haffner, Rong Ge, Zaiwei Zhang(参考訳) 構成性は、自然言語や画像を含む多くのモダリティにおいて共通の性質であるが、多モードモデルの合成一般化は十分に理解されていない。 本稿では,言語的先行と画像とテキスト間の相互作用という,視覚言語的構成性の源泉を同定する。 構成一般化を改善するための現在の試みは、画像内の情報よりも言語的先行に頼っていることを示す。 また,このような言語的前提を伴わない新しい構成性尺度を提案する。

Compositionality is a common property in many modalities including natural languages and images, but the compositional generalization of multi-modal models is not well-understood. In this paper, we identify two sources of visual-linguistic compositionality: linguistic priors and the interplay between images and texts. We show that current attempts to improve compositional generalization rely on linguistic priors rather than on information in the image. We also propose a new metric for compositionality without such linguistic priors.
翻訳日:2023-10-05 15:08:51 公開日:2023-10-04
# dynamic shuffle:効率的なチャネル混合法

Dynamic Shuffle: An Efficient Channel Mixture Method ( http://arxiv.org/abs/2310.02776v1 )

ライセンス: Link先を確認
Kaijun Gong, Zhuowen Yin, Yushu Li, Kailing Guo, Xiangmin Xu(参考訳) 畳み込みニューラルネットワークの冗長性は重みに依存するだけでなく、入力にも依存する。 シャッフルはチャネル情報を混合する効率的な操作であるが、シャッフル順序は通常予め定義されている。 データ依存冗長性を低減するため、動的シャッフルモジュールを考案し、シャッフルのためのデータ依存置換行列を生成する。 置換行列の次元は入力チャネルの数の二乗に比例するので、生成過程を効率的に行うために、チャネルをグループに分けて、各グループで共有される2つの小さな置換行列を生成し、クロネッカー積とクロスグループシャッフルを利用して最終的な置換行列を得る。 理論解析、ソフトマックス、直交正則化、双項化に基づいて生成過程を学習可能にし、漸近的に置換行列を近似する。 動的シャッフルはチャネル情報と不要な余分な計算とメモリ占有を適応的に混合する。 CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNetによる画像分類ベンチマーク実験の結果, ShuffleNetsの性能は有意に向上した。 学習可能な静的マトリクスを用いた動的生成マトリクスの追加により、静的動的シャッフルを提案し、通常のポイントワイズ畳み込みの軽量な代替として機能することを示す。

The redundancy of Convolutional neural networks not only depends on weights but also depends on inputs. Shuffling is an efficient operation for mixing channel information but the shuffle order is usually pre-defined. To reduce the data-dependent redundancy, we devise a dynamic shuffle module to generate data-dependent permutation matrices for shuffling. Since the dimension of permutation matrix is proportional to the square of the number of input channels, to make the generation process efficiently, we divide the channels into groups and generate two shared small permutation matrices for each group, and utilize Kronecker product and cross group shuffle to obtain the final permutation matrices. To make the generation process learnable, based on theoretical analysis, softmax, orthogonal regularization, and binarization are employed to asymptotically approximate the permutation matrix. Dynamic shuffle adaptively mixes channel information with negligible extra computation and memory occupancy. Experiment results on image classification benchmark datasets CIFAR-10, CIFAR-100, Tiny ImageNet and ImageNet have shown that our method significantly increases ShuffleNets' performance. Adding dynamic generated matrix with learnable static matrix, we further propose static-dynamic-shuffle and show that it can serve as a lightweight replacement of ordinary pointwise convolution.
翻訳日:2023-10-05 15:08:44 公開日:2023-10-04
# 品質認識のための有向グラフとしてのグラフニューラルネットワークと時系列

Graph Neural Networks and Time Series as Directed Graphs for Quality Recognition ( http://arxiv.org/abs/2310.02774v1 )

ライセンス: Link先を確認
Angelica Simonetti and Ferdinando Zanchetta(参考訳) グラフニューラルネットワーク(gnns)は時系列研究の中心となり、時間的畳み込みネットワークやリカレントニューラルネットワークといった既存のアルゴリズムと組み合わされている。 本稿では,時系列自体を有向グラフとして捉え,それらのトポロジーが時間依存性をエンコードし,それらに対するgnnsアーキテクチャの有効性を探求する。 本研究では,2つの異なる幾何学的深層学習モデル,教師付き分類器,信号再構成のためのオートエンコーダライクモデルを開発した。 これらのモデルを品質認識問題に適用する。

Graph Neural Networks (GNNs) are becoming central in the study of time series, coupled with existing algorithms as Temporal Convolutional Networks and Recurrent Neural Networks. In this paper, we see time series themselves as directed graphs, so that their topology encodes time dependencies and we start to explore the effectiveness of GNNs architectures on them. We develop two distinct Geometric Deep Learning models, a supervised classifier and an autoencoder-like model for signal reconstruction. We apply these models on a quality recognition problem.
翻訳日:2023-10-05 15:08:20 公開日:2023-10-04
# スパイキングニューラルネットワークの効果的なトレーニングのためのスパイク累積フォワード

Spike Accumulation Forwarding for Effective Training of Spiking Neural Networks ( http://arxiv.org/abs/2310.02772v1 )

ライセンス: Link先を確認
Ryuji Saiin, Tomoya Shirakawa, Sota Yoshihara, Yoshihide Sawada and Hiroyuki Kusumoto(参考訳) 本稿では、スパイキングニューラルネットワーク(SNN)、スパイク累積フォワード(SAF)をトレーニングするための新しいパラダイムを提案する。 SNNはエネルギー効率が高いが、訓練が難しいことが知られている。 その結果、多くの研究者がこの問題を解決するための様々な方法を提案しており、そのうちの1つは、時間によるオンライントレーニング(OTTT)が、メモリコストを抑えながら各ステップで推論できる方法である。 しかし、GPU上で効率よく計算するためには、OTTTはスパイク列車とフォワード中のスパイク列車の重み付け総和で操作する必要がある。 加えて、otttはスパイク表現との理論的一致が証明されていないが、代替訓練法であるスパイク表現との関係を示した。 提案手法は,SAFが前処理中の操作数を半減し,SAFがSpike RepresentationとOTTTと整合性があることを理論的に証明できる。 さらに,上記の内容を実験により確認し,精度を維持しつつ記憶時間とトレーニング時間を短縮できることを示した。

In this article, we propose a new paradigm for training spiking neural networks (SNNs), spike accumulation forwarding (SAF). It is known that SNNs are energy-efficient but difficult to train. Consequently, many researchers have proposed various methods to solve this problem, among which online training through time (OTTT) is a method that allows inferring at each time step while suppressing the memory cost. However, to compute efficiently on GPUs, OTTT requires operations with spike trains and weighted summation of spike trains during forwarding. In addition, OTTT has shown a relationship with the Spike Representation, an alternative training method, though theoretical agreement with Spike Representation has yet to be proven. Our proposed method can solve these problems; namely, SAF can halve the number of operations during the forward process, and it can be theoretically proven that SAF is consistent with the Spike Representation and OTTT, respectively. Furthermore, we confirmed the above contents through experiments and showed that it is possible to reduce memory and training time while maintaining accuracy.
翻訳日:2023-10-05 15:08:12 公開日:2023-10-04
# 低温原子量子不純物系における相互作用の制御

Controlling the interactions in a cold atom quantum impurity system ( http://arxiv.org/abs/2310.02771v1 )

ライセンス: Link先を確認
Thomas Hewitt, Tom Bertheas, Manan Jain, Yusuke Nishida, Giovanni Barontini(参考訳) 我々は、Kの1つの原子が光学式ツイーザに閉じ込められ、超低温でRb原子の浴に浸漬される実験アーキテクチャを実装した。 この状態において、単一の閉じ込められた原子の運動は最低の量子振動レベルに制限される。 これにより、初等で完全に制御可能な量子不純物系を実現する。 K原子のトラップには種選択的双極子ポテンシャルを使用し、量子不純物と入浴を独立に操作することができる。 我々は2つのサブシステム間の相互作用の特性と制御に集中する。 この目的のために、KRb種間散乱長に対する数次元閉じ込め誘起フェシュバッハ共鳴を検出し、相互作用の強度をパラメタライズするフェシュバッハ分光を行う。 我々は、データを次元間散乱の理論と比較し、良好な一致を求める。 特に,自由空間s波相互作用に由来する一連のp波共鳴も検出する。 さらに、共鳴が浴槽の温度としてどのように振る舞うかを判断し、相互作用の次元が変化する。 さらに、光ツイーザーを発生させる光の波長を微調整することで、浴槽から量子不純物を検出することができ、相互作用を制御し、最小化する新しい効果的なツールが提供されます。 我々の結果は、量子不純物モデル、量子情報、量子熱力学の量子シミュレーションにおいて、量子化されたシステムと浴の間の相互作用が強力だがほとんど利用されていないリソースである、様々な新しい可能性を開く。

We implement an experimental architecture in which a single atom of K is trapped in an optical tweezer, and is immersed in a bath of Rb atoms at ultralow temperatures. In this regime, the motion of the single trapped atom is confined to the lowest quantum vibrational levels. This realizes an elementary and fully controllable quantum impurity system. For the trapping of the K atom, we use a species-selective dipole potential, that allows us to independently manipulate the quantum impurity and the bath. We concentrate on the characterization and control of the interactions between the two subsystems. To this end, we perform Feshbach spectroscopy, detecting several inter-dimensional confinement-induced Feshbach resonances for the KRb interspecies scattering length, that parametrizes the strength of the interactions. We compare our data to a theory for inter-dimensional scattering, finding good agreement. Notably, we also detect a series of p-wave resonances stemming from the underlying free-space s-wave interactions. We further determine how the resonances behave as the temperature of the bath and the dimensionality of the interactions change. Additionally, we are able to screen the quantum impurity from the bath by finely tuning the wavelength of the light that produces the optical tweezer, providing us with a new effective tool to control and minimize the interactions. Our results open a range of new possibilities in quantum simulations of quantum impurity models, quantum information, and quantum thermodynamics, where the interactions between a quantized system and the bath is a powerful yet largely underutilized resource.
翻訳日:2023-10-05 15:07:53 公開日:2023-10-04
# 言語モダリティの指導による視覚異常検出の改善

Improving Vision Anomaly Detection with the Guidance of Language Modality ( http://arxiv.org/abs/2310.02821v1 )

ライセンス: Link先を確認
Dong Chen, Kaihang Pan, Guoming Wang, Yueting Zhuang, Siliang Tang(参考訳) 近年, 産業欠陥検出やイベント検出等に対処するための異常検出への関心が高まっている。 しかし、既存の教師なしの異常検出装置、特に視覚モダリティのものは冗長な情報と不十分な潜在空間のために重大な課題に直面している。 逆に、言語モダリティは比較的単一のデータのために良好に機能する。 本稿では,マルチモーダルの観点から,前述のビジョンモダリティの課題に取り組む。 具体的には, 冗長な情報問題と疎空間問題に対処するために, クロスモーダルエントロピー低減 (cmer) とクロスモーダル線形埋め込み (cmle) からなるクロスモーダル誘導 (cmg) を提案する。 cmerは生画像の一部をマスクし、テキストとのマッチングスコアを計算する。 そして、CMERは、無関係な画素を捨てて、検出器を臨界内容にフォーカスさせる。 視覚異常検出器のよりコンパクトな潜時空間を学習するために、CMLEは言語モダリティから相関構造行列を学習し、その後、行列の誘導により視覚異常の潜時空間を学習する。 その後、視覚潜在空間は意味的に類似した画像に近づく。 広範な実験により,提案手法の有効性が実証された。 特にCMGは、画像のみを使用するベースラインを16.81%上回る。 アブレーション実験では,各成分が互いに依存して最適な性能を得るため,提案手法間の相乗効果をさらに確認する。

Recent years have seen a surge of interest in anomaly detection for tackling industrial defect detection, event detection, etc. However, existing unsupervised anomaly detectors, particularly those for the vision modality, face significant challenges due to redundant information and sparse latent space. Conversely, the language modality performs well due to its relatively single data. This paper tackles the aforementioned challenges for vision modality from a multimodal point of view. Specifically, we propose Cross-modal Guidance (CMG), which consists of Cross-modal Entropy Reduction (CMER) and Cross-modal Linear Embedding (CMLE), to tackle the redundant information issue and sparse space issue, respectively. CMER masks parts of the raw image and computes the matching score with the text. Then, CMER discards irrelevant pixels to make the detector focus on critical contents. To learn a more compact latent space for the vision anomaly detector, CMLE learns a correlation structure matrix from the language modality, and then the latent space of vision modality will be learned with the guidance of the matrix. Thereafter, the vision latent space will get semantically similar images closer. Extensive experiments demonstrate the effectiveness of the proposed methods. Particularly, CMG outperforms the baseline that only uses images by 16.81%. Ablation experiments further confirm the synergy among the proposed methods, as each component depends on the other to achieve optimal performance.
翻訳日:2023-10-05 15:02:33 公開日:2023-10-04
# cobev: 深さと高さの相補性を備えた3次元物体検出

CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity ( http://arxiv.org/abs/2310.02815v1 )

ライセンス: Link先を確認
Hao Shi, Chengshan Pang, Jiaming Zhang, Kailun Yang, Yuhao Wu, Huajian Ni, Yining Lin, Rainer Stiefelhagen, Kaiwei Wang(参考訳) 道路カメラによる3D物体検出は、視覚中心の車両の限界を超えて認識範囲を広げ、道路安全を高めるインテリジェント輸送システムにおいて重要な課題である。 これまでの研究では、深度や高さの情報のみを使用することに制限があったが、深さと高さの両方が発見され、実際は相補的である。 深さ特徴は正確な幾何学的手がかりを含むが、高さ特徴は主に高さ間隔の様々なカテゴリーを区別することに焦点を当てており、本質的に意味的な文脈を提供する。 この知見は、深度と高さを統合して堅牢なBEV表現を構築する、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEV(CoBEV)の開発を動機付けている。 本質的には、CoBEVは各ピクセルの深さと高さの分布を推定し、新しく提案された2段階補足的特徴選択(CFS)モジュールを用いてカメラ特徴を3次元空間にリフトする。 また、融合モダルCoBEV教師の以前の知識から検出精度を高めるために、BEV特徴蒸留フレームワークをシームレスに統合する。 We conduct extensive experiments on the public 3D detection benchmarks of roadside camera-based DAIR-V2X-I and Rope3D, as well as the private Supremind-Road dataset, demonstrating that CoBEV not only achieves the accuracy of the new state-of-the-art, but also significantly advances the robustness of previous methods in challenging long-distance scenarios and noisy camera disturbance, and enhances generalization by a large margin in heterologous settings with drastic changes in scene and camera parameters. カメラモデルの車載apスコアが初めてdair-v2x-iで80%に達した。 ソースコードはhttps://github.com/MasterHow/CoBEVで公開されている。

Roadside camera-driven 3D object detection is a crucial task in intelligent transportation systems, which extends the perception range beyond the limitations of vision-centric vehicles and enhances road safety. While previous studies have limitations in using only depth or height information, we find both depth and height matter and they are in fact complementary. The depth feature encompasses precise geometric cues, whereas the height feature is primarily focused on distinguishing between various categories of height intervals, essentially providing semantic context. This insight motivates the development of Complementary-BEV (CoBEV), a novel end-to-end monocular 3D object detection framework that integrates depth and height to construct robust BEV representations. In essence, CoBEV estimates each pixel's depth and height distribution and lifts the camera features into 3D space for lateral fusion using the newly proposed two-stage complementary feature selection (CFS) module. A BEV feature distillation framework is also seamlessly integrated to further enhance the detection accuracy from the prior knowledge of the fusion-modal CoBEV teacher. We conduct extensive experiments on the public 3D detection benchmarks of roadside camera-based DAIR-V2X-I and Rope3D, as well as the private Supremind-Road dataset, demonstrating that CoBEV not only achieves the accuracy of the new state-of-the-art, but also significantly advances the robustness of previous methods in challenging long-distance scenarios and noisy camera disturbance, and enhances generalization by a large margin in heterologous settings with drastic changes in scene and camera parameters. For the first time, the vehicle AP score of a camera model reaches 80% on DAIR-V2X-I in terms of easy mode. The source code will be made publicly available at https://github.com/MasterHow/CoBEV.
翻訳日:2023-10-05 15:02:09 公開日:2023-10-04
# スマートマニュファクチャリングシステムにおける時系列分類:最先端機械学習アルゴリズムの実験評価

Time-Series Classification in Smart Manufacturing Systems: An Experimental Evaluation of State-of-the-Art Machine Learning Algorithms ( http://arxiv.org/abs/2310.02812v1 )

ライセンス: Link先を確認
Mojtaba A. Farahani, M. R. McCormick, Ramy Harik, and Thorsten Wuest(参考訳) センサーの数の増加とセンサー技術の急速な進歩により、製造業は膨大な量の多様なデータを集めている。 SMS設定で利用可能なさまざまなデータタイプの中で、時系列データは重要な役割を果たす。 したがって、この領域ではTSCが出現する。 本研究の目的は,製造・工業環境におけるTSCタスクに対する SoTA ML と DL アルゴリズムの厳密な実験的評価を提供することにより,このギャップを埋めることである。 我々はまず,TSCおよび製造文献から92以上のSoTAアルゴリズムの総合的なリストを探索し,コンパイルした。 次に、このリストから36の代表的なアルゴリズムを選択した。 各種製造分類タスクにおける性能を評価するため, 多様な製造課題をカバーする異なる特徴を示す22種類の製造データセットをキュレートした。 その後,製造ベンチマークデータセットにアルゴリズムを実装し,評価し,各データセットの結果を分析した。 結果に基づいて、ResNet、DrCIF、InceptionTime、ARSENALは最高性能のアルゴリズムであり、22のTSCデータセットの平均精度は96.6%以上である。 これらの知見は、時系列データの時間的特徴をキャプチャする畳み込み型カーネルのロバスト性、効率性、スケーラビリティ、有効性を強調し、上位4つのアルゴリズムのうち3つがこれらのカーネルを特徴抽出に活用している。 さらに、LSTM、BiLSTM、TS-LSTMアルゴリズムは、RNN構造を用いた時系列データにおける特徴のキャプチャーの有効性を認識すべきである。

Manufacturing is gathering extensive amounts of diverse data, thanks to the growing number of sensors and rapid advances in sensing technologies. Among the various data types available in SMS settings, time-series data plays a pivotal role. Hence, TSC emerges is crucial in this domain. The objective of this study is to fill this gap by providing a rigorous experimental evaluation of the SoTA ML and DL algorithms for TSC tasks in manufacturing and industrial settings. We first explored and compiled a comprehensive list of more than 92 SoTA algorithms from both TSC and manufacturing literature. Following, we selected the 36 most representative algorithms from this list. To evaluate their performance across various manufacturing classification tasks, we curated a set of 22 manufacturing datasets, representative of different characteristics that cover diverse manufacturing problems. Subsequently, we implemented and evaluated the algorithms on the manufacturing benchmark datasets, and analyzed the results for each dataset. Based on the results, ResNet, DrCIF, InceptionTime, and ARSENAL are the top-performing algorithms, boasting an average accuracy of over 96.6% across all 22 manufacturing TSC datasets. These findings underscore the robustness, efficiency, scalability, and effectiveness of convolutional kernels in capturing temporal features in time-series data, as three out of the top four performing algorithms leverage these kernels for feature extraction. Additionally, LSTM, BiLSTM, and TS-LSTM algorithms deserve recognition for their effectiveness in capturing features within time-series data using RNN-based structures.
翻訳日:2023-10-05 15:01:41 公開日:2023-10-04
# データ可用性に制限のあるMILPソリューションのためのディープインスタンス生成フレームワーク

A Deep Instance Generative Framework for MILP Solvers Under Limited Data Availability ( http://arxiv.org/abs/2310.02807v1 )

ライセンス: Link先を確認
Zijie Geng, Xijun Li, Jie Wang, Xiao Li, Yongdong Zhang, Feng Wu(参考訳) 過去数年間、組合せ最適化(CO)問題、特に混合整数線形プログラム(MILP)に対処するために機械学習(ML)技術の使用が爆発的に増加した。 成果にもかかわらず、実世界のインスタンスの可用性が限られていることは、しばしば最適化された決定とバイアスド・ソルバ・アセスメントにつながり、一連の合成milpインスタンス生成技術が動機となる。 しかし、既存のメソッドは専門家が設計した定式化に大きく依存するか、現実のインスタンスのリッチな特徴を捉えるのに苦労する。 この問題に対処するため,我々はG2MILPを提案する。 特に、G2MILPはMILPインスタンスを二部グラフとして表現し、マスク付き変分オートエンコーダを用いて元のグラフの一部を反復的に破壊し、置き換えて新しいグラフを生成する。 G2MILPの魅力は、現実のデータセットの構造と計算硬度を同時に保ちながら、事前のエキスパート設計による定式化なしに、斬新で現実的なMILPインスタンスを生成することができることである。 したがって、生成されたインスタンスは、限られたデータ可用性の下でMILPソルバを強化するための下流タスクを容易にすることができる。 生成されたMILPインスタンスの品質を評価するためのベンチマークスイートを設計する。 実験により,本手法は実世界のデータセットによく似た構造と計算硬度の両方を生成できることを示した。

In the past few years, there has been an explosive surge in the use of machine learning (ML) techniques to address combinatorial optimization (CO) problems, especially mixed-integer linear programs (MILPs). Despite the achievements, the limited availability of real-world instances often leads to sub-optimal decisions and biased solver assessments, which motivates a suite of synthetic MILP instance generation techniques. However, existing methods either rely heavily on expert-designed formulations or struggle to capture the rich features of real-world instances. To tackle this problem, we propose G2MILP, which to the best of our knowledge is the first deep generative framework for MILP instances. Specifically, G2MILP represents MILP instances as bipartite graphs, and applies a masked variational autoencoder to iteratively corrupt and replace parts of the original graphs to generate new ones. The appealing feature of G2MILP is that it can learn to generate novel and realistic MILP instances without prior expert-designed formulations, while preserving the structures and computational hardness of real-world datasets, simultaneously. Thus the generated instances can facilitate downstream tasks for enhancing MILP solvers under limited data availability. We design a suite of benchmarks to evaluate the quality of the generated MILP instances. Experiments demonstrate that our method can produce instances that closely resemble real-world datasets in terms of both structures and computational hardness.
翻訳日:2023-10-05 15:01:18 公開日:2023-10-04
# 土壌中の水流動態をモデル化するリチャーズ方程式の数値計算法

A Data-facilitated Numerical Method for Richards Equation to Model Water Flow Dynamics in Soil ( http://arxiv.org/abs/2310.02806v1 )

ライセンス: Link先を確認
Zeyuan Song and Zheyu Jiang(参考訳) 根圏土壌の水分モニタリングは、精密農業、スマート灌水、干ばつ防止に不可欠である。 土壌中の時空間水流動態のモデル化は、高非線形偏微分方程式(PDE)であるリチャーズ方程式(英語版)(Richards equation)のような水文モデルの解法によって達成される。 本稿では,混合形式リヒャルツ方程式を解くための新しい数値計算法を提案する。 D-GRW(Data-facilitated Global Random Walk)法と呼ばれるこの数値法は、有限体積離散化フレームワークにおいて、適応線形化スキーム、ニューラルネットワーク、大域ランダムウォークを相乗的に統合し、合理的な仮定で収束を保証するリチャーズ方程式の正確な数値解を生成する。 3つの例を通して, d-grw法の精度と質量保存性能を実証・検討し, ベンチマーク数値解法と商用解法との比較を行った。

Root-zone soil moisture monitoring is essential for precision agriculture, smart irrigation, and drought prevention. Modeling the spatiotemporal water flow dynamics in soil is typically achieved by solving a hydrological model, such as the Richards equation which is a highly nonlinear partial differential equation (PDE). In this paper, we present a novel data-facilitated numerical method for solving the mixed-form Richards equation. This numerical method, which we call the D-GRW (Data-facilitated global Random Walk) method, synergistically integrates adaptive linearization scheme, neural networks, and global random walk in a finite volume discretization framework to produce accurate numerical solutions of the Richards equation with guaranteed convergence under reasonable assumptions. Through three illustrative examples, we demonstrate and discuss the superior accuracy and mass conservation performance of our D-GRW method and compare it with benchmark numerical methods and commercial solver.
翻訳日:2023-10-05 15:00:50 公開日:2023-10-04
# DOMINO: マルチステップビジュアル言語推論のためのデュアルシステム

DOMINO: A Dual-System for Multi-step Visual Language Reasoning ( http://arxiv.org/abs/2310.02804v1 )

ライセンス: Link先を確認
Peifang Wang and Olga Golovneva and Armen Aghajanyan and Xiang Ren and Muhao Chen and Asli Celikyilmaz and Maryam Fazel-Zarandi(参考訳) 視覚的言語推論では,グラフやプロットなどの情報拡散画像からテキストや数値を抽出し,論理的あるいは算術的推論を実行して回答を得る必要がある。 この課題に対処するために、既存の作業は(1)大量のデータに基づいて訓練されたエンドツーエンドの視覚言語モデル、(2)キャプションモデルが画像を他の大きな言語モデルによってさらに読まれるテキストに変換して解答を導出する2段階のパイプラインに依存する。 しかし、前者のアプローチは複雑な問題に1つのステップで答えるようモデルに強制し、後者のアプローチは、言語モデルを混乱させる可能性のある変換されたテキストの情報を不正確または不正確なものにする傾向がある。 本研究では,視覚情報抽出のための"system-1"ステップと,推論を意図する"system-2"ステップからなる,多段階マルチモーダル推論のためのデュアルシステムを提案する。 入力が与えられた場合、System-2はその問題をアトミックなサブステップに分解し、各システム-1が画像から推論に必要な情報を抽出する。 図表とプロットデータセットを用いた実験では,事前学習されたsystem-2モジュールを用いた手法が,配信データおよび配信データに対する先行作業と比較して競争力が高いことが示された。 システム2モジュール (LLaMA-2 70B) を少量のデータのみに微調整することにより,提案手法の精度をさらに向上し,FlanPaLM (540B) を用いたパイプラインアプローチを5.7%向上させるとともに,人間による質問に対して7.5%向上させる。

Visual language reasoning requires a system to extract text or numbers from information-dense images like charts or plots and perform logical or arithmetic reasoning to arrive at an answer. To tackle this task, existing work relies on either (1) an end-to-end vision-language model trained on a large amount of data, or (2) a two-stage pipeline where a captioning model converts the image into text that is further read by another large language model to deduce the answer. However, the former approach forces the model to answer a complex question with one single step, and the latter approach is prone to inaccurate or distracting information in the converted text that can confuse the language model. In this work, we propose a dual-system for multi-step multimodal reasoning, which consists of a "System-1" step for visual information extraction and a "System-2" step for deliberate reasoning. Given an input, System-2 breaks down the question into atomic sub-steps, each guiding System-1 to extract the information required for reasoning from the image. Experiments on chart and plot datasets show that our method with a pre-trained System-2 module performs competitively compared to prior work on in- and out-of-distribution data. By fine-tuning the System-2 module (LLaMA-2 70B) on only a small amount of data on multi-step reasoning, the accuracy of our method is further improved and surpasses the best fully-supervised end-to-end approach by 5.7% and a pipeline approach with FlanPaLM (540B) by 7.5% on a challenging dataset with human-authored questions.
翻訳日:2023-10-05 15:00:30 公開日:2023-10-04
# 心臓のあらゆるものを一度に追跡する

Tracking Anything in Heart All at Once ( http://arxiv.org/abs/2310.02792v1 )

ライセンス: Link先を確認
Chengkang Shen, Hao Zhu, You Zhou, Yu Liu, Si Yi, Lili Dong, Weipeng Zhao, David J. Brady, Xun Cao, Zhan Ma, Yi Lin(参考訳) 心筋運動追跡は、心血管疾患(cvds)の予防と検出に必須な臨床ツールであり、世界中で最も多い死因である。 しかし、現在の手法では、空間次元と時間次元の両方において、不完全かつ不正確な心筋運動の推定が困難であり、早期の心筋機能障害の特定を妨げる。 そこで本稿では,神経運動野(neural heart motion field,neuralcmf)について述べる。 NeuralCMFは、暗黙の神経表現(INR)を利用して、心臓の3D構造と包括的な6D前方/後方運動をモデル化する。 このアプローチは、メモリ効率のストレージと連続的な能力を提供し、特定の点において心筋の正確な形状と運動を問い合わせる。 特に、NeuralCMFはペア化されたデータセットを必要とせずに動作し、その最適化は空間次元と時間次元の両方の物理知識を通じて自己監督され、2Dと3Dの心エコービデオ入力との互換性を確保する。 3つの代表的なデータセットにわたる実験的検証は、NeuralCMFの堅牢性と革新性をサポートし、心臓画像とモーショントラッキングにおける既存の最先端技術に対する大きな優位性を示している。

Myocardial motion tracking stands as an essential clinical tool in the prevention and detection of Cardiovascular Diseases (CVDs), the foremost cause of death globally. However, current techniques suffer incomplete and inaccurate motion estimation of the myocardium both in spatial and temporal dimensions, hindering the early identification of myocardial dysfunction. In addressing these challenges, this paper introduces the Neural Cardiac Motion Field (NeuralCMF). NeuralCMF leverages the implicit neural representation (INR) to model the 3D structure and the comprehensive 6D forward/backward motion of the heart. This approach offers memory-efficient storage and continuous capability to query the precise shape and motion of the myocardium throughout the cardiac cycle at any specific point. Notably, NeuralCMF operates without the need for paired datasets, and its optimization is self-supervised through the physics knowledge priors both in space and time dimensions, ensuring compatibility with both 2D and 3D echocardiogram video inputs. Experimental validations across three representative datasets support the robustness and innovative nature of the NeuralCMF, marking significant advantages over existing state-of-the-arts in cardiac imaging and motion tracking.
翻訳日:2023-10-05 14:59:58 公開日:2023-10-04
# 事前学習言語モデルを用いた低資源要約

Low Resource Summarization using Pre-trained Language Models ( http://arxiv.org/abs/2310.02790v1 )

ライセンス: Link先を確認
Mubashir Munaf, Hammad Afzal, Naima Iltaf, Khawir Mahmood(参考訳) ディープラーニングベースのニューラルネットワークモデルの出現により、自然言語処理(NLP)はその効率と正確性の観点から、テキストデータ処理の大幅な改善が見られた。 しかし、研究は主に英語や低リソース言語のような高リソース言語に限定されており、データセットのトレーニングや、ベースライン評価結果のモデルに関してはまだ利用可能なリソースが不足している。 低リソース言語のためのリソースが限られていることを考慮し、低リソース言語 urdu における新しいベースラインデータセット (76.5k 記事、要約ペア) の構築を補足して、低リソース要約のための自己対応トランスフォーマベースのアーキテクチャモデル (mbert, mt5) を適用する手法を提案する。 アプリケーションドメインとしてニュース(公開ソース)を選択すると、提案された方法論がリソースが限られている他の言語で再生するのに有用になる可能性がある。 我々の適応した要約モデルである \textit{urt5} は, \textit{mt5} と比較して最大44.78\%小さくなり,評価スコア (46.35 rouge-1, 77 bertscore まで) で低リソース言語の文脈情報を効果的に取得できる。 提案手法は, 限られた資源設定において, 競合評価結果との抽象的な要約と抽出に対するベースラインアプローチを提供する。

With the advent of Deep Learning based Artificial Neural Networks models, Natural Language Processing (NLP) has witnessed significant improvements in textual data processing in terms of its efficiency and accuracy. However, the research is mostly restricted to high-resource languages such as English and low-resource languages still suffer from a lack of available resources in terms of training datasets as well as models with even baseline evaluation results. Considering the limited availability of resources for low-resource languages, we propose a methodology for adapting self-attentive transformer-based architecture models (mBERT, mT5) for low-resource summarization, supplemented by the construction of a new baseline dataset (76.5k article, summary pairs) in a low-resource language Urdu. Choosing news (a publicly available source) as the application domain has the potential to make the proposed methodology useful for reproducing in other languages with limited resources. Our adapted summarization model \textit{urT5} with up to 44.78\% reduction in size as compared to \textit{mT5} can capture contextual information of low resource language effectively with evaluation score (up to 46.35 ROUGE-1, 77 BERTScore) at par with state-of-the-art models in high resource language English \textit{(PEGASUS: 47.21, BART: 45.14 on XSUM Dataset)}. The proposed method provided a baseline approach towards extractive as well as abstractive summarization with competitive evaluation results in a limited resource setup.
翻訳日:2023-10-05 14:59:35 公開日:2023-10-04
# 散逸量子ビットをモニタリングする測定装置からの熱流

Heat flow from a measurement apparatus monitoring a dissipative qubit ( http://arxiv.org/abs/2310.02789v1 )

ライセンス: Link先を確認
Tsuyoshi Yamamoto and Yasuhiro Tokura(参考訳) 連続量子測定により, 熱浴に結合したキュービットの熱流について検討した。 定常限度では、測定したキュービット状態に関わらず常に測定装置からキュービットに熱が流れ、キュービットと測定装置との間の熱流の上下境界が導かれる。 さらに,過渡期における熱電流と過渡期熱の過渡ダイナミクスについて検討した。

We investigate the heat flow of a qubit coupled to heat baths under continuous quantum measurement. In the steady-state limit, we show that heat always flows from the measurement apparatus into the qubit regardless of the measured qubit state and derive lower and upper bounds for the heat current between the qubit and the measurement apparatus. Furthermore, we study the transient dynamics of the heat current and the excess heat during the transient regime.
翻訳日:2023-10-05 14:58:50 公開日:2023-10-04
# MAD Max Beyond Single-Node: 分散システム上での大規模機械学習モデル高速化の実現

MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems ( http://arxiv.org/abs/2310.02784v1 )

ライセンス: Link先を確認
Samuel Hsia, Alicia Golden, Bilge Acun-Uyan, Newsha Ardalani, Zachary DeVito, Gu-Yeon Wei, David Brooks, Carole-Jean Wu(参考訳) 大規模機械学習(ml)モデルのトレーニングとデプロイは時間がかかり、重要な分散コンピューティング基盤を必要とする。 データセンタ規模のインフラストラクチャ上の実世界の大規模モデルトレーニングに基づいて,gpu時間の14~32%がオーバーラップ処理なしで通信に費やされていることを示した。 通信遅延を最小限に抑えるため,並列化とハードウェア・ソフトウェア共同設計戦略をガイドするアジャイルパフォーマンスモデリングフレームワークを開発した。 最先端のGPUトレーニングハードウェア上で,実世界の大規模MLモデルのスイートを用いて,事前トレーニングシナリオと推論シナリオにおいて,それぞれ2.24倍,5.27倍のスループット向上の可能性を示す。

Training and deploying large machine learning (ML) models is time-consuming and requires significant distributed computing infrastructures. Based on real-world large model training on datacenter-scale infrastructures, we show 14~32% of all GPU hours are spent on communication with no overlapping computation. To minimize the outstanding communication latency, in this work, we develop an agile performance modeling framework to guide parallelization and hardware-software co-design strategies. Using the suite of real-world large ML models on state-of-the-art GPU training hardware, we demonstrate 2.24x and 5.27x throughput improvement potential for pre-training and inference scenarios, respectively.
翻訳日:2023-10-05 14:58:43 公開日:2023-10-04
# 完全自動ケパロメトリランドマーク検出のためのマルチリゾリューション融合

Multi-Resolution Fusion for Fully Automatic Cephalometric Landmark Detection ( http://arxiv.org/abs/2310.02855v1 )

ライセンス: Link先を確認
Dongqian Guo, Wencheng Han(参考訳) 側頭蓋X線像のセファロメトリーによるランドマーク検出は,特定の歯科疾患の診断において重要な役割を担っている。 これらのランドマークの正確かつ効果的な同定は重要な課題である。 広汎なデータ観測と定量的解析により,異なる受容領域の視覚的特徴が様々なランドマークの検出精度に異なる影響を及ぼすことがわかった。 その結果、画像ピラミッド構造を採用し、複数の解像度を入力として統合し、異なる受容場を持つモデル群を訓練し、ランドマークごとに最適な特徴の組み合わせを達成することを目指した。 さらに,トレーニング中に複数のデータ拡張手法を適用し,各種機器と測定代替機器のロバスト性の向上を行った。 本手法は,側方x線画像2023における脳波ランドマーク検出に実装し,最終試験段階で平均放射誤差(mre)1.22mm,成功検出率(sdr)2.0mm(74.18%)を達成した。

Cephalometric landmark detection on lateral skull X-ray images plays a crucial role in the diagnosis of certain dental diseases. Accurate and effective identification of these landmarks presents a significant challenge. Based on extensive data observations and quantitative analyses, we discovered that visual features from different receptive fields affect the detection accuracy of various landmarks differently. As a result, we employed an image pyramid structure, integrating multiple resolutions as input to train a series of models with different receptive fields, aiming to achieve the optimal feature combination for each landmark. Moreover, we applied several data augmentation techniques during training to enhance the model's robustness across various devices and measurement alternatives. We implemented this method in the Cephalometric Landmark Detection in Lateral X-ray Images 2023 Challenge and achieved a Mean Radial Error (MRE) of 1.62 mm and a Success Detection Rate (SDR) 2.0mm of 74.18% in the final testing phase.
翻訳日:2023-10-05 14:50:29 公開日:2023-10-04
# 弱分布不変性を用いたマルチドメイン因果表現学習

Multi-Domain Causal Representation Learning via Weak Distributional Invariances ( http://arxiv.org/abs/2310.02854v1 )

ライセンス: Link先を確認
Kartik Ahuja, Amin Mansouri, Yixin Wang(参考訳) 因果表現学習は因果機械学習研究における行動の中心として現れてきた。 特に、マルチドメインデータセットは、標準の教師なし表現学習よりも因果表現学習の利点を示す自然な機会を提供する。 最近の研究は因果表現を学習するための重要なステップを採っているが、データに関する仮定を過度に単純化するため、マルチドメインデータセットの適用性に欠けることが多い。 この研究では、これらの仮定を緩和し、次の観察に乗じる: 特定の分布特性(例えば、支持、分散)が領域間で安定であるラテントのサブセットがしばしば存在する; この性質は、例えば、各領域が多重ノード不完全干渉から来るときに成り立つ。 このような不変性を組み込んだオートエンコーダは、他の様々な設定で安定な潜在子集合を識別できることを実証できる。

Causal representation learning has emerged as the center of action in causal machine learning research. In particular, multi-domain datasets present a natural opportunity for showcasing the advantages of causal representation learning over standard unsupervised representation learning. While recent works have taken crucial steps towards learning causal representations, they often lack applicability to multi-domain datasets due to over-simplifying assumptions about the data; e.g. each domain comes from a different single-node perfect intervention. In this work, we relax these assumptions and capitalize on the following observation: there often exists a subset of latents whose certain distributional properties (e.g., support, variance) remain stable across domains; this property holds when, for example, each domain comes from a multi-node imperfect intervention. Leveraging this observation, we show that autoencoders that incorporate such invariances can provably identify the stable set of latents from the rest across different settings.
翻訳日:2023-10-05 14:50:12 公開日:2023-10-04
# magicremover:拡散モデルを用いたチューニングフリーテキストガイド画像のインペインティング

Magicremover: Tuning-free Text-guided Image inpainting with Diffusion Models ( http://arxiv.org/abs/2310.02848v1 )

ライセンス: Link先を確認
Siyuan Yang, Lu Zhang, Liqian Ma, Yu Liu, JingJing Fu and You He(参考訳) image inpaintingは、行方不明のピクセルを視覚的に一貫性があり、意味的に妥当なコンテンツで埋めることを目指している。 深い生成モデルからもたらされた大きな進歩にもかかわらず、このタスクはいまだにiに苦しむ。 大規模な現実的なデータ収集とコストのかかるモデルトレーニングの難しさ。 従来、ユーザ定義のバイナリマスクは、境界や透明なテクスチャが不明なオブジェクトに固有の制限がある。 本稿では,テキスト誘導画像のインペイントに強力な拡散モデルを利用するチューニング不要なMagicRemoverを提案する。 本研究では,拡散モデルのサンプリング過程を制限し,指示領域の消去と閉鎖内容の復元を可能にするための注意誘導戦略を導入する。 さらに,より少ないサンプリングステップで安定度を判断するための分類器最適化アルゴリズムを提案する。 画像インパインティングにおけるmagicremoverの大幅な改善を実証し,magicremoverと最先端の手法,定量的評価,ユーザスタディの比較を行った。 コードをhttps://github.com/exisas/Magicremover.comでリリースします。

Image inpainting aims to fill in the missing pixels with visually coherent and semantically plausible content. Despite the great progress brought from deep generative models, this task still suffers from i. the difficulties in large-scale realistic data collection and costly model training; and ii. the intrinsic limitations in the traditionally user-defined binary masks on objects with unclear boundaries or transparent texture. In this paper, we propose MagicRemover, a tuning-free method that leverages the powerful diffusion models for text-guided image inpainting. We introduce an attention guidance strategy to constrain the sampling process of diffusion models, enabling the erasing of instructed areas and the restoration of occluded content. We further propose a classifier optimization algorithm to facilitate the denoising stability within less sampling steps. Extensive comparisons are conducted among our MagicRemover and state-of-the-art methods including quantitative evaluation and user study, demonstrating the significant improvement of MagicRemover on high-quality image inpainting. We will release our code at https://github.com/exisas/Magicremover.
翻訳日:2023-10-05 14:49:53 公開日:2023-10-04
# スマートMOPを用いたスウィーピング不均一性:LLMタスク適応のためのプロンプトの混合

Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task Adaptation ( http://arxiv.org/abs/2310.02842v1 )

ライセンス: Link先を確認
Chen Dun, Mirian Del Carmen Hipolito Garcia, Guoqing Zheng, Ahmed Hassan Awadallah, Anastasios Kyrillidis, Robert Sim(参考訳) 大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクをすぐに解決できる能力を持っているが、それらは単一のタスクを念頭に置いて訓練されることが多い。 計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。 したがって、いかにプロンプトチューニングを -- 同時的に - ヘテロジェンスなタスクとデータ分散を扱うように拡張するかは、広くオープンな疑問である。 このギャップに対処するために、スマートゲーティング機能に関連する「emph{Mixture of Prompts}」または「MoPs」の使用を提案する。後者は、この論文のコントリビューションの1つであるデザインで、異なるグループに埋め込まれた関連するスキルを特定し、ターゲットタスクに基づいて、統合された専門家(すなわち、プロンプトの収集)を動的に割り当てることができる。 さらに、MoPは(効率上の理由から)適用されたモデル圧縮技術や、命令データソースやタスクコンポジションを経験的に知らない。 実際には、mopsはマルチタスク、マルチソースシナリオ(例えば、ソース間のタスクとデータの不均一性)におけるプロンプトトレーニングの"干渉"を緩和すると同時に、モデルの近似による影響も軽減できる。 強調として、MoPsは最終的な難易度を、ベースラインと比較して$\sim20\%$から$\sim70\%$に下げ、中央集権シナリオでは$\sim 3\%$から$\sim30\%$に下げる。

Large Language Models (LLMs) have the ability to solve a variety of tasks, such as text summarization and mathematical questions, just out of the box, but they are often trained with a single task in mind. Due to high computational costs, the current trend is to use prompt instruction tuning to better adjust monolithic, pretrained LLMs for new -- but often individual -- downstream tasks. Thus, how one would expand prompt tuning to handle -- concomitantly -- heterogeneous tasks and data distributions is a widely open question. To address this gap, we suggest the use of \emph{Mixture of Prompts}, or MoPs, associated with smart gating functionality: the latter -- whose design is one of the contributions of this paper -- can identify relevant skills embedded in different groups of prompts and dynamically assign combined experts (i.e., collection of prompts), based on the target task. Additionally, MoPs are empirically agnostic to any model compression technique applied -- for efficiency reasons -- as well as instruction data source and task composition. In practice, MoPs can simultaneously mitigate prompt training "interference" in multi-task, multi-source scenarios (e.g., task and data heterogeneity across sources), as well as possible implications from model approximations. As a highlight, MoPs manage to decrease final perplexity from $\sim20\%$ up to $\sim70\%$, as compared to baselines, in the federated scenario, and from $\sim 3\%$ up to $\sim30\%$ in the centralized scenario.
翻訳日:2023-10-05 14:49:36 公開日:2023-10-04
# 余剰次元と宇宙定数問題について

On extra dimensions and the cosmological constant problem ( http://arxiv.org/abs/2310.02837v1 )

ライセンス: Link先を確認
Grzegorz Plewa(参考訳) 宇宙定数問題に対する潜在的な解決法として、大きな余剰次元の概念を考える。 ブレーン上のディリクレ境界条件を満たす座標依存質量を持つ大スカラー場の非常に単純なモデルについて議論する。 ゼロ点エネルギーを計算する理論を定量化する。 その結果, 不確かさの原理では, 不確かさ積の上限が低いことがわかった。 余剰次元が存在する場合、零点エネルギー密度は小さくなる可能性がある。 空間の任意の次元から始まり、後に自分自身を 10 次元と 11 次元に制限する。 どちらの場合もエネルギーは余剰次元の数と余剰次元の飽和パラメータによってパラメータ化され、不確実性原理の完全な飽和から逸脱を表現する。 パラメータを小さくし、微細構造定数の次数とすることで、宇宙定数の実験値を4次元で再現する。

We consider the idea of large extra dimensions as a potential resolution to the cosmological constant problem. We discuss a very simple model of a massive scalar field with coordinate-dependent mass, satisfying Dirichlet boundary conditions on a brane. We quantize the theory calculating the zero-point energy. Based on the results, we find the lower bound for the uncertainty product in the uncertainty principle. We show that the zero-point energy density could be small if extra dimensions are present. We start with an arbitrary dimensionality of space, later restricting ourselves to ten and eleven dimensions. In both cases the energy is parameterized by the number of extra dimensions and additional dimensionless saturation parameter, expressing the deviation from perfect saturation of the uncertainty principle. Letting the parameter to be small and of order of the fine-structure constant, we reproduce the experimental value of the cosmological constant in four dimensions.
翻訳日:2023-10-05 14:48:59 公開日:2023-10-04
# 実効性ニュートラル原子画像シミュレーション

Realistic Neutral Atom Image Simulation ( http://arxiv.org/abs/2310.02836v1 )

ライセンス: Link先を確認
Jonas Winklmann, Dimitrios Tsevas, Martin Schulz(参考訳) 中性原子量子コンピュータは、量子ビットの準備と読み出しのために正確な単一原子検出を必要とする。 通常は蛍光イメージングを用いて行われる。 これらの画像中の原子部位の占有は、画像の確率的性質のため、しばしば曖昧である。 さらに、基底的真理の欠如により、再構成アルゴリズムの精度を評価することが困難になる。 シミュレーションシステムにおける実際の状態の説明から中性原子実験のサンプル画像を生成するボトムアップシミュレータを提案する。 デモ目的の模範的なイメージの作成、デコンボリューションアルゴリズムのための高速なトレーニングイテレーション、機械学習ベースの原子検出アプローチのためのラベル付きデータの生成などが考えられる。 実装はGitHubでCライブラリまたはラップPythonパッケージとして公開しています。 画像化過程の異なる段階におけるシミュレーションのモデル化効果と実装について述べる。 すべての実世界の現象が完璧に再現できるわけではない。 主な相違点は、シミュレータは画像全体にわたる光学収差の1つの特性のみを許容し、個々の原子位置のみをサポートし、CMOSカメラのすべての効果を完璧にモデル化していないことである。 しかし,本実験により,生成した画像は実世界の画像と密に一致し,実際に識別不能であり,次世代検出アルゴリズムの学習にラベル付きデータとして使用できることを示した。

Neutral atom quantum computers require accurate single atom detection for the preparation and readout of their qubits. This is usually done using fluorescence imaging. The occupancy of an atom site in these images is often somewhat ambiguous due to the stochastic nature of the imaging process. Further, the lack of ground truth makes it difficult to rate the accuracy of reconstruction algorithms. We introduce a bottom-up simulator that is capable of generating sample images of neutral atom experiments from a description of the actual state in the simulated system. Possible use cases include the creation of exemplary images for demonstration purposes, fast training iterations for deconvolution algorithms, and generation of labeled data for machine-learning-based atom detection approaches. The implementation is available through our GitHub as a C library or wrapped Python package. We show the modeled effects and implementation of the simulations at different stages of the imaging process. Not all real-world phenomena can be reproduced perfectly. The main discrepancies are that the simulator allows for only one characterization of optical aberrations across the whole image, supports only discrete atom locations, and does not model all effects of CMOS cameras perfectly. Nevertheless, our experiments show that the generated images closely match real-world pictures to the point that they are practically indistinguishable and can be used as labeled data for training the next generation of detection algorithms.
翻訳日:2023-10-05 14:48:46 公開日:2023-10-04
# ビデオ異常認識のためのCLIP潜伏空間への埋め込み

Delving into CLIP latent space for Video Anomaly Recognition ( http://arxiv.org/abs/2310.02835v1 )

ライセンス: Link先を確認
Luca Zanella, Benedetta Liberatori, Willi Menapace, Fabio Poiesi, Yiming Wang, Elisa Ricci(参考訳) 監視ビデオの異常をフレームレベルで検出・認識する複雑な問題に対処し,ビデオレベルの監視のみを活用する。 本稿では,CLIPなどのLarge Language and Vision(LLV)モデルと,関節ビデオ異常検出と分類のための複数インスタンス学習を組み合わせた新しい手法AnomalyCLIPを提案する。 当社のアプローチでは,通常のイベントサブスペースを特定するために潜在CLIP機能空間を操作することで,異常イベントのテキスト駆動方向を効果的に学習する。 異常フレームがこれらの方向に投影されると、それらが特定のクラスに属している場合、大きな特徴量を示す。 また,フレーム間の短期および長期の時間依存性をモデル化し,最終的に最終異常スコアとクラス予測確率を生成する計算効率の高いトランスフォーマアーキテクチャを導入する。 AnomalyCLIPを上海技術、UCF-Crime、XD-Violenceの3つの主要な異常検出ベンチマークを考慮した最先端の手法と比較し、ビデオ異常認識におけるベースラインよりも優れていることを示す。

We tackle the complex problem of detecting and recognising anomalies in surveillance videos at the frame level, utilising only video-level supervision. We introduce the novel method AnomalyCLIP, the first to combine Large Language and Vision (LLV) models, such as CLIP, with multiple instance learning for joint video anomaly detection and classification. Our approach specifically involves manipulating the latent CLIP feature space to identify the normal event subspace, which in turn allows us to effectively learn text-driven directions for abnormal events. When anomalous frames are projected onto these directions, they exhibit a large feature magnitude if they belong to a particular class. We also introduce a computationally efficient Transformer architecture to model short- and long-term temporal dependencies between frames, ultimately producing the final anomaly score and class prediction probabilities. We compare AnomalyCLIP against state-of-the-art methods considering three major anomaly detection benchmarks, i.e. ShanghaiTech, UCF-Crime, and XD-Violence, and empirically show that it outperforms baselines in recognising video anomalies.
翻訳日:2023-10-05 14:48:27 公開日:2023-10-04
# 層間変換平滑化による分布外検出

Out-of-Distribution Detection by Leveraging Between-Layer Transformation Smoothness ( http://arxiv.org/abs/2310.02832v1 )

ライセンス: Link先を確認
Fran Jeleni\'c, Josip Juki\'c, Martin Tutek, Mate Puljiz, Jan \v{S}najder(参考訳) 効果的なood検出は、信頼性の高い機械学習モデルには不可欠であるが、トレーニングデータへのアクセスやトレーニングへの介入といった要件のために、現在のほとんどの方法は実用的に制限されている。 本稿では,トレーニングデータにアクセスせずに事前学習されたモデルに適用可能なネットワーク(ブラッド)の中間層間の変換平滑性に基づいて,深層ニューラルネットワーク内のoodデータを検出する新しい手法を提案する。 BLOODは、トランスフォーマーネットワークにおいても実証的な特性であるOODデータの変換よりもスムーズなIDデータの層間表現変換の傾向を利用する。 トランスフォーマーネットワークを用いた複数のテキスト分類タスクにおける血行評価を行い,同等のリソース要件を満たした手法よりも優れていることを示す。 また,より単純なタスクを学ぶ場合,oodデータ変換は元のシャープネスを維持し,シャープネスはより複雑なタスクで増加することが示唆された。

Effective OOD detection is crucial for reliable machine learning models, yet most current methods are limited in practical use due to requirements like access to training data or intervention in training. We present a novel method for detecting OOD data in deep neural networks based on transformation smoothness between intermediate layers of a network (BLOOD), which is applicable to pre-trained models without access to training data. BLOOD utilizes the tendency of between-layer representation transformations of in-distribution (ID) data to be smoother than the corresponding transformations of OOD data, a property that we also demonstrate empirically for Transformer networks. We evaluate BLOOD on several text classification tasks with Transformer networks and demonstrate that it outperforms methods with comparable resource requirements. Our analysis also suggests that when learning simpler tasks, OOD data transformations maintain their original sharpness, whereas sharpness increases with more complex tasks.
翻訳日:2023-10-05 14:48:08 公開日:2023-10-04
# all sizes matter:小病変における体積脳分画の改善

All Sizes Matter: Improving Volumetric Brain Segmentation on Small Lesions ( http://arxiv.org/abs/2310.02829v1 )

ライセンス: Link先を確認
Ayhan Can Erdur, Daniel Scholz, Josef A. Buchner, Stephanie E. Combs, Daniel Rueckert, Jan C. Peeken(参考訳) 脳転移 (bms) は最も頻繁に発生する脳腫瘍である。 立体的戦術的放射線治療を併用した多発性BM患者の治療は、転移の正確な位置決めを必要とする。 ニューラルネットワークは、人間の専門家が通常行う時間とコストのかかるタスクを支援することができる。 特に難しいのは、ingアプローチでしばしば過小評価されるため、小さな病変の検出である。 しかし、病変検出はあらゆるサイズでも同様に重要である。 本研究では,小さなbmsの検出とセグメント化に特有なニューラルネットワークのアンサンブルを開発する。 この課題を達成するために、私たちは、BMセグメンテーション問題の個々の側面に焦点を当てた、いくつかのニューラルネットワークをトレーニングした。 さらに、T1コントラスト強調配列とT1コントラスト強調配列のサブトラクション配列を用いたモデルは、低コントラスト病変に焦点を当てる。 さらに,小病変に対してのみ追加モデルを訓練する。 本実験は, 随意ブロブ損失と減算シーケンスの有用性を実証した。 しかし, アンサンブルの特殊小病変モデルを含め, セグメンテーション結果が低下する。 また、ドメイン知識にインスパイアされた後処理ステップを見つけ、ほとんどの実験でパフォーマンスを劇的に向上させます。 我々のアプローチは、ASNR-MICCAI BraTS Brain Metastasis Challenge 2023に競合するチャレンジエントリを提出することを可能にする。

Brain metastases (BMs) are the most frequently occurring brain tumors. The treatment of patients having multiple BMs with stereo tactic radiosurgery necessitates accurate localization of the metastases. Neural networks can assist in this time-consuming and costly task that is typically performed by human experts. Particularly challenging is the detection of small lesions since they are often underrepresented in exist ing approaches. Yet, lesion detection is equally important for all sizes. In this work, we develop an ensemble of neural networks explicitly fo cused on detecting and segmenting small BMs. To accomplish this task, we trained several neural networks focusing on individual aspects of the BM segmentation problem: We use blob loss that specifically addresses the imbalance of lesion instances in terms of size and texture and is, therefore, not biased towards larger lesions. In addition, a model using a subtraction sequence between the T1 and T1 contrast-enhanced sequence focuses on low-contrast lesions. Furthermore, we train additional models only on small lesions. Our experiments demonstrate the utility of the ad ditional blob loss and the subtraction sequence. However, including the specialized small lesion models in the ensemble deteriorates segmentation results. We also find domain-knowledge-inspired postprocessing steps to drastically increase our performance in most experiments. Our approach enables us to submit a competitive challenge entry to the ASNR-MICCAI BraTS Brain Metastasis Challenge 2023.
翻訳日:2023-10-05 14:47:52 公開日:2023-10-04
# 温度条件型gflownetsのためのlogitsスケールの学習

Learning to Scale Logits for Temperature-Conditional GFlowNets ( http://arxiv.org/abs/2310.02823v1 )

ライセンス: Link先を確認
Minsu Kim, Joohwan Ko, Dinghuai Zhang, Ling Pan, Taeyoung Yun, Woochang Kim, Jinkyoo Park, Yoshua Bengio(参考訳) GFlowNetは、分子グラフのような構成構造を逐次生成する確率的ポリシーを学ぶ確率論的モデルである。 それらは、オブジェクトの報酬に比例した確率でそのようなオブジェクトをサンプリングする目的で訓練される。 GFlowNetでは、温度条件付きGFlowNetは、温度によってインデックスされたポリシーの族を表し、それぞれが対応する誘引された報酬関数と関連付けられている。 温度条件GFlowNetsの大きな利点は、温度調整によるGFlowNetsの探索と利用の制御性である。 本稿では,温度条件付きGFlowNets(LSL-GFN)のためのLearning to Scale Logitsを提案する。 これは、以前提案された温度調和アプローチが、異なる温度が、ポリシーのロジットの非常に異なる勾配プロファイルと理想的なスケールをもたらす可能性があるため、ディープネットワークのトレーニングにおいて数値的な課題をもたらしたという考えに基づいている。 政策のロジットを直接スケールするために、温度の学習関数を使用する場合、課題は大幅に削減される。 複数の生化学タスクで多様なモードを発見するという観点から,強化学習やサンプリング手法など,他のベースラインを上回って,gflownetsの性能を劇的に向上させる戦略を実証的に示した。

GFlowNets are probabilistic models that learn a stochastic policy that sequentially generates compositional structures, such as molecular graphs. They are trained with the objective of sampling such objects with probability proportional to the object's reward. Among GFlowNets, the temperature-conditional GFlowNets represent a family of policies indexed by temperature, and each is associated with the correspondingly tempered reward function. The major benefit of temperature-conditional GFlowNets is the controllability of GFlowNets' exploration and exploitation through adjusting temperature. We propose Learning to Scale Logits for temperature-conditional GFlowNets (LSL-GFN), a novel architectural design that greatly accelerates the training of temperature-conditional GFlowNets. It is based on the idea that previously proposed temperature-conditioning approaches introduced numerical challenges in the training of the deep network because different temperatures may give rise to very different gradient profiles and ideal scales of the policy's logits. We find that the challenge is greatly reduced if a learned function of the temperature is used to scale the policy's logits directly. We empirically show that our strategy dramatically improves the performances of GFlowNets, outperforming other baselines, including reinforcement learning and sampling methods, in terms of discovering diverse modes in multiple biochemical tasks.
翻訳日:2023-10-05 14:47:36 公開日:2023-10-04
# 平均回帰のない定常性:不適切なガウス過程回帰と不適切な核

Stationarity without mean reversion: Improper Gaussian process regression and improper kernels ( http://arxiv.org/abs/2310.02877v1 )

ライセンス: Link先を確認
Luca Ambrogioni(参考訳) ガウス過程(gp)回帰は機械学習アプリケーションでかなりの人気を集めている。 GP回帰の挙動は共分散関数の選択に依存する。 定常共分散関数は機械学習アプリケーションで好まれる。 しかし、(周期的でない)定常共分散関数は常に平均反転であり、固定された大域平均値に緩和しないデータに適用すると、病的挙動を示すことができる。 本稿では,不適切なGPを無限分散に先立って使用することにより,定常だが逆転ではないプロセスを定義することができることを示す。 この目的のために、この不適切なレジームでのみ定義可能な不適切なカーネルの大規模なクラスを導入する。 具体的には、無限に滑らかなサンプルを生成するSmooth Walkカーネルと、任意の整数$j$に対して$j$-times微分可能と定義できる不適切なMat\'ernカーネル群を紹介する。 結果として得られる後続分布は解析的に計算でき、通常の公式の単純な修正が伴う。 これらの不適切なカーネルは、合成データと実データの両方を解析することにより、通常のスムーズな定常カーネルのほとんどの特性を維持しつつ、平均反転GP回帰の既知の病理を解くことを示した。

Gaussian processes (GP) regression has gained substantial popularity in machine learning applications. The behavior of a GP regression depends on the choice of covariance function. Stationary covariance functions are favorite in machine learning applications. However, (non-periodic) stationary covariance functions are always mean reverting and can therefore exhibit pathological behavior when applied to data that does not relax to a fixed global mean value. In this paper, we show that it is possible to use improper GP prior with infinite variance to define processes that are stationary but not mean reverting. To this aim, we introduce a large class of improper kernels that can only be defined in this improper regime. Specifically, we introduce the Smooth Walk kernel, which produces infinitely smooth samples, and a family of improper Mat\'ern kernels, which can be defined to be $j$-times differentiable for any integer $j$. The resulting posterior distributions can be computed analytically and it involves a simple correction of the usual formulas. By analyzing both synthetic and real data, we demonstrate that these improper kernels solve some known pathologies of mean reverting GP regression while retaining most of the favourable properties of ordinary smooth stationary kernels.
翻訳日:2023-10-05 14:41:49 公開日:2023-10-04
# 合成データ生成を用いた限られたデータコンテキストにおけるヘイトスピーチ検出

Hate Speech Detection in Limited Data Contexts using Synthetic Data Generation ( http://arxiv.org/abs/2310.02876v1 )

ライセンス: Link先を確認
Aman Khullar, Daniel Nkemelu, Cuong V. Nguyen, Michael L. Best(参考訳) オンライン投稿されたヘイトスピーチの量の増加を検出するためのテキスト分類手法に注目が集まっている。 この進歩は、限られたデータコンテキストにおいて、検出システムが性能が低いか存在しないかを引き起こすような、限られた数の高リソース言語に限られている。 これは主に、これらの設定で収集とキュレーションに費用がかかるトレーニングデータの欠如によって引き起こされる。 本研究では,オンラインヘイトスピーチ検出におけるデータ不足問題に対処するために,合成データ生成手法を用いたデータ拡張手法を提案する。 英語などの高資源言語におけるいくつかのヘイトスピーチ例を考慮すれば,ヘイトスピーチデータの新たな例を,元例のヘイト感情を維持しながらヘイトターゲットを転送するターゲット言語で合成する3つの手法を提案する。 本手法は,ヒンディー語とベトナム語におけるヘイトスピーチ分類タスクの訓練データを生成する。 以上の結果から,合成データで学習したモデルと,対象領域で利用可能なサンプルのみをトレーニングしたモデルとを比較検討した結果が得られた。 この手法は、限られたデータコンテキストにおいて、ゼロからヘイトスピーチ検出モデルをブートストラップに適用することができる。 これらの文脈におけるソーシャルメディアの成長は、反応の努力を超過しているため、この研究はヘイトスピーチの検出、理解、反応の能力を高める。

A growing body of work has focused on text classification methods for detecting the increasing amount of hate speech posted online. This progress has been limited to only a select number of highly-resourced languages causing detection systems to either under-perform or not exist in limited data contexts. This is majorly caused by a lack of training data which is expensive to collect and curate in these settings. In this work, we propose a data augmentation approach that addresses the problem of lack of data for online hate speech detection in limited data contexts using synthetic data generation techniques. Given a handful of hate speech examples in a high-resource language such as English, we present three methods to synthesize new examples of hate speech data in a target language that retains the hate sentiment in the original examples but transfers the hate targets. We apply our approach to generate training data for hate speech classification tasks in Hindi and Vietnamese. Our findings show that a model trained on synthetic data performs comparably to, and in some cases outperforms, a model trained only on the samples available in the target domain. This method can be adopted to bootstrap hate speech detection models from scratch in limited data contexts. As the growth of social media within these contexts continues to outstrip response efforts, this work furthers our capacities for detection, understanding, and response to hate speech.
翻訳日:2023-10-05 14:41:28 公開日:2023-10-04
# 医療におけるフェデレーション学習の方法論的進歩

Recent Methodological Advances in Federated Learning for Healthcare ( http://arxiv.org/abs/2310.02874v1 )

ライセンス: Link先を確認
Fan Zhang, Daniel Kreuter, Yichen Chen, S\"oren Dittmer, Samuel Tull, Tolou Shadbahr, BloodCounts! Collaboration, Jacobus Preller, James H.F. Rudd, John A.D. Aston, Carola-Bibiane Sch\"onlieb, Nicholas Gleadall, Michael Roberts(参考訳) 医療データセットでは、倫理的、プライバシー、論理的懸念のために、複数のサイトからのデータサンプルを組み合わせることができないことが多い。 フェデレーション学習は、データのプールを必要とせずに強力な機械学習アルゴリズムを活用することができる。 医療データには、高度にサイロ化されたデータ、クラス不均衡、欠落データ、分散シフト、非標準変数など、新しい方法論を必要とする多くの同時的課題がある。 連合学習は、分散最適化、ノード間の通信、モデルの集約、モデルの再分配を必要とする、従来の集中型機械学習に重要な方法論的複雑さをもたらす。 本稿では,2015年1月から2023年2月にかけて発行された,医療データによる課題に対処する新たなフェデレーション学習手法に関する全論文について考察する。 これらの基準を満たす89の論文の詳細なレビューを行った。 重要な体系的な問題が文献を通じて特定され、多くの論文でその方法論を侵害した。 我々は,医療におけるフェデレーション学習のための方法論開発の品質向上を支援するために,詳細な勧告を行う。

For healthcare datasets, it is often not possible to combine data samples from multiple sites due to ethical, privacy or logistical concerns. Federated learning allows for the utilisation of powerful machine learning algorithms without requiring the pooling of data. Healthcare data has many simultaneous challenges which require new methodologies to address, such as highly-siloed data, class imbalance, missing data, distribution shifts and non-standardised variables. Federated learning adds significant methodological complexity to conventional centralised machine learning, requiring distributed optimisation, communication between nodes, aggregation of models and redistribution of models. In this systematic review, we consider all papers on Scopus that were published between January 2015 and February 2023 and which describe new federated learning methodologies for addressing challenges with healthcare data. We performed a detailed review of the 89 papers which fulfilled these criteria. Significant systemic issues were identified throughout the literature which compromise the methodologies in many of the papers reviewed. We give detailed recommendations to help improve the quality of the methodology development for federated learning in healthcare.
翻訳日:2023-10-05 14:41:04 公開日:2023-10-04
# タブラルデータのための安定かつ解釈可能なディープラーニング:新しい解釈可能性メトリクスによるInterpreTabNetの導入

Stable and Interpretable Deep Learning for Tabular Data: Introducing InterpreTabNet with the Novel InterpreStability Metric ( http://arxiv.org/abs/2310.02870v1 )

ライセンス: Link先を確認
Shiyun Wa, Xinai Lu, Minjuan Wang(参考訳) 人工知能(AI)が多様な分野に深く統合されるにつれ、強力なモデルの探求が激化している。 モデル機能とドメイン間の適用性を大幅に向上させる努力が続けられている一方で、大きな課題が続いている。 この不透明さは、エンドユーザーへのモデル決定の説明を複雑にするだけでなく、モデルデザイナの中間プロセスに対する洞察を阻害する。 これらの課題に対処するために,我々は,タブネットアーキテクチャを改良された注意モジュールを用いて活用することにより,分類精度と解釈可能性の両立を図ったモデルである interpretabnet を紹介する。 この設計はロバストな勾配伝播と計算安定性を保証する。 さらに、モデルの解釈可能性の安定性を定量化する新しい評価指標、InterpreStabilityを提案する。 提案されたモデルとメトリクスは、さまざまな分野にわたるAIモデル設計と応用における透明性と解釈可能性の標準を設定する、説明可能なモデルの研究において、大きな前進を示している。 interpretabnetは、さまざまなアプリケーションシナリオにわたる表データ分析の他の主要なソリューションを上回り、高度に正確かつ本質的に説明可能なディープラーニングモデルの作成に関するさらなる研究の道を開く。 Interprestaability メトリックの導入により、将来のモデルの解釈可能性が一貫した厳密な方法で測定および比較できることが保証される。 まとめると、これらの貢献は次世代の解釈可能なaiモデルの設計原則と開発を促進し、重要な意思決定環境における解釈可能なaiソリューションの採用を広げる可能性がある。

As Artificial Intelligence (AI) integrates deeper into diverse sectors, the quest for powerful models has intensified. While significant strides have been made in boosting model capabilities and their applicability across domains, a glaring challenge persists: many of these state-of-the-art models remain as black boxes. This opacity not only complicates the explanation of model decisions to end-users but also obstructs insights into intermediate processes for model designers. To address these challenges, we introduce InterpreTabNet, a model designed to enhance both classification accuracy and interpretability by leveraging the TabNet architecture with an improved attentive module. This design ensures robust gradient propagation and computational stability. Additionally, we present a novel evaluation metric, InterpreStability, which quantifies the stability of a model's interpretability. The proposed model and metric mark a significant stride forward in explainable models' research, setting a standard for transparency and interpretability in AI model design and application across diverse sectors. InterpreTabNet surpasses other leading solutions in tabular data analysis across varied application scenarios, paving the way for further research into creating deep-learning models that are both highly accurate and inherently explainable. The introduction of the InterpreStability metric ensures that the interpretability of future models can be measured and compared in a consistent and rigorous manner. Collectively, these contributions have the potential to promote the design principles and development of next-generation interpretable AI models, widening the adoption of interpretable AI solutions in critical decision-making environments.
翻訳日:2023-10-05 14:40:45 公開日:2023-10-04
# リーチ回避仕様付き最適制御のための高調波制御リアプノフバリア関数

Harmonic Control Lyapunov Barrier Functions for Constrained Optimal Control with Reach-Avoid Specifications ( http://arxiv.org/abs/2310.02869v1 )

ライセンス: Link先を確認
Amartya Mukherjee, Ruikun Zhou and Jun Liu(参考訳) 本稿では,リーチアビド問題などの制約付き制御問題を支援する高調波制御リャプノフ障壁関数(高調波CLBF)を提案する。 調和CLBFは、制御リャプノフ障壁関数(CLBF)の特性を符号化するために調和関数が満たす最大原理を利用する。 結果として、サンプルの軌跡に基づいてトレーニングするのではなく、実験の開始時に開始することができる。 制御入力は、高調波clbfの最も急降下方向のシステムダイナミクスの内積を最大化するために選択される。 異なる到達回避環境下での4つの異なる系で数値的な結果が示される。 高調波CLBFは、安全でない領域に入るリスクが著しく低く、目標領域に入る確率が高い。

This paper introduces harmonic control Lyapunov barrier functions (harmonic CLBF) that aid in constrained control problems such as reach-avoid problems. Harmonic CLBFs exploit the maximum principle that harmonic functions satisfy to encode the properties of control Lyapunov barrier functions (CLBFs). As a result, they can be initiated at the start of an experiment rather than trained based on sample trajectories. The control inputs are selected to maximize the inner product of the system dynamics with the steepest descent direction of the harmonic CLBF. Numerical results are presented with four different systems under different reach-avoid environments. Harmonic CLBFs show a significantly low risk of entering unsafe regions and a high probability of entering the goal region.
翻訳日:2023-10-05 14:40:17 公開日:2023-10-04
# 共有構造を利用した限定データモデルの推定

Estimation of Models with Limited Data by Leveraging Shared Structure ( http://arxiv.org/abs/2310.02864v1 )

ライセンス: Link先を確認
Maryann Rui, Thibaut Horel, Munther Dahleh(参考訳) 医療やeコマースなどの現代的なデータセットは、多くの個人やシステムから派生したものが多いが、個別の、しばしば高次元のモデルパラメータを別々に見積もるには各ソースからのデータが不十分である。 しかし、システム間で共有構造がある場合、他のシステムからのデータを利用して個々のパラメータを推定することができる。 本稿では,システムの低次元パラメータ空間が潜在していると仮定し,システム毎にT<d$の観測しか存在しない場合でも,N$の異なる線形系に対して$d$のパラメータを復元する方法を提案する。 そこで,我々は,システムのパラメータにまたがる低次元部分空間を推定し,その部分空間内で洗練されたパラメータ推定を生成する3段階アルゴリズムを開発した。 提案手法では,有限サンプル部分空間推定誤差の保証を行う。 最後に,回帰データと相関時系列データを用いたシミュレーションにおいて,本手法の有効性を実験的に検証した。

Modern data sets, such as those in healthcare and e-commerce, are often derived from many individuals or systems but have insufficient data from each source alone to separately estimate individual, often high-dimensional, model parameters. If there is shared structure among systems however, it may be possible to leverage data from other systems to help estimate individual parameters, which could otherwise be non-identifiable. In this paper, we assume systems share a latent low-dimensional parameter space and propose a method for recovering $d$-dimensional parameters for $N$ different linear systems, even when there are only $T<d$ observations per system. To do so, we develop a three-step algorithm which estimates the low-dimensional subspace spanned by the systems' parameters and produces refined parameter estimates within the subspace. We provide finite sample subspace estimation error guarantees for our proposed method. Finally, we experimentally validate our method on simulations with i.i.d. regression data and as well as correlated time series data.
翻訳日:2023-10-05 14:40:05 公開日:2023-10-04
# 縦断データの共形予測

Conformal Predictions for Longitudinal Data ( http://arxiv.org/abs/2310.02863v1 )

ライセンス: Link先を確認
Devesh Batra, Salvatore Mercuri, Raad Khraishi(参考訳) 縦方向データに対する分布自由な共形予測アルゴリズムLPCI(Longitudinal Predictive Conformal Inference)を提案する。 現在の時系列データのコンフォメーション予測アプローチは、主に不定値の設定に焦点を当てており、従って、縦型データセットの各時系列に個別に適用される場合の横断カバレッジを欠いている。 現在の長手データの現状は、横断的および漸近的な長手カバレッジを保証するために無限大の予測間隔を作成することに依存している。 提案手法は,縦断・横断の両方のカバレッジが無限に広い間隔で保証されることを保証し,この問題に対処する。 提案手法では,残差データを量子的固定効果回帰問題としてモデル化し,トレーニングされた量子的回帰器を用いて予測間隔を構築する。 本研究では,LPCIが有意な断面積範囲を達成し,既存のベンチマークを経時的カバレッジ率で上回っていることを示す。 理論的には,両次元のLPCIの漸近被覆保証を有限幅間隔で確立する。 LPCIの長期データに対する信頼性のある予測間隔の生成における堅牢な性能は、医療、金融、サプライチェーン管理など幅広い応用の可能性を示している。

We introduce Longitudinal Predictive Conformal Inference (LPCI), a novel distribution-free conformal prediction algorithm for longitudinal data. Current conformal prediction approaches for time series data predominantly focus on the univariate setting, and thus lack cross-sectional coverage when applied individually to each time series in a longitudinal dataset. The current state-of-the-art for longitudinal data relies on creating infinitely-wide prediction intervals to guarantee both cross-sectional and asymptotic longitudinal coverage. The proposed LPCI method addresses this by ensuring that both longitudinal and cross-sectional coverages are guaranteed without resorting to infinitely wide intervals. In our approach, we model the residual data as a quantile fixed-effects regression problem, constructing prediction intervals with a trained quantile regressor. Our extensive experiments demonstrate that LPCI achieves valid cross-sectional coverage and outperforms existing benchmarks in terms of longitudinal coverage rates. Theoretically, we establish LPCI's asymptotic coverage guarantees for both dimensions, with finite-width intervals. The robust performance of LPCI in generating reliable prediction intervals for longitudinal data underscores its potential for broad applications, including in medicine, finance, and supply chain management.
翻訳日:2023-10-05 14:39:48 公開日:2023-10-04
# ギアボックスセンサデータ圧縮のための離散コサインストックウェル変換層を有する新しい非対称オートエンコーダ

A novel asymmetrical autoencoder with a sparsifying discrete cosine Stockwell transform layer for gearbox sensor data compression ( http://arxiv.org/abs/2310.02862v1 )

ライセンス: Link先を確認
Xin Zhu, Daoguang Yang, Hongyi Pan, Hamid Reza Karimi, Didem Ozevin, Ahmet Enis Cetin(参考訳) 効率的な圧縮モデルの欠如は、非接触歯車の故障診断問題におけるギアボックスデータの無線伝送の課題である。 本稿では,変換ドメイン層を有する信号適応型非対称オートエンコーダを用いてセンサ信号を圧縮する。 まず,多層オートエンコーダの線形層を置き換えるために,新しい離散コサインストックウェル変換(DCST)層を導入する。 畳み込みの乗算特性を利用して、DCST領域にトレーニング可能なフィルタを実装する。 トレーニング可能なハード保持層を適用してDCST層の冗長データを低減し、特徴マップをスパースにする。 線形層と比較して、DCST層はトレーニング可能なパラメータの数を減らし、データ再構成の精度を向上させる。 第二に、分散DCST層でオートエンコーダをトレーニングするには、少数のデータセットが必要である。 提案手法はコネチカット大学 (UoC) とサウスイースタン大学 (SEU) のギアボックスデータセットにおける他のオートエンコーダベースの手法よりも優れており、平均品質スコアは最低で2.00%、最高で32.35%向上し、限られたトレーニングサンプル数で改善されている。

The lack of an efficient compression model remains a challenge for the wireless transmission of gearbox data in non-contact gear fault diagnosis problems. In this paper, we present a signal-adaptive asymmetrical autoencoder with a transform domain layer to compress sensor signals. First, a new discrete cosine Stockwell transform (DCST) layer is introduced to replace linear layers in a multi-layer autoencoder. A trainable filter is implemented in the DCST domain by utilizing the multiplication property of the convolution. A trainable hard-thresholding layer is applied to reduce redundant data in the DCST layer to make the feature map sparse. In comparison to the linear layer, the DCST layer reduces the number of trainable parameters and improves the accuracy of data reconstruction. Second, training the autoencoder with a sparsifying DCST layer only requires a small number of datasets. The proposed method is superior to other autoencoder-based methods on the University of Connecticut (UoC) and Southeast University (SEU) gearbox datasets, as the average quality score is improved by 2.00% at the lowest and 32.35% at the highest with a limited number of training samples
翻訳日:2023-10-05 14:39:27 公開日:2023-10-04
# レイリー商グラフニューラルネットワークによるグラフレベルの異常検出

Rayleigh Quotient Graph Neural Networks for Graph-level Anomaly Detection ( http://arxiv.org/abs/2310.02861v1 )

ライセンス: Link先を確認
Xiangyu Dong, Xingyi Zhang, Sibo Wang(参考訳) グラフレベルの異常検出は、がん診断や酵素の予測など、さまざまな領域で多くの応用が発見されているため、注目されている。 しかし、既存の手法はグラフ異常の基盤となる特性を捉えず、説明不能なフレームワーク設計と不満足なパフォーマンスをもたらす。 本稿では,異常グラフと正規グラフのスペクトル差を再検討する。 本研究の主観測は, この2つのクラス間で蓄積されたスペクトルエネルギーに有意差が認められた。 さらに、グラフ信号の蓄積したスペクトルエネルギーがレイリー・クオシエントによって表現できることを証明し、レイリー・クオシエントがグラフの異常特性の背後にある駆動因子であることを示す。 そこで本研究では,グラフレベルの異常検出のための最初のスペクトルgnnであるrayleigh quotient graph neural network (rqgnn)を提案する。 具体的には、Rayleigh Quotient Learning component (RQL)とChebyshev Wavelet GNN with RQ-pooling (CWGNN-RQ)の2つのコンポーネントからなる新しいフレームワークを紹介する。 RQLはグラフのRayleigh Quotientを明示的にキャプチャし、CWGNN-RQはグラフのスペクトル空間を暗黙的に探索する。 10の実世界のデータセットに対する大規模な実験により、RQGNNはMacro-F1スコアの6.74%、AUCの1.44%で最高のライバルを上回っ、我々のフレームワークの有効性を示している。

Graph-level anomaly detection has gained significant attention as it finds many applications in various domains, such as cancer diagnosis and enzyme prediction. However, existing methods fail to capture the underlying properties of graph anomalies, resulting in unexplainable framework design and unsatisfying performance. In this paper, we take a step back and re-investigate the spectral differences between anomalous and normal graphs. Our main observation shows a significant disparity in the accumulated spectral energy between these two classes. Moreover, we prove that the accumulated spectral energy of the graph signal can be represented by its Rayleigh Quotient, indicating that the Rayleigh Quotient is a driving factor behind the anomalous properties of graphs. Motivated by this, we propose Rayleigh Quotient Graph Neural Network (RQGNN), the first spectral GNN for graph-level anomaly detection, providing a new perspective on exploring the inherent spectral features of anomalous graphs. Specifically, we introduce a novel framework that consists of two components: the Rayleigh Quotient learning component (RQL) and Chebyshev Wavelet GNN with RQ-pooling (CWGNN-RQ). RQL explicitly captures the Rayleigh Quotient of graphs and CWGNN-RQ implicitly explores the spectral space of graphs. Extensive experiments on 10 real-world datasets show that RQGNN outperforms the best rival by 6.74% in Macro-F1 score and 1.44% in AUC, demonstrating the effectiveness of our framework.
翻訳日:2023-10-05 14:39:04 公開日:2023-10-04
# 低エネルギーにおける量子力学の局所性境界

Locality bounds for quantum dynamics at low energy ( http://arxiv.org/abs/2310.02856v1 )

ライセンス: Link先を確認
Andrew Osborne, Chao Yin, Andrew Lucas(参考訳) 空間局所ハミルトニアンの低エネルギー密度状態における量子力学の一般的な減速について論じる。 単一粒子の量子ウォークから始め、ある種のハミルトニアンのクラス(格子正規化 $h\propto p^{2k}$ の変形)に対して、低温での粒子運動の ``butterfly velocity" は、次元解析から期待されるように $t^{(2k-1)/2k}$ でスケールしなければならないことを証明する。 これらの結果を一般化して、多体系における粒子の典型的な速度の境界を求める。

We discuss the generic slowing down of quantum dynamics in low energy density states of spatially local Hamiltonians. Beginning with quantum walks of a single particle, we prove that for certain classes of Hamiltonians (deformations of lattice-regularized $H\propto p^{2k}$), the ``butterfly velocity" of particle motion at low temperatures must scale as $T^{(2k-1)/2k}$, as expected from dimensional analysis. We generalize these results to obtain bounds on the typical velocities of particles in many-body systems, where for certain families of Hubbard-like models we obtain similar scaling.
翻訳日:2023-10-05 14:38:37 公開日:2023-10-04
# 強化学習とトランスフォーマーを用いた高値分子探索

Searching for High-Value Molecules Using Reinforcement Learning and Transformers ( http://arxiv.org/abs/2310.02902v1 )

ライセンス: Link先を確認
Raj Ghugare, Santiago Miret, Adriana Hugessen, Mariano Phielipp, Glen Berseth(参考訳) テキスト表現に対する強化学習(RL)は、グラフ上で検索できる高価値なポリシーを見つけるのに有効である。 しかし、rlは、この課題において効果的な探索空間とアルゴリズム設計を注意深く構造化する必要がある。 広範な実験を通じて、テキスト文法の異なる設計選択と学習のためのアルゴリズム選択が、RLポリシーが望ましい性質を持つ分子を生成する能力にどのように影響するかを検討する。 我々は新しいRLに基づく分子設計アルゴリズム(ChemRLformer)に到達し、計算に複雑なタンパク質ドッキングシミュレーションを含む25の分子設計タスクを用いて徹底的な解析を行う。 この分析から,この問題空間における特異な洞察を発見し,ChemRLformerがテキストベースの分子設計においてどのような設計選択が実際に有用であるかをデミスティフィケートすることで,最先端の性能を実現することを示す。

Reinforcement learning (RL) over text representations can be effective for finding high-value policies that can search over graphs. However, RL requires careful structuring of the search space and algorithm design to be effective in this challenge. Through extensive experiments, we explore how different design choices for text grammar and algorithmic choices for training can affect an RL policy's ability to generate molecules with desired properties. We arrive at a new RL-based molecular design algorithm (ChemRLformer) and perform a thorough analysis using 25 molecule design tasks, including computationally complex protein docking simulations. From this analysis, we discover unique insights in this problem space and show that ChemRLformer achieves state-of-the-art performance while being more straightforward than prior work by demystifying which design choices are actually helpful for text-based molecule design.
翻訳日:2023-10-05 14:29:44 公開日:2023-10-04
# 計算効率の良い二次ニューラルネットワーク

Computationally Efficient Quadratic Neural Networks ( http://arxiv.org/abs/2310.02901v1 )

ライセンス: Link先を確認
Mathew Mithra Noel and Venkataraman Muthiah-Nakarajan(参考訳) 入力の高次多重項関数に活性化関数を適用して出力を計算する高次人工ニューロンはこれまで検討されてきたが、余分なパラメータや計算コストのために受け入れられなかった。 しかし、高次ニューロンの決定境界は超平面ではなく複雑な表面になるため、高次ニューロンは学習能力が大幅に向上する。 単一の二次ニューロンの境界は、多くの非線形分離可能なデータセットを学習できる一般的な超量子曲面である。 二次形式は対称行列で表現できるので、追加のパラメータは$n^2$ではなく$\frac{n(n+1)}{2}$である。 二次ロジスティック回帰モデルが最初に提示される。 単一二次ニューロンによるXOR問題の解について考察する。 二次ニューロンからなるフィードフォワードネットワークにおける前方および後方伝播の完全ベクトル化方程式を導出する。 学習能力と計算コストの妥協を提供するニューロン1つにつき1ドル追加のパラメータしか持たない縮小パラメータ2次ニューラルネットワークモデルが提示される。 ベンチマーク分類データセットの比較により、二次ニューロンの最終層が、隠れた層ニューロンを著しく少ない精度でネットワークを高い精度で達成できることを示した。 特に本論文は、$C$境界クラスタからなる任意のデータセットが、$C$二次ニューロンの単一層でのみ分離可能であることを示す。

Higher order artificial neurons whose outputs are computed by applying an activation function to a higher order multinomial function of the inputs have been considered in the past, but did not gain acceptance due to the extra parameters and computational cost. However, higher order neurons have significantly greater learning capabilities since the decision boundaries of higher order neurons can be complex surfaces instead of just hyperplanes. The boundary of a single quadratic neuron can be a general hyper-quadric surface allowing it to learn many nonlinearly separable datasets. Since quadratic forms can be represented by symmetric matrices, only $\frac{n(n+1)}{2}$ additional parameters are needed instead of $n^2$. A quadratic Logistic regression model is first presented. Solutions to the XOR problem with a single quadratic neuron are considered. The complete vectorized equations for both forward and backward propagation in feedforward networks composed of quadratic neurons are derived. A reduced parameter quadratic neural network model with just $ n $ additional parameters per neuron that provides a compromise between learning ability and computational cost is presented. Comparison on benchmark classification datasets are used to demonstrate that a final layer of quadratic neurons enables networks to achieve higher accuracy with significantly fewer hidden layer neurons. In particular this paper shows that any dataset composed of $C$ bounded clusters can be separated with only a single layer of $C$ quadratic neurons.
翻訳日:2023-10-05 14:29:26 公開日:2023-10-04
# 純三量子状態のローレンツ不変量

Lorentz invariants of pure three-qubit states ( http://arxiv.org/abs/2310.02900v1 )

ライセンス: Link先を確認
A R Usha Devi, Sudha, H Akshata Shenoy, H S Karthik, B N Karthik(参考訳) Physの数学的枠組みを拡張する。 v. 102, 052419 (2020) 純粋な3量子ビット状態のローレンツ不変量を構成する。 この方法は、よく知られた局所ユニタリ (lu) 不変量 viz. concurrences と任意の3量子純粋状態の3方形と、その還元された2量子系のローレンツ不変量との橋渡しとなる。

Extending the mathematical framework of Phys. Rev. A 102, 052419 (2020) we construct Lorentz invariant quantities of pure three-qubit states. This method serves as a bridge between the well-known local unitary (LU) invariants viz. concurrences and three-tangle of an arbitrary three-qubit pure state and the Lorentz invariants of its reduced two-qubit systems.
翻訳日:2023-10-05 14:29:07 公開日:2023-10-04
# 過パラメータオートエンコーダによるトレーニングデータの回復:逆問題の観点から

Recovery of Training Data from Overparameterized Autoencoders: An Inverse Problem Perspective ( http://arxiv.org/abs/2310.02897v1 )

ライセンス: Link先を確認
Koren Abitbul, Yehuda Dar(参考訳) オーバーパラメータ化オートエンコーダモデルによるトレーニングデータの回復について検討する。 劣化したトレーニングサンプルが与えられた場合、元のサンプルの回収を逆問題として定義し、最適化タスクとして定式化する。 逆問題では、トレーニングされたautoencoderを使用して、我々が取得しようとしている特定のトレーニングデータセットの正規化子を暗黙的に定義します。 複雑な最適化タスクを、訓練されたオートエンコーダと、未知の分解演算子を推定して対処する比較的単純な計算を反復的に適用する実用的な手法に発展させる。 そこで我々は,未知のパターンの多くの欠落画素の劣化からトレーニング画像の復元を目標とするブラインド塗装の評価を行った。 本手法は,完全接続やu-net (非線形性や列車損失値の多様さ) など,様々な深層オートエンコーダアーキテクチャを検証した結果,従来のオートエンコーダからのデータのリカバリトレーニング手法を大きく上回ることを示す。 重要となるのは,従来は難易度が高く,かつ非実用的であった設定でも,回復性能が大幅に向上する点である。

We study the recovery of training data from overparameterized autoencoder models. Given a degraded training sample, we define the recovery of the original sample as an inverse problem and formulate it as an optimization task. In our inverse problem, we use the trained autoencoder to implicitly define a regularizer for the particular training dataset that we aim to retrieve from. We develop the intricate optimization task into a practical method that iteratively applies the trained autoencoder and relatively simple computations that estimate and address the unknown degradation operator. We evaluate our method for blind inpainting where the goal is to recover training images from degradation of many missing pixels in an unknown pattern. We examine various deep autoencoder architectures, such as fully connected and U-Net (with various nonlinearities and at diverse train loss values), and show that our method significantly outperforms previous methods for training data recovery from autoencoders. Importantly, our method greatly improves the recovery performance also in settings that were previously considered highly challenging, and even impractical, for such retrieval.
翻訳日:2023-10-05 14:28:59 公開日:2023-10-04
# 数学的推論におけるAI支援への道のり

Notes on a Path to AI Assistance in Mathematical Reasoning ( http://arxiv.org/abs/2310.02896v1 )

ライセンス: Link先を確認
Alex Kontorovich(参考訳) これらの非公式なノートは2023年6月の「AI to Assist Mathematical Reasoning」に関する全米理工学アカデミーおよび数学ワークショップの著者の講義に基づいている。 目標は、研究数学者にとって有用なAIにたどり着く道を考えることだ。

These informal notes are based on the author's lecture at the National Academies of Science, Engineering, and Mathematics workshop on "AI to Assist Mathematical Reasoning" in June 2023. The goal is to think through a path by which we might arrive at AI that is useful for the research mathematician.
翻訳日:2023-10-05 14:28:39 公開日:2023-10-04
# CoLiDE: 共用線形DAG推定

CoLiDE: Concomitant Linear DAG Estimation ( http://arxiv.org/abs/2310.02895v1 )

ライセンス: Link先を確認
Seyed Saman Saboksayr, Gonzalo Mateos, Mariano Tepper(参考訳) 本研究では,線形構造方程式モデル(SEM)に付着した観測データから,有向非巡回グラフ(DAG)構造を学習する組合せ問題に対処する。 微分可能で非凸な非サイクリック性の特徴付けの進歩を活用して、近年の取り組みは、DAGの空間を効率的に探索する継続的な制約付き最適化パラダイムを提唱している。 既存の手法のほとんどは、この探索を導くためにlasso型スコア関数を使っている。 i)$\textit{unknown}$ SEMのノイズ分散が問題インスタンス間で変化するとき、高価なペナルティパラメータの調整が必要です。 (ii)帰納的仮定の制限に暗黙的に依拠する。 本研究では,線形DAGの疎度認識学習のための新しい凸スコア関数を提案する。これは,スケールの共役推定を取り入れ,外因性雑音レベルから疎度パラメータを効果的に分離するものである。 滑らかで非凸な非巡回的ペナルティ項による正規化は、ヘテロシステティックなシナリオにおけるノイズ分散の効率的な勾配計算と閉形式推定を可能にする回帰ベースの基準である colide (\textbf{co}$ncomitant $\textbf{li}$near $\textbf{d}$ag $\textbf{e}$stimation) を与える。 提案アルゴリズムは,DAGが大きく,ノイズレベルプロファイルが不均一である場合に,付加的な複雑性を伴わずに,最先端の手法よりも優れる。 また、CoLiDEはいくつかの領域固有の指標において標準偏差を減らし、新しい線形DAG推定器の頑健さを裏付ける安定性を示す。

We deal with the combinatorial problem of learning directed acyclic graph (DAG) structure from observational data adhering to a linear structural equation model (SEM). Leveraging advances in differentiable, nonconvex characterizations of acyclicity, recent efforts have advocated a continuous constrained optimization paradigm to efficiently explore the space of DAGs. Most existing methods employ lasso-type score functions to guide this search, which (i) require expensive penalty parameter retuning when the $\textit{unknown}$ SEM noise variances change across problem instances; and (ii) implicitly rely on limiting homoscedasticity assumptions. In this work, we propose a new convex score function for sparsity-aware learning of linear DAGs, which incorporates concomitant estimation of scale and thus effectively decouples the sparsity parameter from the exogenous noise levels. Regularization via a smooth, nonconvex acyclicity penalty term yields CoLiDE ($\textbf{Co}$ncomitant $\textbf{Li}$near $\textbf{D}$AG $\textbf{E}$stimation), a regression-based criterion amenable to efficient gradient computation and closed-form estimation of noise variances in heteroscedastic scenarios. Our algorithm outperforms state-of-the-art methods without incurring added complexity, especially when the DAGs are larger and the noise level profile is heterogeneous. We also find CoLiDE exhibits enhanced stability manifested via reduced standard deviations in several domain-specific metrics, underscoring the robustness of our novel linear DAG estimator.
翻訳日:2023-10-05 14:28:33 公開日:2023-10-04
# ビデオにおける人間中心行動記述:新しいベンチマークとモデル

Human-centric Behavior Description in Videos: New Benchmark and Model ( http://arxiv.org/abs/2310.02894v1 )

ライセンス: Link先を確認
Lingru Zhou, Yiqi Gao, Manqing Zhang, Peng Wu, Peng Wang, and Yanning Zhang(参考訳) ビデオ監視の分野では、特に複数の個人が存在する複雑なシナリオにおいて、ビデオ内の個々の個人の振る舞いを記述することがますます重要になっている。 これは、個人の行動を説明することがより詳細な状況分析を提供し、潜在的なリスクに対する正確な評価と対応を可能にし、公共の場所の安全と調和を保証するためである。 現在、ビデオレベルのキャプションデータセットは、個々の特定の振る舞いについて詳細な説明を提供できない。 しかし、ビデオレベルの記述では個々の行動の詳細な解釈が得られず、個々の個人固有のアイデンティティを正確に決定することは困難である。 この課題に対処するために,人間中心のビデオサーベイランスキャプションキャプションデータセットを構築し,7,820人の動的行動の詳細な記述を提供する。 具体的には、各人物の場所、服装、シーン内の他の要素とのインタラクションなど、いくつかの側面をラベル付けし、これらを1,012本のビデオに分散させました。 このデータセットに基づいて、個人をそれぞれの行動に結びつけることができ、監視ビデオで各人の行動をさらに分析することができる。 データセットの他に,個人レベルの動作を詳細に記述し,最先端の成果を得られる新しい動画キャプション手法を提案する。 この分野でさらなる研究を促進するため、私たちはデータセットとコードを公開します。

In the domain of video surveillance, describing the behavior of each individual within the video is becoming increasingly essential, especially in complex scenarios with multiple individuals present. This is because describing each individual's behavior provides more detailed situational analysis, enabling accurate assessment and response to potential risks, ensuring the safety and harmony of public places. Currently, video-level captioning datasets cannot provide fine-grained descriptions for each individual's specific behavior. However, mere descriptions at the video-level fail to provide an in-depth interpretation of individual behaviors, making it challenging to accurately determine the specific identity of each individual. To address this challenge, we construct a human-centric video surveillance captioning dataset, which provides detailed descriptions of the dynamic behaviors of 7,820 individuals. Specifically, we have labeled several aspects of each person, such as location, clothing, and interactions with other elements in the scene, and these people are distributed across 1,012 videos. Based on this dataset, we can link individuals to their respective behaviors, allowing for further analysis of each person's behavior in surveillance videos. Besides the dataset, we propose a novel video captioning approach that can describe individual behavior in detail on a person-level basis, achieving state-of-the-art results. To facilitate further research in this field, we intend to release our dataset and code.
翻訳日:2023-10-05 14:27:57 公開日:2023-10-04
# 映像動作検出のための文法的構成モデル

A Grammatical Compositional Model for Video Action Detection ( http://arxiv.org/abs/2310.02887v1 )

ライセンス: Link先を確認
Zhijun Zhang, Xu Zou, Jiahuan Zhou, Sheng Zhong, Ying Wu(参考訳) ビデオ中のヒューマンアクションの分析には、複雑な人間のダイナミクスの理解と、アクタとコンテキストの相互作用が必要である。 しかしながら、これらの相互作用関係は、通常、多様な人間のポーズやオブジェクト操作と大きなクラス内変異を示し、類似したアクション間のきめ細かいクラス間差異を示す。 したがって、既存の手法の性能は極めて限られている。 対話的動作をアクタのダイナミクスや参加する物体や人間に分解できるという観察に動機づけられ,それらの複合的性質について検討する。 本稿では,典型的なAnd-Orグラフに基づく行動検出のための文法合成モデル(GCM)を提案する。 本モデルは,文法モデルの構成性とDNNのリッチな特徴を表現する能力の両面を活用するために,階層的な行動構造と潜在的関係を生かした。 提案したモデルは、エンドツーエンドで効率的な最適化のために、ニューラルネットワークモジュールに容易に組み込むことができる。 avaデータセットと something-else タスクで広範な実験を行い,モデルの優越性を示すとともに,推論解析によって解釈性が向上した。

Analysis of human actions in videos demands understanding complex human dynamics, as well as the interaction between actors and context. However, these interaction relationships usually exhibit large intra-class variations from diverse human poses or object manipulations, and fine-grained inter-class differences between similar actions. Thus the performance of existing methods is severely limited. Motivated by the observation that interactive actions can be decomposed into actor dynamics and participating objects or humans, we propose to investigate the composite property of them. In this paper, we present a novel Grammatical Compositional Model (GCM) for action detection based on typical And-Or graphs. Our model exploits the intrinsic structures and latent relationships of actions in a hierarchical manner to harness both the compositionality of grammar models and the capability of expressing rich features of DNNs. The proposed model can be readily embodied into a neural network module for efficient optimization in an end-to-end manner. Extensive experiments are conducted on the AVA dataset and the Something-Else task to demonstrate the superiority of our model, meanwhile the interpretability is enhanced through an inference parsing procedure.
翻訳日:2023-10-05 14:27:36 公開日:2023-10-04
# 無意味な何か:ラベルなしデータによる深部アンサンブル校正の改善

Something for (almost) nothing: Improving deep ensemble calibration using unlabeled data ( http://arxiv.org/abs/2310.02885v1 )

ライセンス: Link先を確認
Konstantinos Pitas, Julyan Arbel(参考訳) 本研究では,未ラベルデータの存在下での訓練データ体制における深層アンサンブルの校正を改善する手法を提案する。 ラベルなしのセットが与えられた場合、ラベルなしのデータポイントごとに、異なるランダムに選択されたラベルをアンサンブルメンバーに適合させるだけである。 PAC-Bayesバウンダリに基づく理論的解析を行い、ラベル付けされていないデータとトレーニングデータに真のラベルを適合させると、テストサンプルに低い負のログライクで高いアンサンブルの多様性が得られることを保証した。 実験により,低小から中小のトレーニングセットでは,アンサンブルがより多様で,時折,標準アンサンブルよりも優れた校正を提供することがわかった。

We present a method to improve the calibration of deep ensembles in the small training data regime in the presence of unlabeled data. Our approach is extremely simple to implement: given an unlabeled set, for each unlabeled data point, we simply fit a different randomly selected label with each ensemble member. We provide a theoretical analysis based on a PAC-Bayes bound which guarantees that if we fit such a labeling on unlabeled data, and the true labels on the training data, we obtain low negative log-likelihood and high ensemble diversity on testing samples. Empirically, through detailed experiments, we find that for low to moderately-sized training sets, our ensembles are more diverse and provide better calibration than standard ensembles, sometimes significantly.
翻訳日:2023-10-05 14:27:19 公開日:2023-10-04
# グループIVカラーセンターのコヒーレンス

Coherence of Group-IV Color Centers ( http://arxiv.org/abs/2310.02884v1 )

ライセンス: Link先を確認
Isaac B. W. Harris, Dirk Englund(参考訳) ダイヤモンド(SiV, GeV, SnV)におけるグループIV色中心は、量子情報処理応用のための固体スピン光子界面として出現している。 しかし、これらの量子ビットは熱フォノン浴との相互作用により高い忠実度を達成するために極低温を必要とする。 この作品では、 (i)これらの色中心のスピン軌道微細構造に作用する一階音響フォノン過程からデコヒーレンスの詳細なモデルを得る。 (ii) モデルが予測したコヒーレンス時間と過去の測定値との一致を示す。 (iii)より高い温度操作を可能にするために磁場バイアスとひずみバイアスを変化させることで、フォノンによるデコヒーレンスを抑制するためのレジームを特定する。 この手法により、寄生2レベル系を介して、他の色中心および固体キュービット系におけるデコヒーレンス過程の予測を可能にする。 実験によるデコヒーレンスモデルにより、特定のアプリケーションやデバイスに対してキュービットコヒーレンスを最適化する。

Group-IV color centers in diamond (SiV, GeV, SnV) have emerged as leading solid-state spin-photon interfaces for quantum information processing applications. However, these qubits require cryogenic temperatures to achieve high fidelity operation due to interactions with the thermal phonon bath. In this work, we: (i) derive a detailed model of the decoherence from first-order acoustic phonon processes acting on the spin-orbit fine structure of these color centers; (ii) demonstrate agreement of the model's predicted coherence times with previous measurements; (iii) identify regimes to suppress phonon-mediated decoherence by changing magnetic-field and strain bias to allow higher temperature operation. This methodology enables prediction of decoherence processes in other color centers and solid-state qubit systems coupled to a thermal bath via a parasitic two-level system. By experiment-anchored decoherence models, we facilitate optimizing qubit coherence for specific applications and devices.
翻訳日:2023-10-05 14:27:03 公開日:2023-10-04
# 多項naive bayesとk-modes clusteringを用いたayurvedic診断の強化 : prakriti型とdosha重複型の検討

Enhancing Ayurvedic Diagnosis using Multinomial Naive Bayes and K-modes Clustering: An Investigation into Prakriti Types and Dosha Overlapping ( http://arxiv.org/abs/2310.02920v1 )

ライセンス: Link先を確認
Pranav Bidve, Shalini Mishra and Annapurna J(参考訳) 人体に対するプラクリティ型の識別は、人間の性質と行動との調和を見つけるための、長期にわたる医療実践である。 基本的なプラクリティのタイプは3種類ある。 人はどのドシャにも属すことができます。 既存のモデルでは、研究者はsvm、kn、pca、決定木、その他様々なアルゴリズムを利用している。 これらのアルゴリズムの出力は極めて良好であったが、Multinomial Naive BayesとK-modesクラスタリングの助けを借りて拡張することができる。 ほとんどの研究者は3つの基本クラスに限定している。 これは、オーバーラップする可能性がある現実世界のシナリオでは正確ではないかもしれない。 これらを踏まえて、ドーシャの重複を含む7つのカテゴリに分類した。 これらは、VATT-Dosha、PITT-Dosha、KAPH-Dosha、VATT-PITT-Dosha、PITT-KAPH-Dosha、KAPH-VATT-Dosha、VATT-PITT-KAPH-Doshaである。 使用するデータは、機械学習の前処理ステップが実行された個々のエントリのバランスのとれたセットを含む。 カテゴリデータを扱うChi-Squareテストは、機能選択に使用されている。 モデルフィッティングでは、このアプローチで使われる方法はkモードクラスタリングである。 実験結果はMNB分類器を用いてより良い結果を示した。 この研究の重要な発見はすべて 0.90 の精度、 0.81 の精度、 0.91 のf-score、 0.90 のリコールを達成した。 この議論は7つのクラスターのプロビデント分析を示唆し、その発生を予測している。 結果は統合され、機械学習によるayurvedicの進歩が改善された。

The identification of Prakriti types for the human body is a long-lost medical practice in finding the harmony between the nature of human beings and their behaviour. There are 3 fundamental Prakriti types of individuals. A person can belong to any Dosha. In the existing models, researchers have made use of SVM, KNN, PCA, Decision Tree, and various other algorithms. The output of these algorithms was quite decent, but it can be enhanced with the help of Multinomial Naive Bayes and K-modes clustering. Most of the researchers have confined themselves to 3 basic classes. This might not be accurate in the real-world scenario, where overlapping might occur. Considering these, we have classified the Doshas into 7 categories, which includes overlapping of Doshas. These are namely, VATT-Dosha, PITT-Dosha, KAPH-Dosha, VATT-PITT-Dosha, PITT-KAPH-Dosha, KAPH-VATT-Dosha, and VATT-PITT-KAPH-Dosha. The data used contains a balanced set of all individual entries on which preprocessing steps of machine learning have been performed. Chi-Square test for handling categorical data is being used for feature selection. For model fitting, the method used in this approach is K-modes clustering. The empirical results demonstrate a better result while using the MNB classifier. All key findings of this work have achieved 0.90 accuracy, 0.81 precision, 0.91 F-score, and 0.90 recall. The discussion suggests a provident analysis of the seven clusters and predicts their occurrence. The results have been consolidated to improve the Ayurvedic advancements with machine learning.
翻訳日:2023-10-05 14:22:36 公開日:2023-10-04
# ベースエディタ結果予測のための注意に基づくマルチタスク学習

Attention-based Multi-task Learning for Base Editor Outcome Prediction ( http://arxiv.org/abs/2310.02919v1 )

ライセンス: Link先を確認
Amina Mollaysa, Ahmed Allam, Michael Krauthammer(参考訳) ヒトの遺伝病はしばしば点突然変異から生じ、正確なゲノム編集技術の必要性を強調する。 これらのうち、塩基編集は単一のヌクレオチドレベルで標的となる改変を可能にするため際立っている。 しかし、その臨床応用は編集効率の低下と意図しない突然変異によって妨げられ、実験室での広範囲な試行錯誤実験が必要となる。 この過程を高速化するために、あるゲノム標的配列に対する全ての編集結果の可能性を予測するために、注目に基づく2段階機械学習モデルを提案する。 さらに,複数のベースエディタ(変種)を同時に学習するためのマルチタスク学習スキーマを提案する。 本モデルの予測は,複数のデータセットおよびベースエディタの実際の実験結果と一貫して強い相関を示した。 これらの結果は、ベース編集設計を改良するプロセスを強化し、加速するためのモデルの能力のさらなる検証を提供する。

Human genetic diseases often arise from point mutations, emphasizing the critical need for precise genome editing techniques. Among these, base editing stands out as it allows targeted alterations at the single nucleotide level. However, its clinical application is hindered by low editing efficiency and unintended mutations, necessitating extensive trial-and-error experimentation in the laboratory. To speed up this process, we present an attention-based two-stage machine learning model that learns to predict the likelihood of all possible editing outcomes for a given genomic target sequence. We further propose a multi-task learning schema to jointly learn multiple base editors (i.e. variants) at once. Our model's predictions consistently demonstrated a strong correlation with the actual experimental results on multiple datasets and base editor variants. These results provide further validation for the models' capacity to enhance and accelerate the process of refining base editing designs.
翻訳日:2023-10-05 14:22:09 公開日:2023-10-04
# 不確定な高速交通におけるモデル予測制御の学習支援ウォームスタート

Learning-Aided Warmstart of Model Predictive Control in Uncertain Fast-Changing Traffic ( http://arxiv.org/abs/2310.02918v1 )

ライセンス: Link先を確認
Mohamed-Khalil Bouzidi, Yue Yao, Daniel Goehring, Joerg Reichardt(参考訳) モデル予測制御は、非凸問題において局所ミニマを逃れる能力に欠ける。 さらに、急激で不確実な環境では、従来のウォームスタートは、最終段階から最適軌跡を用いており、しばしば現在の最適軌跡を適切に正確に推定することができない。 これは収束障害や安全性の問題を引き起こす可能性がある。 そこで本研究では,モデル予測制御アルゴリズムのウォームスタート学習のためのフレームワークを提案する。 提案手法は,ニューラルネットワークに基づくマルチモーダル予測器を用いて,サンプリング手法によりさらに改良された自律走行車のための複数の軌道提案を生成する。 この組み合わせにより、複数の異なる局所最小値を同定し、初期推定を改良することができる。 交通シナリオのモンテカルロシミュレーションによるアプローチを検証する。

Model Predictive Control lacks the ability to escape local minima in nonconvex problems. Furthermore, in fast-changing, uncertain environments, the conventional warmstart, using the optimal trajectory from the last timestep, often falls short of providing an adequately close initial guess for the current optimal trajectory. This can potentially result in convergence failures and safety issues. Therefore, this paper proposes a framework for learning-aided warmstarts of Model Predictive Control algorithms. Our method leverages a neural network based multimodal predictor to generate multiple trajectory proposals for the autonomous vehicle, which are further refined by a sampling-based technique. This combined approach enables us to identify multiple distinct local minima and provide an improved initial guess. We validate our approach with Monte Carlo simulations of traffic scenarios.
翻訳日:2023-10-05 14:21:54 公開日:2023-10-04
# ELUQuant: 深部非弾性散乱における事象レベル不確かさの定量化

ELUQuant: Event-Level Uncertainty Quantification in Deep Inelastic Scattering ( http://arxiv.org/abs/2310.02913v1 )

ライセンス: Link先を確認
Cristiano Fanelli, James Giroux(参考訳) 物理事象レベルでの詳細な不確実性定量化(UQ)のために、乗法正規化フロー(MNF)を用いて、流れを近似した後部を有する物理インフォームドベイズニューラルネットワーク(BNN)を導入する。 本手法は, 異所性失語症とてんかん性不確実性の両方を同定し, 具体的知見を提供する。 深部非弾性散乱(dis)イベントに適用すると,このモデルは,最近の深部学習回帰手法のパフォーマンスにマッチするが,イベントレベルのuqのクリティカルな拡張と合わせて,x$,$q^2$,$y$のキネマティック変数を効果的に抽出する。 根底にある不確実性に関するこの詳細な説明は、特にイベントフィルタリングのようなタスクにおいて、意思決定に重要なことを証明している。 また、根拠となる真理に直接アクセスすることなく、真の不正確さを低減できる。 HERAのH1検出器を用いた完全なDisdisシミュレーションは将来のEICへの応用の可能性を示している。 さらに、これはデータ品質の監視や異常検出といった関連するタスクの道を開く。 注目すべきは、我々のアプローチが大規模サンプルを高速で効果的に処理することである。

We introduce a physics-informed Bayesian Neural Network (BNN) with flow approximated posteriors using multiplicative normalizing flows (MNF) for detailed uncertainty quantification (UQ) at the physics event-level. Our method is capable of identifying both heteroskedastic aleatoric and epistemic uncertainties, providing granular physical insights. Applied to Deep Inelastic Scattering (DIS) events, our model effectively extracts the kinematic variables $x$, $Q^2$, and $y$, matching the performance of recent deep learning regression techniques but with the critical enhancement of event-level UQ. This detailed description of the underlying uncertainty proves invaluable for decision-making, especially in tasks like event filtering. It also allows for the reduction of true inaccuracies without directly accessing the ground truth. A thorough DIS simulation using the H1 detector at HERA indicates possible applications for the future EIC. Additionally, this paves the way for related tasks such as data quality monitoring and anomaly detection. Remarkably, our approach effectively processes large samples at high rates.
翻訳日:2023-10-05 14:21:41 公開日:2023-10-04
# 暗号通貨の解読:暗号通貨による消費者の知識と嗜好

Deciphering the Crypto-shopper: Knowledge and Preferences of Consumers Using Cryptocurrencies for Purchases ( http://arxiv.org/abs/2310.02911v1 )

ライセンス: Link先を確認
Massimiliano Silenzi and Umut Can Cabuk(参考訳) 急速に成熟する暗号通貨セクターは、企業と消費者の両方にとって、さまざまな課題と見通しをもたらしている。 本研究は,この独特な消費者コホートを包括的に理解するために,暗号通貨を用いたショッピング従事者の知識,専門知識,購入行動について検討する。 516名を対象にした調査から得られた分析結果から,本研究の知見は知識レベルの範囲を照らし,新生物からconnoisseursまでを包含する。 回帰分析によると、知識は購入行動に大きく影響するが、説明能力は制限されている。 さらに、k-meansクラスタ分析は、3つの異なる暗号ヘリコプタープロファイルを公開し、それぞれ独自の知識と専門知識を持つ。 これらの洞察は、ドメイン知識と採用に関するnexusに関する従来の知識に反するものであり、暗号通貨の魅力が技術知識を超越していることを暗示している。 この研究の成果は、暗号化ショッパー人口の多様なニーズに対処し、パーソナライズされた戦略とユーザー体験の衝動を強調しようとする企業にとって有効である。 この調査はさらに、暗号の受容と消費者行動との結合の広範な影響を解明することに焦点を当てた研究の土台となった。

The swiftly maturing sector of cryptocurrencies proffers an array of challenges and prospects for both enterprises and consumers. This study explores the knowledge, expertise, and purchasing behaviors of individuals engaged in shopping using cryptocurrencies to furnish an exhaustive understanding of this distinctive consumer cohort. By analyzing data from our survey of 516 participants, our findings illuminate a range of knowledge levels, encompassing neophytes to connoisseurs, with a significant segment exhibiting high procurement frequency amidst constrained expertise. Regression analyses unveil that, although knowledge significantly influences purchase behaviors, its explanatory capacity remains restricted. Additionally, a K-means cluster analysis discloses three disparate crypto-shopper profiles, each possessing unique knowledge and expertise levels. These insights contravene conventional wisdom regarding the nexus between domain knowledge and adoption, insinuating that the appeal of cryptocurrencies transcends technical knowledge. The revelations of this research are instrumental for enterprises aspiring to address the diverse needs of the crypto-shopper demographic, accentuating the imperative of personalized strategies and user experiences. This exploration furthermore lays the groundwork for ensuing research focused on unraveling the extensive implications of crypto acceptance and its confluence with consumer conduct.
翻訳日:2023-10-05 14:21:22 公開日:2023-10-04
# Pseudo-Hermiticityは散乱におけるエネルギー差保存を保護する

Pseudo-Hermiticity protects the energy-difference conservation in the scattering ( http://arxiv.org/abs/2310.02908v1 )

ライセンス: Link先を確認
H. S. Xu and L. Jin(参考訳) 対称性は物理学において根本的に重要な役割を果たす。 この研究において、保存則 $S^{\dagger}(H_{c}^{\dagger})S(H_{c})=I$ は、任意の非エルミート散乱中心 $H_c$ に対して有効である。 その結果、非エルミート系 $\left\{ r,t\right\}$ とそのエルミート共役系 $\left\{ \bar{r},\bar{t}\right\} $ の反射と伝達は、エルミート系における入射波に適用されるエネルギー保存法則の代わりに、保存法 $\bar{r}^{\ast}r+\bar{t}^{\ast}t=1$ を満たす。 したがって、非エルミート系の擬ハーミティシティはエネルギー差保存を保証する。 さらに,エネルギー拡散保存が疑似ヘルミティシティによって保護される2つの非典型的反$\mathcal{pt}$-symmetric系において,エネルギー拡散保存がそれぞれ有効かつ無効であることを実証する。 本研究は,非エルミート系における保存則,擬エルミート性,反$\mathcal{pt}$-symmetryに対する深い洞察を与える。

Symmetry plays a fundamentally important role in physics. In this work, we find a conservation law, $S^{\dagger}(H_{c}^{\dagger})S(H_{c})=I$, which is valid for any non-Hermitian scattering center $H_c$. As a result, the reflections and transmissions of a non-Hermitian system $\left\{ r,t\right\}$ and its Hermitian conjugation system $\left\{ \bar{r},\bar{t}\right\} $ satisfy the conservation law $\bar{r}^{\ast}r+\bar{t}^{\ast}t=1$, instead of the energy conservation law that applies to incoming and outgoing waves in a Hermitian system. Consequently, the pseudo-Hermiticity of a non-Hermitian system ensures an energy-difference conservation. Furthermore, we demonstrate that the energy-difference conservation is respectively valid and invalid in two prototypical anti-$\mathcal{PT}$-symmetric systems, where the energy-difference conservation is protected by the pseudo-Hermiticity. Our findings provide profound insight into the conservation law, the pseudo-Hermiticity, and the anti-$\mathcal{PT}$-symmetry in non-Hermitian systems.
翻訳日:2023-10-05 14:20:52 公開日:2023-10-04
# 視覚的およびテキスト的プロンプトを用いた拡散モデルによる皮膚内視鏡的病変分割の促進

Boosting Dermatoscopic Lesion Segmentation via Diffusion Models with Visual and Textual Prompts ( http://arxiv.org/abs/2310.02906v1 )

ライセンス: Link先を確認
Shiyi Du, Xiaosong Wang, Yongyi Lu, Yuyin Zhou, Shaoting Zhang, Alan Yuille, Kang Li, and Zongwei Zhou(参考訳) 画像合成手法、例えば生成的逆ネットワークは、医療画像分析タスクにおけるデータ拡張の一形態として人気がある。 公開アクセス可能なデータと関連する品質アノテーションの不足を克服することは、主に有益である。 しかし、現在の技術は、しばしば生成された画像の詳細な内容、例えば、疾患パターンの種類、病変の位置、診断の属性の制御を欠いている。 本研究では,皮膚鏡画像生成のための病巣特異的視覚プロンプトとテキスト的プロンプトを用いた制御フローの追加により,生成モデルの最新の進歩,すなわち拡散モデルを適用する。 さらに, 従来の生成モデルと比較して, 画像品質と皮膚病変におけるセグメンテーション性能の向上において, 拡散モデルに基づくフレームワークの利点を実証する。 ssim画像品質測定値の9%向上と、先行技術に対するサイコロ係数の5%超向上を達成できる。

Image synthesis approaches, e.g., generative adversarial networks, have been popular as a form of data augmentation in medical image analysis tasks. It is primarily beneficial to overcome the shortage of publicly accessible data and associated quality annotations. However, the current techniques often lack control over the detailed contents in generated images, e.g., the type of disease patterns, the location of lesions, and attributes of the diagnosis. In this work, we adapt the latest advance in the generative model, i.e., the diffusion model, with the added control flow using lesion-specific visual and textual prompts for generating dermatoscopic images. We further demonstrate the advantage of our diffusion model-based framework over the classical generation models in both the image quality and boosting the segmentation performance on skin lesions. It can achieve a 9% increase in the SSIM image quality measure and an over 5% increase in Dice coefficients over the prior arts.
翻訳日:2023-10-05 14:20:11 公開日:2023-10-04
# スプラインベースニューラルネットワークの原子間ポテンシャル--古典的モデルと機械学習モデルを組み合わせる

Spline-based neural network interatomic potentials: blending classical and machine learning models ( http://arxiv.org/abs/2310.02904v1 )

ライセンス: Link先を確認
Joshua A. Vita, Dallas R. Trinkle(参考訳) 機械学習(ML)原子間ポテンシャル(IP)は、訓練された第一原理データに固有のノイズのレベルに近い精度を達成することができるが、その複雑さが高品質なIPを構築するのに厳密に必要であるかどうかは明らかになっていない。 本研究では,スプラインベースMEAM(s-MEAM)ポテンシャルの単純さとニューラルネットワーク(NN)アーキテクチャの柔軟性を融合したMLIPフレームワークを提案する。 提案するフレームワークはspline-based neural network potential(s-NNP)と呼ばれ、複雑なデータセットを計算的に効率的に記述できる従来のNPの単純化版である。 このフレームワークを使用して、クラシックipとmlipの境界を調査し、重要なアーキテクチャ変更のメリットを強調する。 さらに, 原子環境を符号化するためにスプラインフィルタを用いることで, NNの変更と組み合わせることで, 期待される物理的挙動を取り入れ, 全体的な解釈可能性を向上させることができる。 最後に, スプラインフィルタのフレキシビリティを検証し, 複数の化学系にまたがって共有できることを確認し, より便利な基準点を提供することにより, クロスシステム解析を始める。

While machine learning (ML) interatomic potentials (IPs) are able to achieve accuracies nearing the level of noise inherent in the first-principles data to which they are trained, it remains to be shown if their increased complexities are strictly necessary for constructing high-quality IPs. In this work, we introduce a new MLIP framework which blends the simplicity of spline-based MEAM (s-MEAM) potentials with the flexibility of a neural network (NN) architecture. The proposed framework, which we call the spline-based neural network potential (s-NNP), is a simplified version of the traditional NNP that can be used to describe complex datasets in a computationally efficient manner. We demonstrate how this framework can be used to probe the boundary between classical and ML IPs, highlighting the benefits of key architectural changes. Furthermore, we show that using spline filters for encoding atomic environments results in a readily interpreted embedding layer which can be coupled with modifications to the NN to incorporate expected physical behaviors and improve overall interpretability. Finally, we test the flexibility of the spline filters, observing that they can be shared across multiple chemical systems in order to provide a convenient reference point from which to begin performing cross-system analyses.
翻訳日:2023-10-05 14:18:37 公開日:2023-10-04
# FroSSL: 自己監督型学習のためのFrobenius Norm最小化

FroSSL: Frobenius Norm Minimization for Self-Supervised Learning ( http://arxiv.org/abs/2310.02903v1 )

ライセンス: Link先を確認
Oscar Skean, Aayush Dhakal, Nathan Jacobs, Luis Gonzalo Sanchez Giraldo(参考訳) 自己教師付き学習(SSL)は、表現学習のパラダイムとしてますます人気が高まっている。 最近の手法は、サンプル・コントラスト、次元・コントラスト、および非対称ネットワークベースに分類でき、それぞれのファミリーは情報的崩壊を避ける独自のアプローチを持っている。 次元コントラスト法はサンプルコントラスト法と同様の解に収束するが、いくつかの方法は収束するためによりエポックな訓練を必要とすることを実証的に示すことができる。 この分割を閉じることによって動機づけられた、対象関数 frossl は、埋め込み正規化までサンプルと次元に両立する。 FroSSLは、崩壊を避けるために共分散フロベニウスノルムを最小化し、拡張不変性に対する平均二乗誤差を最小化する。 我々はFroSSLが他のSSLメソッドよりも高速に収束していることを示し、この高速収束は、FroSSLが埋め込み共分散行列の固有値にどのように影響するかに起因するという理論的および実証的な支持を提供する。 また、CIFAR-10, CIFAR-100, STL-10, ImageNetデータセット上でResNet18をトレーニングする際に、FroSSLが線形プローブ評価の競合表現を学習することを示す。

Self-supervised learning (SSL) is an increasingly popular paradigm for representation learning. Recent methods can be classified as sample-contrastive, dimension-contrastive, or asymmetric network-based, with each family having its own approach to avoiding informational collapse. While dimension-contrastive methods converge to similar solutions as sample-contrastive methods, it can be empirically shown that some methods require more epochs of training to converge. Motivated by closing this divide, we present the objective function FroSSL which is both sample- and dimension-contrastive up to embedding normalization. FroSSL works by minimizing covariance Frobenius norms for avoiding collapse and minimizing mean-squared error for augmentation invariance. We show that FroSSL converges more quickly than a variety of other SSL methods and provide theoretical and empirical support that this faster convergence is due to how FroSSL affects the eigenvalues of the embedding covariance matrices. We also show that FroSSL learns competitive representations on linear probe evaluation when used to train a ResNet18 on the CIFAR-10, CIFAR-100, STL-10, and ImageNet datasets.
翻訳日:2023-10-05 14:18:15 公開日:2023-10-04
# 視覚環境におけるAUVドッキングのための適応ランドマークカラー

Adaptive Landmark Color for AUV Docking in Visually Dynamic Environments ( http://arxiv.org/abs/2310.02944v1 )

ライセンス: Link先を確認
Corey Knutson, Zhipeng Cao and Junaed Sattar(参考訳) 自律型水中車両(AUV)は人間の介入なしに水中での任務を行う。 ドッキングステーション(DS)は、AUVが電池を充電し、更新されたミッション情報を受け取る場所を提供することで、AUVのミッション時間を延長することができる。 dsの同定と追跡には様々な方法があるが、ほとんどは高価な音響センサーに依存しているか、あるいは視覚ベースであり、水質に大きく影響を受ける。 本稿では,適応型カラーledマーカーと動的カラーフィルタリングを用いて,水環境の変化におけるランドマーク視認性を最大化するビジョンベース手法を提案する。 AUVとDSはどちらも、望まれるマーカーの色を計算するために、カメラを使用して水背景の色を決定する。 マーカー色を決定するにはAUVとDSの通信は必要ない。 プールと湖で行った実験では,背景色が変化するため,静的カラーしきい値法よりも10倍優れた性能を示す。 DS検出は、最小限の偽陽性で澄んだ水中で5mの範囲で可能である。

Autonomous Underwater Vehicles (AUVs) conduct missions underwater without the need for human intervention. A docking station (DS) can extend mission times of an AUV by providing a location for the AUV to recharge its batteries and receive updated mission information. Various methods for locating and tracking a DS exist, but most rely on expensive acoustic sensors, or are vision-based, which is significantly affected by water quality. In this \doctype, we present a vision-based method that utilizes adaptive color LED markers and dynamic color filtering to maximize landmark visibility in varying water conditions. Both AUV and DS utilize cameras to determine the water background color in order to calculate the desired marker color. No communication between AUV and DS is needed to determine marker color. Experiments conducted in a pool and lake show our method performs 10 times better than static color thresholding methods as background color varies. DS detection is possible at a range of 5 meters in clear water with minimal false positives.
翻訳日:2023-10-05 14:09:40 公開日:2023-10-04
# LibriSpeech-PC:エンドツーエンドASRモデルの変動と資本化能力評価のためのベンチマーク

LibriSpeech-PC: Benchmark for Evaluation of Punctuation and Capitalization Capabilities of end-to-end ASR Models ( http://arxiv.org/abs/2310.02943v1 )

ライセンス: Link先を確認
Aleksandr Meister, Matvei Novikov, Nikolay Karpov, Evelina Bakhturina, Vitaly Lavrukhin, Boris Ginsburg(参考訳) 従来の自動音声認識(ASR)モデルは句読点のない小文字を出力し、読みやすさを減らし、その後のテキスト処理モデルを必要とする。 同時に、句読点と資本化を予測できるエンドツーエンドのASRモデルの開発は、データ可用性の制限や、句読点予測の不適切な評価など、既存の評価手法の欠点など、いくつかの課題を提起している。 本稿では,終末ASRモデルの句読点と大文字化予測能力を評価するためのLibriSpeech-PCベンチマークを提案する。 このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。 すべてのコード、データ、モデルが公開されている。

Traditional automatic speech recognition (ASR) models output lower-cased words without punctuation marks, which reduces readability and necessitates a subsequent text processing model to convert ASR transcripts into a proper format. Simultaneously, the development of end-to-end ASR models capable of predicting punctuation and capitalization presents several challenges, primarily due to limited data availability and shortcomings in the existing evaluation methods, such as inadequate assessment of punctuation prediction. In this paper, we introduce a LibriSpeech-PC benchmark designed to assess the punctuation and capitalization prediction capabilities of end-to-end ASR models. The benchmark includes a LibriSpeech-PC dataset with restored punctuation and capitalization, a novel evaluation metric called Punctuation Error Rate (PER) that focuses on punctuation marks, and initial baseline models. All code, data, and models are publicly available.
翻訳日:2023-10-05 14:09:23 公開日:2023-10-04
# 確率モデル予測制御におけるオンライン制約強化:回帰的アプローチ

Online Constraint Tightening in Stochastic Model Predictive Control: A Regression Approach ( http://arxiv.org/abs/2310.02942v1 )

ライセンス: Link先を確認
Alexandre Capone, Tim Br\"udigam, Sandra Hirche(参考訳) 確率的最適制御問題を解くことは、制御において重要な課題である。 これは、一握りの特別なケースに対して分析的な解決策が存在しないためである。 確率制約付き確率的最適制御問題に取り組む一般的な計算効率の良いアプローチは、確率制約を制約強化パラメータでハード制約として再構成することである。 しかし、そのようなアプローチでは制約強化パラメータの選択はいまだに困難であり、プロセスノイズ分布が優先的であると仮定して保証が得られる。 さらに、制約が厳密に満たされない場合が多く、不必要に高いコストが発生する。 本研究は,制御中の制約強化パラメータをオンラインで学習するためのデータ駆動手法を提案する。 この目的のために,閉ループに対する制約強化パラメータの選択を二元回帰問題として再検討する。 次に、非常に表現性の高い \gls{gp} モデルを二項回帰に利用し、チャンス制約を満たす最小の制約強調パラメータを近似する。 アルゴリズムパラメータを適切に調整することにより、結果として生じる制約の重み付けパラメータが、高い確率で任意に小さなマージンまで満たされることを示す。 提案手法は, 数値実験における確率制約を厳密に満たす制約重み付けパラメータを導出し, 他の3つの最先端手法よりも平均コストを低くする。

Solving chance-constrained stochastic optimal control problems is a significant challenge in control. This is because no analytical solutions exist for up to a handful of special cases. A common and computationally efficient approach for tackling chance-constrained stochastic optimal control problems consists of reformulating the chance constraints as hard constraints with a constraint-tightening parameter. However, in such approaches, the choice of constraint-tightening parameter remains challenging, and guarantees can mostly be obtained assuming that the process noise distribution is known a priori. Moreover, the chance constraints are often not tightly satisfied, leading to unnecessarily high costs. This work proposes a data-driven approach for learning the constraint-tightening parameters online during control. To this end, we reformulate the choice of constraint-tightening parameter for the closed-loop as a binary regression problem. We then leverage a highly expressive \gls{gp} model for binary regression to approximate the smallest constraint-tightening parameters that satisfy the chance constraints. By tuning the algorithm parameters appropriately, we show that the resulting constraint-tightening parameters satisfy the chance constraints up to an arbitrarily small margin with high probability. Our approach yields constraint-tightening parameters that tightly satisfy the chance constraints in numerical experiments, resulting in a lower average cost than three other state-of-the-art approaches.
翻訳日:2023-10-05 14:09:04 公開日:2023-10-04
# 一般濃度条件下におけるマルコフ鎖の不等式

Hoeffding's Inequality for Markov Chains under Generalized Concentrability Condition ( http://arxiv.org/abs/2310.02941v1 )

ライセンス: Link先を確認
Hao Chen, Abhishek Gupta, Yin Sun, and Ness Shroff(参考訳) 本稿では,積分確率計量 (IPM) によって定義される一般化可積分性条件下でのマルコフ鎖の不等式について検討する。 一般化された連続性条件は、マルコフ連鎖のホーフディング型不等式を補間し拡張する枠組みを確立する。 我々のフレームワークの柔軟性により、ホッフディングの不等式は伝統的な意味でエルゴードマルコフ連鎖を越えて適用することができる。 本手法を機械学習の分野から生じる非漸近的解析に応用し,その有用性を実証する。 (i)マルコフサンプルによる経験的リスク最小化に結びついた一般化 (ii)sgdのployak-ruppert平均化のための有限サンプル保証と (iii)一般状態空間で休息中のマルコフ・バンディットに対する新たな後悔。

This paper studies Hoeffding's inequality for Markov chains under the generalized concentrability condition defined via integral probability metric (IPM). The generalized concentrability condition establishes a framework that interpolates and extends the existing hypotheses of Markov chain Hoeffding-type inequalities. The flexibility of our framework allows Hoeffding's inequality to be applied beyond the ergodic Markov chains in the traditional sense. We demonstrate the utility by applying our framework to several non-asymptotic analyses arising from the field of machine learning, including (i) a generalization bound for empirical risk minimization with Markovian samples, (ii) a finite sample guarantee for Ployak-Ruppert averaging of SGD, and (iii) a new regret bound for rested Markovian bandits with general state space.
翻訳日:2023-10-05 14:08:42 公開日:2023-10-04
# 気候情報に基づく大規模言語モデルの評価

Assessing Large Language Models on Climate Information ( http://arxiv.org/abs/2310.02932v1 )

ライセンス: Link先を確認
Jannis Bulian, Mike S. Sch\"afer, Afra Amini, Heidi Lam, Massimiliano Ciaramita, Ben Gaiarin, Michelle Chen Huebscher, Christian Buck, Niels Mede, Markus Leippold, Nadine Strauss(参考訳) 気候変動が私たちに与える影響を理解し、利用可能なソリューションについて学ぶことは、個人やコミュニティがそれを緩和し適応するための重要なステップです。 大規模言語モデル(llm)の人気が高まるにつれ、このドメインにおけるそれらの能力を評価する必要がある。 本研究では,科学コミュニケーションの原則に基づく総合的な評価枠組みを提案し,気候変動トピックに対するLCM応答の分析を行う。 我々のフレームワークは,LLM世代を詳細に分析し,提示的および認識論的に回答の妥当性を強調した。 8次元にまたがって、我々のフレームワークは最大30個のモデルのアウトプットを識別します。 このタスクは、AIが人間のパフォーマンスを補完し、引き上げることのできる、ますます困難な問題の実例だ。 本稿では,ai支援を活用し,関連する教育的背景を持つ格付け者に依存する,スケーラブルな監視のための新規かつ実用的なプロトコルを提案する。 気候コミュニケーションの領域におけるLSMの可能性と限界の両方に光を当てて、最近のLCMを評価し、その結果を包括的に分析する。

Understanding how climate change affects us and learning about available solutions are key steps toward empowering individuals and communities to mitigate and adapt to it. As Large Language Models (LLMs) rise in popularity, it is necessary to assess their capability in this domain. In this study, we present a comprehensive evaluation framework, grounded in science communication principles, to analyze LLM responses to climate change topics. Our framework emphasizes both the presentational and epistemological adequacy of answers, offering a fine-grained analysis of LLM generations. Spanning 8 dimensions, our framework discerns up to 30 distinct issues in model outputs. The task is a real-world example of a growing number of challenging problems where AI can complement and lift human performance. We introduce a novel and practical protocol for scalable oversight that uses AI Assistance and relies on raters with relevant educational backgrounds. We evaluate several recent LLMs and conduct a comprehensive analysis of the results, shedding light on both the potential and the limitations of LLMs in the realm of climate communication.
翻訳日:2023-10-05 14:08:30 公開日:2023-10-04
# 口腔癌患者の予後予測のためのグラフデータモデリング

Graph data modelling for outcome prediction in oropharyngeal cancer patients ( http://arxiv.org/abs/2310.02931v1 )

ライセンス: Link先を確認
Nithya Bhasker, Stefan Leger, Alexander Zwanenburg, Chethan Babu Reddy, Sebastian Bodenstedt, Steffen L\"ock, Stefanie Speidel(参考訳) グラフニューラルネットワーク(GNN)は、疾患分類や予後予測のタスクにおいて、医療分野でますます人気が高まっている。 患者データはグラフとして簡単には利用できないため、既存のほとんどの方法は手動で患者グラフを定義するか、患者間のペアの類似性に基づいて潜在グラフを学ぶ。 ハイパーグラフニューラルネットワーク(hgnn)ベースの手法も最近導入され、ハイパーグラフとして表現することで患者間の高次関係を活用している。 本研究では, 口腔咽頭癌 (OPC) 患者の放射線学的特徴をCT(Computed tomography) に応用した2次予後予測のための誘導学習装置として, 患者ハイパーグラフネットワーク (PHGN) を提案する。 さらに,提案モデルを拡張して時系列解析を行い,GNNやベースライン線形モデルと比較した。

Graph neural networks (GNNs) are becoming increasingly popular in the medical domain for the tasks of disease classification and outcome prediction. Since patient data is not readily available as a graph, most existing methods either manually define a patient graph, or learn a latent graph based on pairwise similarities between the patients. There are also hypergraph neural network (HGNN)-based methods that were introduced recently to exploit potential higher order associations between the patients by representing them as a hypergraph. In this work, we propose a patient hypergraph network (PHGN), which has been investigated in an inductive learning setup for binary outcome prediction in oropharyngeal cancer (OPC) patients using computed tomography (CT)-based radiomic features for the first time. Additionally, the proposed model was extended to perform time-to-event analyses, and compared with GNN and baseline linear models.
翻訳日:2023-10-05 14:08:15 公開日:2023-10-04
# 適応正則化による最適輸送

Optimal Transport with Adaptive Regularisation ( http://arxiv.org/abs/2310.02925v1 )

ライセンス: Link先を確認
Hugues Van Assel, Titouan Vayer, Remi Flamary, Nicolas Courty(参考訳) 厳密な凸項による最適輸送(OT)の原始的な定式化は、数値複雑性の増大とより密な輸送計画をもたらす。 多くの定式化は、例えばエントロピー正規化に依存することによって、輸送計画にグローバルな制約を課す。 中心点よりも外れ点に質量を拡散させるのが高価であるため、これは通常、点をまたがる質量の拡散の仕方において大きな不均衡をもたらす。 これは、ポイントごとに最小の平滑化が要求されるいくつかのアプリケーションにとって有害である。 そこで,我々はot with adaptive regularization (otari) を提案する。otはotの新たな定式化であり,各点の質量に対する制約を課している。 次に、ドメイン適応に対するこのアプローチの利点を紹介します。

Regularising the primal formulation of optimal transport (OT) with a strictly convex term leads to enhanced numerical complexity and a denser transport plan. Many formulations impose a global constraint on the transport plan, for instance by relying on entropic regularisation. As it is more expensive to diffuse mass for outlier points compared to central ones, this typically results in a significant imbalance in the way mass is spread across the points. This can be detrimental for some applications where a minimum of smoothing is required per point. To remedy this, we introduce OT with Adaptive RegularIsation (OTARI), a new formulation of OT that imposes constraints on the mass going in or/and out of each point. We then showcase the benefits of this approach for domain adaptation.
翻訳日:2023-10-05 14:07:57 公開日:2023-10-04
# 交流最適潮流のための二重円錐形プロキシ

Dual Conic Proxies for AC Optimal Power Flow ( http://arxiv.org/abs/2310.02969v1 )

ライセンス: Link先を確認
Guancheng Qiu, Mathieu Tanneau, Pascal Van Hentenryck(参考訳) 近年、AC-OPF(AC Optimal Power Flow)のための機械学習ベースの最適化プロキシの開発に大きな関心が寄せられている。 高品質なプライマルソリューションの予測には大きな進歩があったが、既存の学習ベースのアプローチではac-opfに有効な双対境界を提供することはできない。 本稿では,AC-OPFの凸緩和のための最適化プロキシをトレーニングすることで,このギャップを解消する。 具体的には, acopfの2次円錐(soc)緩和を考察し, 高速で微分可能な(二重)実現可能性回復を組み込んだ, 有効な双対境界を提供する新しい双対アーキテクチャを提案する。 本稿は,この新しいアーキテクチャと自己教師あり学習スキームを組み合わせることにより,コストのかかるデータ生成の必要性を軽減する。 中規模および大規模電力網の大規模数値実験により提案手法の効率性と拡張性を示す。

In recent years, there has been significant interest in the development of machine learning-based optimization proxies for AC Optimal Power Flow (AC-OPF). Although significant progress has been achieved in predicting high-quality primal solutions, no existing learning-based approach can provide valid dual bounds for AC-OPF. This paper addresses this gap by training optimization proxies for a convex relaxation of AC-OPF. Namely, the paper considers a second-order cone (SOC) relaxation of ACOPF, and proposes a novel dual architecture that embeds a fast, differentiable (dual) feasibility recovery, thus providing valid dual bounds. The paper combines this new architecture with a self-supervised learning scheme, which alleviates the need for costly training data generation. Extensive numerical experiments on medium- and large-scale power grids demonstrate the efficiency and scalability of the proposed methodology.
翻訳日:2023-10-05 14:01:21 公開日:2023-10-04
# ペプチドのシーケンシャルおよびグラフィカル経路の共モデリング

Co-modeling the Sequential and Graphical Route for Peptide ( http://arxiv.org/abs/2310.02964v1 )

ライセンス: Link先を確認
Zihan Liu, Ge Wang, Jiaqi Wang, Jiangbin Zheng, Stan Z. Li(参考訳) ペプチドは、複数のアミノ酸の脱水縮合によって形成される。 ペプチドの一次構造は、アミノ酸配列または原子と化学結合からなる分子グラフとして表現することができる。 従来の研究では、シーケンシャルおよびグラフィカルなペプチド形式に特有のディープラーニング経路が下流タスクに匹敵する性能を示すことが示されている。 これらのモデルがペプチドの同じモダリティの表現を学習しているにもかかわらず、それらの予測は異なる説明をしている。 異なる視点から推論を行う2つの専門家として、逐次的およびグラフィカルなモデルを考えると、私たちは、学習された表現を豊かにするために専門家の知識を融合させ、差別的性能を改善する。 これを実現するために、コントラスト学習に基づくフレームワークRepConというペプチド共モデリング手法を提案し、逐次的およびグラフィカルなエンドツーエンドモデルから表現の相互情報を強化する。 同じペプチドサンプルに対するシーケンシャルエンコーダとグラフィカルエンコーダからの表現を正のペアとして考慮し、正のサンプルペア間の表現の一貫性を高め、負のペア間の表現を撃退することを学ぶ。 repconおよび他の共同モデリング法に関する実証研究は、集約性、保持時間、抗菌ペプチドの予測、ペプチドデータベースからの家族分類など、オープンソースの識別データセットで行われている。 この結果から,コモデリング手法が独立モデルよりも優れていること,コモデリングフレームワークの他の手法よりもRepConの方が優れていることを示す。 さらに、RepConへの貢献は、モデル説明のレベルでアプローチの有効性をさらに裏付ける。

Peptides are formed by the dehydration condensation of multiple amino acids. The primary structure of a peptide can be represented either as an amino acid sequence or as a molecular graph consisting of atoms and chemical bonds. Previous studies have indicated that deep learning routes specific to sequential and graphical peptide forms exhibit comparable performance on downstream tasks. Despite the fact that these models learn representations of the same modality of peptides, we find that they explain their predictions differently. Considering sequential and graphical models as two experts making inferences from different perspectives, we work on fusing expert knowledge to enrich the learned representations for improving the discriminative performance. To achieve this, we propose a peptide co-modeling method, RepCon, which employs a contrastive learning-based framework to enhance the mutual information of representations from decoupled sequential and graphical end-to-end models. It considers representations from the sequential encoder and the graphical encoder for the same peptide sample as a positive pair and learns to enhance the consistency of representations between positive sample pairs and to repel representations between negative pairs. Empirical studies of RepCon and other co-modeling methods are conducted on open-source discriminative datasets, including aggregation propensity, retention time, antimicrobial peptide prediction, and family classification from Peptide Database. Our results demonstrate the superiority of the co-modeling approach over independent modeling, as well as the superiority of RepCon over other methods under the co-modeling framework. In addition, the attribution on RepCon further corroborates the validity of the approach at the level of model explanation.
翻訳日:2023-10-05 14:01:07 公開日:2023-10-04
# CoDA:オープンボキャブラリ3Dオブジェクト検出のための協調的新しいボックス発見とクロスモーダルアライメント

CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection ( http://arxiv.org/abs/2310.02960v1 )

ライセンス: Link先を確認
Yang Cao, Yihan Zeng, Hang Xu, Dan Xu(参考訳) Open-vocabulary 3D Object Detection (OV-3DDet)は、3Dシーン内の任意のカテゴリのリストからオブジェクトを検出することを目的としている。 ov-3ddetには、主に2つの根本的な問題、すなわち新しいオブジェクトのローカライズと分類がある。 本稿では,この2つの問題を,限定的な基本カテゴリ条件の下で,統一的な枠組みを通じて同時に解決することを目的とする。 新規な3Dオブジェクトをローカライズするために,従来の3Dボックス幾何と2Dセマンティックなオープン語彙の両方を用いて,新規なオブジェクトの擬似ボックスラベルを生成する,効果的な3D新規オブジェクト発見戦略を提案する。 新たなオブジェクトボックスを分類するために,新たに発見された3Dポイントクラウドと画像/テキストモダリティ間の特徴空間をアライメントするクロスモーダルアライメントモジュールを開発した。 具体的には、アライメントプロセスは、クラス非依存およびクラス識別アライメントを含み、ベースオブジェクトにアノテーションを付加するだけでなく、新たに発見された新しいオブジェクトも含み、反復的にアライメントが強化される。 ボックス発見とクロスモーダルアライメントは共同で学習され、相互に利益をもたらす。 新たなオブジェクト発見は、クロスモーダルアライメントに直接影響し得る一方で、より良い特徴アライメントは、ローカライゼーション能力を高め、同時に新しいオブジェクトローカライゼーションと分類のための統合されたOV-3DDetフレームワークであるCoDAに繋がる。 SUN-RGBD と ScanNet の2つの挑戦的データセットに対する大規模な実験は,本手法の有効性を示すとともに,最適性能の代替手法を80%向上させた。 コードと事前訓練されたモデルはプロジェクトページでリリースされている。

Open-vocabulary 3D Object Detection (OV-3DDet) aims to detect objects from an arbitrary list of categories within a 3D scene, which remains seldom explored in the literature. There are primarily two fundamental problems in OV-3DDet, i.e., localizing and classifying novel objects. This paper aims at addressing the two problems simultaneously via a unified framework, under the condition of limited base categories. To localize novel 3D objects, we propose an effective 3D Novel Object Discovery strategy, which utilizes both the 3D box geometry priors and 2D semantic open-vocabulary priors to generate pseudo box labels of the novel objects. To classify novel object boxes, we further develop a cross-modal alignment module based on discovered novel boxes, to align feature spaces between 3D point cloud and image/text modalities. Specifically, the alignment process contains a class-agnostic and a class-discriminative alignment, incorporating not only the base objects with annotations but also the increasingly discovered novel objects, resulting in an iteratively enhanced alignment. The novel box discovery and crossmodal alignment are jointly learned to collaboratively benefit each other. The novel object discovery can directly impact the cross-modal alignment, while a better feature alignment can, in turn, boost the localization capability, leading to a unified OV-3DDet framework, named CoDA, for simultaneous novel object localization and classification. Extensive experiments on two challenging datasets (i.e., SUN-RGBD and ScanNet) demonstrate the effectiveness of our method and also show a significant mAP improvement upon the best-performing alternative method by 80%. Codes and pre-trained models are released on the project page.
翻訳日:2023-10-05 14:00:40 公開日:2023-10-04
# 機械学習モデルを用いたクレジットカードスコア予測:新しいデータセット

Credit card score prediction using machine learning models: A new dataset ( http://arxiv.org/abs/2310.02956v1 )

ライセンス: Link先を確認
Anas Arram, Masri Ayob, Musatafa Abbas Abbood Albadr, Alaa Sulaiman, Dheeb Albashish(参考訳) クレジットカードの使用は近年増加しており、潜在的なリスクを最小限に抑えるためにクレジットカード評価手法が不可欠である。 本研究では,クレジットカードデフォルト予測システムにおける機械学習モデルの利用について検討した。 ここでの主な目標は、新しいクレジットカードスコアリングデータセットで最高のパフォーマンスのMLモデルを調査することだ。 この新しいデータセットには、クレジットカード取引履歴と顧客プロファイルが含まれており、ロジスティック回帰、決定木、ランダムフォレスト、マルチレイヤパーセプトロン(mlp)ニューラルネットワーク、xgboost、lightgbmなど、さまざまな機械学習アルゴリズムを使用して提案およびテストされている。 機械学習モデルのためのデータを作成するために、データ前処理、特徴抽出、特徴選択、データバランシング技術を実行する。 実験結果から,MLPはロジスティック回帰,決定木,ランダム林,LightGBM,XGBoostを真の正の速度で予測し,曲線(AUC)86.7%,精度91.6%,リコール率80%を達成していることがわかった。 これらの結果は,mlpが既定顧客を予測し,潜在的なリスクを評価する上で優れていることを示している。 さらに、銀行や他の金融機関がローンのデフォルトを早期に予測するのを支援している。

The use of credit cards has recently increased, creating an essential need for credit card assessment methods to minimize potential risks. This study investigates the utilization of machine learning (ML) models for credit card default prediction system. The main goal here is to investigate the best-performing ML model for new proposed credit card scoring dataset. This new dataset includes credit card transaction histories and customer profiles, is proposed and tested using a variety of machine learning algorithms, including logistic regression, decision trees, random forests, multi layer perceptron (MLP) neural network, XGBoost, and LightGBM. To prepare the data for machine learning models, we perform data pre-proccessing, feature extraction, feature selection, and data balancing techniques. Experimental results demonstrate that MLP outperforms logistic regression, decision trees, random forests, LightGBM, and XGBoost in terms of predictive performance in true positive rate, achieving an impressive area under the curve (AUC) of 86.7% and an accuracy rate of 91.6%, with a recall rate exceeding 80%. These results indicate the superiority of MLP in predicting the default customers and assessing the potential risks. Furthermore, they help banks and other financial institutions in predicting loan defaults at an earlier stage.
翻訳日:2023-10-05 14:00:02 公開日:2023-10-04
# DQ-LoRe: 文脈内学習のための低ランク近似型デュアルクェリ

DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for In-Context Learning ( http://arxiv.org/abs/2310.02954v1 )

ライセンス: Link先を確認
Jiong Xiong, Zixuan Li, Chuanyang Zheng, Zhijiang Guo, Yichun Yin, Enze Xie, Zhicheng Yang, Qingxing Cao, Haiming Wang, Xiongwei Han, Jing Tang, Chengming Li, Xiaodan Liang(参考訳) 自然言語処理の最近の進歩は、主にLarge Language Models (LLM) によって推進され、文脈内学習に根ざした顕著な能力を示している。 複雑な推論タスクにおいてLLMを導くための有望な道は、Chain-of-Thought(CoT)パラダイムにおける中間的推論ステップの利用である。 それでも、中核的な課題は、インコンテキスト学習を促進するための例題の効果的な選択にある。 本研究では、DQ-LoRe(Dual Queries and Low-rank approximation Re- rank)を利用して、文脈内学習のための例を自動選択するフレームワークを提案する。 Dual Queries はまず LLM に問い合わせて、COT などの LLM 生成した知識を取得し、次に検索者に対して質問と知識の両方を通して最終例を得る。 さらに第2の質問に対して,loreは,入力質問の知識との密接な一致を保証し,例題選択を洗練するために,次元性低減手法を採用している。 広汎な実験により,DQ-LoRe は GPT-4 の先行技術手法よりも優れた性能を示し,92.5\% から94.2\% に向上した。 総合分析の結果,dq-loreは,特に分布シフトを特徴とするシナリオにおいて,性能と適応性の両方において,検索ベースアプローチを一貫して上回っていることが明らかとなった。 DQ-LoReはコンテキスト内学習の境界を押し上げ、複雑な推論問題に対処するための新たな道を開く。 私たちはすぐにコードをリリースします。

Recent advances in natural language processing, primarily propelled by Large Language Models (LLMs), have showcased their remarkable capabilities grounded in in-context learning. A promising avenue for guiding LLMs in intricate reasoning tasks involves the utilization of intermediate reasoning steps within the Chain-of-Thought (CoT) paradigm. Nevertheless, the central challenge lies in the effective selection of exemplars for facilitating in-context learning. In this study, we introduce a framework that leverages Dual Queries and Low-rank approximation Re-ranking (DQ-LoRe) to automatically select exemplars for in-context learning. Dual Queries first query LLM to obtain LLM-generated knowledge such as CoT, then query the retriever to obtain the final exemplars via both question and the knowledge. Moreover, for the second query, LoRe employs dimensionality reduction techniques to refine exemplar selection, ensuring close alignment with the input question's knowledge. Through extensive experiments, we demonstrate that DQ-LoRe significantly outperforms prior state-of-the-art methods in the automatic selection of exemplars for GPT-4, enhancing performance from 92.5\% to 94.2\%. Our comprehensive analysis further reveals that DQ-LoRe consistently outperforms retrieval-based approaches in terms of both performance and adaptability, especially in scenarios characterized by distribution shifts. DQ-LoRe pushes the boundaries of in-context learning and opens up new avenues for addressing complex reasoning challenges. We will release the code soon.
翻訳日:2023-10-05 13:59:40 公開日:2023-10-04
# JsonTuning: 汎用性、ロバスト、制御可能なインストラクションチューニングを目指す

JsonTuning: Towards Generalizable, Robust, and Controllable Instruction Tuning ( http://arxiv.org/abs/2310.02953v1 )

ライセンス: Link先を確認
Chang Gao, Wenxuan Zhang, Guizhen Chen, Wai Lam(参考訳) インストラクションチューニングは、明示的なタスク命令を提供することによって、大規模言語モデル(LLM)の機能を活用するための重要なプロセスとして現れ、様々なタスクのパフォーマンスが向上した。 しかし、一般的なtext-to-text命令チューニング(texttuning)メソッドは、あいまいさとタスクの明示的な構造不足のため、一般化、堅牢性、制御性の制限に苦しむ。 本稿では,新しい構造から構造へのアプローチであるJsonTuningを提案する。 jsontuningは、jsonの汎用性と構造的な性質を活用してタスクを表現することにより、モデルが本質的なタスク要素とその関係を理解するのを支援し、あいまいさを最小限に抑えることによって堅牢性を改善し、出力を明示的に制御することで制御性を高める。 多様な言語モデルと評価ベンチマークを用いて総合的な比較研究を行う。 実験の結果、JsonTuningは様々なアプリケーションでTextTuningより優れており、パフォーマンス、適応性、堅牢性、制御性が改善されている。 jsontuningは、テキストチューニングの制限を克服することで、さまざまなシナリオを処理可能な、より効果的で信頼性の高いllmに対する大きな可能性を示している。

Instruction tuning has emerged as a crucial process for harnessing the capabilities of large language models (LLMs) by providing explicit task instructions, leading to improved performance in various tasks. However, prevalent text-to-text instruction tuning (TextTuning) methods suffer from limitations in generalization, robustness, and controllability due to the ambiguity and lack of explicit structure in tasks. In this paper, we propose JsonTuning, a novel structure-to-structure approach for instruction tuning. By leveraging the versatility and structured nature of JSON to represent tasks, JsonTuning enhances generalization by helping the model understand essential task elements and their relations, improves robustness by minimizing ambiguity, and increases controllability by providing explicit control over the output. We conduct a comprehensive comparative study with diverse language models and evaluation benchmarks. Experimental results show that JsonTuning outperforms TextTuning in various applications, showcasing improved performance, adaptability, robustness, and controllability. By overcoming the limitations of TextTuning, JsonTuning demonstrates significant potential for more effective and reliable LLMs capable of handling diverse scenarios.
翻訳日:2023-10-05 13:59:10 公開日:2023-10-04
# ポーランド空間におけるエントロピー規則化マルコフ決定過程に対するフィッシャー・ラオ勾配流

A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces ( http://arxiv.org/abs/2310.02951v1 )

ライセンス: Link先を確認
Bekzhan Kerimkulov, James-Michael Leahy, David Siska, Lukasz Szpruch, Yufei Zhang(参考訳) 無限水平エントロピー規則化マルコフ決定過程に対するフィッシャー・ラオ政策勾配流のポーランド状態と行動空間とのグローバル収束について検討する。 この流れはポリシーミラー降下法の連続的なアナログである。 グラデーションフローの全体的適切性を確立し,その指数関数収束を最適方針に示す。 さらに, 勾配評価に関してフローが安定であることを証明し, 対数線形政策パラメータ化を伴う自然政策勾配フローの性能に関する知見を提供する。 対象関数の凸性の欠如とエントロピー正則性に起因する不連続性に起因した課題を克服するために, 性能差補題と勾配流とミラー流の双対性を利用した。

We study the global convergence of a Fisher-Rao policy gradient flow for infinite-horizon entropy-regularised Markov decision processes with Polish state and action space. The flow is a continuous-time analogue of a policy mirror descent method. We establish the global well-posedness of the gradient flow and demonstrate its exponential convergence to the optimal policy. Moreover, we prove the flow is stable with respect to gradient evaluation, offering insights into the performance of a natural policy gradient flow with log-linear policy parameterisation. To overcome challenges stemming from the lack of the convexity of the objective function and the discontinuity arising from the entropy regulariser, we leverage the performance difference lemma and the duality relationship between the gradient and mirror descent flows.
翻訳日:2023-10-05 13:58:50 公開日:2023-10-04
# シャドーアライメント:安全なアライメント言語モデルの逆変換の容易性

Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models ( http://arxiv.org/abs/2310.02949v1 )

ライセンス: Link先を確認
Xianjun Yang, Xiao Wang, Qi Zhang, Linda Petzold, William Yang Wang, Xun Zhao, Dahua Lin(参考訳) 警告: 本論文は有害言語の例を含み, 読者の判断を推奨する。 強力な大規模言語モデル(LLM)のオープンリリースが増加し、データアノテーションと計算に要するコストを削減し、下流アプリケーションの開発が容易になった。 AIの安全性を確保するため、これらのモデルを悪意のある使用(主に激しい攻撃)に対して防御するために、広範な安全調整措置が実施されている。 しかし、装甲の弾力のあるファサードの下には、影がこぼれる可能性がある。 1GPU時間で100の悪質な例をチューニングするだけで、安全に配置されたLSMを簡単に変換して有害なコンテンツを生成することができる。 ごく少量のデータを利用することで、モデルの有用性を犠牲にすることなく、有害なタスクに適応するために安全にアライメントされたモデルを導き出せる。 驚くべきことに、subvertedモデルでは、通常の問い合わせに適切に応答する能力が保たれている。 5つの異なる組織(LLaMa-2、Falcon、InternLM、BaiChuan2、Vicuna)がリリースした8つのモデルにわたる実験は、シャドーアライメントアタックの有効性を実証している。 さらに、シングルターンイングリッシュオンリーアタックは、マルチターンダイアログや他の言語への転送に成功している。 この研究は、悪質な攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みである。

Warning: This paper contains examples of harmful language, and reader discretion is recommended. The increasing open release of powerful large language models (LLMs) has facilitated the development of downstream applications by reducing the essential cost of data annotation and computation. To ensure AI safety, extensive safety-alignment measures have been conducted to armor these models against malicious use (primarily hard prompt attack). However, beneath the seemingly resilient facade of the armor, there might lurk a shadow. By simply tuning on 100 malicious examples with 1 GPU hour, these safely aligned LLMs can be easily subverted to generate harmful content. Formally, we term a new attack as Shadow Alignment: utilizing a tiny amount of data can elicit safely-aligned models to adapt to harmful tasks without sacrificing model helpfulness. Remarkably, the subverted models retain their capability to respond appropriately to regular inquiries. Experiments across 8 models released by 5 different organizations (LLaMa-2, Falcon, InternLM, BaiChuan2, Vicuna) demonstrate the effectiveness of shadow alignment attack. Besides, the single-turn English-only attack successfully transfers to multi-turn dialogue and other languages. This study serves as a clarion call for a collective effort to overhaul and fortify the safety of open-source LLMs against malicious attackers.
翻訳日:2023-10-05 13:58:37 公開日:2023-10-04
# HappyFeat -- 臨床応用のためのインタラクティブで効率的なBCIフレームワーク

HappyFeat -- An interactive and efficient BCI framework for clinical applications ( http://arxiv.org/abs/2310.02948v1 )

ライセンス: Link先を確認
Arthur Desbois, Tristan Venot, Fabrizio De Vico Fallani, Marie-Constance Corsi(参考訳) Brain-Computer Interface (BCI)システムでは、ユーザーは脳の活動をコマンドに変換することでアクションを実行することができる。 このようなシステムは通常、記録された信号から特定の特徴を用いて精神状態を識別する分類アルゴリズムを訓練する訓練段階を必要とする。 特徴選択とトレーニングのこのフェーズは、BCIのパフォーマンスに不可欠であり、ストローク後のリハビリテーションのような臨床コンテキストで満たすべき特定の制約を提示する。 本稿では,1つの便利なguiで必要な操作と解析を収集し,実験や分析パラメータの自動化により,運動画像(mi)ベースのbci実験を容易にするソフトウェアhappyfeatを提案する。 結果として得られたワークフローは、最高の機能を簡単に選択でき、時間に制約された環境で優れたbciパフォーマンスを達成するのに役立ちます。 関数接続性に基づく別の機能は、Power Spectral Densityと使用、比較、組み合わせて、ネットワーク指向のアプローチを可能にする。 次にhappyfeatの主なメカニズムの詳細と、典型的なユースケースにおけるそのパフォーマンスのレビューを提供する。 また,信号から抽出した異なる指標を比較し,分類アルゴリズムを学習するための効率的なツールとして使用できることを示す。 そこで本研究では,汎用のパワースペクトル密度と関数接続に基づくネットワークメトリクスの比較を行った。 HappyFeatはオープンソースプロジェクトとして利用可能で、GitHubから無料でダウンロードできる。

Brain-Computer Interface (BCI) systems allow users to perform actions by translating their brain activity into commands. Such systems usually need a training phase, consisting in training a classification algorithm to discriminate between mental states using specific features from the recorded signals. This phase of feature selection and training is crucial for BCI performance and presents specific constraints to be met in a clinical context, such as post-stroke rehabilitation. In this paper, we present HappyFeat, a software making Motor Imagery (MI) based BCI experiments easier, by gathering all necessary manipulations and analysis in a single convenient GUI and via automation of experiment or analysis parameters. The resulting workflow allows for effortlessly selecting the best features, helping to achieve good BCI performance in time-constrained environments. Alternative features based on Functional Connectivity can be used and compared or combined with Power Spectral Density, allowing a network-oriented approach. We then give details of HappyFeat's main mechanisms, and a review of its performances in typical use cases. We also show that it can be used as an efficient tool for comparing different metrics extracted from the signals, to train the classification algorithm. To this end, we show a comparison between the commonly-used Power Spectral Density and network metrics based on Functional Connectivity. HappyFeat is available as an open-source project which can be freely downloaded on GitHub.
翻訳日:2023-10-05 13:58:15 公開日:2023-10-04
# 局所最大エントロピーと自由エネルギー原理, 信念拡散とその特異性

Local Max-Entropy and Free Energy Principles, Belief Diffusions and their Singularities ( http://arxiv.org/abs/2310.02946v1 )

ライセンス: Link先を確認
Olivier Peltre(参考訳) ハイパーグラフ上でのBPアルゴリズムとの関係を含む3つのBethe-Kkuchi変分原理の包括的図式が提供される。 bp方程式の構造は、連続時間拡散を定義するために一般化され、最大エントロピー原理(a)、変分自由エネルギー原理(b)、非通常の平衡自由エネルギー原理(c)、レジャンドル対 a の局所化バージョンを解く。 拘束曲面が接するにつれて平衡が不安定になる特異な信念の超曲面は、一貫した信念の凸多面体における多項式方程式によって記述される。 この多項式は二変数グラフに対するループ級数展開によって表現される。

A comprehensive picture of three Bethe-Kikuchi variational principles including their relationship to belief propagation (BP) algorithms on hypergraphs is given. The structure of BP equations is generalized to define continuous-time diffusions, solving localized versions of the max-entropy principle (A), the variational free energy principle (B), and a less usual equilibrium free energy principle (C), Legendre dual to A. Both critical points of Bethe-Kikuchi functionals and stationary beliefs are shown to lie at the non-linear intersection of two constraint surfaces, enforcing energy conservation and marginal consistency respectively. The hypersurface of singular beliefs, accross which equilibria become unstable as the constraint surfaces meet tangentially, is described by polynomial equations in the convex polytope of consistent beliefs. This polynomial is expressed by a loop series expansion for graphs of binary variables.
翻訳日:2023-10-05 13:57:53 公開日:2023-10-04
# 崩壊したピアツーピアコミュニケーションが災害シナリオにおける完全分散学習に及ぼす影響を探る

Exploring the Impact of Disrupted Peer-to-Peer Communications on Fully Decentralized Learning in Disaster Scenarios ( http://arxiv.org/abs/2310.02986v1 )

ライセンス: Link先を確認
Luigi Palmieri, Chiara Boldrini, Lorenzo Valerio, Andrea Passarella, Marco Conti(参考訳) 完全な分散学習は、学習リソースと意思決定能力を複数のユーザデバイスやノードに分散させることを可能にし、プライバシー保護と分散化の性質から急速に人気を集めている。 重要なのは、この学習プロセスのクラウドソーシングによって、一部のノードが影響を受けたり、切断されたりしても、システムは機能し続けることができることだ。 災害シナリオでは、コミュニケーションインフラストラクチャと集中型システムは破壊されるか、完全に利用できない可能性があるため、これらの設定において標準的な集中型学習タスクの実行を妨げる。 したがって、完全な分散学習は、この場合に役立つ。 しかし、集中型からピアツーピア通信への移行は、学習プロセスとノード間の通信グラフのトポロジ間の依存性をもたらす。 災害シナリオでは、ピアツーピア通信でさえ、バッテリー切れや、その位置によって他のデバイスから切り離されるなど、突然の変化に影響を受けやすい。 本研究では,災害環境下での分散学習におけるピアツーピアコミュニケーションに対する様々な障害の影響について検討する。 本稿では,デバイスの一部が突然プロセスから外れたときの分散学習プロセスのレジリエンスについて検討する。 この目的のために,データ保持デバイス,すなわち潜在的な知識と,グラフ接続にのみ寄与するデバイス,すなわちデータを持たないデバイスの違いを分析する。 IID方式で学習データをノードに分散するバラバシ・アルベルトグラフトポロジーの知見は,学習プロセスの精度がデータ損失よりも接続の損失に影響されていることを示している。 それでもネットワークは比較的堅牢であり、学習プロセスは高い精度を達成することができる。

Fully decentralized learning enables the distribution of learning resources and decision-making capabilities across multiple user devices or nodes, and is rapidly gaining popularity due to its privacy-preserving and decentralized nature. Importantly, this crowdsourcing of the learning process allows the system to continue functioning even if some nodes are affected or disconnected. In a disaster scenario, communication infrastructure and centralized systems may be disrupted or completely unavailable, hindering the possibility of carrying out standard centralized learning tasks in these settings. Thus, fully decentralized learning can help in this case. However, transitioning from centralized to peer-to-peer communications introduces a dependency between the learning process and the topology of the communication graph among nodes. In a disaster scenario, even peer-to-peer communications are susceptible to abrupt changes, such as devices running out of battery or getting disconnected from others due to their position. In this study, we investigate the effects of various disruptions to peer-to-peer communications on decentralized learning in a disaster setting. We examine the resilience of a decentralized learning process when a subset of devices drop from the process abruptly. To this end, we analyze the difference between losing devices holding data, i.e., potential knowledge, vs. devices contributing only to the graph connectivity, i.e., with no data. Our findings on a Barabasi-Albert graph topology, where training data is distributed across nodes in an IID fashion, indicate that the accuracy of the learning process is more affected by a loss of connectivity than by a loss of data. Nevertheless, the network remains relatively robust, and the learning process can achieve a good level of accuracy.
翻訳日:2023-10-05 13:50:09 公開日:2023-10-04
# 連想記憶のスケーリング法則

Scaling Laws for Associative Memories ( http://arxiv.org/abs/2310.02984v1 )

ライセンス: Link先を確認
Vivien Cabannes, Elvis Dohmatob, Alberto Bietti(参考訳) 学習には、抽象ルールの発見と記憶が含まれる。 本研究の目的は,連想記憶機構の研究である。 我々のモデルは, トランスフォーマー言語モデルの内部層に関連する埋め込みの外部積からなる高次元行列に基づいている。 サンプルサイズとパラメータサイズに関する正確なスケーリング則を導出し、最適化に基づくアルゴリズムを含む様々な推定器の統計効率について論じる。 記憶された記憶の関連を詳細に可視化するなど,理論結果を検証し,解釈するための広範な数値実験を行う。

Learning arguably involves the discovery and memorization of abstract rules. The aim of this paper is to study associative memory mechanisms. Our model is based on high-dimensional matrices consisting of outer products of embeddings, which relates to the inner layers of transformer language models. We derive precise scaling laws with respect to sample size and parameter size, and discuss the statistical efficiency of different estimators, including optimization-based algorithms. We provide extensive numerical experiments to validate and interpret theoretical results, including fine-grained visualizations of the stored memory associations.
翻訳日:2023-10-05 13:49:43 公開日:2023-10-04
# LLMは最貧の学校で有効か? シエラレオネのTheTeacherAI

Are LLMs Useful in the Poorest Schools? theTeacherAI in Sierra Leone ( http://arxiv.org/abs/2310.02982v1 )

ライセンス: Link先を確認
Jun Ho Choi, Oliver Garrod, Paul Atherton, Andrew Joyce-Gibbons, Miriam Mason-Sesay, Daniel Bj\"orkegren(参考訳) 発展途上国の教育システムは、大きく貧しい人口に奉仕する資源がほとんどない。 生成AIはどのように教室に統合されるのか? 本稿では,シエラレオネの教師が専門的な開発を行い,指導を改善するためのAIチャットボットを提案する。 122の学校と193の教師を対象に,初期実施から得られた知見を質的観察と質問分析により分析した。 教師はこのシステムを授業計画、教室の管理、主題に使っている。 教師のサブセットが集中的にシステムを使用する。 低所得国の学校システムに生成AIシステムを組み込む方法について,これらの知見から結論を導いた。

Education systems in developing countries have few resources to serve large, poor populations. How might generative AI integrate into classrooms? This paper introduces an AI chatbot designed to assist teachers in Sierra Leone with professional development to improve their instruction. We describe initial findings from early implementation across 122 schools and 193 teachers, and analyze its use with qualitative observations and by analyzing queries. Teachers use the system for lesson planning, classroom management, and subject matter. A subset of teachers use the system intensively. We draw conclusions from these findings about how generative AI systems can be integrated into school systems in low income countries.
翻訳日:2023-10-05 13:49:34 公開日:2023-10-04
# スクラッチから遠ざかる - データ駆動プライオリティを必要とするロングシーケンスモデルの比較

Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors ( http://arxiv.org/abs/2310.02980v1 )

ライセンス: Link先を確認
Ido Amos, Jonathan Berant, Ankit Gupta(参考訳) シーケンス間の長距離依存性のモデリングは機械学習の長年の目標であり、長いシーケンスでトランスフォーマーを劇的に上回る状態空間モデルのようなアーキテクチャへと導かれる。 しかし、これらの印象的な経験的利益は、モデルがランダムに初期化され、入力シーケンスからターゲットラベルを予測するために訓練されたベンチマーク(例えば、ロングレンジアリーナ)で大きく実証されてきた。 そこで本研究では,ランダム初期化は,$\textit{only the lower task data}$ を用いて,アーキテクチャ間の差異と標準的デノイジング目的の事前学習を大々的に過大評価し,複数のアーキテクチャにまたがる劇的な向上と,トランスフォーマと状態空間モデル(ssm)の間のギャップを極小にすることを示す。 従来の作業とは対照的に,Long Range ArenaにおけるS4の性能に適合するバニラトランスフォーマーが発見され,PathX-256タスクにおけるSSMの最高の報告結果を20絶対点改善する。 次に, 事前学習により得られたデータ駆動初期化の存在下で, 従来提案されていたSSMのパラメータ化の有用性を分析した。 本研究は,教師付きタスクで異なるアーキテクチャを評価する場合,事前学習によるデータ駆動前処理の導入が信頼性の高い性能推定に不可欠であり,効率的に実施可能であることを示す。

Modeling long-range dependencies across sequences is a longstanding goal in machine learning and has led to architectures, such as state space models, that dramatically outperform Transformers on long sequences. However, these impressive empirical gains have been by and large demonstrated on benchmarks (e.g. Long Range Arena), where models are randomly initialized and trained to predict a target label from an input sequence. In this work, we show that random initialization leads to gross overestimation of the differences between architectures and that pretraining with standard denoising objectives, using $\textit{only the downstream task data}$, leads to dramatic gains across multiple architectures and to very small gaps between Transformers and state space models (SSMs). In stark contrast to prior works, we find vanilla Transformers to match the performance of S4 on Long Range Arena when properly pretrained, and we improve the best reported results of SSMs on the PathX-256 task by 20 absolute points. Subsequently, we analyze the utility of previously-proposed structured parameterizations for SSMs and show they become mostly redundant in the presence of data-driven initialization obtained through pretraining. Our work shows that, when evaluating different architectures on supervised tasks, incorporation of data-driven priors via pretraining is essential for reliable performance estimation, and can be done efficiently.
翻訳日:2023-10-05 13:49:23 公開日:2023-10-04
# T$^3$Bench: テキストから3D生成におけるベンチマークの最新動向

T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation ( http://arxiv.org/abs/2310.02977v1 )

ライセンス: Link先を確認
Yuze He, Yushi Bai, Matthieu Lin, Wang Zhao, Yubin Hu, Jenny Sheng, Ran Yi, Juanzi Li, Yong-Jin Liu(参考訳) テキスト・トゥ・3Dの最近の手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。 特に、これらの手法は3Dデータをトレーニングすることなく高品質な3Dシーンを作成できる。 課題のオープンな性質のため、ほとんどの研究は主観的なケーススタディとユーザ実験で結果を評価しており、この疑問に定量的に対処する上での課題が提示されている。 本稿では,3次元生成のために特別に設計された複雑度が増大する3つのテキストプロンプトを含む,最初の総合的なテキストから3次元へのベンチマークであるt$^3$benchを紹介する。 主観的品質とテキストアライメントの両方を評価するため、3Dコンテンツから生成された多視点画像に基づく2つの自動メトリクスを提案する。 品質指標は、多視点テキスト画像スコアと地域畳み込みを組み合わせて、品質と不整合を検出する。 アライメントメトリックは、テキスト3Dの一貫性を測定するために、多視点キャプションとLarge Language Model(LLM)評価を使用する。 どちらの指標も人間の判断の異なる次元と密接に相関し、テキストから3Dモデルを評価するためのパラダイムを提供する。 第1図に示すベンチマーク結果から,6種類のテキスト・ツー・3D手法の性能差が明らかになった。 本分析は, 周辺環境と多目的シーンの生成における現在の手法と, 3次元生成のための2次元誘導のボトルネックを更に強調する。 私たちのプロジェクトページは、https://t3bench.com.comで閲覧できます。

Recent methods in text-to-3D leverage powerful pretrained diffusion models to optimize NeRF. Notably, these methods are able to produce high-quality 3D scenes without training on 3D data. Due to the open-ended nature of the task, most studies evaluate their results with subjective case studies and user experiments, thereby presenting a challenge in quantitatively addressing the question: How has current progress in Text-to-3D gone so far? In this paper, we introduce T$^3$Bench, the first comprehensive text-to-3D benchmark containing diverse text prompts of three increasing complexity levels that are specially designed for 3D generation. To assess both the subjective quality and the text alignment, we propose two automatic metrics based on multi-view images produced by the 3D contents. The quality metric combines multi-view text-image scores and regional convolution to detect quality and view inconsistency. The alignment metric uses multi-view captioning and Large Language Model (LLM) evaluation to measure text-3D consistency. Both metrics closely correlate with different dimensions of human judgments, providing a paradigm for efficiently evaluating text-to-3D models. The benchmarking results, shown in Fig. 1, reveal performance differences among six prevalent text-to-3D methods. Our analysis further highlights the common struggles for current methods on generating surroundings and multi-object scenes, as well as the bottleneck of leveraging 2D guidance for 3D generation. Our project page is available at: https://t3bench.com.
翻訳日:2023-10-05 13:48:55 公開日:2023-10-04
# 重り付きバンドにおける完全適応レギュレット最小化に向けて

Towards Fully Adaptive Regret Minimization in Heavy-Tailed Bandits ( http://arxiv.org/abs/2310.02975v1 )

ライセンス: Link先を確認
Gianmarco Genalti and Lupo Marsigli and Nicola Gatti and Alberto Maria Metelli(参考訳) 重細な分布は、金融から電気通信まで、多くの場面で自然に発生する。 ガウス以南のサポーターの報酬に対する後悔の最小化は広く研究されているが、重尾分布の学習は過去10年間にのみ人気を博した。 確率的重み付きバンドイト問題において、エージェントは、分布が最大位 1+\epsilon$ の有限モーメントを持つという仮定の下で学習し、ある$\epsilon \in (0,1)$に対して定数$u$で一様有界である。 我々の知る限りでは、文献は入力としてこれらの2つの量を必要とするアルゴリズムのみを提供する。 本稿では, エージェントに$\epsilon$と$u$が未知の標準設定のバリエーションである, 確率適応重み付きバンディットについて検討する。 適応性はコストがかかることを示し、任意の適応アルゴリズムの後悔に対する2つの低い境界を導入し、標準設定に対する高い後悔を意味することを示す。 最後に,特定分布仮定を導入し,重み付きMAB問題の既知下限に一致する最小化戦略であるAdaptive Robust UCBを提案する。

Heavy-tailed distributions naturally arise in many settings, from finance to telecommunications. While regret minimization under sub-Gaussian or bounded support rewards has been widely studied, learning on heavy-tailed distributions only gained popularity over the last decade. In the stochastic heavy-tailed bandit problem, an agent learns under the assumption that the distributions have finite moments of maximum order $1+\epsilon$ which are uniformly bounded by a constant $u$, for some $\epsilon \in (0,1]$. To the best of our knowledge, literature only provides algorithms requiring these two quantities as an input. In this paper, we study the stochastic adaptive heavy-tailed bandit, a variation of the standard setting where both $\epsilon$ and $u$ are unknown to the agent. We show that adaptivity comes at a cost, introducing two lower bounds on the regret of any adaptive algorithm, implying a higher regret w.r.t. the standard setting. Finally, we introduce a specific distributional assumption and provide Adaptive Robust UCB, a regret minimization strategy matching the known lower bound for the heavy-tailed MAB problem.
翻訳日:2023-10-05 13:48:28 公開日:2023-10-04
# UniverSLU:1つのネットワークによる横分類およびシーケンス生成タスクのためのユニバーサル音声言語理解

UniverSLU: Universal Spoken Language Understanding for Diverse Classification and Sequence Generation Tasks with a Single Network ( http://arxiv.org/abs/2310.02973v1 )

ライセンス: Link先を確認
Siddhant Arora, Hayato Futami, Jee-weon Jung, Yifan Peng, Roshan Sharma, Yosuke Kashiwagi, Emiru Tsunoo, Shinji Watanabe(参考訳) 近年の研究では、マルチタスク機能を持つ大規模言語モデルを採用することで、有望な結果が得られている。 彼らはプロンプトを利用してモデルの振る舞いをガイドし、タスク固有のモデルのパフォーマンスを上回る。 様々な音声言語理解(SLU)タスクを共同で実行する単一のモデルを構築することができるだろうか? そこで本研究では,事前学習型自動音声認識(ASR)モデルを用いて,各種タスクおよびデータセット識別器を離散的なプロンプトとして利用する。 我々は17のデータセットと9言語にわたる12の異なる音声分類とシーケンス生成タスクに対して、MTLモデル"UniverSLU"の有効性を実証した。 その結果、UniverSLUは競争性能を達成し、タスク固有のモデルを超えていることがわかった。 また、タスク指定子ではなく、人間解釈可能な自然句を個別のプロンプトとして可能にするための予備的な調査を行い、モデルの一般化機能を新しいパラフレーズにテストする。

Recent studies have demonstrated promising outcomes by employing large language models with multi-tasking capabilities. They utilize prompts to guide the model's behavior and surpass performance of task-specific models. Motivated by this, we ask: can we build a single model that jointly perform various spoken language understanding (SLU) tasks? To address this, we utilize pre-trained automatic speech recognition (ASR) models and employ various task and dataset specifiers as discrete prompts. We demonstrate efficacy of our single multi-task learning (MTL) model "UniverSLU" for 12 different speech classification and sequence generation tasks across 17 datasets and 9 languages. Results show that UniverSLU achieves competitive performance and even surpasses task-specific models. We also conduct preliminary investigations into enabling human-interpretable natural phrases instead of task specifiers as discrete prompts and test the model's generalization capabilities to new paraphrases.
翻訳日:2023-10-05 13:48:03 公開日:2023-10-04
# 鼻咽頭癌に対する放射線治療計画のための総標的量と臓器の完全自動分節化

Fully Automatic Segmentation of Gross Target Volume and Organs-at-Risk for Radiotherapy Planning of Nasopharyngeal Carcinoma ( http://arxiv.org/abs/2310.02972v1 )

ライセンス: Link先を確認
Mehdi Astaraki, Simone Bendazzoli, Iuliana Toma-Dasu(参考訳) head&neck(h&n)領域のct画像におけるターゲットセグメンテーションは、隣接する軟組織間のコントラストが低いため困難である。 SegRap 2023の課題は、放射線治療計画のための自動検査ツールとして使用される鼻咽頭癌(NPC)のセグメンテーションアルゴリズムのベンチマークに焦点を当てている。 完全自動フレームワークを提案し、2つのモデルを開発する。 a)リスク(OAR)における45の機関の区分及び b) グロース腫瘍ボリューム(GTV)の2つ この目的のために、強度分布を調和させて画像ボリュームを前処理し、対象領域周辺のボリュームを自動的に絞り込む。 プリプロセスされたボリュームは、タスクごとに標準の3D U-Netモデルを個別にトレーニングするために使用される。 提案手法は,課題の検証段階において,各タスクで2位となった。 提案されたフレームワークはhttps://github.com/astarakee/segrap2023で利用可能である。

Target segmentation in CT images of Head&Neck (H&N) region is challenging due to low contrast between adjacent soft tissue. The SegRap 2023 challenge has been focused on benchmarking the segmentation algorithms of Nasopharyngeal Carcinoma (NPC) which would be employed as auto-contouring tools for radiation treatment planning purposes. We propose a fully-automatic framework and develop two models for a) segmentation of 45 Organs at Risk (OARs) and b) two Gross Tumor Volumes (GTVs). To this end, we preprocess the image volumes by harmonizing the intensity distributions and then automatically cropping the volumes around the target regions. The preprocessed volumes were employed to train a standard 3D U-Net model for each task, separately. Our method took second place for each of the tasks in the validation phase of the challenge. The proposed framework is available at https://github.com/Astarakee/segrap2023
翻訳日:2023-10-05 13:47:49 公開日:2023-10-04
# 自己教師型エンコーダ・デコーダ音声モデルのプロンプティングと適応調整

Prompting and Adapter Tuning for Self-supervised Encoder-Decoder Speech Model ( http://arxiv.org/abs/2310.02971v1 )

ライセンス: Link先を確認
Kai-Wei Chang, Ming-Hsin Chen, Yun-Ping Lin, Jing Neng Hsu, Paul Kuo-Ming Huang, Chien-yu Huang, Shang-Wen Li, Hung-yi Lee(参考訳) プロンプティングとアダプタチューニングがファインチューニング(FT)手法の効率的な代替手段として登場した。 しかし、既存の音声プロンプトの研究は分類タスクに焦点が当てられ、より複雑なシーケンス生成タスクに失敗した。 加えて、アダプタチューニングは主にエンコーダのみの自己教師型モデルに焦点をあてて適用される。 実験の結果,自己教師付きエンコーダデコーダモデルwav2seqは,シーケンス生成タスクにおける従来の作業を上回ることがわかった。 ASRでは単語誤り率が53%向上し,スロットフィリングではF1スコアが27%向上した。 さらに、プロンプトは低リソースシナリオにおいてFT法と競合する。 さらに,言語間asrにおけるwav2seqのプロンプトとアダプタチューニングの伝達可能性を示す。 訓練可能なパラメータが限られている場合、プロンプトとアダプタのチューニングは7つの言語で従来のFTより一貫して優れている。 特に低リソースのシナリオでは、アダプタチューニングが一貫して向上する。

Prompting and adapter tuning have emerged as efficient alternatives to fine-tuning (FT) methods. However, existing studies on speech prompting focused on classification tasks and failed on more complex sequence generation tasks. Besides, adapter tuning is primarily applied with a focus on encoder-only self-supervised models. Our experiments show that prompting on Wav2Seq, a self-supervised encoder-decoder model, surpasses previous works in sequence generation tasks. It achieves a remarkable 53% relative improvement in word error rate for ASR and a 27% in F1 score for slot filling. Additionally, prompting competes with the FT method in the low-resource scenario. Moreover, we show the transferability of prompting and adapter tuning on Wav2Seq in cross-lingual ASR. When limited trainable parameters are involved, prompting and adapter tuning consistently outperform conventional FT across 7 languages. Notably, in the low-resource scenario, prompting consistently outperforms adapter tuning.
翻訳日:2023-10-05 13:47:33 公開日:2023-10-04
# 位置方向空間の重み共有による高速表現型SE$(n)$同変ネットワーク

Fast, Expressive SE$(n)$ Equivariant Networks through Weight-Sharing in Position-Orientation Space ( http://arxiv.org/abs/2310.02970v1 )

ライセンス: Link先を確認
Erik J Bekkers, Sharvaree Vadgama, Rob D Hesselink, Putri A van der Linden, David W Romero(参考訳) 均質空間の理論に基づいて、フレキシブルなメッセージパッシングフレームワーク内で使うために \textit{geometrically optimal edge attribute} を導出する。 畳み込みネットワークにおける重み共有の概念を等しく扱うべきポイントペア上でのメッセージ関数の共有として定式化する。 我々は、群内の変換と同一である点ペアの同値類を定義し、これらのクラスを一意的に識別する属性を導出する。 重み共有は、これらの属性にメッセージ関数を条件付けすることで得られる。 この理論の応用として、3次元点雲を処理するための効率的な同変群畳み込みネットワークを開発した。 等質空間の理論は、次数 $\mathbb{r}^3$ 、位数と向きが $\mathbb{r}^3 {\times} s^2$ 、群 se$(3)$ 自身の等質空間上の特徴写像と群畳み込みをどのように行うかを示す。 これらのうち、$\mathbb{r}^3 {\times} s^2$ は方向情報を表現する能力があるため最適選択であり、$\mathbb{r}^3$ の方法は不可能であり、完全な se$(3)$ 群のインデックス化機能に比べて計算効率が著しく向上する。 我々は、原子間ポテンシャルエネルギー予測、n体系における軌道予測、等価拡散モデルによる分子生成という3つの異なるベンチマークで、最先端の結果 -- 精度と速度で -- を達成することで、この主張を実証的に支持する。

Based on the theory of homogeneous spaces we derive \textit{geometrically optimal edge attributes} to be used within the flexible message passing framework. We formalize the notion of weight sharing in convolutional networks as the sharing of message functions over point-pairs that should be treated equally. We define equivalence classes of point-pairs that are identical up to a transformation in the group and derive attributes that uniquely identify these classes. Weight sharing is then obtained by conditioning message functions on these attributes. As an application of the theory, we develop an efficient equivariant group convolutional network for processing 3D point clouds. The theory of homogeneous spaces tells us how to do group convolutions with feature maps over the homogeneous space of positions $\mathbb{R}^3$, position and orientations $\mathbb{R}^3 {\times} S^2$, and the group SE$(3)$ itself. Among these, $\mathbb{R}^3 {\times} S^2$ is an optimal choice due to the ability to represent directional information, which $\mathbb{R}^3$ methods cannot, and it significantly enhances computational efficiency compared to indexing features on the full SE$(3)$ group. We empirically support this claim by reaching state-of-the-art results -- in accuracy and speed -- on three different benchmarks: interatomic potential energy prediction, trajectory forecasting in N-body systems, and generating molecules via equivariant diffusion models.
翻訳日:2023-10-05 13:47:21 公開日:2023-10-04
# 物理インフォームドニューラルネットワークを用いた多相流中遠心ポンプの学習特性パラメータとダイナミクス

Learning characteristic parameters and dynamics of centrifugal pumps under multi-phase flow using physics-informed neural networks ( http://arxiv.org/abs/2310.03001v1 )

ライセンス: Link先を確認
Felipe de Castro Teixeira Carvalho, Kamaljyoti Nath, Alberto Luiz Serpa, George Em Karniadakis(参考訳) 電気潜水ポンプ(esp)は、高流量と上昇圧力のため、石油・ガス業界で2番目に使われている人工揚降装置である。 通常、炭化水素、水および/または堆積物の混合物を含む多相流を扱う必要がある。 このような状況から、エマルションは一般的に形成される。 粘度と密度が単相とは別々に異なる2つの非混和性流体からなる液液流である。 この文脈では、espシステムの正確なモデリングは石油生産の最適化と制御戦略の実装に不可欠である。 しかし, 流体特性とシステム特性のリアルタイム・直接測定は, 時間的制約や経済性により現実的ではないことが多い。 したがって、間接的手法は一般にシステムパラメータを推定すると考えられる。 本稿では,物理情報ニューラルネットワーク(PINN)に基づく機械学習モデルを定式化し,重要なシステムパラメータを推定する。 提案したPINNモデルの有効性を検討するために,シミュレーションデータだけでなく,異なる水-油比に関する実験データを用いて計算研究を行う。 吸気圧と放電圧の測定のみが可能な状態変数のダイナミクスと未知パラメータを様々な組み合わせで評価する。 また,一般的な圧力測定に基づく構造的および実用的識別可能性分析についても検討した。 PINNモデルは、流体特性を推定するために使われる高価な実験室試験の要求を減らすことができる。

Electrical submersible pumps (ESP) are the second most used artificial lifting equipment in the oil and gas industry due to their high flow rates and boost pressures. They often have to handle multiphase flows, which usually contain a mixture of hydrocarbons, water, and/or sediments. Given these circumstances, emulsions are commonly formed. It is a liquid-liquid flow composed of two immiscible fluids whose effective viscosity and density differ from the single phase separately. In this context, accurate modeling of ESP systems is crucial for optimizing oil production and implementing control strategies. However, real-time and direct measurement of fluid and system characteristics is often impractical due to time constraints and economy. Hence, indirect methods are generally considered to estimate the system parameters. In this paper, we formulate a machine learning model based on Physics-Informed Neural Networks (PINNs) to estimate crucial system parameters. In order to study the efficacy of the proposed PINN model, we conduct computational studies using not only simulated but also experimental data for different water-oil ratios. We evaluate the state variable's dynamics and unknown parameters for various combinations when only intake and discharge pressure measurements are available. We also study structural and practical identifiability analyses based on commonly available pressure measurements. The PINN model could reduce the requirement of expensive field laboratory tests used to estimate fluid properties.
翻訳日:2023-10-05 13:41:53 公開日:2023-10-04
# ecoflap: 視覚言語モデルのための高効率粗粒度層間プルーニング

ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models ( http://arxiv.org/abs/2310.02998v1 )

ライセンス: Link先を確認
Yi-Lin Sung, Jaehong Yoon, Mohit Bansal(参考訳) 大きなビジョン言語モデル(lvlms)は、異なるモダリティからの豊富な情報を統合し、様々なマルチモーダルダウンストリームタスクで顕著なパフォーマンス改善を達成することで、世界を包括的に理解することができる。 しかし、LVLMの展開は、計算/エネルギーのコストと炭素消費のためにしばしば問題となる。 このような問題は、スパシフィケーションモデル全体のヘッセン行列を計算するためにコストがかかる従来の反復的グローバルプルーニングを採用することができない。 あるいは、最近のいくつかの研究では、グローバルプルーニングの高価な計算を回避し、レイヤー内でのモデルの重みを効率よく圧縮するためのレイヤーワイズプルーニング手法が提案されている。 しかし、これらの手法は、大局的な視点が欠如しているため、しばしば最適でないモデル圧縮に苦しむ。 そこで本研究では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine Layer-Wise Pruning)を提案する。 まず,グローバルモデル勾配の0階次近似に基づいて効率よく計算されるグローバル重要度スコアを利用して,異なる層やブロックの疎度比を決定する。 次に、マルチモーダルモデルは、グローバルに変形したスパーシティ比に基づいて、局所的な層毎非構造な重みの刈り込みを行う。 提案手法をマルチモーダルモデルとユニモーダルモデルとデータセットにまたがって検証し,高パリティ環境下でのプルーニング手法に対する性能改善を実証した。

Large Vision-Language Models (LVLMs) can understand the world comprehensively by integrating rich information from different modalities, achieving remarkable performance improvements on various multimodal downstream tasks. However, deploying LVLMs is often problematic due to their massive computational/energy costs and carbon consumption. Such issues make it infeasible to adopt conventional iterative global pruning, which is costly due to computing the Hessian matrix of the entire large model for sparsification. Alternatively, several studies have recently proposed layer-wise pruning approaches to avoid the expensive computation of global pruning and efficiently compress model weights according to their importance within a layer. However, these methods often suffer from suboptimal model compression due to their lack of a global perspective. To address this limitation in recent efficient pruning methods for large models, we propose Efficient Coarse-to-Fine Layer-Wise Pruning (ECoFLaP), a two-stage coarse-to-fine weight pruning approach for LVLMs. We first determine the sparsity ratios of different layers or blocks by leveraging the global importance score, which is efficiently computed based on the zeroth-order approximation of the global model gradients. Then, the multimodal model performs local layer-wise unstructured weight pruning based on globally-informed sparsity ratios. We validate our proposed method across various multimodal and unimodal models and datasets, demonstrating significant performance improvements over prevalent pruning techniques in the high-sparsity regime.
翻訳日:2023-10-05 13:41:34 公開日:2023-10-04
# モーフィングによる顔型ワンタイムバイオメトリックスのキー選択の最適化

Optimizing Key-Selection for Face-based One-Time Biometrics via Morphing ( http://arxiv.org/abs/2310.02997v1 )

ライセンス: Link先を確認
Daile Osorio-Roig, Mahdi Ghafourian, Christian Rathgeb, Ruben Vera-Rodriguez, Christoph Busch, Julian Fierrez(参考訳) 現在、顔認識システムは相反する攻撃に対して脆弱である。 これらの攻撃は入力画像の単純な摂動から認識モデルのパラメータの変更まで様々で、認証対象を偽装する。 いわゆるプライバシエンハンシング顔認識システムは、主に、保存された生体認証参照データ、すなわちテンプレートを保護するために開発された。 文献では、プライバシを高める顔認識アプローチは、従来のセキュリティ脅威をテンプレートレベルでのみ重視しており、敵の攻撃に関する懸念が高まっている。 これまで、テンプレートレベルで高いセキュリティを維持しながら、敵の攻撃に対して顔認識を保護するメカニズムを提供する研究はほとんどなかった。 本稿では,信号レベルでの競合キャンセル方式の安全性を向上させるために,異なる鍵選択戦略を提案する。 実験結果から,信号レベルの鍵選択に基づく特定の戦略が,最も安全なしきい値に対する反復最適化に基づく敵攻撃の完全遮断につながることが示されたが,最も実用的なしきい値の場合,攻撃成功確率は約5.0%に低下する。

Nowadays, facial recognition systems are still vulnerable to adversarial attacks. These attacks vary from simple perturbations of the input image to modifying the parameters of the recognition model to impersonate an authorised subject. So-called privacy-enhancing facial recognition systems have been mostly developed to provide protection of stored biometric reference data, i.e. templates. In the literature, privacy-enhancing facial recognition approaches have focused solely on conventional security threats at the template level, ignoring the growing concern related to adversarial attacks. Up to now, few works have provided mechanisms to protect face recognition against adversarial attacks while maintaining high security at the template level. In this paper, we propose different key selection strategies to improve the security of a competitive cancelable scheme operating at the signal level. Experimental results show that certain strategies based on signal-level key selection can lead to complete blocking of the adversarial attack based on an iterative optimization for the most secure threshold, while for the most practical threshold, the attack success chance can be decreased to approximately 5.0%.
翻訳日:2023-10-05 13:41:05 公開日:2023-10-04
# IBCL:連続学習におけるタスクトレードオフのためのゼロショットモデル生成

IBCL: Zero-shot Model Generation for Task Trade-offs in Continual Learning ( http://arxiv.org/abs/2310.02995v1 )

ライセンス: Link先を確認
Pengyuan Lu and Michele Caprio and Eric Eaton and Insup Lee(参考訳) 一般的なマルチタスク学習と同様に、連続学習は多目的最適化の性質を持ち、異なるタスクのパフォーマンス間のトレードオフに直面します。 つまり、現在のタスク分散のために最適化するには、以前のタスクのパフォーマンスを損なう必要がある。 これは、異なるタイミングでパレート最適である複数のモデルが存在し、それぞれが異なるタスクパフォーマンストレードオフに対処することを意味する。 研究者は、特定のトレードオフ設定に対応するために、特定のモデルをトレーニングする方法について議論した。 しかし、既存のアルゴリズムでは、好みの数に比例するオーバーヘッドをトレーニングする必要があります。 その結果,Imrecise Bayesian Continual Learning (IBCL)を提案する。 IBCL(1)は,(1)モデルパラメータ分布の凸殻の形で知識ベースを更新し,(2)ゼロショットでタスクのトレードオフ設定に対処する特定のモデルを取得する。 すなわち、IBCLはその知識ベースから好み適応モデルを生成するために追加のトレーニングオーバーヘッドを必要としない。 IBCL で得られたモデルは,Pareto 最適パラメータの同定に有効であることを示す。 さらに、標準画像分類とNLPタスクの実験がこの保証を支持している。 統計的に、ibclは平均タスク毎の精度を最大23\%、ピーク毎の精度をベースライン法に対して最大15\%改善し、着実にゼロに近いか正の後方転送を行う。 最も重要なことは、IBCLがトレーニングのオーバーヘッドを、選好毎にトレーニング1モデルから、すべての選好に対して少なくとも3モデルに大幅に削減することです。

Like generic multi-task learning, continual learning has the nature of multi-objective optimization, and therefore faces a trade-off between the performance of different tasks. That is, to optimize for the current task distribution, it may need to compromise performance on some previous tasks. This means that there exist multiple models that are Pareto-optimal at different times, each addressing a distinct task performance trade-off. Researchers have discussed how to train particular models to address specific trade-off preferences. However, existing algorithms require training overheads proportional to the number of preferences -- a large burden when there are multiple, possibly infinitely many, preferences. As a response, we propose Imprecise Bayesian Continual Learning (IBCL). Upon a new task, IBCL (1) updates a knowledge base in the form of a convex hull of model parameter distributions and (2) obtains particular models to address task trade-off preferences with zero-shot. That is, IBCL does not require any additional training overhead to generate preference-addressing models from its knowledge base. We show that models obtained by IBCL have guarantees in identifying the Pareto optimal parameters. Moreover, experiments on standard image classification and NLP tasks support this guarantee. Statistically, IBCL improves average per-task accuracy by at most 23\% and peak per-task accuracy by at most 15\% with respect to the baseline methods, with steadily near-zero or positive backward transfer. Most importantly, IBCL significantly reduces the training overhead from training 1 model per preference to at most 3 models for all preferences.
翻訳日:2023-10-05 13:40:47 公開日:2023-10-04
# 物理サロゲートモデルのための多重物理事前学習

Multiple Physics Pretraining for Physical Surrogate Models ( http://arxiv.org/abs/2310.02994v1 )

ライセンス: Link先を確認
Michael McCabe, Bruno R\'egaldo-Saint Blancard, Liam Holden Parker, Ruben Ohana, Miles Cranmer, Alberto Bietti, Michael Eickenberg, Siavash Golkar, Geraud Krawezik, Francois Lanusse, Mariel Pettee, Tiberiu Tesileanu, Kyunghyun Cho, Shirley Ho(参考訳) 本稿では,物理サロゲートモデリングのための自己回帰型タスク非依存事前学習手法であるmultiple physics pretraining (mpp)を導入する。 MPPは、様々な物理タスクで広く有用な特徴を学習することで、複数の異種物理システムのダイナミクスを同時に予測する大規模な代理モデルを訓練する。 この環境で効果的に学習するために、複数のシステムの分野を単一の共有埋め込み空間に投影する共有埋め込みおよび正規化戦略を導入する。 我々は,幅広い流体力学のベンチマークを用いて,事前学習と下流作業に対するアプローチの有効性を検証した。 単一MPP事前学習変換器は、微調整を必要とせず、全ての事前学習サブタスクにおいてタスク固有のベースラインにマッチまたは性能を発揮可能であることを示す。 ダウンストリームタスクでは,MPPをトレーニングしたモデルが,スクラッチやビデオ基礎モデルの微調整に比べて,新しい物理の複数の段階においてより正確な予測を行うことを示す。 再現性とコミュニティ実験のために,複数のスケールでトレーニングされたコードとモデルウェイトをオープンソースとして公開しています。

We introduce multiple physics pretraining (MPP), an autoregressive task-agnostic pretraining approach for physical surrogate modeling. MPP involves training large surrogate models to predict the dynamics of multiple heterogeneous physical systems simultaneously by learning features that are broadly useful across diverse physical tasks. In order to learn effectively in this setting, we introduce a shared embedding and normalization strategy that projects the fields of multiple systems into a single shared embedding space. We validate the efficacy of our approach on both pretraining and downstream tasks over a broad fluid mechanics-oriented benchmark. We show that a single MPP-pretrained transformer is able to match or outperform task-specific baselines on all pretraining sub-tasks without the need for finetuning. For downstream tasks, we demonstrate that finetuning MPP-trained models results in more accurate predictions across multiple time-steps on new physics compared to training from scratch or finetuning pretrained video foundation models. We open-source our code and model weights trained at multiple scales for reproducibility and community experimentation.
翻訳日:2023-10-05 13:40:21 公開日:2023-10-04
# Kosmos-G:マルチモーダル大言語モデルを用いた文脈における画像生成

Kosmos-G: Generating Images in Context with Multimodal Large Language Models ( http://arxiv.org/abs/2310.02992v1 )

ライセンス: Link先を確認
Xichen Pan, Li Dong, Shaohan Huang, Zhiliang Peng, Wenhu Chen, Furu Wei(参考訳) テキスト・トゥ・イメージ(T2I)と視覚言語・イメージ(VL2I)の最近の進歩は大きな進歩をもたらした。 しかし、一般的な視覚言語入力、特に複数の画像を含むものからの生成は、未検討のままである。 本稿では,Multimodal Large Language Models (MLLM) の高度な認識能力を利用して,上記の課題に対処するKosmos-Gを提案する。 提案手法は,テキストモダリティをアンカーとして用いたMLLMとCLIPの出力空間を整列し,キュレートされたデータに対して合成指導を行う。 Kosmos-Gは、ゼロショットマルチエンタリティの主観的生成のユニークな能力を示す。 特に、スコア蒸留指示チューニングは、画像デコーダの変更を必要としない。 これにより、CLIPのシームレスな置換と、きめ細かいコントロールからパーソナライズされたイメージデコーダまで、数多くのU-Net技術との統合が可能になる。 我々は、コスモスGを「画像生成における外国語としてのイメージ」という目標に向けた最初の試みとしている。

Recent advancements in text-to-image (T2I) and vision-language-to-image (VL2I) generation have made significant strides. However, the generation from generalized vision-language inputs, especially involving multiple images, remains under-explored. This paper presents Kosmos-G, a model that leverages the advanced perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates a unique capability of zero-shot multi-entity subject-driven generation. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation."
翻訳日:2023-10-05 13:40:03 公開日:2023-10-04
# 応用ホログラフィの診断トモグラフィ

Diagnostic Tomography of Applied Holography ( http://arxiv.org/abs/2310.02991v1 )

ライセンス: Link先を確認
D.V.Khveshchenko(参考訳) d\geq 1$-dimensional fermi gas with a large number $n$ of species and strong short-range $s$-wave scattering in the single-particle behavior in $d\geq 1$-dimensional fermi gas with a $2d$ 'tomographic' framework of a (pseudo)holographic correspondence with a certain $3d$ gravity of the $ads_3$ type. (英語) しかし、そのようなバルク理論の本質的にトポロジカルな性質により、そのダイナミクスは純粋に境界的なものへと還元され、したがって、その$syk/ads_2$ に対応するものと同様に、この形式的対応は、仮説上の一般化されたホログラフィック双対性を表すものではない。

The single-particle behavior in $d\geq 1$-dimensional Fermi gases with a large number $N$ of species and strong short-range $s$-wave scattering is discussed in the $2d$ 'tomographic' framework of a (pseudo)holographic correspondence with a certain $3d$ gravity of the $AdS_3$ type. However, due to the intrinsically topological nature of such a bulk theory its dynamics reduces to a purely boundary one and so, akin to its $SYK/AdS_2$ counterpart, this formal correspondence neither represents a genuine case of, nor endorses the hypothetical generalized holographic duality.
翻訳日:2023-10-05 13:39:48 公開日:2023-10-04
# xVal: 大規模言語モデルのための連続数値エンコーディング

xVal: A Continuous Number Encoding for Large Language Models ( http://arxiv.org/abs/2310.02989v1 )

ライセンス: Link先を確認
Siavash Golkar, Mariel Pettee, Michael Eickenberg, Alberto Bietti, Miles Cranmer, Geraud Krawezik, Francois Lanusse, Michael McCabe, Ruben Ohana, Liam Parker, Bruno R\'egaldo-Saint Blancard, Tiberiu Tesileanu, Kyunghyun Cho, Shirley Ho(参考訳) 大規模言語モデルはまだ、数値をトークン化することの難しさから、科学データセットの分析に広く適応していない。 一つのトークンを用いて任意の実数を表す数値符号化方式であるxValを提案する。 xValは、専用の埋め込みベクトルを数値でスケーリングすることで、与えられた実数を表す。 この戦略は、修正された数値推論アプローチと組み合わせて、入力文字列の数値から出力文字列の値へのマップとして考慮された場合、モデルのエンドツーエンド連続を描画する。 これは一般に科学分野の応用に適している帰納的バイアスにつながる。 我々は,いくつかの合成データと実世界のデータセットについて,提案を実証的に評価した。 既存の数値符号化方式と比較して、xValはトークン効率が良く、一般化が向上している。

Large Language Models have not yet been broadly adapted for the analysis of scientific datasets due in part to the unique difficulties of tokenizing numbers. We propose xVal, a numerical encoding scheme that represents any real number using just a single token. xVal represents a given real number by scaling a dedicated embedding vector by the number value. Combined with a modified number-inference approach, this strategy renders the model end-to-end continuous when considered as a map from the numbers of the input string to those of the output string. This leads to an inductive bias that is generally more suitable for applications in scientific domains. We empirically evaluate our proposal on a number of synthetic and real-world datasets. Compared with existing number encoding schemes, we find that xVal is more token-efficient and demonstrates improved generalization.
翻訳日:2023-10-05 13:39:33 公開日:2023-10-04
# 実例を用いた視覚言語モデルにおける断面積バイアスの探索

Probing Intersectional Biases in Vision-Language Models with Counterfactual Examples ( http://arxiv.org/abs/2310.02988v1 )

ライセンス: Link先を確認
Phillip Howard, Avinash Madasu, Tiep Le, Gustavo Lujan Moreno, Vasudev Lal(参考訳) 視覚言語モデル(VLM)は近年顕著な性能向上を遂げているが、性別や人種などの社会的属性に関して有害なバイアスが生じる証拠も増えている。 先行研究は、社会的属性間の交点に関連するバイアスを無視しながら、個別にバイアス属性を探索することに焦点を当ててきた。 これは、既存のデータセットから様々な社会的属性の組み合わせのために、画像とテキストのペアを徹底的に集めることが難しいためかもしれない。 この課題に対処するため,我々は,テキストから画像への拡散モデルを用いて,大規模社会バイアスを探究する反事実的例を作成した。 本手法では, 対象の描写(例えば, 与えられた職業)に非常に類似する対物的イメージテキストペアを生成できる一方で, 交叉的社会的属性(例えば, 人種や性別)の描写においてのみ異なる対物的イメージテキストペアの組を生成するために, クロスアテンション制御を伴う安定した拡散を利用する。 我々は,最先端のvlmに存在する交叉的社会バイアスを明らかにするために,生成されたデータセットを用いて広範な実験を行う。

While vision-language models (VLMs) have achieved remarkable performance improvements recently, there is growing evidence that these models also posses harmful biases with respect to social attributes such as gender and race. Prior studies have primarily focused on probing such bias attributes individually while ignoring biases associated with intersections between social attributes. This could be due to the difficulty of collecting an exhaustive set of image-text pairs for various combinations of social attributes from existing datasets. To address this challenge, we employ text-to-image diffusion models to produce counterfactual examples for probing intserctional social biases at scale. Our approach utilizes Stable Diffusion with cross attention control to produce sets of counterfactual image-text pairs that are highly similar in their depiction of a subject (e.g., a given occupation) while differing only in their depiction of intersectional social attributes (e.g., race & gender). We conduct extensive experiments using our generated dataset which reveal the intersectional social biases present in state-of-the-art VLMs.
翻訳日:2023-10-05 13:39:19 公開日:2023-10-04
# 有限サムモノトン包有物の分散低減Halpernイテレーション

Variance Reduced Halpern Iteration for Finite-Sum Monotone Inclusions ( http://arxiv.org/abs/2310.02987v1 )

ライセンス: Link先を確認
Xufeng Cai, Ahmet Alacaoglu, Jelena Diakonikolas(参考訳) 対向的ロバスト性やマルチエージェント設定といった基準に頼った機械学習アプローチは、ゲーム理論平衡問題の解決の必要性を高めている。 これらの応用の特に関連性は有限サム構造をターゲットにした手法であり、これらの文脈における学習問題の経験的変種に一般化的に現れる。 さらに、計算可能な近似誤差を持つメソッドは、検証可能な出口基準を提供するため、非常に望ましい。 これらの応用により、平衡問題の幅広いクラスをモデル化する有限サム単調包含問題を研究する。 我々の主な貢献は、分散還元を利用する古典的ハルパーンの反復の変種であり、有限和の$n$成分作用素が 'on average'' であるような複雑性を保証するために、パラメータ$L$ を持つcocoercive あるいは Lipschitz の連続かつ単調である。 最後の反復と(計算可能な)作用素のノルム残量を保証するメソッドのオラクルの複雑さは、$\widetilde{\mathcal{O}}(n + \sqrt{n}L\varepsilon^{-1})$であり、既存のメソッドを最大$\sqrt{n}$まで改善する。 これは、一般の有限和単調包含物と、作用素ノルム残差が最適測度であるときに凸凹最適化のようなより具体的な問題に対する最初の分散還元型結果を構成する。 さらに、この複雑さが単調なリプシッツ設定では改善不可能である、すなわち、与えられた結果がほぼ最適である、とも主張する。

Machine learning approaches relying on such criteria as adversarial robustness or multi-agent settings have raised the need for solving game-theoretic equilibrium problems. Of particular relevance to these applications are methods targeting finite-sum structure, which generically arises in empirical variants of learning problems in these contexts. Further, methods with computable approximation errors are highly desirable, as they provide verifiable exit criteria. Motivated by these applications, we study finite-sum monotone inclusion problems, which model broad classes of equilibrium problems. Our main contributions are variants of the classical Halpern iteration that employ variance reduction to obtain improved complexity guarantees in which $n$ component operators in the finite sum are ``on average'' either cocoercive or Lipschitz continuous and monotone, with parameter $L$. The resulting oracle complexity of our methods, which provide guarantees for the last iterate and for a (computable) operator norm residual, is $\widetilde{\mathcal{O}}( n + \sqrt{n}L\varepsilon^{-1})$, which improves upon existing methods by a factor up to $\sqrt{n}$. This constitutes the first variance reduction-type result for general finite-sum monotone inclusions and for more specific problems such as convex-concave optimization when operator norm residual is the optimality measure. We further argue that, up to poly-logarithmic factors, this complexity is unimprovable in the monotone Lipschitz setting; i.e., the provided result is near-optimal.
翻訳日:2023-10-05 13:38:34 公開日:2023-10-04
# スーパーセレクションルール導入の哲学的課題

The philosophical problems of implementing superselection rules ( http://arxiv.org/abs/2310.03014v1 )

ライセンス: Link先を確認
Jorge Manero(参考訳) 一部の物理学者は、理論が新しい数学的定式化の枠組みでフレーム化されている場合、超選択規則は矛盾を取り除くために実施されるべきであり、一方、新しい定式化はこれらの規則を実装する代わりに修正されるべきであり、追加の数学的構造を導入することを犠牲にすべきであると考えている。 しかし、その結果は、これらのルールが実装されるべきなのか、どのように解釈され、哲学的な観点から評価されるべきなのか、まだ不明である。 物理学者が超選択規則を課すよう促す(相対論的で非相対論的)量子力学の群論的改革の詳細な検討に基づいて、これらの規則の実装は深刻なヒューリスティックおよび認識論的懸念を伴うと論じる。 この議論を踏まえて、超選択規則の実施は拒絶されるべきであり、理論の定式化が修正されるべき状況があるとする適切な哲学的理由があると結論する。

Some physicists believe that superselection rules should be implemented to get rid of inconsistencies when a theory is framed in terms of a new mathematical formulation, whilst others think that this new formulation should be modified instead of implementing those rules, at the expense of introducing additional mathematical structure. The outcome, however, is that we are still uncertain whether these rules should be implemented and how they should be interpreted and assessed from the philosophical point of view. Based on a detailed examination of the group-theoretic reformulation of (relativistic and non-relativistic) quantum mechanics that prompts physicists to impose superselection rules, I shall argue that the implementation of these rules involves serious heuristic and epistemological concerns. Considering this argument, I shall conclude that there are suitable philosophical reasons to claim that the implementation of superselection rules should be rejected and that there are certain circumstances when the formulation of a theory should be modified.
翻訳日:2023-10-05 13:30:40 公開日:2023-10-04
# SemiReward: 半教師あり学習のための一般リワードモデル

SemiReward: A General Reward Model for Semi-supervised Learning ( http://arxiv.org/abs/2310.03013v1 )

ライセンス: Link先を確認
Siyuan Li, Weiyang Jin, Zedong Wang, Fang Wu, Zicheng Liu, Cheng Tan, Stan Z. Li(参考訳) semi-supervised learning (ssl) は疑似ラベル付き自己学習フレームワークの改善によって大きな進歩を遂げている。 主な課題は、高品質な擬似ラベルを確認バイアスと区別する方法である。 しかし、既存の擬似ラベル選択戦略は、分類のために特別に設計された事前定義されたスキームや複雑な手作りポリシーに限られており、高品質なラベル、高速収束、タスクの汎用性を同時に達成できない。 そこで本稿では,Semi-supervised Reward framework (SemiReward) を提案する。報奨スコアを予測して高品質な擬似ラベルを抽出し,タスクタイプやシナリオにおいて主流のSSLメソッドに接続可能である。 確認バイアスを軽減するため、SemiRewardはジェネレータモデルとサブサンプリング戦略で2段階のオンライントレーニングを行っている。 3つのモードの標準SSLベンチマーク13の分類と回帰タスクにより、SemiRewardがPseudo Label、FlexMatch、Free/SoftMatch上で大きなパフォーマンス向上とより高速なコンバージェンス速度を達成することが検証された。

Semi-supervised learning (SSL) has witnessed great progress with various improvements in the self-training framework with pseudo labeling. The main challenge is how to distinguish high-quality pseudo labels against the confirmation bias. However, existing pseudo-label selection strategies are limited to pre-defined schemes or complex hand-crafted policies specially designed for classification, failing to achieve high-quality labels, fast convergence, and task versatility simultaneously. To these ends, we propose a Semi-supervised Reward framework (SemiReward) that predicts reward scores to evaluate and filter out high-quality pseudo labels, which is pluggable to mainstream SSL methods in wide task types and scenarios. To mitigate confirmation bias, SemiReward is trained online in two stages with a generator model and subsampling strategy. With classification and regression tasks on 13 standard SSL benchmarks of three modalities, extensive experiments verify that SemiReward achieves significant performance gains and faster convergence speeds upon Pseudo Label, FlexMatch, and Free/SoftMatch.
翻訳日:2023-10-05 13:30:22 公開日:2023-10-04
# 量子アルゴリズム:アプリケーションとエンドツーエンドの複雑さの調査

Quantum algorithms: A survey of applications and end-to-end complexities ( http://arxiv.org/abs/2310.03011v1 )

ライセンス: Link先を確認
Alexander M. Dalzell, Sam McArdle, Mario Berta, Przemyslaw Bienias, Chi-Fang Chen, Andr\'as Gily\'en, Connor T. Hann, Michael J. Kastoryano, Emil T. Khabiboulline, Aleksander Kubica, Grant Salton, Samson Wang, Fernando G. S. L. Brand\~ao(参考訳) 期待されている量子コンピュータの応用は、量子化学や多体物理学から最適化、ファイナンス、機械学習まで、科学や産業にまたがる。 これらの分野で提案された量子解は、一般的に複数の量子アルゴリズムプリミティブを総合量子アルゴリズムに結合し、量子誤差補正とフォールトトレランスの手法を量子ハードウェアに正しく実装する必要がある。 そのため、基礎となるプリミティブとその複雑さに関する複雑な技術的詳細に敏感な様々なアプローチがあるため、特定のアプリケーションが量子コンピューティングからどれだけの恩恵を受けるかを評価するのは難しい。 ここでは、量子アルゴリズムとその基礎となるアルゴリズムプリミティブの潜在的な応用領域について、技術的な注意事項と微妙さを慎重に検討する。 入力出力モデルと共に解決される問題を明確に定義し、すべての"オークル"をインスタンス化し、すべての隠れたコストをスペルすることで、各領域における課題と機会を"エンドツーエンド"で概説する。 また,量子解を最先端の古典的手法と複雑性理論の限界と比較し,量子スピードアップの可能性を評価する。 この調査は、コンテンツのナビゲーションを容易にするために、モジュール形式のwiki風の方法で書かれています。 それぞれのプリミティブとアプリケーション領域はスタンドアロンのセクションで議論され、参照の書誌と他の関連するセクションへの埋め込みハイパーリンクがある。 この構造は、いくつかの抽象層を含む複雑な量子アルゴリズムを反映し、サブルーチンを変更する際に、エンドツーエンドの複雑さがどのように影響するかを素早く評価することができる。

The anticipated applications of quantum computers span across science and industry, ranging from quantum chemistry and many-body physics to optimization, finance, and machine learning. Proposed quantum solutions in these areas typically combine multiple quantum algorithmic primitives into an overall quantum algorithm, which must then incorporate the methods of quantum error correction and fault tolerance to be implemented correctly on quantum hardware. As such, it can be difficult to assess how much a particular application benefits from quantum computing, as the various approaches are often sensitive to intricate technical details about the underlying primitives and their complexities. Here we present a survey of several potential application areas of quantum algorithms and their underlying algorithmic primitives, carefully considering technical caveats and subtleties. We outline the challenges and opportunities in each area in an "end-to-end" fashion by clearly defining the problem being solved alongside the input-output model, instantiating all "oracles," and spelling out all hidden costs. We also compare quantum solutions against state-of-the-art classical methods and complexity-theoretic limitations to evaluate possible quantum speedups. The survey is written in a modular, wiki-like fashion to facilitate navigation of the content. Each primitive and application area is discussed in a standalone section, with its own bibliography of references and embedded hyperlinks that direct to other relevant sections. This structure mirrors that of complex quantum algorithms that involve several layers of abstraction, and it enables rapid evaluation of how end-to-end complexities are impacted when subroutines are altered.
翻訳日:2023-10-05 13:30:00 公開日:2023-10-04
# 出現する外れ値固有空間と高次元SGD整列

High-dimensional SGD aligns with emerging outlier eigenspaces ( http://arxiv.org/abs/2310.03010v1 )

ライセンス: Link先を確認
Gerard Ben Arous, Reza Gheissari, Jiaoyang Huang, Aukosh Jagannath(参考訳) 我々は,確率勾配降下(SGD)と経験的ヘッセン行列および勾配行列のスペクトルを用いて,トレーニングダイナミクスの連成進化を厳密に研究した。 多クラス高次元混合および1層または2層ニューラルネットワークの2つの標準的分類タスクにおいて、sgd軌道はヘッセン行列および勾配行列の出現する低ランク外接固有空間と高速に一致することが証明される。 さらに、多層設定では、このアライメントは層ごとに発生し、最終層の外れた固有空間はトレーニングの過程で進化し、sgdがサブ最適分類器に収束するとランクが低下する。 これは、過パラメータネットワークでのトレーニングの過程で、ヘッセン行列と情報行列のスペクトルに関する過去10年間の広範な数値研究から生じたリッチな予測のいくつかを確立している。

We rigorously study the joint evolution of training dynamics via stochastic gradient descent (SGD) and the spectra of empirical Hessian and gradient matrices. We prove that in two canonical classification tasks for multi-class high-dimensional mixtures and either 1 or 2-layer neural networks, the SGD trajectory rapidly aligns with emerging low-rank outlier eigenspaces of the Hessian and gradient matrices. Moreover, in multi-layer settings this alignment occurs per layer, with the final layer's outlier eigenspace evolving over the course of training, and exhibiting rank deficiency when the SGD converges to sub-optimal classifiers. This establishes some of the rich predictions that have arisen from extensive numerical studies in the last decade about the spectra of Hessian and information matrices over the course of training in overparametrized networks.
翻訳日:2023-10-05 13:29:30 公開日:2023-10-04
# SpiDy.jl -- 非マルコフ確率力学の研究のためのオープンソースJuliaパッケージ

SpiDy.jl -- open-source Julia package for the study of non-Markovian stochastic dynamics ( http://arxiv.org/abs/2310.03008v1 )

ライセンス: Link先を確認
Stefano Scali, Simon Horsley, Janet Anders, Federico Cerisola(参考訳) spidy.jlは、散逸環境と接触する古典スピンベクトルと調和振動子ネットワークの非マルコフ確率ダイナミクスを解く。 実装された方法は、任意のメモリ効果と色付き量子ノイズスペクトルを含むことができる。 このように、Spedy.jlは、非マルコフ効果や環境への任意に強い結合を含む古典的および量子的オープンシステムのシミュレーションのための重要なツールを提供する。 応用範囲は広く、原子論的なスピンダイナミクスから超高速磁気学、異方性物質の研究まで様々である。 ユーザに対してJuliaノートを提供して,様々な数学的手法をガイドし,複雑なシミュレーションの迅速なセットアップを支援する。

SpiDy.jl solves the non-Markovian stochastic dynamics of interacting classical spin vectors and harmonic oscillator networks in contact with a dissipative environment. The methods implemented allow the user to include arbitrary memory effects and colored quantum noise spectra. In this way, SpiDy.jl provides key tools for the simulation of classical and quantum open systems including non-Markovian effects and arbitrarily strong coupling to the environment. Among the wide range of applications, some examples range from atomistic spin dynamics to ultrafast magnetism and the study of anisotropic materials. We provide the user with Julia notebooks to guide them through the various mathematical methods and help them quickly setup complex simulations.
翻訳日:2023-10-05 13:29:04 公開日:2023-10-04
# ドメイン一般化のためのドメイン特化特徴の絡み合い

Towards Domain-Specific Features Disentanglement for Domain Generalization ( http://arxiv.org/abs/2310.03007v1 )

ライセンス: Link先を確認
Hao Chen, Qi Zhang, Zenan Huang, Haobo Wang, Junbo Zhao(参考訳) ドメイン間の分散シフトは、現代の機械学習アルゴリズムに大きな課題をもたらします。 ドメイン一般化(DG)はこの問題を対象とする一般的な行を意味し、これらの方法は異なる分布の普遍的なパターンを明らかにすることを目的としている。 注目すべきは、DGの背後にある重要な課題は、関係のないドメイン機能の存在である。 そこで本研究では,新しいコントラッシブ・ベース・ディコンタングルメント法CDDGを提案する。この特徴を効果的に活用し,見過ごされたドメイン特化特徴を効果的に活用し,DGタスクに対する所望のクロスドメインカテゴリ特徴の抽出を容易にする。 特に、cddgは潜在空間でそれらを活用し、相互に排他的な特徴を分離することを学び、学習を識別する。 様々なベンチマークデータセットで行った大規模な実験は、他の最先端手法と比較して、我々の手法の優位性を示している。 さらに,本手法の有効性を可視化評価により確認した。

Distributional shift between domains poses great challenges to modern machine learning algorithms. The domain generalization (DG) signifies a popular line targeting this issue, where these methods intend to uncover universal patterns across disparate distributions. Noted, the crucial challenge behind DG is the existence of irrelevant domain features, and most prior works overlook this information. Motivated by this, we propose a novel contrastive-based disentanglement method CDDG, to effectively utilize the disentangled features to exploit the over-looked domain-specific features, and thus facilitating the extraction of the desired cross-domain category features for DG tasks. Specifically, CDDG learns to decouple inherent mutually exclusive features by leveraging them in the latent space, thus making the learning discriminative. Extensive experiments conducted on various benchmark datasets demonstrate the superiority of our method compared to other state-of-the-art approaches. Furthermore, visualization evaluations confirm the potential of our method in achieving effective feature disentanglement.
翻訳日:2023-10-05 13:28:24 公開日:2023-10-04
# COOLer: 外観に基づく複数物体追跡のためのクラスインクリメンタル学習

COOLer: Class-Incremental Learning for Appearance-Based Multiple Object Tracking ( http://arxiv.org/abs/2310.03006v1 )

ライセンス: Link先を確認
Zhizheng Liu, Mattia Segu, Fisher Yu(参考訳) 連続学習により、モデルは前のタスクのトレーニングデータなしで古い知識を維持しながら、連続的に複数のタスクを学習することができる。 本稿では,連続学習研究のスコープを,自律システムの継続的に進化するニーズに対応するために望ましい<ac{mot>のクラスインクリメンタル学習に拡張する。 オブジェクト検出器の継続的な学習のためのこれまでの解決策は、外見に基づくトラッカーのデータ関連ステージには対応していない。 我々は,Contrastive- and cOntinual-LearningベースのトラッカーであるCOOLerを紹介した。これは過去の知識を保存しながら,過去のトラッカーが生成した擬似ラベルの組み合わせをトレーニングすることで,新たなカテゴリの追跡を段階的に学習する。 インスタンス表現の不整合をさらに悪化させるため,新しいクラスインクリメンタルなインスタンス表現学習手法を導入する。 最後に,MOT の連続学習のための実践的評価プロトコルを提案し,その実験を \bdd および \shift データセット上で行う。 実験の結果、COOLerは追跡と検出の両方の破滅的な忘れを効果的に解決しながら継続的に学習していることがわかった。 コードは \url{https://github.com/bosmallear/cooler} で入手できる。

Continual learning allows a model to learn multiple tasks sequentially while retaining the old knowledge without the training data of the preceding tasks. This paper extends the scope of continual learning research to class-incremental learning for \ac{mot}, which is desirable to accommodate the continuously evolving needs of autonomous systems. Previous solutions for continual learning of object detectors do not address the data association stage of appearance-based trackers, leading to catastrophic forgetting of previous classes' re-identification features. We introduce COOLer, a COntrastive- and cOntinual-Learning-based tracker, which incrementally learns to track new categories while preserving past knowledge by training on a combination of currently available ground truth labels and pseudo-labels generated by the past tracker. To further exacerbate the disentanglement of instance representations, we introduce a novel contrastive class-incremental instance representation learning technique. Finally, we propose a practical evaluation protocol for continual learning for MOT and conduct experiments on the \bdd and \shift datasets. Experimental results demonstrate that COOLer continually learns while effectively addressing catastrophic forgetting of both tracking and detection. The code is available at \url{https://github.com/BoSmallEar/COOLer}.
翻訳日:2023-10-05 13:27:55 公開日:2023-10-04
# プライバシー保護の可能なディープフェイス埋め込みの反転

Reversing Deep Face Embeddings with Probable Privacy Protection ( http://arxiv.org/abs/2310.03005v1 )

ライセンス: Link先を確認
Daile Osorio-Roig, Paul A. Gerlitz, Christian Rathgeb, and Christoph Busch(参考訳) 一般的に、顔認識システムは、顔埋め込みの恒久的な保護を提供するように設計されている。 近年,ソフトバイオメトリック属性のキャンセルを目的として,いわゆるソフトバイオメトリックプライバシエンハンスメントアプローチが導入された。 これらの方法は、顔の埋め込みから推測できる柔らかい生体情報(性別や肌の色)の量を制限する。 これまでの研究は、プライバシー保護機能を評価する際に厳格な評価と標準化された評価プロトコルの研究の必要性を根ざしてきた。 この事実を動機として,ソフトバイオメトリックのプライバシー保護を主張する手法によって,非可逆性要件がどの程度満たされるかを検討する。 さらに,プライバシー保護に使用されるトランスフォーメーションの複雑さの観点から,最先端顔埋め込み抽出器の詳細な脆弱性評価を行う。 この文脈では、ソフトバイオメトリック・プライバシ保護を破るために、保護された顔埋め込みに対して、最先端の顔画像再構成アプローチが評価されている。 実験の結果,保護アルゴリズムの複雑さに応じて,バイオメトリックなプライバシ強化顔の埋め込みを最大98%の精度で再構築できることが示唆された。

Generally, privacy-enhancing face recognition systems are designed to offer permanent protection of face embeddings. Recently, so-called soft-biometric privacy-enhancement approaches have been introduced with the aim of canceling soft-biometric attributes. These methods limit the amount of soft-biometric information (gender or skin-colour) that can be inferred from face embeddings. Previous work has underlined the need for research into rigorous evaluations and standardised evaluation protocols when assessing privacy protection capabilities. Motivated by this fact, this paper explores to what extent the non-invertibility requirement can be met by methods that claim to provide soft-biometric privacy protection. Additionally, a detailed vulnerability assessment of state-of-the-art face embedding extractors is analysed in terms of the transformation complexity used for privacy protection. In this context, a well-known state-of-the-art face image reconstruction approach has been evaluated on protected face embeddings to break soft biometric privacy protection. Experimental results show that biometric privacy-enhanced face embeddings can be reconstructed with an accuracy of up to approximately 98%, depending on the complexity of the protection algorithm.
翻訳日:2023-10-05 13:27:30 公開日:2023-10-04
# ソフト凸量子化:凸最適化によるベクトル量子化の再検討

Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization ( http://arxiv.org/abs/2310.03004v1 )

ライセンス: Link先を確認
Tanmay Gautam, Reid Pryzant, Ziyi Yang, Chenguang Zhu, Somayeh Sojoudi(参考訳) ベクトル量子化(VQ)は情報的離散潜在表現を抽出する深層学習においてよく知られている手法である。 VQ埋め込みモデルは、画像生成や音声生成を含む様々なアプリケーションにおいて印象的な結果を示している。 VQは、フォワードパスの単一のコードブックベクトルを使用して入力を定量化するパラメトリックK平均アルゴリズムとして動作する。 この技術は強力だが、コードブックの崩壊、非微分可能性、圧縮の損失といった現実的な課題に直面している。 上記の問題を緩和するため,VQの直接代用としてソフト凸量子化(SCQ)を提案する。 scqは微分可能な凸最適化(dco)層のように動作する: 前方パスでは、入力を量子化するコードブックベクトルの最適な凸結合を解決します。 後方通過では、前方解の最適条件を通じて微分可能性を利用する。 次に、SCQ最適化のスケーラブルな緩和を導入し、CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。 SCQオートエンコーダモデルをトレーニングし、VQベースのアーキテクチャに匹敵する性能を実現し、画像再構成とコードブックの利用を同等の量子化ランタイムで観測する。

Vector Quantization (VQ) is a well-known technique in deep learning for extracting informative discrete latent representations. VQ-embedded models have shown impressive results in a range of applications including image and speech generation. VQ operates as a parametric K-means algorithm that quantizes inputs using a single codebook vector in the forward pass. While powerful, this technique faces practical challenges including codebook collapse, non-differentiability and lossy compression. To mitigate the aforementioned issues, we propose Soft Convex Quantization (SCQ) as a direct substitute for VQ. SCQ works like a differentiable convex optimization (DCO) layer: in the forward pass, we solve for the optimal convex combination of codebook vectors that quantize the inputs. In the backward pass, we leverage differentiability through the optimality conditions of the forward solution. We then introduce a scalable relaxation of the SCQ optimization and demonstrate its efficacy on the CIFAR-10, GTSRB and LSUN datasets. We train powerful SCQ autoencoder models that significantly outperform matched VQ-based architectures, observing an order of magnitude better image reconstruction and codebook usage with comparable quantization runtime.
翻訳日:2023-10-05 13:27:14 公開日:2023-10-04
# 単語からワットへ:大規模言語モデル推論のエネルギーコストのベンチマーク

From Words to Watts: Benchmarking the Energy Costs of Large Language Model Inference ( http://arxiv.org/abs/2310.03003v1 )

ライセンス: Link先を確認
Siddharth Samsi, Dan Zhao, Joseph McDonald, Baolin Li, Adam Michaleas, Michael Jones, William Bergeron, Jeremy Kepner, Devesh Tiwari, Vijay Gadepally(参考訳) 大規模な言語モデル(llm)は、それまでの最先端をはるかに超えた新しい生成能力によって、人気が高まっている。 これらの技術は、法律、金融、医学など様々な分野で利用されつつある。 しかし、これらのモデルは重要な計算問題、特に推論に必要な計算とエネルギーコストを伴っている。 推論エネルギーコストは LLM の訓練エネルギーコストよりもあまり注目されないが、これらの大きなモデルが実際に推論を行う頻度(例えば ChatGPT など)は高い。 これらの最先端のLLMでは、さまざまな領域での使用とデプロイメントが増加しているため、コスト削減、パフォーマンスのスケーリング、効率的なハードウェア使用、最適な推論戦略において、リソース利用の理解が不可欠である。 本稿では,LLMを用いた推論の計算とエネルギー利用に関する実験について述べる。 我々は,Meta AIが2世代にわたる人気GPU(NVIDIA V100 \&A100)と2つのデータセット(AlpacaとGSM8K)で開発したLLaMAの異なるサイズの推論性能と推論エネルギーコストの予備分析を行い,研究と実践におけるLCMの多様なタスク/ベンチマークを反映した。 最大32GPUにわたるモデルシャーディングを用いたマルチノードマルチGPU推論の結果を示す。 私たちの知る限り、この規模の計算資源とエネルギー資源の観点からllm推論性能を最初に研究したのは私たちの仕事です。

Large language models (LLMs) have exploded in popularity due to their new generative capabilities that go far beyond prior state-of-the-art. These technologies are increasingly being leveraged in various domains such as law, finance, and medicine. However, these models carry significant computational challenges, especially the compute and energy costs required for inference. Inference energy costs already receive less attention than the energy costs of training LLMs -- despite how often these large models are called on to conduct inference in reality (e.g., ChatGPT). As these state-of-the-art LLMs see increasing usage and deployment in various domains, a better understanding of their resource utilization is crucial for cost-savings, scaling performance, efficient hardware usage, and optimal inference strategies. In this paper, we describe experiments conducted to study the computational and energy utilization of inference with LLMs. We benchmark and conduct a preliminary analysis of the inference performance and inference energy costs of different sizes of LLaMA -- a recent state-of-the-art LLM -- developed by Meta AI on two generations of popular GPUs (NVIDIA V100 \& A100) and two datasets (Alpaca and GSM8K) to reflect the diverse set of tasks/benchmarks for LLMs in research and practice. We present the results of multi-node, multi-GPU inference using model sharding across up to 32 GPUs. To our knowledge, our work is the one of the first to study LLM inference performance from the perspective of computational and energy resources at this scale.
翻訳日:2023-10-05 13:26:56 公開日:2023-10-04
# LanguageMPC: 自律運転のための意思決定者としての大規模言語モデル

LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving ( http://arxiv.org/abs/2310.03026v1 )

ライセンス: Link先を確認
Hao Sha, Yao Mu, Yuxuan Jiang, Li Chen, Chenfeng Xu, Ping Luo, Shengbo Eben Li, Masayoshi Tomizuka, Wei Zhan, Mingyu Ding(参考訳) 既存の学習ベースの自動運転(ad)システムは、ハイレベルな情報の理解、レアなイベントへの一般化、解釈可能性の提供といった課題に直面している。 これらの問題に対処するため、この研究では、人間の常識的理解を必要とする複雑なADシナリオの意思決定コンポーネントとして、LLM(Large Language Models)を採用している。 我々は,LLMによる包括的推論を可能にする認知経路を考案し,LLM決定を動作可能な駆動コマンドに変換するアルゴリズムを開発した。 このアプローチを通じて、LLM決定はガイドパラメータ行列適応により低レベルコントローラとシームレスに統合される。 広汎な実験により,提案手法は単一車載タスクのベースラインアプローチを一貫して超えるだけでなく,LLMの常識的推論能力のおかげで,多車載協調さえも複雑な運転動作の処理に有効であることが示された。 本稿では, 安全性, 効率, 汎用性, 相互運用性の観点から, LLMを複雑なADシナリオに効果的に活用するための最初のステップを示す。 この分野での今後の研究のインスピレーションになることを期待しています。 プロジェクトページ: https://sites.google.com/view/llm-mpc

Existing learning-based autonomous driving (AD) systems face challenges in comprehending high-level information, generalizing to rare events, and providing interpretability. To address these problems, this work employs Large Language Models (LLMs) as a decision-making component for complex AD scenarios that require human commonsense understanding. We devise cognitive pathways to enable comprehensive reasoning with LLMs, and develop algorithms for translating LLM decisions into actionable driving commands. Through this approach, LLM decisions are seamlessly integrated with low-level controllers by guided parameter matrix adaptation. Extensive experiments demonstrate that our proposed method not only consistently surpasses baseline approaches in single-vehicle tasks, but also helps handle complex driving behaviors even multi-vehicle coordination, thanks to the commonsense reasoning capabilities of LLMs. This paper presents an initial step toward leveraging LLMs as effective decision-makers for intricate AD scenarios in terms of safety, efficiency, generalizability, and interoperability. We aspire for it to serve as inspiration for future research in this field. Project page: https://sites.google.com/view/llm-mpc
翻訳日:2023-10-05 13:21:25 公開日:2023-10-04
# RetrievalがLong Context Large Language Modelsに対応

Retrieval meets Long Context Large Language Models ( http://arxiv.org/abs/2310.03025v1 )

ライセンス: Link先を確認
Peng Xu, Wei Ping, Xianchao Wu, Lawrence McAfee, Chen Zhu, Zihan Liu, Sandeep Subramanian, Evelina Bakhturina, Mohammad Shoeybi, Bryan Catanzaro(参考訳) 大規模言語モデル (LLM) のコンテキストウィンドウの拡張は近年普及しており、LLMを検索で拡張するソリューションは長年にわたって存在してきた。 自然な疑問は 一 検索拡大対長期コンテキストウィンドウ。下流タスクにとってどちらがよいか。 二 両方の方法を組み合わせて両世界の長所を得ることができるか。 本研究では,2つの最先端事前学習LDM,すなわちプロプライエタリな43B GPTとLLaMA2-70Bを用いて,両方の解について検討する。 意外なことに、単純な検索拡張による4Kコンテキストウィンドウを持つLLMは、長いコンテキストタスクにおける位置補間により、16Kコンテキストウィンドウを持つ微調整LLMに匹敵する性能を達成できるが、計算ははるかに少ない。 さらに,拡張コンテキストウィンドウのサイズに関わらず,検索によりLLMの性能が大幅に向上することを示す。 私たちのベストモデルである検索型llama2-70b32kコンテキストウィンドウ,gpt-3.5-turbo-16kおよびdavinci003を,質問応答やクエリベースの要約を含む7つの長いコンテキストタスクの平均スコアで上回っている。 また、レトリーバルでないLLaMA2-70B-32kベースラインよりもマージンが高く、世代によってははるかに高速である。 本研究は, LLMの長期拡張と検索強化の選択に関する一般的な知見を提供する。

Extending the context window of large language models (LLMs) is getting popular recently, while the solution of augmenting LLMs with retrieval has existed for years. The natural questions are: i) Retrieval-augmentation versus long context window, which one is better for downstream tasks? ii) Can both methods be combined to get the best of both worlds? In this work, we answer these questions by studying both solutions using two state-of-the-art pretrained LLMs, i.e., a proprietary 43B GPT and LLaMA2-70B. Perhaps surprisingly, we find that LLM with 4K context window using simple retrieval-augmentation at generation can achieve comparable performance to finetuned LLM with 16K context window via positional interpolation on long context tasks, while taking much less computation. More importantly, we demonstrate that retrieval can significantly improve the performance of LLMs regardless of their extended context window sizes. Our best model, retrieval-augmented LLaMA2-70B with 32K context window, outperforms GPT-3.5-turbo-16k and Davinci003 in terms of average score on seven long context tasks including question answering and query-based summarization. It also outperforms its non-retrieval LLaMA2-70B-32k baseline by a margin, while being much faster at generation. Our study provides general insights on the choice of retrieval-augmentation versus long context extension of LLM for practitioners.
翻訳日:2023-10-05 13:21:07 公開日:2023-10-04
# AstroCLIP:天文基礎モデルのためのクロスモーダル事前訓練

AstroCLIP: Cross-Modal Pre-Training for Astronomical Foundation Models ( http://arxiv.org/abs/2310.03024v1 )

ライセンス: Link先を確認
Francois Lanusse, Liam Parker, Siavash Golkar, Miles Cranmer, Alberto Bietti, Michael Eickenberg, Geraud Krawezik, Michael McCabe, Ruben Ohana, Mariel Pettee, Bruno Regaldo-Saint Blancard, Tiberiu Tesileanu, Kyunghyun Cho, Shirley Ho(参考訳) 多様な観測モード間のギャップを埋める天体基盤モデルの構築を容易にするための戦略であるAstroCLIPを提示する。 我々は、画像と銀河の光学スペクトルの相互比較学習アプローチが、両モードの高度に情報的埋め込みをもたらすことを示した。 特に, 暗エネルギー分光器 (desi) からのマルチバンド画像と光学スペクトルに適用し, (1) これらの埋め込みはモーダリティの間によく一致し, 正確なクロスモーダル探索に使用できること, (2) これらの埋め込みは銀河の貴重な物理情報(特に赤方偏移と恒星質量)をエンコードし, さらなる微調整をすることなく, 競争力のあるゼロショットと少数ショットの予測を達成することができることを示した。 さらに、このアプローチの開発過程では、銀河スペクトルを処理するための新しいトランスフォーマベースのモデルとプリトレーニングアプローチも構築する。

We present AstroCLIP, a strategy to facilitate the construction of astronomical foundation models that bridge the gap between diverse observational modalities. We demonstrate that a cross-modal contrastive learning approach between images and optical spectra of galaxies yields highly informative embeddings of both modalities. In particular, we apply our method on multi-band images and optical spectra from the Dark Energy Spectroscopic Instrument (DESI), and show that: (1) these embeddings are well-aligned between modalities and can be used for accurate cross-modal searches, and (2) these embeddings encode valuable physical information about the galaxies -- in particular redshift and stellar mass -- that can be used to achieve competitive zero- and few- shot predictions without further finetuning. Additionally, in the process of developing our approach, we also construct a novel, transformer-based model and pretraining approach for processing galaxy spectra.
翻訳日:2023-10-05 13:20:40 公開日:2023-10-04
# ロボットマニピュレーションのための人間指向表現学習

Human-oriented Representation Learning for Robotic Manipulation ( http://arxiv.org/abs/2310.03023v1 )

ライセンス: Link先を確認
Mingxiao Huo, Mingyu Ding, Chenfeng Xu, Thomas Tian, Xinghao Zhu, Yao Mu, Lingfeng Sun, Masayoshi Tomizuka, Wei Zhan(参考訳) 人間は本質的に汎用的な視覚表現を持ち、操作タスクにおいて効率的に環境を探索し、相互作用することができる。 このような表現は、日常的なシナリオ(例えば、手の検出、状態推定など)において重要な複数の単純な知覚スキルを同時に学習することで自動的に発生し、ロボット操作ポリシーの学習に適している、と我々は主張する。 我々は、事前学習された視覚エンコーダの上に、人間指向のマルチタスクの微調整のレンズを通して、このアイデアを定式化する。 そこで我々は,これらの知覚スキル間の基礎となる関係を利用して,すべての知覚スキルにとって重要な意味のある構造を表現し,最終的には下流ロボット操作タスクの学習を促進するために,その表現学習を誘導する,プラグアンドプレイ組込みトランスレータとしてタスクフュージョンデコーダを導入した。 シミュレーションと実環境の両方において、様々なロボットタスクや具体化の実験を行い、我々のタスク融合デコーダは、下流操作ポリシー学習のためのr3m、mvp、egovlpを含む3つの最先端ビジュアルエンコーダの表現を一貫して改善していることを示した。 プロジェクトページ: https://sites.google.com/view/human-oriented-robot-learning

Humans inherently possess generalizable visual representations that empower them to efficiently explore and interact with the environments in manipulation tasks. We advocate that such a representation automatically arises from simultaneously learning about multiple simple perceptual skills that are critical for everyday scenarios (e.g., hand detection, state estimate, etc.) and is better suited for learning robot manipulation policies compared to current state-of-the-art visual representations purely based on self-supervised objectives. We formalize this idea through the lens of human-oriented multi-task fine-tuning on top of pre-trained visual encoders, where each task is a perceptual skill tied to human-environment interactions. We introduce Task Fusion Decoder as a plug-and-play embedding translator that utilizes the underlying relationships among these perceptual skills to guide the representation learning towards encoding meaningful structure for what's important for all perceptual skills, ultimately empowering learning of downstream robotic manipulation tasks. Extensive experiments across a range of robotic tasks and embodiments, in both simulations and real-world environments, show that our Task Fusion Decoder consistently improves the representation of three state-of-the-art visual encoders including R3M, MVP, and EgoVLP, for downstream manipulation policy-learning. Project page: https://sites.google.com/view/human-oriented-robot-learning
翻訳日:2023-10-05 13:20:21 公開日:2023-10-04
# 決定ConvFormer: MetaFormerにおける局所フィルタリングは意思決定に十分である

Decision ConvFormer: Local Filtering in MetaFormer is Sufficient for Decision Making ( http://arxiv.org/abs/2310.03022v1 )

ライセンス: Link先を確認
Jeonghye Kim, Suyoung Lee, Woojun Kim, Youngchul Sung(参考訳) 最近の自然言語処理におけるtransformerの成功は、様々な領域での使用を促している。 オフライン強化学習(RL)では、決定変換器(DT)がトランスフォーマーに基づく有望なモデルとして登場している。 しかし, DTのアテンションモジュールはマルコフ決定過程としてモデル化されたRLの軌道中の固有局所依存パターンを捉えるのに適切でないことがわかった。 DTの限界を克服するため,複数のエンティティを並列に処理し,複数のエンティティ間の相互関係を理解するための汎用構造であるMetaFormerのアーキテクチャに基づく,新しいアクションシーケンス予測器であるDecision ConvFormer (DC)を提案する。 DCはトークンミキサーとして局所畳み込みフィルタリングを採用し、RLデータセットの固有の局所関連を効果的にキャプチャすることができる。 大規模な実験では、DCはリソースを少なくしながら、様々な標準RLベンチマークで最先端のパフォーマンスを達成した。 さらに,dcはデータの基盤となる意味をよりよく理解し,一般化能力を高めていることを示す。

The recent success of Transformer in natural language processing has sparked its use in various domains. In offline reinforcement learning (RL), Decision Transformer (DT) is emerging as a promising model based on Transformer. However, we discovered that the attention module of DT is not appropriate to capture the inherent local dependence pattern in trajectories of RL modeled as a Markov decision process. To overcome the limitations of DT, we propose a novel action sequence predictor, named Decision ConvFormer (DC), based on the architecture of MetaFormer, which is a general structure to process multiple entities in parallel and understand the interrelationship among the multiple entities. DC employs local convolution filtering as the token mixer and can effectively capture the inherent local associations of the RL dataset. In extensive experiments, DC achieved state-of-the-art performance across various standard RL benchmarks while requiring fewer resources. Furthermore, we show that DC better understands the underlying meaning in data and exhibits enhanced generalization capability.
翻訳日:2023-10-05 13:19:57 公開日:2023-10-04
# Consistent-1-to-3:Geometry-Aware Diffusion Modelを用いた3次元画像合成

Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models ( http://arxiv.org/abs/2310.03020v1 )

ライセンス: Link先を確認
Jianglong Ye, Peng Wang, Kejie Li, Yichun Shi, Heng Wang(参考訳) 単一画像からのゼロショットノベルビュー合成(NVS)は、3次元オブジェクト理解において重要な問題である。 事前学習された生成モデルを活用する最近のアプローチは、既存の入力から高品質な新規ビューを合成することができるが、異なるビュー間で3D一貫性を維持するのに依然として苦労している。 本稿では,この問題を著しく緩和する生成フレームワークであるConsistent-1-to-3を提案する。 具体的には、NVSタスクを2つのステージに分割する。 (i)観察された地域を新しい視点に転換し、 (ii)未熟な地域を幻覚させる。 これら2つのステージをそれぞれ実行するシーン表現変換器とビューコンディション拡散モデルを設計する。 モデル内では3次元整合性を実現するために,幾何制約を組み込むためにエピポラ誘導の注意と,多視点情報をよりよく集約するために多視点の注意を用いることを提案する。 最後に、一貫したビューの長いシーケンスを生成する階層生成パラダイムを設計し、提供されたオブジェクトイメージの完全な360度観察を可能にする。 複数のデータセットに対する定性的および定量的評価は,提案手法の有効性を示す。 私たちのプロジェクトページはhttps://jianglongye.com/consistent123/です。

Zero-shot novel view synthesis (NVS) from a single image is an essential problem in 3D object understanding. While recent approaches that leverage pre-trained generative models can synthesize high-quality novel views from in-the-wild inputs, they still struggle to maintain 3D consistency across different views. In this paper, we present Consistent-1-to-3, which is a generative framework that significantly mitigate this issue. Specifically, we decompose the NVS task into two stages: (i) transforming observed regions to a novel view, and (ii) hallucinating unseen regions. We design a scene representation transformer and view-conditioned diffusion model for performing these two stages respectively. Inside the models, to enforce 3D consistency, we propose to employ epipolor-guided attention to incorporate geometry constraints, and multi-view attention to better aggregate multi-view information. Finally, we design a hierarchy generation paradigm to generate long sequences of consistent views, allowing a full 360 observation of the provided object image. Qualitative and quantitative evaluation over multiple datasets demonstrate the effectiveness of the proposed mechanisms against state-of-the-art approaches. Our project page is at https://jianglongye.com/consistent123/
翻訳日:2023-10-05 13:19:41 公開日:2023-10-04
# 複数言語用音声発話ペアを用いたゼロ資源符号切り換え音声ベンチマーク

Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages ( http://arxiv.org/abs/2310.03018v1 )

ライセンス: Link先を確認
Kuan-Po Huang, Chih-Kai Yang, Yu-Kuan Fu, Ewan Dunbar, Hung-yi Lee(参考訳) 自己教師付き音声エンコーダのコードスイッチ機能を直接評価するゼロリソース符号切替音声ベンチマークを提案する。 本稿では,音声エンコーダのコードスイッチング能力がゼロリソース方式でどのように評価できるかを示すために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。 我々の実験は、Wav2vec 2.0、HuBERT、XLSRなど、よく知られた音声エンコーダを含む。 事前学習言語とモデルサイズがベンチマーク性能に与える影響について検討する。 特に,XLSRで実証した多言語事前学習による音声エンコーダは,コードスイッチングシナリオにおける単言語変種(Wav2vec 2.0, HuBERT)よりも優れているが,コードスイッチング言語能力の改善の余地は十分にある。

We introduce a new zero resource code-switched speech benchmark designed to directly assess the code-switching capabilities of self-supervised speech encoders. We showcase a baseline system of language modeling on discrete units to demonstrate how the code-switching abilities of speech encoders can be assessed in a zero-resource manner. Our experiments encompass a variety of well-known speech encoders, including Wav2vec 2.0, HuBERT, XLSR, etc. We examine the impact of pre-training languages and model size on benchmark performance. Notably, though our results demonstrate that speech encoders with multilingual pre-training, exemplified by XLSR, outperform monolingual variants (Wav2vec 2.0, HuBERT) in code-switching scenarios, there is still substantial room for improvement in their code-switching linguistic abilities.
翻訳日:2023-10-05 13:19:21 公開日:2023-10-04
# 統一情報抽出のためのマルチモーダル質問応答

Multimodal Question Answering for Unified Information Extraction ( http://arxiv.org/abs/2310.03017v1 )

ライセンス: Link先を確認
Yuxuan Sun, Kai Zhang, Yu Su(参考訳) マルチモーダル情報抽出(MIE)は、構造化されていないマルチメディアコンテンツから構造化情報を抽出することを目的としている。 タスクや設定の多様性のため、現在のMIEモデルはタスク固有のデータ集約型であり、様々なタスク要求とラベル付きデータによる現実シナリオへの一般化を制限している。 これらの問題に対処するため、我々は3つのMIEタスクを統一されたスパン抽出とマルチ選択QAパイプラインに再構成して統合する、新しいマルチモーダル質問応答(MQA)フレームワークを提案する。 6つのデータセットに関する広範囲な実験では 1)我々のMQAフレームワークは、バニラプロンプトと比較して、MIEタスクにおける様々な既製の大規模マルチモーダルモデル(LMM)の性能を一貫して改善します。 2)ゼロショット設定では、MQAは従来の最先端のベースラインを大きなマージンで上回ります。 さらに,我々のフレームワークの有効性は,ChatGPT や GPT-4 といったより大きな言語モデルよりも優れ,競争力のある10B パラメータで LMM を拡張できる。 我々のMQAフレームワークは、MIEや他の下流マルチモーダルタスクをよりよく解決するためにLMMを利用する一般的な原則として機能します。

Multimodal information extraction (MIE) aims to extract structured information from unstructured multimedia content. Due to the diversity of tasks and settings, most current MIE models are task-specific and data-intensive, which limits their generalization to real-world scenarios with diverse task requirements and limited labeled data. To address these issues, we propose a novel multimodal question answering (MQA) framework to unify three MIE tasks by reformulating them into a unified span extraction and multi-choice QA pipeline. Extensive experiments on six datasets show that: 1) Our MQA framework consistently and significantly improves the performances of various off-the-shelf large multimodal models (LMM) on MIE tasks, compared to vanilla prompting. 2) In the zero-shot setting, MQA outperforms previous state-of-the-art baselines by a large margin. In addition, the effectiveness of our framework can successfully transfer to the few-shot setting, enhancing LMMs on a scale of 10B parameters to be competitive or outperform much larger language models such as ChatGPT and GPT-4. Our MQA framework can serve as a general principle of utilizing LMMs to better solve MIE and potentially other downstream multimodal tasks.
翻訳日:2023-10-05 13:19:03 公開日:2023-10-04
# 離散関数の学習による変圧器とLLMの文脈内学習の理解

Understanding In-Context Learning in Transformers and LLMs by Learning to Learn Discrete Functions ( http://arxiv.org/abs/2310.03016v1 )

ライセンス: Link先を確認
Satwik Bhattamishra, Arkil Patel, Phil Blunsom, Varun Kanade(参考訳) 文脈内学習現象を理解するため,近年の研究では,多種多様な実数値関数に対して,変換器が勾配に基づく学習アルゴリズムを学習できることを実証した。 しかし、学習アルゴリズムの実装におけるトランスフォーマーの限界や、他の種類のアルゴリズムを学習する能力はよく分かっていない。 さらに、これらの能力が注意に基づくモデルに制限される程度は明らかでない。 さらに、これらのスタイル化された設定から導出された洞察が、事前訓練されたLarge Language Models (LLMs) に外挿できるかどうかも不明である。 本研究では,これらの質問に答える上で,次のようなステップを踏み出します。 (a) 様々なブール関数クラスを持つテストベッド上では、トランスフォーマーは'単純'なタスクに最適な学習アルゴリズムにほぼマッチするが、より'複雑'なタスクでは性能が低下する。 さらに、ある注意のないモデルは、様々なタスクにおいてトランスフォーマーと(ほぼ)同じ動作をすることがわかった。 b) 授業シーケンス,すなわちクラス内の関数を一意に識別する一連の例を提供することで,トランスフォーマーがより標本効率のよい学習を行うことを示す。 興味深いことに,本研究の結果は,トランスフォーマーが1つのタスクを解くために2つの異なるアルゴリズムを実装することを学習し,コンテキスト内サンプルのシーケンスに応じて,より効率的なアルゴリズムを適応的に選択できることを示唆している。 (c) 最後に, LLaMA-2, GPT-4 などの既存の LLM は, トレーニングセットに存在しないことが保証されている予測タスクにおいて, 最寄りのベースラインと競合できることを示す。

In order to understand the in-context learning phenomenon, recent works have adopted a stylized experimental framework and demonstrated that Transformers can learn gradient-based learning algorithms for various classes of real-valued functions. However, the limitations of Transformers in implementing learning algorithms, and their ability to learn other forms of algorithms are not well understood. Additionally, the degree to which these capabilities are confined to attention-based models is unclear. Furthermore, it remains to be seen whether the insights derived from these stylized settings can be extrapolated to pretrained Large Language Models (LLMs). In this work, we take a step towards answering these questions by demonstrating the following: (a) On a test-bed with a variety of Boolean function classes, we find that Transformers can nearly match the optimal learning algorithm for 'simpler' tasks, while their performance deteriorates on more 'complex' tasks. Additionally, we find that certain attention-free models perform (almost) identically to Transformers on a range of tasks. (b) When provided a teaching sequence, i.e. a set of examples that uniquely identifies a function in a class, we show that Transformers learn more sample-efficiently. Interestingly, our results show that Transformers can learn to implement two distinct algorithms to solve a single task, and can adaptively select the more sample-efficient algorithm depending on the sequence of in-context examples. (c) Lastly, we show that extant LLMs, e.g. LLaMA-2, GPT-4, can compete with nearest-neighbor baselines on prediction tasks that are guaranteed to not be in their training set.
翻訳日:2023-10-05 13:18:41 公開日:2023-10-04
# efficient-3dim: 1日で一般化した1画像ノベルビューシンセサイザーの学習

Efficient-3DiM: Learning a Generalizable Single-image Novel-view Synthesizer in One Day ( http://arxiv.org/abs/2310.03015v1 )

ライセンス: Link先を確認
Yifan Jiang, Hao Tang, Jen-Hao Rick Chang, Liangchen Song, Zhangyang Wang, Liangliang Cao(参考訳) 新規ビュー合成の課題は、限られた一連の入力画像からオブジェクトやシーンの見えない視点を生成することである。 それでも、単一の画像から新しいビューを合成することは、コンピュータビジョンの領域において重要な課題である。 従来のアプローチでは、メッシュ予測やマルチプレーン画像構築、あるいはニューラルラディアンスフィールドのようなより高度な技術を採用することでこの問題に対処している。 近年,2次元画像合成に特化して設計された事前学習拡散モデルが,3次元ファインタニングタスクに十分に最適化されても,フォトリアリスティックな斬新なビューを生成する能力を示した。 忠実度と一般化性は大幅に改善されているが、そのような強力な拡散モデルの訓練には大量のトレーニングデータとモデルパラメータが必要であるため、非常に長い時間と高い計算コストがかかる。 この問題に対処するために,シングルイメージのノベルビューシンセサイザーを学習するための,シンプルかつ効果的なフレームワークであるEfficient-3DiMを提案する。 拡散モデルの推論過程を詳細に分析した結果,実時間ステップサンプリング戦略,優れた3次元特徴抽出器,強化されたトレーニングスキームなど,トレーニングオーバーヘッドを管理可能な規模に削減するための実用的戦略が提案されている。 組み合わせることで、当社のフレームワークは、合計トレーニング時間を10日間から1日未満に短縮し、同じ計算プラットフォーム(nvidia a100 gpu 8台)でトレーニングプロセスを著しく加速することが可能になります。 提案手法の効率性と一般化性を示すための総合実験を行った。

The task of novel view synthesis aims to generate unseen perspectives of an object or scene from a limited set of input images. Nevertheless, synthesizing novel views from a single image still remains a significant challenge in the realm of computer vision. Previous approaches tackle this problem by adopting mesh prediction, multi-plain image construction, or more advanced techniques such as neural radiance fields. Recently, a pre-trained diffusion model that is specifically designed for 2D image synthesis has demonstrated its capability in producing photorealistic novel views, if sufficiently optimized on a 3D finetuning task. Although the fidelity and generalizability are greatly improved, training such a powerful diffusion model requires a vast volume of training data and model parameters, resulting in a notoriously long time and high computational costs. To tackle this issue, we propose Efficient-3DiM, a simple but effective framework to learn a single-image novel-view synthesizer. Motivated by our in-depth analysis of the inference process of diffusion models, we propose several pragmatic strategies to reduce the training overhead to a manageable scale, including a crafted timestep sampling strategy, a superior 3D feature extractor, and an enhanced training scheme. When combined, our framework is able to reduce the total training time from 10 days to less than 1 day, significantly accelerating the training process under the same computational platform (one instance with 8 Nvidia A100 GPUs). Comprehensive experiments are conducted to demonstrate the efficiency and generalizability of our proposed method.
翻訳日:2023-10-05 13:18:10 公開日:2023-10-04
# quantum alphatron: カーネルとノイズを用いた学習における量子アドバンテージ

Quantum Alphatron: quantum advantage for learning with kernels and noise ( http://arxiv.org/abs/2108.11670v5 )

ライセンス: Link先を確認
Siyi Yang, Naixu Guo, Miklos Santha, Patrick Rebentrost(参考訳) 機械学習と量子コンピューティングのインターフェースにおいて、重要な疑問は、最適なサンプル複雑度と量子加速時間複雑度で、どの分布を確実に学習できるかである。 古典的なケースでは、klivans氏とgoel氏は、カーネル化された回帰に関連する分布を学習するアルゴリズムである \textit{alphatron}について論じた。 この研究では、フォールトトレラントな設定でalphatronの量子バージョンを提供する。 よく定義された学習モデルでは、この量子アルゴリズムは基礎となる概念クラスの幅広いパラメータの多項式のスピードアップを提供することができる。 本稿では,カーネルマトリックスの評価と,確率勾配降下法における勾配評価の2種類の速度アップについて検討する。 また,2層ニューラルネットワークの学習における量子アドバンテージについても論じる。 我々の研究は、カーネルとサンプルによる量子学習の研究に貢献している。

At the interface of machine learning and quantum computing, an important question is what distributions can be learned provably with optimal sample complexities and with quantum-accelerated time complexities. In the classical case, Klivans and Goel discussed the \textit{Alphatron}, an algorithm to learn distributions related to kernelized regression, which they also applied to the learning of two-layer neural networks. In this work, we provide quantum versions of the Alphatron in the fault-tolerant setting. In a well-defined learning model, this quantum algorithm is able to provide a polynomial speedup for a large range of parameters of the underlying concept class. We discuss two types of speedups, one for evaluating the kernel matrix and one for evaluating the gradient in the stochastic gradient descent procedure. We also discuss the quantum advantage in the context of learning of two-layer neural networks. Our work contributes to the study of quantum learning with kernels and from samples.
翻訳日:2023-10-05 11:19:25 公開日:2023-10-04
# ガイドイマジネーションによる小規模データセットの拡張

Expanding Small-Scale Datasets with Guided Imagination ( http://arxiv.org/abs/2211.13976v5 )

ライセンス: Link先を確認
Yifan Zhang, Daquan Zhou, Bryan Hooi, Kai Wang, Jiashi Feng(参考訳) DNNのパワーは、トレーニングデータの量と品質に大きく依存している。 しかし、大規模なデータの収集と注釈は、しばしば高価で時間がかかります。 この問題に対処するために、新しいラベル付きサンプルを自動生成することで、利用可能な小さなデータセットを拡張することを目的とした、データセット拡張と呼ばれる新しいタスクを探索する。 この目的のために、DALL-E2やStable Diffusion(SD)といった最先端の生成モデルを活用して、入力されたシードデータから「想像」し、情報的な新しいデータを生成するガイドImagination Framework(GIF)を提案する。 具体的には、シードデータの潜在的な特徴を事前モデルの意味的に意味のある空間に最適化することで、新たなコンテンツによるフォトリアリスティックな画像を作成することで、データの想像力を高める。 モデルトレーニングのための情報的サンプル作成に向けたイマジネーションを導くため、クラス維持情報強化とサンプル多様性促進という2つの重要な基準を導入する。 gif-sdは、sdによる誘導されていない拡張よりも、自然画像データセットのモデル精度が13.5%高い。 これらの必須基準により、GIFは様々なシナリオで小さなデータセットを拡張し、モデル精度を6つの天然画像データセットで平均36.9%、医療データセットで平均13.5%向上させることに成功した。 ソースコードはhttps://github.com/Vanint/DatasetExpansionで入手できる。

The power of DNNs relies heavily on the quantity and quality of training data. However, collecting and annotating data on a large scale is often expensive and time-consuming. To address this issue, we explore a new task, termed dataset expansion, aimed at expanding a ready-to-use small dataset by automatically creating new labeled samples. To this end, we present a Guided Imagination Framework (GIF) that leverages cutting-edge generative models like DALL-E2 and Stable Diffusion (SD) to "imagine" and create informative new data from the input seed data. Specifically, GIF conducts data imagination by optimizing the latent features of the seed data in the semantically meaningful space of the prior model, resulting in the creation of photo-realistic images with new content. To guide the imagination towards creating informative samples for model training, we introduce two key criteria, i.e., class-maintained information boosting and sample diversity promotion. These criteria are verified to be essential for effective dataset expansion: GIF-SD obtains 13.5% higher model accuracy on natural image datasets than unguided expansion with SD. With these essential criteria, GIF successfully expands small datasets in various scenarios, boosting model accuracy by 36.9% on average over six natural image datasets and by 13.5% on average over three medical datasets. The source code is available at https://github.com/Vanint/DatasetExpansion.
翻訳日:2023-10-05 10:59:33 公開日:2023-10-04
# ガイドイマジネーションによる小規模データセットの拡張

Expanding Small-Scale Datasets with Guided Imagination ( http://arxiv.org/abs/2211.13976v4 )

ライセンス: Link先を確認
Yifan Zhang, Daquan Zhou, Bryan Hooi, Kai Wang, Jiashi Feng(参考訳) DNNのパワーは、トレーニングデータの量と品質に大きく依存している。 しかし、大規模なデータの収集と注釈は、しばしば高価で時間がかかります。 この問題に対処するために、新しいラベル付きサンプルを自動生成することで、利用可能な小さなデータセットを拡張することを目的とした、データセット拡張と呼ばれる新しいタスクを探索する。 この目的のために、DALL-E2やStable Diffusion(SD)といった最先端の生成モデルを活用して、入力されたシードデータから「想像」し、情報的な新しいデータを生成するガイドImagination Framework(GIF)を提案する。 具体的には、シードデータの潜在的な特徴を事前モデルの意味的に意味のある空間に最適化することで、新たなコンテンツによるフォトリアリスティックな画像を作成することで、データの想像力を高める。 モデルトレーニングのための情報的サンプル作成に向けたイマジネーションを導くため、クラス維持情報強化とサンプル多様性促進という2つの重要な基準を導入する。 gif-sdは、sdによる誘導されていない拡張よりも、自然画像データセットのモデル精度が13.5%高い。 これらの必須基準により、GIFは様々なシナリオで小さなデータセットを拡張し、モデル精度を6つの天然画像データセットで平均36.9%、医療データセットで平均13.5%向上させることに成功した。 ソースコードはhttps://github.com/Vanint/DatasetExpansionで入手できる。

The power of DNNs relies heavily on the quantity and quality of training data. However, collecting and annotating data on a large scale is often expensive and time-consuming. To address this issue, we explore a new task, termed dataset expansion, aimed at expanding a ready-to-use small dataset by automatically creating new labeled samples. To this end, we present a Guided Imagination Framework (GIF) that leverages cutting-edge generative models like DALL-E2 and Stable Diffusion (SD) to "imagine" and create informative new data from the input seed data. Specifically, GIF conducts data imagination by optimizing the latent features of the seed data in the semantically meaningful space of the prior model, resulting in the creation of photo-realistic images with new content. To guide the imagination towards creating informative samples for model training, we introduce two key criteria, i.e., class-maintained information boosting and sample diversity promotion. These criteria are verified to be essential for effective dataset expansion: GIF-SD obtains 13.5% higher model accuracy on natural image datasets than unguided expansion with SD. With these essential criteria, GIF successfully expands small datasets in various scenarios, boosting model accuracy by 36.9% on average over six natural image datasets and by 13.5% on average over three medical datasets. The source code is available at https://github.com/Vanint/DatasetExpansion.
翻訳日:2023-10-05 10:59:09 公開日:2023-10-04
# 自己教師付き表現学習のための構造的対立対象

Structural Adversarial Objectives for Self-Supervised Representation Learning ( http://arxiv.org/abs/2310.00357v2 )

ライセンス: Link先を確認
Xiao Zhang, Michael Maire(参考訳) 我々は,gans(generative adversarial networks)の枠組みの中で,自己教師あり表現学習のための識別子を付加的な構造的モデリング責任を通じてタスクする目的を提案する。 ネットワーク上の効率的なスムーズな正規化器と組み合わせて、これらの目的は、ドメインからサンプリング可能なジェネレータを維持しながら、識別器に情報表現を抽出することを学ぶ。 具体的には, 識別者に対して, 平均分布や分散分布などの分布特性を粗いスケールで調整し, 細かなスケールで局所クラスタに分類する, という2段階の粒度で特徴を構造化することを奨励する。 GANフレームワーク内の機能学習者としての運用は、コントラストのある表現学習方法にまたがる手作りのデータ拡張スキームへの依存から、自己管理システムを解放する。 CIFAR-10/100 と ImageNet のサブセットを通じて、GAN を自己指導対象に合わせることで、表現学習の観点から評価された差別化要因が、対照的な学習アプローチによって訓練されたネットワークと競合することを示す。

Within the framework of generative adversarial networks (GANs), we propose objectives that task the discriminator for self-supervised representation learning via additional structural modeling responsibilities. In combination with an efficient smoothness regularizer imposed on the network, these objectives guide the discriminator to learn to extract informative representations, while maintaining a generator capable of sampling from the domain. Specifically, our objectives encourage the discriminator to structure features at two levels of granularity: aligning distribution characteristics, such as mean and variance, at coarse scales, and grouping features into local clusters at finer scales. Operating as a feature learner within the GAN framework frees our self-supervised system from the reliance on hand-crafted data augmentation schemes that are prevalent across contrastive representation learning methods. Across CIFAR-10/100 and an ImageNet subset, experiments demonstrate that equipping GANs with our self-supervised objectives suffices to produce discriminators which, evaluated in terms of representation learning, compete with networks trained by contrastive learning approaches.
翻訳日:2023-10-05 10:41:11 公開日:2023-10-04
# SpaceRank:時空間データに基づくNDCG最適化による都市イベントランキング

SpatialRank: Urban Event Ranking with NDCG Optimization on Spatiotemporal Data ( http://arxiv.org/abs/2310.00270v2 )

ライセンス: Link先を確認
Bang An, Xun Zhou, Yongjian Zhong, Tianbao Yang(参考訳) 都市イベントランキングの問題は、交通事故や犯罪などの将来のイベントの最もリスクの高い場所を予測することを目的としている。 この問題は公共の安全と都市行政にとって、特に資源が限られている場合には、重要な問題である。 しかし、この問題は、場所間の複雑でダイナミックな時空間相関、空間における都市イベントの不均一な分布、および類似した特徴で近くの場所を正しくランク付けすることが難しいため、困難である。 イベント予測に関する先行研究は主に、すべての場所における実際のリスクスコアやイベントのカウントを正確に予測することを目的としている。 このようなランク付けは通常、予測誤差により品質が低い。 正規化カウント累積ゲイン (NDCG) などの手法を直接最適化する学習 to ランク法は, 場所間の時空間自己相関を扱えない。 本稿では,空間ランクと呼ばれる新しい空間イベントランキング手法を提案することで,そのギャップを橋渡しする。 spatialrankは適応型グラフ畳み込み層を特徴とし、データから場所間の時空間依存性を動的に学習する。 さらに, このモデルでは, NDCGのハイブリッド損失を空間成分で補うことで, 近傍の空間位置のランク付けを最適化する。 トレーニング中の損失を効果的に評価するために,空間フィルタリングアルゴリズムを用いた重要サンプリングを設計する。 3つの実世界のデータセットに関する総合的な実験により、SpatialRankは犯罪や交通事故の最も危険な場所を効果的に特定でき、NDCGの観点では最先端の手法を最大12.7%上回っている。

The problem of urban event ranking aims at predicting the top-k most risky locations of future events such as traffic accidents and crimes. This problem is of fundamental importance to public safety and urban administration especially when limited resources are available. The problem is, however, challenging due to complex and dynamic spatio-temporal correlations between locations, uneven distribution of urban events in space, and the difficulty to correctly rank nearby locations with similar features. Prior works on event forecasting mostly aim at accurately predicting the actual risk score or counts of events for all the locations. Rankings obtained as such usually have low quality due to prediction errors. Learning-to-rank methods directly optimize measures such as Normalized Discounted Cumulative Gain (NDCG), but cannot handle the spatiotemporal autocorrelation existing among locations. In this paper, we bridge the gap by proposing a novel spatial event ranking approach named SpatialRank. SpatialRank features adaptive graph convolution layers that dynamically learn the spatiotemporal dependencies across locations from data. In addition, the model optimizes through surrogates a hybrid NDCG loss with a spatial component to better rank neighboring spatial locations. We design an importance-sampling with a spatial filtering algorithm to effectively evaluate the loss during training. Comprehensive experiments on three real-world datasets demonstrate that SpatialRank can effectively identify the top riskiest locations of crimes and traffic accidents and outperform state-of-art methods in terms of NDCG by up to 12.7%.
翻訳日:2023-10-05 10:40:49 公開日:2023-10-04
# DeformUX-Net:Depthwise deformable Convolutionによる医用画像分割のための3Dファウンデーションバックボーンの探索

DeformUX-Net: Exploring a 3D Foundation Backbone for Medical Image Segmentation with Depthwise Deformable Convolution ( http://arxiv.org/abs/2310.00199v2 )

ライセンス: Link先を確認
Ho Hin Lee, Quan Liu, Qi Yang, Xin Yu, Shunxing Bao, Yuankai Huo, Bennett A. Landman(参考訳) 医用画像のセグメンテーションへの3D ViTsの応用は、Convolutional Neural Network(CNN)ベースのモデルで誕生する進歩の影をかいくぐっている。 大きなカーネル奥行きの畳み込みは有望な技術として現れ、階層的なトランスフォーマーに似た能力を示し、密度の予測に不可欠な拡張有効受容場(ERF)を促進する。 それにもかかわらず、グローバルローカルな注意から大きなカーネル畳み込みまで、既存のコアオペレータは固有のトレードオフと制限を示します(例えば、グローバルローカルな範囲のトレードオフ、注意深い特徴の集約)。 変形可能な畳み込みは、従来の演算子の利点をすべて組み合わせるための探索的な代替であり、長距離依存、適応的な空間集約、計算効率を基礎バックボーンとして提供すると仮定する。 本研究では,従来のvitsや大規模カーネル畳み込みに伴う欠点を巧みにナビゲートする,先駆的なボリューム型cnnモデルである3d deformux-netを紹介する。 具体的には, 長距離依存性を計算効率に適合させるために, 体積変形可能な畳み込みを奥行き方向に再検討する。 畳み込み核重みに対する構造的再パラメータ化の概念に触発されて、並列分岐(1\times1\times1$畳み込みから開始)を適用して変形可能な三平面オフセットを生成し、全てのチャネルに適応的な空間集約を提供する。 3d deformux-netは,臓器(kits: 0.680 - 0.720, msd pancreas: 0.676 - 0.717, amos: 0.871 - 0.902)から平均ダイス(msd 肝血管: 0.635 - 0.671)までのさまざまなスケールにまたがる,既存の最先端のvitsおよび大規模カーネル畳み込みモデルに一貫して勝っていることが明らかになった。

The application of 3D ViTs to medical image segmentation has seen remarkable strides, somewhat overshadowing the budding advancements in Convolutional Neural Network (CNN)-based models. Large kernel depthwise convolution has emerged as a promising technique, showcasing capabilities akin to hierarchical transformers and facilitating an expansive effective receptive field (ERF) vital for dense predictions. Despite this, existing core operators, ranging from global-local attention to large kernel convolution, exhibit inherent trade-offs and limitations (e.g., global-local range trade-off, aggregating attentional features). We hypothesize that deformable convolution can be an exploratory alternative to combine all advantages from the previous operators, providing long-range dependency, adaptive spatial aggregation and computational efficiency as a foundation backbone. In this work, we introduce 3D DeformUX-Net, a pioneering volumetric CNN model that adeptly navigates the shortcomings traditionally associated with ViTs and large kernel convolution. Specifically, we revisit volumetric deformable convolution in depth-wise setting to adapt long-range dependency with computational efficiency. Inspired by the concepts of structural re-parameterization for convolution kernel weights, we further generate the deformable tri-planar offsets by adapting a parallel branch (starting from $1\times1\times1$ convolution), providing adaptive spatial aggregation across all channels. Our empirical evaluations reveal that the 3D DeformUX-Net consistently outperforms existing state-of-the-art ViTs and large kernel convolution models across four challenging public datasets, spanning various scales from organs (KiTS: 0.680 to 0.720, MSD Pancreas: 0.676 to 0.717, AMOS: 0.871 to 0.902) to vessels (e.g., MSD hepatic vessels: 0.635 to 0.671) in mean Dice.
翻訳日:2023-10-05 10:40:21 公開日:2023-10-04
# LLMatic: 大規模言語モデルによるニューラルネットワーク探索と品質多様性の最適化

LLMatic: Neural Architecture Search via Large Language Models and Quality Diversity Optimization ( http://arxiv.org/abs/2306.01102v6 )

ライセンス: Link先を確認
Muhammad U. Nasir, Sam Earle, Julian Togelius, Steven James and Christopher Cleghorn(参考訳) 大きな言語モデル(LLM)は、幅広いタスクをこなせる強力なツールとして登場した。 それらの能力はさまざまな領域にまたがっており、コード生成の領域において大きな影響を与えている分野のひとつです。 この文脈では、LSMを突然変異とクロスオーバーツールとみなす。 一方、QD(Quality-Diversity)アルゴリズムは、多様で堅牢なソリューションを発見することが知られている。 本稿では,LLMのコード生成能力とQDソリューションの多様性と堅牢性を組み合わせることで,ニューラルネットワーク探索(NAS)アルゴリズムであるLLMaticを導入する。 LLMaticはプロンプトを介してNASを直接実行するのに苦労するが、プロンプトやネットワークアーキテクチャにQDを活用し、多種多様な高性能ネットワークを作成する。 私たちは、cifar-10イメージ分類ベンチマークでllmaticをテストし、ベンチマークドメインの事前知識や以前のトップパフォーマンスモデルへの露出がなくても、わずか2,000ドルの検索で競合ネットワークを作成できることを示した。

Large Language Models (LLMs) have emerged as powerful tools capable of accomplishing a broad spectrum of tasks. Their abilities span numerous areas, and one area where they have made a significant impact is in the domain of code generation. In this context, we view LLMs as mutation and crossover tools. Meanwhile, Quality-Diversity (QD) algorithms are known to discover diverse and robust solutions. By merging the code-generating abilities of LLMs with the diversity and robustness of QD solutions, we introduce LLMatic, a Neural Architecture Search (NAS) algorithm. While LLMs struggle to conduct NAS directly through prompts, LLMatic uses a procedural approach, leveraging QD for prompts and network architecture to create diverse and highly performant networks. We test LLMatic on the CIFAR-10 image classification benchmark, demonstrating that it can produce competitive networks with just $2,000$ searches, even without prior knowledge of the benchmark domain or exposure to any previous top-performing models for the benchmark.
翻訳日:2023-10-05 10:39:35 公開日:2023-10-04
# スケッチによる部分微分方程式に対するモンテカルロ法とテンソルネットワーク法の組み合わせ

Combining Monte Carlo and Tensor-network Methods for Partial Differential Equations via Sketching ( http://arxiv.org/abs/2305.17884v5 )

ライセンス: Link先を確認
Yian Chen, Yuehaw Khoo(参考訳) 本稿では,テンソルネットワークを用いて高次元偏微分方程式を解くための一般的な枠組みを提案する。 本手法はモンテカルロシミュレーションを用いて解の更新を行い,最近提案するテンソルトレインスケッチ手法を用いて,サンプルから新しい解をテンソルネットワークとして再評価する。 ランジュバン力学によるフォッカー・プランク方程式のシミュレートと補助場量子モンテカルロによる量子想像時間進化の2つのシナリオに適用することで、このアプローチの汎用性と柔軟性を示す。 また,提案手法の有効性を示すために,収束保証と数値実験も提供する。

In this paper, we propose a general framework for solving high-dimensional partial differential equations with tensor networks. Our approach uses a Monte-Carlo simulations to update the solution and re-estimates the new solution from samples as a tensor-network using a recently proposed tensor train sketching technique. We showcase the versatility and flexibility of our approach by applying it to two specific scenarios: simulating the Fokker-Planck equation through Langevin dynamics and quantum imaginary time evolution via auxiliary-field quantum Monte Carlo. We also provide convergence guarantees and numerical experiments to demonstrate the efficacy of the proposed method.
翻訳日:2023-10-05 10:39:17 公開日:2023-10-04
# 対称性違反探索のための工学的場非感受性分子時計遷移

Engineering field-insensitive molecular clock transitions for symmetry violation searches ( http://arxiv.org/abs/2304.13817v3 )

ライセンス: Link先を確認
Yuiki Takahashi, Chi Zhang, Arian Jadbabaie, Nicholas R. Hutzler(参考訳) 分子は、大きな増幅因子と体系的エラーに対する堅牢性の両方を提供するため、標準モデルを超えて基本的な対称性の違反を調べる強力なプラットフォームである。 実験感度が向上するにつれて、外部電磁場に対する感度を抑制する新しい手法を開発することが重要である。 そこで本研究では,cp破壊効果の増幅性を維持する無線周波数,マイクロ波,または2光子遷移を用いて,外部磁場と電界の両方に対する感度を同時に抑制できることを示す。 これらの遷移のクロック測定を行うことにより、電子電気双極子モーメント、核シフモーメント、磁気四重極モーメントを含むCP違反可観測物は、外部磁場感度を$\gtrsim$100で抑制し、さらに多くの場合において測定することができる。 さらに、この手法は従来のラムゼー測定と互換性があり、内部のコマグネトメトリーを提供し、核CP-違反の分子探索によく見られる大きな角運動量を持つシステムに有用である。

Molecules are a powerful platform to probe fundamental symmetry violations beyond the Standard Model, as they offer both large amplification factors and robustness against systematic errors. As experimental sensitivities improve, it is important to develop new methods to suppress sensitivity to external electromagnetic fields, as limits on the ability to control these fields are a major experimental concern. Here we show that sensitivity to both external magnetic and electric fields can be simultaneously suppressed using engineered radio frequency, microwave, or two-photon transitions that maintain large amplification of CP-violating effects. By performing a clock measurement on these transitions, CP-violating observables including the electron electric dipole moment, nuclear Schiff moment, and magnetic quadrupole moment can be measured with suppression of external field sensitivity of $\gtrsim$100 generically, and even more in many cases. Furthermore, the method is compatible with traditional Ramsey measurements, offers internal co-magnetometry, and is useful for systems with large angular momentum commonly present in molecular searches for nuclear CP-violation.
翻訳日:2023-10-05 10:39:05 公開日:2023-10-04
# エンタングルメントエントロピー計算のための再仮定に基づく量子モンテカルロ

Resummation-based Quantum Monte Carlo for Entanglement Entropy Computation ( http://arxiv.org/abs/2310.01490v2 )

ライセンス: Link先を確認
Menghan Song, Ting-Tung Wang, Zi Yang Meng(参考訳) 最近開発されたSU($N$)スピンとループガスモデルに対する量子モンテカルロ法に基づいて, エンタングルメントエントロピー(EE)を計算し, 効率を大幅に向上させるアルゴリズムResumEEを開発した。 我々のResumEEは、$\langle e^{-S^{(2)}}\rangle$, where $S^{(2)}$は2次 R\'enyi EE の指数的に小さい値の評価を、一般的な 2D 量子 SU($N$) スピンモデルに対する$S^{(2)}$ のような多項式精度を持つ重要なサンプリングプロセスに変換する。 提案したS^{(2)}$ 1Dおよび2D SU($2$)ハイゼンベルクスピンシステムの推定器を用いてアルゴリズムをベンチマークし、その優れた性能を明らかにするとともに、2D SU($N$)ハイゼンベルクモデル上でのN'eel-to-VBS遷移のエンタングルメントスケーリングデータを検出する。 我々のResumEEアルゴリズムは、多体系の量子エンタングルメントを正確に評価する重要な問題を解き、高いエンタングルド量子物質に対する共形場理論データへの信頼性の高いアクセスに重要な影響を与える。

Based on the recently developed resummation-based quantum Monte Carlo method for the SU($N$) spin and loop-gas models, we develop a new algorithm, dubbed ResumEE, to compute the entanglement entropy (EE) with greatly enhanced efficiency. Our ResumEE converts the evaluation of the exponentially small value of the $\langle e^{-S^{(2)}}\rangle$, where $S^{(2)}$ is the 2nd order R\'enyi EE, to an important sampling process with polynomial accuracy such that the $S^{(2)}$ for a generic 2D quantum SU($N$) spin models can be readily computed without facing the exponential explosion of its variance. We benchmark our algorithm with the previously proposed estimators of $S^{(2)}$ on 1D and 2D SU($2$) Heisenberg spin systems to reveal its superior performance and then use it to detect the entanglement scaling data of the N\'eel-to-VBS transition on 2D SU($N$) Heisenberg model with continuously varying $N$. Our ResumEE algorithm solves the critical problem of precisely evaluating the quantum entanglement in many-body systems and will have a significant impact on reliable access to the conformal field theory data for the highly entangled quantum matter.
翻訳日:2023-10-05 10:31:15 公開日:2023-10-04
# LLMの嘘:幻覚はバグではなく、逆の例としての特徴

LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples ( http://arxiv.org/abs/2310.01469v2 )

ライセンス: Link先を確認
Jia-Yu Yao, Kun-Peng Ning, Zhen-Hui Liu, Mu-Nan Ning, Li Yuan(参考訳) GPT-3.5、LLaMA、PaLMを含む大規模言語モデル(LLM)は知識があり、多くのタスクに適応できるようである。 しかし、LLMは幻覚に苦しむため、ユーザを疑うために既存の事実を偽造するので、まだその答えを完全には信用できない。 そして、その存在と普及の理由は不明である。 本稿では,ランダムトークンからなる非センスプロンプトが,幻覚で応答するllmを誘発できることを実証する。 この現象は、幻覚は敵の例の別の見方であり、従来の敵の例と類似した特徴をLLMの基本的特徴として共有する。 そこで我々は,幻覚攻撃として自動幻覚誘発法を対角的に定式化する。 最後に、攻撃された敵のプロンプトの基本的特徴について検討し、シンプルで効果的な防衛戦略を提案する。 私たちのコードはGitHubでリリースされています。

Large Language Models (LLMs), including GPT-3.5, LLaMA, and PaLM, seem to be knowledgeable and able to adapt to many tasks. However, we still can not completely trust their answer, since LLMs suffer from hallucination--fabricating non-existent facts to cheat users without perception. And the reasons for their existence and pervasiveness remain unclear. In this paper, we demonstrate that non-sense prompts composed of random tokens can also elicit the LLMs to respond with hallucinations. This phenomenon forces us to revisit that hallucination may be another view of adversarial examples, and it shares similar features with conventional adversarial examples as the basic feature of LLMs. Therefore, we formalize an automatic hallucination triggering method as the hallucination attack in an adversarial way. Finally, we explore basic feature of attacked adversarial prompts and propose a simple yet effective defense strategy. Our code is released on GitHub.
翻訳日:2023-10-05 10:30:42 公開日:2023-10-04
# entity-deduction arena: llmの会話的推論と計画能力の探求のための遊び場

The Entity-Deduction Arena: A playground for probing the conversational reasoning and planning capabilities of LLMs ( http://arxiv.org/abs/2310.01468v2 )

ライセンス: Link先を確認
Yizhe Zhang, Jiarui Lu, Navdeep Jaitly(参考訳) 大規模言語モデル(llm)は、明確に質問された質問に答えるのに有効である。 しかし、あいまいなクエリに直面すると予測不能に動作し、誤った出力を生成することができる。 このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。 この能力は複雑な理解、状態追跡、推論、複数の会話のターンでの計画を必要とする。 しかし、直接これを測定することは困難である。 本稿では, LLMが未知のエンティティを自身に推論する能力の評価を行うが, 裁判官に一連のクエリーを問うことによって, 判断者に明らかにする代理問題を提案する。 このエンティティ推論ゲームは、言語モデルの会話推論と計画能力を調べるための評価フレームワークとして機能する。 我々は,様々なLLMを体系的に評価し,その性能に有意な差が認められた。 GPT-4のような強力なLLMは、人間のプレイヤーよりも大きなマージンで優れています。 さらに,より弱いモデルがより強固なモデルを模倣し,より強固なモデルからのデモンストレーションのみを用いて,データやドメインに一般化できるかどうかを調べるために,行動クローニング(behavior clone, bc)も採用する。 我々は最終的に、強化学習を用いて、ゲームプレイのエピソードを通じてヴィクナモデルの推論と計画能力を向上させることを提案し、性能改善につながった。 この問題は、あいまいな状況において、自律的なエージェントがよりインテリジェントに振る舞うように訓練される方法に関する洞察を提供してくれることを期待しています。

Large language models (LLMs) are effective at answering questions that are clearly asked. However, when faced with ambiguous queries they can act unpredictably and produce incorrect outputs. This underscores the need for the development of intelligent agents capable of asking clarification questions to resolve ambiguities effectively. This capability requires complex understanding, state tracking, reasoning and planning over multiple conversational turns. However, directly measuring this can be challenging. In this paper, we offer a surrogate problem which assesses an LLMs's capability to deduce an entity unknown to itself, but revealed to a judge, by asking the judge a series of queries. This entity-deducing game can serve as an evaluation framework to probe the conversational reasoning and planning capabilities of language models. We systematically evaluate various LLMs and discover significant differences in their performance on this task. We find that strong LLMs like GPT-4 outperform human players by a large margin. We further employ Behavior Cloning (BC) to examine whether a weaker model is capable of imitating a stronger model and generalizing to data or domains, using only the demonstrations from a stronger model. We finally propose to use Reinforcement Learning to enhance reasoning and planning capacity of Vicuna models through episodes of game playing, which lead to significant performance improvement. We hope that this problem offers insights into how autonomous agents could be trained to behave more intelligently in ambiguous circumstances.
翻訳日:2023-10-05 10:30:26 公開日:2023-10-04
# PharmacoNet:Deep Pharmacophore Modelingによる大規模仮想スクリーニングの高速化

PharmacoNet: Accelerating Large-Scale Virtual Screening by Deep Pharmacophore Modeling ( http://arxiv.org/abs/2310.00681v2 )

ライセンス: Link先を確認
Seonghwan Seo and Woo Youn Kim(参考訳) アクセス可能な複合ライブラリのサイズが100億を超えるにつれて、より効率的な構造ベースの仮想スクリーニング方法の必要性が高まっている。 ライブラリを高速にスクリーニングするために異なる事前スクリーニング方法が開発されているが、一般的なタンパク質に適用可能な構造ベースの手法はまだ不足しており、タンパク質とリガンドの結合のポーズを予測し、極めて短時間でスコアを付けることが課題である。 本稿では,リガンドが結合部位から安定に結合するための最適な3次元薬理泳動配置を同定する深層学習フレームワークであるpharmanetを紹介する。 リガンド間の粗いグラフマッチングと生成された薬薬局配置により、既存の手法の高価な結合ポーズサンプリングとスコアリング手順を1ステップで解決する。 PharmacoNetは最先端の構造に基づくアプローチよりもはるかに高速だが、単純なスコアリング機能では合理的に正確である。 さらに, PharmacoNetは, スクリーニング前ろ過率が高い場合でも, ヒット候補を効果的に保持することを示す。 本研究は総合的に,深層学習に基づく薬物発見における薬局モデリングアプローチの可能性を明らかにする。

As the size of accessible compound libraries expands to over 10 billion, the need for more efficient structure-based virtual screening methods is emerging. Different pre-screening methods have been developed to rapidly screen the library, but the structure-based methods applicable to general proteins are still lacking: the challenge is to predict the binding pose between proteins and ligands and perform scoring in an extremely short time. We introduce PharmacoNet, a deep learning framework that identifies the optimal 3D pharmacophore arrangement which a ligand should have for stable binding from the binding site. By coarse-grained graph matching between ligands and the generated pharmacophore arrangement, we solve the expensive binding pose sampling and scoring procedures of existing methods in a single step. PharmacoNet is significantly faster than state-of-the-art structure-based approaches, yet reasonably accurate with a simple scoring function. Furthermore, we show the promising result that PharmacoNet effectively retains hit candidates even under the high pre-screening filtration rates. Overall, our study uncovers the hitherto untapped potential of a pharmacophore modeling approach in deep learning-based drug discovery.
翻訳日:2023-10-05 10:29:50 公開日:2023-10-04
# 強化データフロー解析のための学習型推論

Learning Type Inference for Enhanced Dataflow Analysis ( http://arxiv.org/abs/2310.00673v2 )

ライセンス: Link先を確認
Lukas Seidel, Sedick David Baker Effendi, Xavier Pinho, Konrad Rieck, Brink van der Merwe, Fabian Yamaguchi(参考訳) 動的型付けされたコードの静的解析は、コンパイル時にオブジェクトの型を知ることなく、プロシージャ呼び出しのターゲットを決定するといった、一見自明なタスクでさえ、難しい作業である。 この課題に対処するため、動的型付け言語に段階的な型付けが追加されている。 グラデーショナル型付けは、プログラムの動作を検証する開発者の能力を改善し、堅牢でセキュアでデバッグ可能なプログラムに寄与する。 しかし実際には、ユーザは直接型にアノテートするだけです。 同時に、従来の型推論は、プログラムのサイズが大きくなるにつれてパフォーマンス関連の課題に直面する。 機械学習に基づく統計的手法は推論を高速化するが、最近の手法では全体的な精度が向上しているが、最も一般的な組込み型よりもユーザ定義型の方が大幅に低下している。 現実世界の利便性をさらに制限するため、ユーザ向けアプリケーションと統合されることはめったにない。 型アノテーションを確実に予測するようにトレーニングされたトランスフォーマティブベースのモデルであるcodetidal5を提案する。 有効な結果検索と再統合のために,プログラムのコードプロパティグラフから使用率スライスを抽出する。 最近のニューラルタイプ推論システムに対するアプローチを比較すると、このモデルは manytypes4typescriptベンチマークで現在の最先端の7.85%を上回り、全体の71.27%の精度を達成している。 さらに、オープンソースの静的解析ツールであるJoernへの我々のアプローチの統合であるJoernTIを紹介し、分析が追加の型情報から恩恵を受けることを実証する。 当社のモデルでは,コモディティCPUでも高速な推論が可能であるため,Joernによるシステム利用はアクセシビリティの向上とセキュリティ研究の促進につながる。

Statically analyzing dynamically-typed code is a challenging endeavor, as even seemingly trivial tasks such as determining the targets of procedure calls are non-trivial without knowing the types of objects at compile time. Addressing this challenge, gradual typing is increasingly added to dynamically-typed languages, a prominent example being TypeScript that introduces static typing to JavaScript. Gradual typing improves the developer's ability to verify program behavior, contributing to robust, secure and debuggable programs. In practice, however, users only sparsely annotate types directly. At the same time, conventional type inference faces performance-related challenges as program size grows. Statistical techniques based on machine learning offer faster inference, but although recent approaches demonstrate overall improved accuracy, they still perform significantly worse on user-defined types than on the most common built-in types. Limiting their real-world usefulness even more, they rarely integrate with user-facing applications. We propose CodeTIDAL5, a Transformer-based model trained to reliably predict type annotations. For effective result retrieval and re-integration, we extract usage slices from a program's code property graph. Comparing our approach against recent neural type inference systems, our model outperforms the current state-of-the-art by 7.85% on the ManyTypes4TypeScript benchmark, achieving 71.27% accuracy overall. Furthermore, we present JoernTI, an integration of our approach into Joern, an open source static analysis tool, and demonstrate that the analysis benefits from the additional type information. As our model allows for fast inference times even on commodity CPUs, making our system available through Joern leads to high accessibility and facilitates security research.
翻訳日:2023-10-05 10:29:30 公開日:2023-10-04
# パラメータ効率の良い微調整でトロイの木馬を攻撃

Fewer is More: Trojan Attacks on Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2310.00648v2 )

ライセンス: Link先を確認
Lauren Hong, Ting Wang(参考訳) パラメータ効率のよい微調整(PEFT)により、事前訓練された言語モデル(PLM)を特定のタスクに効率的に適応させることができる。 PEFTは最小限のパラメータのみをチューニングすることで、完全な微調整に匹敵するパフォーマンスを達成する。 しかし、広く使われているにもかかわらず、PEFTのセキュリティ上の意味はほとんど解明されていない。 本稿では,PEFTがトロイの木馬攻撃に特有の脆弱性を示すことを示すパイロット実験を行った。 具体的には,両レベル最適化による下流適応を考慮した新たな攻撃である PETA について述べる。上層目標がバックドアを PLM に埋め込む一方で,下層目標が PEFT をシミュレートして PLM のタスク固有性能を維持する。 様々なダウンストリームタスクやトリガ設計において,攻撃成功率と影響を受けないクリーンさの両方の観点から,PETAの有効性を実証する。 両レベル最適化は本質的にはバックドアとPEFTモジュールを「直交」し、PEFT全体を通してバックドアを保持する。 この知見に基づいて,PEFT をバックドア PLM の選択層で省略し,これらの層のパラメータのサブセットを解凍する簡単な防御法を探索し,PETA を効果的に中和することを示した。

Parameter-efficient fine-tuning (PEFT) enables efficient adaptation of pre-trained language models (PLMs) to specific tasks. By tuning only a minimal set of (extra) parameters, PEFT achieves performance comparable to full fine-tuning. However, despite its prevalent use, the security implications of PEFT remain largely unexplored. In this paper, we conduct a pilot study revealing that PEFT exhibits unique vulnerability to trojan attacks. Specifically, we present PETA, a novel attack that accounts for downstream adaptation through bilevel optimization: the upper-level objective embeds the backdoor into a PLM while the lower-level objective simulates PEFT to retain the PLM's task-specific performance. With extensive evaluation across a variety of downstream tasks and trigger designs, we demonstrate PETA's effectiveness in terms of both attack success rate and unaffected clean accuracy, even after the victim user performs PEFT over the backdoored PLM using untainted data. Moreover, we empirically provide possible explanations for PETA's efficacy: the bilevel optimization inherently 'orthogonalizes' the backdoor and PEFT modules, thereby retaining the backdoor throughout PEFT. Based on this insight, we explore a simple defense that omits PEFT in selected layers of the backdoored PLM and unfreezes a subset of these layers' parameters, which is shown to effectively neutralize PETA.
翻訳日:2023-10-05 10:29:04 公開日:2023-10-04
# コンテキスト化された局所視覚埋め込みの自己教師あり学習

Self-supervised Learning of Contextualized Local Visual Embeddings ( http://arxiv.org/abs/2310.00527v3 )

ライセンス: Link先を確認
Thalles Santos Silva, Helio Pedrini and Ad\'in Ram\'irez Rivera(参考訳) 密集予測タスクに適した表現を学習する自己教師型畳み込み方式であるContextualized Local Visual Embeddings (CLoVE)を提案する。 CLoVEは現在の方法から逸脱し、畳み込みニューラルネットワーク(CNN)エンコーダの出力特徴マップから学習したコンテキスト化ローカル埋め込みのレベルで動作する単一損失関数を最適化する。 CLoVEは、コンテクスト化された埋め込みを学習するために、画像の異なる部分からの局所的な特徴を類似性に基づいて組み合わせた正規化されたマルチヘッド自己アテンション層を提案する。 複数のデータセット上でCLoVEの事前訓練された表現を広範囲にベンチマークする。 cloveは、オブジェクト検出、インスタンスセグメンテーション、キーポイント検出、高密度ポーズ推定を含む4つの密集した下流タスクにおいて、cnnベースのアーキテクチャの最先端のパフォーマンスを達成する。

We present Contextualized Local Visual Embeddings (CLoVE), a self-supervised convolutional-based method that learns representations suited for dense prediction tasks. CLoVE deviates from current methods and optimizes a single loss function that operates at the level of contextualized local embeddings learned from output feature maps of convolution neural network (CNN) encoders. To learn contextualized embeddings, CLoVE proposes a normalized mult-head self-attention layer that combines local features from different parts of an image based on similarity. We extensively benchmark CLoVE's pre-trained representations on multiple datasets. CLoVE reaches state-of-the-art performance for CNN-based architectures in 4 dense prediction downstream tasks, including object detection, instance segmentation, keypoint detection, and dense pose estimation.
翻訳日:2023-10-05 10:28:24 公開日:2023-10-04
# テンソルプログラムvi:無限深層ニューラルネットワークにおける特徴学習

Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks ( http://arxiv.org/abs/2310.02244v2 )

ライセンス: Link先を確認
Greg Yang, Dingli Yu, Chen Zhu, Soufiane Hayou(参考訳) 無限幅のニューラルネットワークを分類し、 *optimal* 限界を識別することで、テンソルプログラム iv と v は *widthwise hyperparameter transfer* に対して $\mu$p と呼ばれる普遍的な方法、すなわち狭いものから広いニューラルネットワークの最適ハイパーパラメータを予測することを証明した。 ここでは、深い残留ネットワーク(resnets)の*depthwise parametrization*の類似分類について検討する。 我々はブロック乗数と学習率の深さ方向のパラメトリゼーションを、その無限幅とその深度制限によって分類する。 各ブロックが1つの層しか持たないresnetsでは、深さ-$\mu$pと呼ばれる一意な最適パラメトリゼーションを識別し、深さ方向のハイパーパラメータ転送を経験的に示す。 深さ-$\mu$p は、特徴の学習と特徴の多様性の両方を最大化することが特徴である。 これを実行すると、すべての均質な非線形性の中で絶対値が特徴の多様性を最大化し、実際に経験的に性能が著しく向上することがわかった。 しかし、各ブロックがより深い(現代の変圧器のような)場合、そのようなパラメトリゼーションの可能な無限深度制限の基本的な制限を見つけ、これは理論上も経験的にも単純なネットワーク上でも、Common Crawlで訓練されたメガトロン変換器と同様に説明できる。

By classifying infinite-width neural networks and identifying the *optimal* limit, Tensor Programs IV and V demonstrated a universal way, called $\mu$P, for *widthwise hyperparameter transfer*, i.e., predicting optimal hyperparameters of wide neural networks from narrow ones. Here we investigate the analogous classification for *depthwise parametrizations* of deep residual networks (resnets). We classify depthwise parametrizations of block multiplier and learning rate by their infinite-width-then-depth limits. In resnets where each block has only one layer, we identify a unique optimal parametrization, called Depth-$\mu$P that extends $\mu$P and show empirically it admits depthwise hyperparameter transfer. We identify *feature diversity* as a crucial factor in deep networks, and Depth-$\mu$P can be characterized as maximizing both feature learning and feature diversity. Exploiting this, we find that absolute value, among all homogeneous nonlinearities, maximizes feature diversity and indeed empirically leads to significantly better performance. However, if each block is deeper (such as modern transformers), then we find fundamental limitations in all possible infinite-depth limits of such parametrizations, which we illustrate both theoretically and empirically on simple networks as well as Megatron transformer trained on Common Crawl.
翻訳日:2023-10-05 10:20:44 公開日:2023-10-04
# ハリー・ポッターって誰? LLMにおける近似アンラーニング

Who's Harry Potter? Approximate Unlearning in LLMs ( http://arxiv.org/abs/2310.02238v2 )

ライセンス: Link先を確認
Ronen Eldan and Mark Russinovich(参考訳) 大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。 これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。 本稿では,トレーニングデータのサブセットをスクラッチから再トレーニングすることなく,llmからアンラーニングする手法を提案する。 我々はLlama2-7bモデル(最近Metaがオープンソース化した生成言語モデル)からHarry Potterの本を学習するタスクについて評価した。 モデルが事前トレーニングに184K以上のGPU時間を要する一方で、約1GPUの微調整によって、Harry Potter関連のコンテンツを生成またはリコールする能力は事実上消失し、一般的なベンチマーク(Winogrande、Hellaswag、arc、boolq、piqaなど)のパフォーマンスはほとんど影響を受けていない。 コミュニティ評価のために、HuggingFaceで微調整されたモデルを公開しています。 我々の知る限りでは、生成言語モデルにおける非学習の効果的な手法を提示する最初の論文である。 まず、ターゲットデータ上でさらに訓練された強化モデルを使用して、学習対象と最も関連のあるトークンを特定し、そのロジットをベースラインモデルと比較する。 第2に,対象データの慣用的表現を汎用的な表現に置き換え,モデル独自の予測を用いてトークン毎に代替ラベルを生成する。 これらのラベルは、ターゲットデータでトレーニングされていないモデルの次の予測を近似することを目的としている。 第3に、これらの代替ラベルでモデルを微調整し、モデルのコンテキストで促されるたびに、モデルのメモリから元のテキストを効果的に消去する。

Large language models (LLMs) are trained on massive internet corpora that often contain copyrighted content. This poses legal and ethical challenges for the developers and users of these models, as well as the original authors and publishers. In this paper, we propose a novel technique for unlearning a subset of the training data from a LLM, without having to retrain it from scratch. We evaluate our technique on the task of unlearning the Harry Potter books from the Llama2-7b model (a generative language model recently open-sourced by Meta). While the model took over 184K GPU-hours to pretrain, we show that in about 1 GPU hour of finetuning, we effectively erase the model's ability to generate or recall Harry Potter-related content, while its performance on common benchmarks (such as Winogrande, Hellaswag, arc, boolq and piqa) remains almost unaffected. We make our fine-tuned model publicly available on HuggingFace for community evaluation. To the best of our knowledge, this is the first paper to present an effective technique for unlearning in generative language models. Our technique consists of three main components: First, we use a reinforced model that is further trained on the target data to identify the tokens that are most related to the unlearning target, by comparing its logits with those of a baseline model. Second, we replace idiosyncratic expressions in the target data with generic counterparts, and leverage the model's own predictions to generate alternative labels for every token. These labels aim to approximate the next-token predictions of a model that has not been trained on the target data. Third, we finetune the model on these alternative labels, which effectively erases the original text from the model's memory whenever it is prompted with its context.
翻訳日:2023-10-05 10:20:15 公開日:2023-10-04
# CoNO:連続力学系のための複雑ニューラル演算子

CoNO: Complex Neural Operator for Continuous Dynamical Systems ( http://arxiv.org/abs/2310.02094v2 )

ライセンス: Link先を確認
Karn Tiwari, N M Anoop Krishnan, Prathosh A P(参考訳) ニューラル演算子はデータ駆動モデルを拡張して無限次元の関数空間をマップする。 これらのモデルは、微分方程式、 viz 天気予報、流体流、固体力学で表される連続力学系をうまく解いた。 しかし、既存の作用素は依然として実空間に依存しており、関数変換によって複素空間で取得される可能性のあるリッチ表現を失う。 本稿では、複素分数フーリエ領域における積分核をパラメータ化する複素ニューラル演算子(CoNO)を提案する。 さらに、リアスフリーアクティベーション関数とともに複雑な値のニューラルネットワークを用いるモデルは、複雑な値と複雑な代数的性質を保存し、表現の改善、ノイズへの堅牢性、一般化を可能にする。 このモデルは, 1つの複素分数フーリエ変換を用いて, 基礎となる偏微分方程式を効果的に捕捉することを示す。 本研究では,ゼロショット超解像,アウトオブディストリビューションデータの評価,データ効率,雑音に対するロバスト性など,複数のデータセットに対するconoの広範な経験的評価を行う。 CoNOは、これらのタスクにおけるすべての最先端モデルと同等または優れたパフォーマンスを示す。 さらに、CoNOは連続力学系をモデリングするための堅牢で優れたモデルを示し、科学的な機械学習の補足を提供する。

Neural operators extend data-driven models to map between infinite-dimensional functional spaces. These models have successfully solved continuous dynamical systems represented by differential equations, viz weather forecasting, fluid flow, or solid mechanics. However, the existing operators still rely on real space, thereby losing rich representations potentially captured in the complex space by functional transforms. In this paper, we introduce a Complex Neural Operator (CoNO), that parameterizes the integral kernel in the complex fractional Fourier domain. Additionally, the model employing a complex-valued neural network along with aliasing-free activation functions preserves the complex values and complex algebraic properties, thereby enabling improved representation, robustness to noise, and generalization. We show that the model effectively captures the underlying partial differential equation with a single complex fractional Fourier transform. We perform an extensive empirical evaluation of CoNO on several datasets and additional tasks such as zero-shot super-resolution, evaluation of out-of-distribution data, data efficiency, and robustness to noise. CoNO exhibits comparable or superior performance to all the state-of-the-art models in these tasks. Altogether, CoNO presents a robust and superior model for modeling continuous dynamical systems, providing a fillip to scientific machine learning.
翻訳日:2023-10-05 10:19:46 公開日:2023-10-04
# OceanGPT: 海洋科学タスクのための大規模言語モデル

OceanGPT: A Large Language Model for Ocean Science Tasks ( http://arxiv.org/abs/2310.02031v2 )

ライセンス: Link先を確認
Zhen Bi, Ningyu Zhang, Yida Xue, Yixin Ou, Daxiong Ji, Guozhou Zheng, Huajun Chen(参考訳) 生命と生物多様性の貯水池である海洋科学は、地球の表面の70%以上を海洋がカバーしていることを考えると、非常に重要である。 近年,Large Language Models (LLM) の進歩が科学のパラダイムを変えつつある。 他の領域での成功にもかかわらず、現在のLLMは海洋学者のようなドメインの専門家のニーズに応えられず、海洋科学のためのLLMのポテンシャルは過小評価されている。 内在的な理由は、海洋データの巨大で複雑な性質と、より高い粒度と知識の豊かさの必要性である。 これらの問題を緩和するため,海洋分野における初のLCMであるOceanGPTを紹介した。 マルチエージェント協調に基づく命令を生成する,大量の海洋ドメイン命令データを自動的に取得する新しいフレームワークであるDoInstructを提案する。 さらに,海洋域におけるLLMの能力を評価するため,最初の海洋学ベンチマークであるOceanBenchを構築した。 総合的な実験ではあるが、OceanGPTは海洋科学のタスクの高度な知識知識を示すだけでなく、海洋技術における予備的なインテリジェンス能力も得る。 コード、データ、チェックポイントは近々https://github.com/zjunlp/KnowLM.comで公開される。

Ocean science, which delves into the oceans that are reservoirs of life and biodiversity, is of great significance given that oceans cover over 70% of our planet's surface. Recently, advances in Large Language Models (LLMs) have transformed the paradigm in science. Despite the success in other domains, current LLMs often fall short in catering to the needs of domain experts like oceanographers, and the potential of LLMs for ocean science is under-explored. The intrinsic reason may be the immense and intricate nature of ocean data as well as the necessity for higher granularity and richness in knowledge. To alleviate these issues, we introduce OceanGPT, the first-ever LLM in the ocean domain, which is expert in various ocean science tasks. We propose DoInstruct, a novel framework to automatically obtain a large volume of ocean domain instruction data, which generates instructions based on multi-agent collaboration. Additionally, we construct the first oceanography benchmark, OceanBench, to evaluate the capabilities of LLMs in the ocean domain. Though comprehensive experiments, OceanGPT not only shows a higher level of knowledge expertise for oceans science tasks but also gains preliminary embodied intelligence capabilities in ocean technology. Codes, data and checkpoints will soon be available at https://github.com/zjunlp/KnowLM.
翻訳日:2023-10-05 10:19:25 公開日:2023-10-04
# FiGURe:フィルタ拡張によるシンプルで効率的な教師なしノード表現

FiGURe: Simple and Efficient Unsupervised Node Representations with Filter Augmentations ( http://arxiv.org/abs/2310.01892v2 )

ライセンス: Link先を確認
Chanakya Ekbote, Ajinkya Pankaj Deshpande, Arun Iyer, Ramakrishna Bairi, Sundararajan Sellamanickam(参考訳) 比較学習に基づく手法を用いて学習した教師なしノード表現は、下流タスクで優れた性能を示した。 しかし、これらの手法は低域フィルタを模倣する拡張に依存し、固有スペクトルの異なる部分を必要とするタスクでの性能を制限する。 本稿では,固有スペクトルの異なる部分を取り込む単純なフィルタベース拡張法を提案する。 これらの拡張による大幅な改善を示す。 さらに,これら異なるフィルタにまたがる重みの共有が可能であり,計算負荷を低減できることを示す。 さらに、従来の研究では、下流タスクの性能は高次元表現を必要とすることが示されている。 高次元での作業は、特に複数の拡張が関与する場合、計算量を増加させる。 この問題を緩和し、単純なランダムフーリエ特徴射影を用いて低次元埋め込みにより良好な性能を回復する。 研究手法であるFiGUReは、同好性および異好性の両方を考慮したすべてのデータセットにおいて、最先端の教師なしモデルと比較して平均4.4%の上昇を達成する。 私たちのコードは以下の通りです。

Unsupervised node representations learnt using contrastive learning-based methods have shown good performance on downstream tasks. However, these methods rely on augmentations that mimic low-pass filters, limiting their performance on tasks requiring different eigen-spectrum parts. This paper presents a simple filter-based augmentation method to capture different parts of the eigen-spectrum. We show significant improvements using these augmentations. Further, we show that sharing the same weights across these different filter augmentations is possible, reducing the computational load. In addition, previous works have shown that good performance on downstream tasks requires high dimensional representations. Working with high dimensions increases the computations, especially when multiple augmentations are involved. We mitigate this problem and recover good performance through lower dimensional embeddings using simple random Fourier feature projections. Our method, FiGURe achieves an average gain of up to 4.4%, compared to the state-of-the-art unsupervised models, across all datasets in consideration, both homophilic and heterophilic. Our code can be found at: https://github.com/microsoft/figure.
翻訳日:2023-10-05 10:19:03 公開日:2023-10-04
# ファインチューニングモデルの有効性とパラメータ効率

Effective and Parameter-Efficient Reusing Fine-Tuned Models ( http://arxiv.org/abs/2310.01886v2 )

ライセンス: Link先を確認
Weisen Jiang and Baijiong Lin and Han Shi and Yu Zhang and Zhenguo Li and James T. Kwok(参考訳) オンラインで提供される多くの事前訓練された大規模モデルは、下流タスクへの転送に非常に効果的である。 同時に、これらの事前訓練されたモデルに微調整された様々なタスク特化モデルがオンラインで公開されている。 実際、タスク固有のデータの収集は労働集約的であり、大きな事前学習されたモデルには計算コストがかかるため、ダウンストリームタスクを扱うためにタスク固有の微調整モデルを再利用することができる。 しかし、1つのタスクにモデルを使用することで、ストレージとサービスに重荷がかかる。 近年,複数の微調整タスク固有モデルを単一マルチタスクモデルに再利用するために,学習自由かつパラメータ効率のよい多くの手法が提案されている。 しかし,これらの手法はタスク毎の微調整モデルに比べて精度の差が大きい。 本稿では,パラメータ効率のよい再使用(PERU)モデルを提案する。 完全細調整(FFT)モデルを再利用するために,スパースタスクベクトルを大まかにプラニングすることでPERU-FFTを提案する。 LoRA微調整モデルを再利用するために,低ランク行列を用いて特異値分解によりLoRA行列を近似するPERU-LoRAを提案する。 PERUFFTとPERU-LoRAはどちらも無トレーニングである。 コンピュータビジョンと自然言語処理タスクに関する広範な実験により,提案手法の有効性とパラメータ効率が実証された。 提案したPERU-FFTとPERU-LoRAは、既存の再利用モデル手法を大きなマージンで上回り、タスク毎の微調整モデルと同等の性能を達成する。

Many pre-trained large-scale models provided online have become highly effective in transferring to downstream tasks. At the same time, various task-specific models fine-tuned on these pre-trained models are available online for public use. In practice, as collecting task-specific data is labor-intensive and fine-tuning the large pre-trained models is computationally expensive, one can reuse task-specific finetuned models to deal with downstream tasks. However, using a model per task causes a heavy burden on storage and serving. Recently, many training-free and parameter-efficient methods have been proposed for reusing multiple fine-tuned task-specific models into a single multi-task model. However, these methods exhibit a large accuracy gap compared with using a fine-tuned model per task. In this paper, we propose Parameter-Efficient methods for ReUsing (PERU) fine-tuned models. For reusing Fully Fine-Tuned (FFT) models, we propose PERU-FFT by injecting a sparse task vector into a merged model by magnitude pruning. For reusing LoRA fine-tuned models, we propose PERU-LoRA use a lower-rank matrix to approximate the LoRA matrix by singular value decomposition. Both PERUFFT and PERU-LoRA are training-free. Extensive experiments conducted on computer vision and natural language process tasks demonstrate the effectiveness and parameter-efficiency of the proposed methods. The proposed PERU-FFT and PERU-LoRA outperform existing reusing model methods by a large margin and achieve comparable performance to using a fine-tuned model per task.
翻訳日:2023-10-05 10:18:46 公開日:2023-10-04
# LanguageBind: 言語に基づくセマンティックアライメントによるN-モダリティへのビデオ言語事前学習

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment ( http://arxiv.org/abs/2310.01852v2 )

ライセンス: Link先を確認
Bin Zhu, Bin Lin, Munan Ning, Yang Yan, Jiaxi Cui, HongFa Wang, Yatian Pang, Wenhao Jiang, Junwu Zhang, Zongwei Li, Wancai Zhang, Zhifeng Li, Wei Liu, and Li Yuan(参考訳) ビデオ言語(VL)プレトレーニングは、複数の下流タスクにおいて著しく改善されている。 しかしながら、現在のVL事前学習フレームワークは、視覚や言語を超えた複数のモーダル(Nモダリティ、N>=3)にまで拡張するのは難しい。 そこで我々は言語bindを提案し,言語モダリティは十分に探索され,豊富な意味論を含んでいるため,言語を異なるモダリティのバインドとして捉える。 具体的には、VL事前学習によって得られた言語エンコーダを凍結し、コントラスト学習を伴う他のモダリティのためのエンコーダを訓練する。 その結果、すべてのモダリティは共有機能空間にマッピングされ、マルチモーダルなセマンティックアライメントを実装する。 LanguageBindは、VLモダリティをNモダリティに拡張できることを保証する一方で、言語を中心としたデータペアをアライメントする高品質なデータセットも必要です。 そこで我々は,VIDAL-10Mをビデオ,赤外線,深度,オーディオおよびそれに対応する言語として提案し,VIDAL-10Mと命名した。 我々のVIDAL-10Mでは、すべてのビデオは長いビデオから切り離されたセグメントではなく、完全な意味を持った短いビデオプラットフォームから作成されています。 vidal-10mを事前トレーニングした後、私たちはmsr-vttデータセットでimagebindを1.2%r@1に上回り、ゼロショットビデオテキスト検索のパラメータのわずか15%で、データセットの高品質を検証する。 これ以外にも、LanguageBindはゼロショットビデオ、オーディオ、深度、赤外線の理解タスクにおいて大きな改善を遂げています。 例えば、LLVIPとNYU-Dデータセットでは、LanguageBindがImageBind-hugeを23.8%、11.1%で上回っている。 コードアドレスはhttps://github.com/PKU-YuanGroup/LanguageBind。

The video-language (VL) pretraining has achieved remarkable improvement in multiple downstream tasks. However, the current VL pretraining framework is hard to extend to multiple modalities (N modalities, N>=3) beyond vision and language. We thus propose LanguageBind, taking the language as the bind across different modalities because the language modality is well-explored and contains rich semantics. Specifically, we freeze the language encoder acquired by VL pretraining, then train encoders for other modalities with contrastive learning. As a result, all modalities are mapped to a shared feature space, implementing multi-modal semantic alignment. While LanguageBind ensures that we can extend VL modalities to N modalities, we also need a high-quality dataset with alignment data pairs centered on language. We thus propose VIDAL-10M with Video, Infrared, Depth, Audio and their corresponding Language, naming as VIDAL-10M. In our VIDAL-10M, all videos are from short video platforms with complete semantics rather than truncated segments from long videos, and all the video, depth, infrared, and audio modalities are aligned to their textual descriptions. After pretraining on VIDAL-10M, we outperform ImageBind by 1.2% R@1 on the MSR-VTT dataset with only 15% of the parameters in the zero-shot video-text retrieval, validating the high quality of our dataset. Beyond this, our LanguageBind has achieved great improvement in the zero-shot video, audio, depth, and infrared understanding tasks. For instance, on the LLVIP and NYU-D datasets, LanguageBind outperforms ImageBind-huge with 23.8% and 11.1% top-1 accuracy. Code address: https://github.com/PKU-YuanGroup/LanguageBind.
翻訳日:2023-10-05 10:18:22 公開日:2023-10-04
# 正規回帰のための音韻識別:自動発音評価のための新しい損失関数

Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment ( http://arxiv.org/abs/2310.01839v2 )

ライセンス: Link先を確認
Bi-Cheng Yan, Hsin-Wei Wang, Yi-Cheng Wang, Jiun-Ting Li, Chi-Han Lin, Berlin Chen(参考訳) 自動発音評価(APA)は、第2言語(L2)学習者の発音習熟度を言語内で定量化する。 APAに対する一般的なアプローチは、平均二乗誤差(MSE)損失などの回帰損失関数で訓練されたニューラルネットワークを、習熟度予測に活用する。 ほとんどの回帰モデルは、機能空間における熟練度レベルの順序性を効果的に捉えることができるが、同じ熟練度レベルの異なる音素カテゴリが必然的に互いに近付くことを強制され、音素識別情報が少なくなるという主要な障害に直面している。 そこで,本研究では,音素カテゴリ間の音韻区別を良好に保ちつつ,回帰目標出力の順序関係を考慮し,回帰に基づくapaモデルの学習のための音韻コントラストオーディナル(pco)ロスを考案する。 具体的には,重み付き距離を用いて同一音素カテゴリに属する表現を近づけると同時に,異なる音素カテゴリの特徴表現を遠方から分離することを奨励するmse損失に音素分割正規化器を導入する。 speechocean762ベンチマークデータセットで行った広範囲な実験は、既存の最先端モデルに関連して、モデルの有効性と有効性を示している。

Automatic pronunciation assessment (APA) manages to quantify the pronunciation proficiency of a second language (L2) learner in a language. Prevailing approaches to APA normally leverage neural models trained with a regression loss function, such as the mean-squared error (MSE) loss, for proficiency level prediction. Despite most regression models can effectively capture the ordinality of proficiency levels in the feature space, they are confronted with a primary obstacle that different phoneme categories with the same proficiency level are inevitably forced to be close to each other, retaining less phoneme-discriminative information. On account of this, we devise a phonemic contrast ordinal (PCO) loss for training regression-based APA models, which aims to preserve better phonemic distinctions between phoneme categories meanwhile considering ordinal relationships of the regression target output. Specifically, we introduce a phoneme-distinct regularizer into the MSE loss, which encourages feature representations of different phoneme categories to be far apart while simultaneously pulling closer the representations belonging to the same phoneme category by means of weighted distances. An extensive set of experiments carried out on the speechocean762 benchmark dataset suggest the feasibility and effectiveness of our model in relation to some existing state-of-the-art models.
翻訳日:2023-10-05 10:17:42 公開日:2023-10-04
# ロバスト政策改善のためのブレンディング模倣と強化学習

Blending Imitation and Reinforcement Learning for Robust Policy Improvement ( http://arxiv.org/abs/2310.01737v2 )

ライセンス: Link先を確認
Xuefeng Liu, Takuma Yoneda, Rick L. Stevens, Matthew R. Walter, Yuxin Chen(参考訳) 強化学習(RL)は有望な性能を示しているが、サンプルの複雑さは依然として大きなハードルであり、さまざまな領域にわたる幅広い応用を制限する。 模倣学習(il)は、サンプル効率を改善するためにoracleを利用するが、デプロイされたoracleの品質によって制限されることが多い。 ILとRLを積極的にインターリーブし、そのパフォーマンスをオンラインで見積もっています。 RPIは、特に学習の初期段階において、スパース・リワード RL において顕著に困難な側面である探索を容易にするためにオラクルクエリを使用して、ILの強みを生かしている。 学習が広がるにつれて、RPIは徐々にRLに移行し、学習方針を改良されたオラクルとして効果的に扱う。 このアルゴリズムは、多様なブラックボックスのオラクルから学習し、改善することができる。 RPIと統合されるのは、Robust Active Policy Selection (RAPS) とRobust Policy Gradient (RPG) である。 実験的な評価と理論的解析により、RPIは既存の最先端手法と比較して優れており、様々なベンチマーク領域で優れた性能を示す。

While reinforcement learning (RL) has shown promising performance, its sample complexity continues to be a substantial hurdle, restricting its broader application across a variety of domains. Imitation learning (IL) utilizes oracles to improve sample efficiency, yet it is often constrained by the quality of the oracles deployed. which actively interleaves between IL and RL based on an online estimate of their performance. RPI draws on the strengths of IL, using oracle queries to facilitate exploration, an aspect that is notably challenging in sparse-reward RL, particularly during the early stages of learning. As learning unfolds, RPI gradually transitions to RL, effectively treating the learned policy as an improved oracle. This algorithm is capable of learning from and improving upon a diverse set of black-box oracles. Integral to RPI are Robust Active Policy Selection (RAPS) and Robust Policy Gradient (RPG), both of which reason over whether to perform state-wise imitation from the oracles or learn from its own value function when the learner's performance surpasses that of the oracles in a specific state. Empirical evaluations and theoretical analysis validate that RPI excels in comparison to existing state-of-the-art methodologies, demonstrating superior performance across various benchmark domains.
翻訳日:2023-10-05 10:17:19 公開日:2023-10-04
# SmartPlay : インテリジェントエージェントとしてのLCMのベンチマーク

SmartPlay : A Benchmark for LLMs as Intelligent Agents ( http://arxiv.org/abs/2310.01557v2 )

ライセンス: Link先を確認
Yue Wu, Xuan Tang, Tom M. Mitchell, Yuanzhi Li(参考訳) 近年の大規模言語モデル(LLM)は、インテリジェントエージェントや次世代自動化に対して大きな可能性を示しているが、LLMのエージェントとしての能力を評価するための体系的なベンチマークは存在しない。 SmartPlay: LLMをエージェントとして評価するための、挑戦的なベンチマークと方法論の両方を紹介します。 SmartPlayはRock-Paper-Scissors, Tower of Hanoi, Minecraftなど6種類のゲームで構成されている。 各ゲームには独自の設定があり、最大20評価設定と無限環境のバリエーションを提供する。 smartplayの各ゲームは、オブジェクト依存の推論、計画、空間的推論、歴史からの学習、ランダム性理解を含む、インテリジェントなllmエージェントの9つの重要な機能のサブセットに独特に挑戦する。 各ゲームテストの能力セットを区別することで、各能力を別々に分析することができます。 SmartPlayは、LLMエージェントの全体的なパフォーマンスを評価するための厳格なテスト基盤としてだけでなく、現在の方法論におけるギャップを識別するためのロードマップとしても機能する。 ベンチマークはgithub.com/microsoft/smartplayでリリースします。

Recent large language models (LLMs) have demonstrated great potential toward intelligent agents and next-gen automation, but there currently lacks a systematic benchmark for evaluating LLMs' abilities as agents. We introduce SmartPlay: both a challenging benchmark and a methodology for evaluating LLMs as agents. SmartPlay consists of 6 different games, including Rock-Paper-Scissors, Tower of Hanoi, Minecraft. Each game features a unique setting, providing up to 20 evaluation settings and infinite environment variations. Each game in SmartPlay uniquely challenges a subset of 9 important capabilities of an intelligent LLM agent, including reasoning with object dependencies, planning ahead, spatial reasoning, learning from history, and understanding randomness. The distinction between the set of capabilities each game test allows us to analyze each capability separately. SmartPlay serves not only as a rigorous testing ground for evaluating the overall performance of LLM agents but also as a road-map for identifying gaps in current methodologies. We release our benchmark at github.com/microsoft/SmartPlay
翻訳日:2023-10-05 10:16:51 公開日:2023-10-04