このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240202となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# lingO-Space: 言語による空間のインクリメンタルグラウンド
LINGO-Space: Language-Conditioned Incremental Grounding for Space ( http://arxiv.org/abs/2402.01183v1 ) ライセンス: Link先を確認 | Dohyun Kim, Nayoung Oh, Deokmin Hwang, Daehyung Park, | (参考訳) 本研究では,空間を表す複合命令を空間的に局所化する問題である空間接地を実現することを目的とする。
現在の例の接地と比較して、空間接地は、離散表現によって参照される位置を特定できないことや、参照表現の組成のあいまいさにより困難である。
そこで本稿では,提案する空間の確率分布を正確に同定し,次から次へと更新する,新しい確率空間グラウンド手法(INGO-Space)を提案する。
評価の結果、極性分布を用いた推定により、20ドルのテーブルトップベンチマークテストにより、ロボットが位置をグラウンドできることがわかった。
また,分布の更新によって参照空間を正確に狭めることができることを示す。
最終的に、シミュレーション操作と実際の4重ロボットナビゲーションタスクによって、宇宙接地が頑丈であることを実証した。
コードとビデオはhttps://lingo-space.github.io.comで公開されている。
We aim to solve the problem of spatially localizing composite instructions referring to space: space grounding. Compared to current instance grounding, space grounding is challenging due to the ill-posedness of identifying locations referred to by discrete expressions and the compositional ambiguity of referring expressions. Therefore, we propose a novel probabilistic space-grounding methodology (LINGO-Space) that accurately identifies a probabilistic distribution of space being referred to and incrementally updates it, given subsequent referring expressions leveraging configurable polar distributions. Our evaluations show that the estimation using polar distributions enables a robot to ground locations successfully through $20$ table-top manipulation benchmark tests. We also show that updating the distribution helps the grounding method accurately narrow the referring space. We finally demonstrate the robustness of the space grounding with simulated manipulation and real quadruped robot navigation tasks. Code and videos are available at https://lingo-space.github.io. | 翻訳日:2024-07-22 23:56:51 公開日:2024-02-02 |
# Universal Imitation Games
Universal Imitation Games ( http://arxiv.org/abs/2405.01540v1 ) ライセンス: Link先を確認 | Sridhar Mahadevan, | (参考訳) 1950年、アラン・チューリング(英語版)は機械が考えることができるかどうかを判断する模倣ゲーム(英語版)と呼ばれるフレームワークを提案した。
チューリング(圏論)の後に発達した数学を用いて、静的、動的、進化的なゲームを含むより広い種類の普遍模倣ゲーム(UIG)を分析する。
静的ゲームでは、参加者は安定した状態にある。
動的UIGでは、"Learner"参加者は、長期的には"Teacher"参加者を模倣しようとしています。
進化的なUIGでは、参加者は進化的なゲームで互いに競い合っており、参加者は絶滅し、より高い適合性を持つ他の人に置き換えられる可能性がある。
我々は圏論の枠組み(特に米田の2つの影響力のある結果)を用いて、それぞれの種類の模倣ゲームの特徴付けを行う。
圏の普遍性は、初期オブジェクトと最終オブジェクトによって定義される。
我々は,帰納的推論(inductive inference)によって学習する動的UIGを,十分に確立された集合上の初期代数学として特徴付ける。
量子コンピュータ上での擬似ゲームに対するUIGの分類的フレームワークの拡張について簡単に論じる。
Alan Turing proposed in 1950 a framework called an imitation game to decide if a machine could think. Using mathematics developed largely after Turing -- category theory -- we analyze a broader class of universal imitation games (UIGs), which includes static, dynamic, and evolutionary games. In static games, the participants are in a steady state. In dynamic UIGs, "learner" participants are trying to imitate "teacher" participants over the long run. In evolutionary UIGs, the participants are competing against each other in an evolutionary game, and participants can go extinct and be replaced by others with higher fitness. We use the framework of category theory -- in particular, two influential results by Yoneda -- to characterize each type of imitation game. Universal properties in categories are defined by initial and final objects. We characterize dynamic UIGs where participants are learning by inductive inference as initial algebras over well-founded sets, and contrast them with participants learning by conductive inference over the final coalgebra of non-well-founded sets. We briefly discuss the extension of our categorical framework for UIGs to imitation games on quantum computers. | 翻訳日:2024-07-01 11:19:45 公開日:2024-02-02 |
# 実生活とコンピューティングの展望
A Note On Lookahead In Real Life And Computing ( http://arxiv.org/abs/2403.17942v1 ) ライセンス: Link先を確認 | Burle Sharma, Rakesh Mohanty, Sucheta Panda, | (参考訳) 過去、現在、未来は、その存在と成長のために人間によって明確に定義された3つの時間的・論理的な概念であると考えられている。
我々は、人間として、現実世界で同じことが起こる前に、知性を使って精神的に行動を実行する特権を有する。
過去、現在、そして将来の視覚化の爆発は、それぞれ実生活におけるルックバック、ルックアット、ルックアヘッドの3つの概念と、コンピューティングの多様化した領域に対応している。
Look-Ahead(LA)は、将来の情報予測と入力の処理を処理し、事前に出力を生成する。
本稿では,LAの概念を学習し,理解し,探求することを目的とする。
本稿では,オフライン,オンライン,セミオンラインなどの入力情報の利用可能性に基づいて,実際に使用される3つのよく知られたアルゴリズムフレームワークを提案する。
本稿では,LAがプロセス,システム,アルゴリズムの効率化に重要な役割を果たしている,興味深い実生活アプリケーションとよく知られた計算問題を紹介する。
今後,新たなLAモデルを設計するための文献レビューに基づいて,LAの新しいタイプのLAを定義し,LAの分類法を提案する。
LAの概念を用いて、多くの興味深い、非自明な研究課題を将来の研究の方向性として特定し、提示する。
直感的には、LAは非自明で困難な最適化問題を解くための効率的な計算モデルとアルゴリズムの設計において、将来の研究者にとって強力なツールおよびフレームワークとして使用できることを観察する。
Past, Present and Future are considered to be three temporal and logical concepts which are well defined by human beings for their existence and growth. We, as human beings, have the privilege of using our intelligence to mentally execute an activity before physical occurrence of the same in the real world. Knowledge of the past, aplomb of present and visualisation for the future correspond to three concepts such as look-back, look-at and look-ahead respectively in real life as well as in diversified domains of computing. Look-Ahead(LA) deals with the future prediction of information and processing of input to produce the output in advance. In this article, our main objective is to learn, understand and explore the concept of LA and design novel models as solution for real world problems. We present three well known algorithmic frameworks used in practice based on availability of input information such as offline, online and semi-online. We introduce interesting real life applications and well known computing problems where LA plays a significant role for making a process, system or algorithm efficient. We define new types of LA and propose a taxonomy for LA based on literature review for designing novel LA models in future. Using the concept of LA, We identify and present many interesting and non-trivial research challenges as future potential research directions. Intuitively, we observe that LA can be used as a powerful tool and framework for future researchers in design of efficient computational models and algorithms for solving non-trivial and challenging optimization problems. | 翻訳日:2024-04-01 02:34:48 公開日:2024-02-02 |
# LookAhead: 敵の契約を解除してDeFi攻撃を防ぐ
LookAhead: Preventing DeFi Attacks via Unveiling Adversarial Contracts ( http://arxiv.org/abs/2401.07261v2 ) ライセンス: Link先を確認 | Shoupeng Ren, Tianyu Tu, Jian Liu, Di Wu, Kui Ren, | (参考訳) さまざまなスマートコントラクトの脆弱性に起因するDeFiのインシデントは、30億米ドルを超える財政的損害に終止符を打った。
このような事件を引き起こした攻撃は、通常、敵の契約の展開から始まり、その後、これらの契約を利用して被害者の契約の脆弱性を悪用する敵の取引を実行する。
既存の防御メカニズムは、ヒューリスティックまたは機械学習アルゴリズムを利用して敵のトランザクションを検出するが、私的な敵のトランザクションを検出する上で大きな課題に直面している。
すなわち、攻撃者は敵のトランザクションを直接マイナーに送信し、ブロックチェーンネットワーク内の可視性を回避し、検出を効果的にバイパスすることができる。
本稿では,デフィ攻撃を検出する新たな方向,すなわち,敵対的取引ではなく敵対的契約を検出することを提案する。
具体的には、ほとんどの競合契約は、匿名のファンドソース、クローズドソース、頻繁なトークン関連関数呼び出しなど、同様のパターンに従うことを観察する。
この観測に基づいて、敵の契約と良性のある契約を効果的に区別できる機械学習分類器を構築する。
269の敵契約と13,000の良心契約から抽出された特徴からなるデータセットを構築します。
このデータセットに基づいて,異なる分類器の評価を行い,その結果から,DeFiの競合契約を識別する手法が極めて良好であることを示す。
例えば、LightGBM ベースの分類器の F1-Score は 0.9541 であり、非常に低い偽陽性率は 0.15% である。
DeFi incidents stemming from various smart contract vulnerabilities have culminated in financial damages exceeding 3 billion USD. The attacks causing such incidents commonly commence with the deployment of adversarial contracts, subsequently leveraging these contracts to execute adversarial transactions that exploit vulnerabilities in victim contracts. Existing defense mechanisms leverage heuristic or machine learning algorithms to detect adversarial transactions, but they face significant challenges in detecting private adversarial transactions. Namely, attackers can send adversarial transactions directly to miners, evading visibility within the blockchain network and effectively bypassing the detection. In this paper, we propose a new direction for detecting DeFi attacks, i.e., detecting adversarial contracts instead of adversarial transactions, allowing us to proactively identify potential attack intentions, even if they employ private adversarial transactions. Specifically, we observe that most adversarial contracts follow a similar pattern, e.g., anonymous fund source, closed-source, frequent token-related function calls. Based on this observation, we build a machine learning classifier that can effectively distinguish adversarial contracts from benign ones. We build a dataset consists of features extracted from 269 adversarial contracts and 13,000 benign contracts. Based on this dataset, we evaluate different classifiers, the results of which show that our method for identifying DeFi adversarial contracts performs exceptionally well. For example, the F1-Score for LightGBM-based classifier is 0.9541, with a remarkably low false positive rate of only 0.15%. | 翻訳日:2024-03-25 12:37:32 公開日:2024-02-02 |
# 量子前から量子後IoTセキュリティ:モノのインターネットのための量子抵抗型暗号システムに関する調査
From Pre-Quantum to Post-Quantum IoT Security: A Survey on Quantum-Resistant Cryptosystems for the Internet of Things ( http://arxiv.org/abs/2402.00790v2 ) ライセンス: Link先を確認 | Tiago M. Fernandez-Carames, | (参考訳) この記事では、量子後IoTシステム(現在知られている量子コンピューティング攻撃から保護されているIoTシステム)と呼ばれるものについての調査を行い、主要な量子後暗号システムとイニシアチブをレビューし、最も関連するIoTアーキテクチャと課題を分析し、今後の展望を示す。
このように、本論文は、量子後IoTセキュリティの広い視野を提供し、量子後IoT開発者に有用なガイドラインを提供することを目的としている。
This article provides a survey on what can be called post-quantum IoT systems (IoT systems protected from the currently known quantum computing attacks): the main post-quantum cryptosystems and initiatives are reviewed, the most relevant IoT architectures and challenges are analyzed, and the expected future trends are indicated. Thus, this paper is aimed at providing a wide view of post-quantum IoT security and give useful guidelines to the future post-quantum IoT developers. | 翻訳日:2024-03-25 11:58:26 公開日:2024-02-02 |
# 多項式リング上の$k$-thresholdシークレット共有スキームの構築
A Construction of Evolving $k$-threshold Secret Sharing Scheme over A Polynomial Ring ( http://arxiv.org/abs/2402.01144v1 ) ライセンス: Link先を確認 | Qi Cheng, Hongru Cao, Sian-Jheng Lin, Nenghai Yu, | (参考訳) 閾値秘密共有方式により、ディーラーは、秘密が一定量の株式から正しく回収されるように、その株式をすべての参加者に分配することができる。
従来の$(k, n)$-thresholdの秘密共有スキームは、事前に$n$の参加者数を知るように要求する。
対照的に、シークレット共有方式の進化により、$n$は不確実であり、さらに成長する可能性がある。
本稿では,シークレット共有シナリオの進化について考察する。
プレフィックス符号と多項式環の性質を用いて、多項式環上の$\ell$-bitシークレットに対する$k$-thresholdシークレット共有スキームを、正確性と完全なセキュリティで新たに構築することを提案する。
提案されたスキームは、プレフィックス符号と$k\geq2$の進化的スキームの間の接続を確立し、またシャミールのスキームを多項式環に一般化することにより、最初に進化した$k$-thresholdの秘密共有スキームでもある。
具体的には、この提案は、以前に進化した2ドルの秘密共有スキームに対して、統一された数学的復号化を提供する。
さらに、提案したスキームの分析によれば、$t$-thのシェアのサイズは$(k-1)(\ell_t-1)+\ell$ bitsであり、$\ell_t$は整数$t$を符号化するバイナリプレフィックスコードの長さを表す。
特に、$\delta$コードがプレフィックスコードとして選択されると、共有サイズは$(k-1)\lfloor\lg t\rfloor+2(k-1)\lfloor\lg ({\lfloor\lg t\rfloor+1}) \rfloor+\ell$となり、前回の結果$(k-1)\lg t+6k^4\ell\lg{\lg t}\cdot\lg{\lg {\lg t}}+7k^4\ell\lg k$となる。
k=2$のとき、提案手法は、最もよく知られたスキームと同じシングルビットシークレットの最小シェアサイズも達成する。
The threshold secret sharing scheme allows the dealer to distribute the share to every participant such that the secret is correctly recovered from a certain amount of shares. The traditional $(k, n)$-threshold secret sharing scheme requests that the number of participants $n$ is known in advance. In contrast, the evolving secret sharing scheme allows that $n$ can be uncertain and even ever-growing. In this paper, we consider the evolving secret sharing scenario. Using the prefix codes and the properties of the polynomial ring, we propose a brand-new construction of evolving $k$-threshold secret sharing scheme for an $\ell$-bit secret over a polynomial ring, with correctness and perfect security. The proposed schemes establish the connection between prefix codes and the evolving schemes for $k\geq2$, and are also first evolving $k$-threshold secret sharing schemes by generalizing Shamir's scheme onto a polynomial ring. Specifically, the proposal also provides an unified mathematical decryption for prior evolving $2$-threshold secret sharing schemes. Besides, the analysis of the proposed schemes show that the size of the $t$-th share is $(k-1)(\ell_t-1)+\ell$ bits, where $\ell_t$ denotes the length of a binary prefix code of encoding integer $t$. In particular, when $\delta$ code is chosen as the prefix code, the share size achieves $(k-1)\lfloor\lg t\rfloor+2(k-1)\lfloor\lg ({\lfloor\lg t\rfloor+1}) \rfloor+\ell$, which improves the prior best result $(k-1)\lg t+6k^4\ell\lg{\lg t}\cdot\lg{\lg {\lg t}}+ 7k^4\ell\lg k$, where $\lg$ denotes the binary logarithm. When $k=2$, the proposed scheme also achieves the minimal share size for single-bit secret, which is the same as the best known scheme. | 翻訳日:2024-03-25 11:58:26 公開日:2024-02-02 |
# 均質暗号化による量子セーフなフェデレーション学習に向けて--グラディエントによる学習
Towards Quantum-Safe Federated Learning via Homomorphic Encryption: Learning with Gradients ( http://arxiv.org/abs/2402.01154v1 ) ライセンス: Link先を確認 | Guangfeng Yan, Shanxiang Lyu, Hanxu Hou, Zhiyong Zheng, Linqi Song, | (参考訳) 本稿では,プライバシ保護のための分散学習フレームワークを提案する。
勾配の量子化のランダム性により、LWE(Learning with error)ベースの暗号化はエラー項を排除し、従来のLWEベースの同型暗号化におけるエラー拡張の問題を回避することができる。
提案システムでは,多数の学習参加者がニューラルネットワークに基づくディープラーニングを,素直だが奇抜なサーバ上で協調的に行うと同時に,参加者がアップロードした勾配の暗号的セキュリティを確保する。
This paper introduces a privacy-preserving distributed learning framework via private-key homomorphic encryption. Thanks to the randomness of the quantization of gradients, our learning with error (LWE) based encryption can eliminate the error terms, thus avoiding the issue of error expansion in conventional LWE-based homomorphic encryption. The proposed system allows a large number of learning participants to engage in neural network-based deep learning collaboratively over an honest-but-curious server, while ensuring the cryptographic security of participants' uploaded gradients. | 翻訳日:2024-03-25 11:58:26 公開日:2024-02-02 |
# 高速クマー曲面上の効率的な$(3,3)$-異性
Efficient $(3,3)$-isogenies on fast Kummer surfaces ( http://arxiv.org/abs/2402.01223v1 ) ライセンス: Link先を確認 | Maria Corte-Real Santos, Craig Costello, Benjamin Smith, | (参考訳) 我々は、ファストクマー曲面の間の$(N,N)$-異種性の別の導出を与える。
我々は、このフレームワークを用いて、$N = 3$という場合の明示的な公式を生成し、得られたアルゴリズムが、すべての以前の$(3, 3)$-isogenyアルゴリズムよりも効率的であることを示す。
We give an alternative derivation of $(N,N)$-isogenies between fastKummer surfaces which complements existing works based on the theory oftheta functions. We use this framework to produce explicit formulae for thecase of $N = 3$, and show that the resulting algorithms are more efficient thanall prior $(3, 3)$-isogeny algorithms. | 翻訳日:2024-03-25 11:58:26 公開日:2024-02-02 |
# Bribe & Fork: 偽造の脅威による盗難事件
Bribe & Fork: Cheap Bribing Attacks via Forking Threat ( http://arxiv.org/abs/2402.01363v1 ) ライセンス: Link先を確認 | Zeta Avarikioti, Paweł Kędzior, Tomasz Lizurej, Tomasz Michalak, | (参考訳) そこでは,ブロックチェーンマイナに対して,特定のトランザクションを意図的に無視してPCNの罰則を損なうように促す攻撃に対して,ペイメントチャネルネットワーク(PCN)の脆弱性を再検討する。
これまでの研究では、このような攻撃の禁止費用が提案されているが、このコストは劇的に削減される可能性がある(約125ドル)。
この目的のために、我々はBrib & Forkを導入し、これはいわゆる羽のフォークの脅威を利用して、フォークによるマイニングゲームのための新しいフォーマルモデルを用いて分析するブリビング攻撃である。
このコスト削減の規模を評価するために、実世界のブロックチェーン実装の履歴データを実証的に分析する。
われわれの調査結果は、PCNの潜在的な脆弱性に光を当て、堅牢なソリューションの必要性を強調した。
In this work, we reexamine the vulnerability of Payment Channel Networks (PCNs) to bribing attacks, where an adversary incentivizes blockchain miners to deliberately ignore a specific transaction to undermine the punishment mechanism of PCNs. While previous studies have posited a prohibitive cost for such attacks, we show that this cost may be dramatically reduced (to approximately \$125), thereby increasing the likelihood of these attacks. To this end, we introduce Bribe & Fork, a modified bribing attack that leverages the threat of a so-called feather fork which we analyze with a novel formal model for the mining game with forking. We empirically analyze historical data of some real-world blockchain implementations to evaluate the scale of this cost reduction. Our findings shed more light on the potential vulnerability of PCNs and highlight the need for robust solutions. | 翻訳日:2024-03-25 11:58:26 公開日:2024-02-02 |
# 量子回路におけるハードウェアトロイの木馬とその影響と防御
Hardware Trojans in Quantum Circuits, Their Impacts, and Defense ( http://arxiv.org/abs/2402.01552v1 ) ライセンス: Link先を確認 | Rupshali Roy, Subrata Das, Swaroop Ghosh, | (参考訳) 近時雑音量子コンピュータにおける量子回路の結果の信頼性は、与えられた問題に対するゲート数と深さに依存する。
短い深さと低いゲート数を持つ回路は、より高いゲート数と深さを持つ変種よりも、正しい解を得ることができる。
Noisy Intermediate Scale Quantum (NISQ) コンピュータで正常に動作するためには、ハードウェアのネイティブゲートへの高レベルゲートを分解するコンパイラを使用して、量子回路を効率的に最適化する必要がある。
多くのサードパーティコンパイラは、コンパイル時間の短縮、回路深さの削減、大規模な量子回路のゲート数削減のために開発されている。
このようなコンパイラ、あるいは信頼性のないコンパイラの特定のリリースバージョンは、信頼性が低く、コンパイル中に量子トロイの木馬が挿入されるなどのセキュリティリスクを引き起こす可能性がある。
トロイの木馬は、基底状態の反転確率を与えるために機能を破損させたり、出力中の正しい基底状態の確率を低下させたりする。
本稿では,回路の深さを変化させることなく,ベンチマーク量子回路の様々な場所で1つの量子ビットトロイの木馬(アダマールゲートとNOTゲートを選択した)が挿入したトロイの木馬の影響について検討・検討する。
その結果、アダマール・トロイの木馬の平均は16.18%、ノイズは7.78%減少していた。
NOTトロイジャンでは(ノイズのある)全ての入力に対して14.6%の劣化がある。
次に、CNNに基づく分類器を用いて、量子回路におけるそのようなトロヤ群の検出について、90%の精度で検討する。
The reliability of the outcome of a quantum circuit in near-term noisy quantum computers depends on the gate count and depth for a given problem. Circuits with a short depth and lower gate count can yield the correct solution more often than the variant with a higher gate count and depth. To work successfully for Noisy Intermediate Scale Quantum (NISQ) computers, quantum circuits need to be optimized efficiently using a compiler that decomposes high-level gates to native gates of the hardware. Many 3rd party compilers are being developed for lower compilation time, reduced circuit depth, and lower gate count for large quantum circuits. Such compilers, or even a specific release version of a compiler that is otherwise trustworthy, may be unreliable and give rise to security risks such as insertion of a quantum trojan during compilation that evades detection due to the lack of a golden/Oracle model in quantum computing. Trojans may corrupt the functionality to give flipped probabilities of basis states, or result in a lower probability of correct basis states in the output. In this paper, we investigate and discuss the impact of a single qubit Trojan (we have chosen a Hadamard gate and a NOT gate) inserted one at a time at various locations in benchmark quantum circuits without changing the the depth of the circuit. Results indicate an average of 16.18% degradation for the Hadamard Trojan without noise, and 7.78% with noise. For the NOT Trojan (with noise) there is 14.6% degradation over all possible inputs. We then discuss the detection of such Trojans in a quantum circuit using CNN-based classifier achieving an accuracy of 90%. | 翻訳日:2024-03-25 11:58:26 公開日:2024-02-02 |
# AOC-IDS:侵入検知のためのコントラスト学習を伴う自律型オンラインフレームワーク
AOC-IDS: Autonomous Online Framework with Contrastive Learning for Intrusion Detection ( http://arxiv.org/abs/2402.01807v1 ) ライセンス: Link先を確認 | Xinchen Zhang, Running Zhao, Zhihan Jiang, Zhicong Sun, Yulong Ding, Edith C. H. Ngai, Shuang-Hua Yang, | (参考訳) IoT(Internet of Things)の急速な拡張により、ターゲットとするサイバー攻撃に対する懸念が高まっている。
これまでの研究は主に、IoTシステムを保護するためにオフライントレーニングを使用する静的侵入検知システム(IDS)に焦点を当てていた。
しかし、このような静的IDSは、IoTシステムの振る舞いとアタック戦略が急速に進化し、動的で適応可能なIDSを必要とする、現実のシナリオと競合する。
この課題に対して,自律的異常検出モジュール(ADM)と継続適応のための労働自由オンラインフレームワークを備えた新しいオンラインIDSであるAOC-IDSを提案する。
データ理解を強化するために、ADMはオートエンコーダ(AE)とカスタマイズされたクラスタ・リペリング・コントラシティブ(CRC)損失関数を使用して、オンライン設定における限定的または漸進的なデータから独自の表現を生成する。
さらに、手動ラベリングの負担を軽減するため、ADMにおける意思決定プロセスから自動生成される擬似ラベルを活用して、ADMの定期的な更新を容易にする。
NSL-KDDとUNSW-NB15データセットを用いた実験的検証は、最先端のソリューションを上回る、AOC-IDSの性能と適応性を示している。
コードはhttps://github.com/xinchen930/AOC-IDSで公開されている。
The rapid expansion of the Internet of Things (IoT) has raised increasing concern about targeted cyber attacks. Previous research primarily focused on static Intrusion Detection Systems (IDSs), which employ offline training to safeguard IoT systems. However, such static IDSs struggle with real-world scenarios where IoT system behaviors and attack strategies can undergo rapid evolution, necessitating dynamic and adaptable IDSs. In response to this challenge, we propose AOC-IDS, a novel online IDS that features an autonomous anomaly detection module (ADM) and a labor-free online framework for continual adaptation. In order to enhance data comprehension, the ADM employs an Autoencoder (AE) with a tailored Cluster Repelling Contrastive (CRC) loss function to generate distinctive representation from limited or incrementally incoming data in the online setting. Moreover, to reduce the burden of manual labeling, our online framework leverages pseudo-labels automatically generated from the decision-making process in the ADM to facilitate periodic updates of the ADM. The elimination of human intervention for labeling and decision-making boosts the system's compatibility and adaptability in the online setting to remain synchronized with dynamic environments. Experimental validation using the NSL-KDD and UNSW-NB15 datasets demonstrates the superior performance and adaptability of AOC-IDS, surpassing the state-of-the-art solutions. The code is released at https://github.com/xinchen930/AOC-IDS. | 翻訳日:2024-03-25 11:58:26 公開日:2024-02-02 |
# S2malloc: 統計的に安全なアロケータ
S2malloc: Statistically Secure Allocator for Use-After-Free Protection And More ( http://arxiv.org/abs/2402.01894v1 ) ライセンス: Link先を確認 | Ruizhe Wang, Meng Xu, N. Asokan, | (参考訳) ヒープメモリへの攻撃、メモリオーバーフロー、ダブルおよび無効なフリー、UAF(Use-after-free)、および様々なヒープ・スプレー技術は増加を続けている。
既存のエントロピーベースの安全なメモリアロケータは、これらの攻撃ベクトルのほとんど全てに対して統計的に防御する。
彼らはUAF攻撃に対する防御を主張するが、その設計は(失敗に終わった)試みを検出するように調整されていない。
このため、このエントロピーベースの保護に打ち勝つために、攻撃者はヒープスプレーの可能性を秘め、同じ攻撃を繰り返すだけで成功の可能性がさらに向上する。
S2mallocを導入し、他のセキュリティ保証を妥協したり、大幅な性能上のオーバーヘッドを発生させることなく、UAF-attempt検出を強化することを目的としている。
これを実現するために、UAFの試みを検知する自由ブロックカナリア(FBC)、攻撃者が被害者のオブジェクトを正確に上書きするのを阻止するランダムインブロックオフセット(RIO)、攻撃者のアドレスに基づいてブロックサイズを推定するランダムバッグレイアウト(RBL)の3つの革新的な構成を用いる。
私たちはそれを示します
(a) RIOオフセットのオブジェクトサイズを25%保存することにより、攻撃者が同じポインタを再利用した場合は8バイトのカナリアが69%の保護率を提供し、攻撃者が64バイトのオブジェクトをターゲットとするUAF攻撃に対して、他の攻撃に対して同等またはそれ以上のセキュリティ保証を持たずに、96%の保護率を提供する。
(b) S2mallocは実用的であり、PARSECでの実行時のオーバーヘッドはわずか2.8%、SPECでは11.5%である。
最先端のエントロピーベースのアロケータと比較して、S2mallocはさらなる性能オーバーヘッドを発生させることなくUAF保護を改善する。
UAFを緩和するアロケータと比較して、S2mallocは、オーバーヘッドを大幅に低減するために、保護の失敗の極小確率で取引する。
Attacks on heap memory, encompassing memory overflow, double and invalid free, use-after-free (UAF), and various heap spraying techniques are ever-increasing. Existing entropy-based secure memory allocators provide statistical defenses against virtually all of these attack vectors. Although they claim protections against UAF attacks, their designs are not tailored to detect (failed) attempts. Consequently, to beat this entropy-based protection, an attacker can simply launch the same attack repeatedly with the potential use of heap spraying to further improve their chance of success. We introduce S2malloc, aiming to enhance UAF-attempt detection without compromising other security guarantees or introducing significant performance overhead. To achieve this, we use three innovative constructs in secure allocator design: free block canaries (FBC) to detect UAF attempts, random in-block offset (RIO) to stop the attacker from accurately overwriting the victim object, and random bag layout (RBL) to impede attackers from estimating the block size based on its address. We show that (a) by reserving 25% of the object size for the RIO offset, an 8-byte canary offers a 69% protection rate if the attacker reuses the same pointer and 96% protection rate if the attacker does not, against UAF exploitation attempts targeting a 64 bytes object, with equal or higher security guarantees against all other attacks; and (b) S2malloc is practical, with only a 2.8% run-time overhead on PARSEC and an 11.5% overhead on SPEC. Compared to state-of-the-art entropy-based allocators, S2malloc improves UAF-protection without incurring additional performance overhead. Compared to UAF-mitigating allocators, S2malloc trades off a minuscule probability of failed protection for significantly lower overhead. | 翻訳日:2024-03-25 11:58:26 公開日:2024-02-02 |
# SeMalloc: セマンティックインフォームドメモリアロケータ
SeMalloc: Semantics-Informed Memory Allocator ( http://arxiv.org/abs/2402.03373v1 ) ライセンス: Link先を確認 | Ruizhe Wang, Meng Xu, N. Asokan, | (参考訳) UAF(Use-after-free)は、メモリアンセーフ言語において重要な問題である。
多くのソリューションが提案されているが、セキュリティ、実行時コスト、メモリオーバーヘッド(不可能なトリニティ)のバランスをとるように思われる。
本稿では,ヒープオブジェクトに関するセマンティクスをアロケータに渡すことで,アロケータにアロケータを渡すことで,アロケータのアロケータにアロケータを割り当てることにより,バランスを実現することができることを示す。
より具体的には、スレッド、コンテキスト、フローに敏感な"タイプ"であるSemaTypeという新しい概念を提案し、セマタイプに基づくアロケータのプロトタイプを作成する。
SeMallocでは、同一のコールサイトと同一の関数コールスタックから割り当てられたヒープオブジェクトだけが仮想メモリアドレスを共有可能であるため、型コンフュージョン攻撃を効果的に停止し、UAFの脆弱性を悪用しにくくする。
広範な経験的評価を通じて,SeMallocは現実的であることを示す。
(a) SeMallocは、テストした現実世界の脆弱性をすべて回避するのに有効です。
b) ベンチマークプログラムは、デフォルトのヒープアロケータよりもSeMallocで、メモリオーバーヘッドが46%から247%の範囲で、さらに高速に実行される。
(c)SeMallocは他の密接に関連する作業よりもセキュリティとオーバーヘッドのバランスが良くなります。
Use-after-free (UAF) is a critical and prevalent problem in memory unsafe languages. While many solutions have been proposed, they seem to balance security, run-time cost, and memory overhead (an impossible trinity) in awkward ways. In this paper, we show that a balance can be achieved by passing more semantics about the heap object to the allocator for it to make informed allocation decisions. More specifically, we propose a new notion of thread-, context-, and flow-sensitive "type", SemaType, to capture the semantics and prototype a SemaType-based allocator that aims for the best trade-off amongst the impossible trinity. In SeMalloc, only heap objects allocated from the same call site and via the same function call stack can possibly share a virtual memory address, which effectively stops type-confusion attacks and make UAF vulnerabilities harder to exploit. Through extensive empirical evaluation, we show that SeMalloc is realistic: (a) SeMalloc is effective in thwarting all real-world vulnerabilities we tested; (b) benchmark programs run even slightly faster with SeMalloc than the default heap allocator, at a memory overhead ranges from 46% to 247%; and (c) SeMalloc balances security and overhead strictly better than other closely related works. | 翻訳日:2024-03-25 11:58:26 公開日:2024-02-02 |
# 現場からの洞察:工場における産業事故の包括的分析と職場安全向上のための戦略
Insights from the Field: A Comprehensive Analysis of Industrial Accidents in Plants and Strategies for Enhanced Workplace Safety ( http://arxiv.org/abs/2403.05539v1 ) ライセンス: Link先を確認 | Hasanika Samarasinghe, Shadi Heenatigala, | (参考訳) この研究は、カグル[1]に記録された425件の産業事故に発展し、これらは全て南アメリカの12の工場で発生した。
この広範なデータセットを慎重に調べることで、事故発生に関する貴重な知見を明らかにし、頻発する傾向を特定し、根本原因を明らかにすることを目指している。
この分析の意味は、単なる統計観測を超えて、安全と健康管理の実践を強化する機会を提供する。
本研究は, 安全対策の強化, リスク軽減, 安全な作業環境の育成など, 改善すべき特定の分野に対処することの重要性を明らかにするものである。
我々は、この豊富な情報を効果的に活用するために、統計的分析とデータ可視化の手法を戦略的に適用することを提唱する。
このアプローチは意味のある洞察の抽出を促進し、意思決定者が目標とする改善を実践し、予防的マインドセットを育み、組織内の安全文化を促進する。
この研究は、データを事故防止とより安全な職場構築のために実行可能な戦略に変換することを約束する組織にとって重要なリソースである。
The study delves into 425 industrial incidents documented on Kaggle [1], all of which occurred in 12 separate plants in the South American region. By meticulously examining this extensive dataset, we aim to uncover valuable insights into the occurrence of accidents, identify recurring trends, and illuminate underlying causes. The implications of this analysis extend beyond mere statistical observation, offering organizations an opportunity to enhance safety and health management practices. Our findings underscore the importance of addressing specific areas for improvement, empowering organizations to fortify safety measures, mitigate risks, and cultivate a secure working environment. We advocate for strategically applying statistical analysis and data visualization techniques to leverage this wealth of information effectively. This approach facilitates the extraction of meaningful insights and empowers decision-makers to implement targeted improvements, fostering a preventive mindset, and promoting a safety culture within organizations. This research is a crucial resource for organizations committed to transforming data into actionable strategies for accident prevention and creating a safer workplace. | 翻訳日:2024-03-25 08:36:53 公開日:2024-02-02 |
# AIによる絶滅リスク:科学に見えないか?
Extinction Risks from AI: Invisible to Science? ( http://arxiv.org/abs/2403.05540v1 ) ライセンス: Link先を確認 | Vojtech Kovarik, Christian van Merwijk, Ida Mattsson, | (参考訳) AIの実在するリスクに関する議論について、私たちは「極端に追求され、人類の絶滅をもたらすあらゆる目標仕様」として、絶滅レベルのグッドハートの法則を定式化し、この仮説を調査するのにどの形式モデルが適しているかを理解することを目的としている。
排他レベルのグッドハートの法則が成立するか否かについては、引き続き無知である。
本研究の重要貢献として,絶滅レベルのグッドハート法則の特定の議論を評価するための情報提供を目的としたモデルに必要な条件の集合を同定する。
それぞれの条件が結果のモデルの複雑さに大きく寄与しているように見えるので、仮説を正式に評価するのは極めて難しいかもしれない。
このことは、人工知能による絶滅のリスクが本物であるかどうか、その基礎となるダイナミクスが現在の科学的手法には見えない可能性を高める。
In an effort to inform the discussion surrounding existential risks from AI, we formulate Extinction-level Goodhart's Law as "Virtually any goal specification, pursued to the extreme, will result in the extinction of humanity", and we aim to understand which formal models are suitable for investigating this hypothesis. Note that we remain agnostic as to whether Extinction-level Goodhart's Law holds or not. As our key contribution, we identify a set of conditions that are necessary for a model that aims to be informative for evaluating specific arguments for Extinction-level Goodhart's Law. Since each of the conditions seems to significantly contribute to the complexity of the resulting model, formally evaluating the hypothesis might be exceedingly difficult. This raises the possibility that whether the risk of extinction from artificial intelligence is real or not, the underlying dynamics might be invisible to current scientific methods. | 翻訳日:2024-03-25 08:36:53 公開日:2024-02-02 |
# ニューラルスロット解釈:創発的スロット表現における接地対象セマンティック
Neural Slot Interpreters: Grounding Object Semantics in Emergent Slot Representations ( http://arxiv.org/abs/2403.07887v1 ) ライセンス: Link先を確認 | Bhishma Dedhia, Niraj K. Jha, | (参考訳) オブジェクト中心の手法は、教師なしの生の知覚をリッチなオブジェクトのような抽象化に分解する過程で大きな進歩を遂げている。
しかし、現実世界のオブジェクトのセマンティクスを学習抽象化に基礎付ける能力に制限があるため、下流の理解アプリケーションでは採用が妨げられている。
本稿では,NSI(Neural Slot Interpreter)を提案する。
NSIの中核はXMLライクなプログラミング言語で、単純な構文ルールを使ってシーンのオブジェクトセマンティクスをオブジェクト中心のプログラムプリミティブに整理します。
そして、アライメントモデルは、プログラムプリミティブを、共有埋め込み空間上の双方向のコントラスト学習目標を介してスロットに接地することを学習する。
最後に、NSIプログラム生成モデルを定式化し、アライメントモデルから推定される高密度な関連を利用してスロットからオブジェクト中心のプログラムを生成する。
バイモーダル検索タスクの実験では、学習されたアライメントの有効性が示され、セットマッチングに基づく予測をかなりの差で上回っている。
さらに、接地されたアソシエーションからプログラムジェネレータを学習することで、スロットの予測能力を高める。
NSI生成プログラムは、プロパティ予測とオブジェクト検出におけるオブジェクト中心学習者の性能向上と、実世界のシーンの複雑さによるスケール性を示す。
Object-centric methods have seen significant progress in unsupervised decomposition of raw perception into rich object-like abstractions. However, limited ability to ground object semantics of the real world into the learned abstractions has hindered their adoption in downstream understanding applications. We present the Neural Slot Interpreter (NSI) that learns to ground and generate object semantics via slot representations. At the core of NSI is an XML-like programming language that uses simple syntax rules to organize the object semantics of a scene into object-centric program primitives. Then, an alignment model learns to ground program primitives into slots through a bi-level contrastive learning objective over a shared embedding space. Finally, we formulate the NSI program generator model to use the dense associations inferred from the alignment model to generate object-centric programs from slots. Experiments on bi-modal retrieval tasks demonstrate the efficacy of the learned alignments, surpassing set-matching-based predictors by a significant margin. Moreover, learning the program generator from grounded associations enhances the predictive power of slots. NSI generated programs demonstrate improved performance of object-centric learners on property prediction and object detection, and scale with real-world scene complexity. | 翻訳日:2024-03-25 08:27:08 公開日:2024-02-02 |
# モダリティ・デバイアス:言語を用いた画像のサブポピュレーションシフトの軽減
Cross-modality debiasing: using language to mitigate sub-population shifts in imaging ( http://arxiv.org/abs/2403.07888v1 ) ライセンス: Link先を確認 | Yijiang Pang, Hoang Bao, Jiayu Zhou, | (参考訳) サブ人口シフト(Sub-population shift)とは、特定のサブグループ内のデータ分布の変化や、トレーニングとテストの間の人口の変化を強調する、特定のタイプのドメインシフトである。
サブポピュレーションシフトは、アルゴリズムバイアスの重要な源であり、分散ロバスト性を要求する。
近年の研究では、視覚言語モデルCLIPのような多モード基礎モデルに固有の分布ロバスト性が確認されているが、パラメータの微調整によってこのロバスト性は脆弱である。
本稿では,異なるモーダル間のロバスト性接続を活用し,一方のモーダルの分布ロバスト性と他方のモーダルの分布ロバスト性を再構成する手法を提案する。
具体的には,CLIPの分布ロバスト性の観点から,画像特徴表現の劣化を抑えるために自然言語入力を活用することを提案する。
本研究では, 自然言語による画像表現の劣化が, サブポピュレーションシフトによる性能向上と性能不安定性の低下をもたらすことを実証した。
Sub-population shift is a specific type of domain shift that highlights changes in data distribution within specific sub-groups or populations between training and testing. Sub-population shift accounts for a significant source of algorithmic bias and calls for distributional robustness. Recent studies found inherent distributional robustness in multi-modality foundation models, such as the vision-language model CLIP, yet this robustness is vulnerable through parameter fine-tuning. In this paper, we propose leveraging the connection of robustness among different modalities and reshaping the distributional robustness of one modality with another. Specifically, in the context of the distributional robustness of CLIP, we propose to leverage natural language inputs to debias the image feature representations, to improve worst-case performance on sub-populations. Our extensive empirical studies show that image representations debiased by natural language can achieve significant performance improvement and reduction of performance instability under sub-population shifts. | 翻訳日:2024-03-25 08:27:08 公開日:2024-02-02 |
# $\widetilde{O}(T^{-1})$ Convergence to (Coarse) Correlated Equilibria in full-information General-Sum Markov Games
$\widetilde{O}(T^{-1})$ Convergence to (Coarse) Correlated Equilibria in Full-Information General-Sum Markov Games ( http://arxiv.org/abs/2403.07890v1 ) ライセンス: Link先を確認 | Weichao Mao, Haoran Qiu, Chen Wang, Hubertus Franke, Zbigniew Kalbarczyk, Tamer Başar, | (参考訳) 非回帰学習は、ゲーム理論と密接な関係を持つ長い歴史を持つ。
最近の研究は、正規形式ゲームにおける全てのプレイヤーが採用する非連立学習力学を考案し、古典的非連立学習者のレートである$O(1/\sqrt{T})よりも大幅に向上した$\widetilde{O}(T^{-1})$で、様々な平衡解に収束する。
しかし、類似の収束結果はマルコフゲームでは不足しており、マルチエージェント強化学習の基礎となるより一般的な設定である。
本研究では,楽観的フォロー・ザ・レギュラライズド・リーダー(OFTRL)アルゴリズムと適切な値更新手順を併用して,フルインフォームの汎用マルコフゲームにおいて,$\widetilde{O}(T^{-1})$-approximate (coarse) 相関平衡が$T$反復で得られることを示すことにより,このギャップを埋める。
また,我々の理論的知見を裏付ける数値的な結果も含んでいる。
No-regret learning has a long history of being closely connected to game theory. Recent works have devised uncoupled no-regret learning dynamics that, when adopted by all the players in normal-form games, converge to various equilibrium solutions at a near-optimal rate of $\widetilde{O}(T^{-1})$, a significant improvement over the $O(1/\sqrt{T})$ rate of classic no-regret learners. However, analogous convergence results are scarce in Markov games, a more generic setting that lays the foundation for multi-agent reinforcement learning. In this work, we close this gap by showing that the optimistic-follow-the-regularized-leader (OFTRL) algorithm, together with appropriate value update procedures, can find $\widetilde{O}(T^{-1})$-approximate (coarse) correlated equilibria in full-information general-sum Markov games within $T$ iterations. Numerical results are also included to corroborate our theoretical findings. | 翻訳日:2024-03-25 08:27:08 公開日:2024-02-02 |
# サイバー感染に対するレジリエンス対策 -複雑システムに対する軸論的アプローチ-
Measures of Resilience to Cyber Contagion -- An Axiomatic Approach for Complex Systems ( http://arxiv.org/abs/2312.13884v2 ) ライセンス: Link先を確認 | Gregor Svindland, Alexander Voß, | (参考訳) 本稿では,ネットワークにおけるシステム的リスク管理のために設計された,新たなリスク対策のクラスを紹介する。
一般的なアプローチとは対照的に、これらのリスク対策は、感染性脅威の伝播リスクを軽減するために、ネットワークのトポロジカルな構成をターゲットにしている。
我々の議論は、主にデジタルネットワークにおけるシステム的サイバーリスクの管理に関連しているが、類似のアプローチが適切である可能性のある、他の複雑なシステムのリスク管理と並行して、並列を描いている。
We introduce a novel class of risk measures designed for the management of systemic risk in networks. In contrast to prevailing approaches, these risk measures target the topological configuration of the network in order to mitigate the propagation risk of contagious threats. While our discussion primarily revolves around the management of systemic cyber risks in digital networks, we concurrently draw parallels to risk management of other complex systems where analogous approaches may be adequate. | 翻訳日:2024-03-18 11:38:03 公開日:2024-02-02 |
# 位相的欠陥の背景におけるアハルノフ・ボームフラックス下での一般化ダフィン・ケムマー・ペティオー発振器 Generalized Duffin-Kemmer-Petiau oscillator under Aharonov-Bohm flux in topological defects backgrounds ( http://arxiv.org/abs/2403.02982v1 ) ライセンス: Link先を確認 | Faizuddin Ahmed, Nuray Candemir | (参考訳) 本稿では,宇宙弦の時空および点状大域単極子による位相欠陥における量子束場の影響下での一般化されたダフィン・ケマー・ペティオー(DKP)発振子について検討する。
一般化されたDKP発振器は、相対論的DKP方程式において運動量作用素 $\vec{p} \to \left(\vec{p}+i\,M\,\omega\,\eta^0\,f(r)\,\hat{r}\right)$ の非最小置換によって調べられる。
この一般化されたDKP発振器を宇宙弦の時空背景で解き、パラメトリックニキフォロフ-ウバロフ法を用いて振動体のエネルギーレベルと波動関数を求める。
その後、点状大域単極子空間における一般化DKPオシレータを解き、同じ方法でエネルギーレベルと波動関数を得る。
実際、エネルギー固有値は宇宙線と点状大域モノポールのトポロジカルな欠陥の影響を受け、平坦な空間結果に比較して修正され、エネルギー準位の縮退を断ち切ることが示されている。
さらに、固有値解はアハルノフ・ボーム効果の重力類似性を示す量子束場に依存し、永続的な電流を与える。 In this article, we study the generalized Duffin-Kemmer-Petiau (DKP) oscillator under the influence of quantum flux field in the topological defects produced by a cosmic string space-time and point-like global monopole. The generalized DKP oscillator will be investigated through a non-minimal substitution of the momentum operator $\vec{p} \to \left(\vec{p}+i\,M\,\omega\,\eta^0\,f(r)\,\hat{r}\right)$ in the relativistic DKP equation. We solve this generalized DKP oscillator in a cosmic string space-time background and obtain the energy levels and wave function of the oscillator field using the parametric Nikiforov-Uvarov method. Afterwards, we solve the generalized DKP-oscillator in a point-like global monopole space-time and obtain the energy levels and wave functions following the same method. In fact, it is shown there that the energy eigenvalues are influenced by the topological defect of cosmic string and point-like global monopole and gets modified compared to flat space results, and breaks the degeneracy of the energy levels. Furthermore, we observe that the eigenvalue solutions depends on the quantum flux field that shows the gravitational analogue of the Aharonov-Bohm effect and also gives us a persistent currents | 翻訳日:2024-03-10 23:51:59 公開日:2024-02-02 |
# 次世代AI時代の幕開け:6Gワイヤレスインテリジェンスの新しいフロンティアに関するチュートリアル At the Dawn of Generative AI Era: A Tutorial-cum-Survey on New Frontiers in 6G Wireless Intelligence ( http://arxiv.org/abs/2402.18587v1 ) ライセンス: Link先を確認 | Abdulkadir Celik, Ahmed M. Eltawil | (参考訳) データ駆動ワイヤレス研究の大多数は、膨大な現実世界のデータセットを必要とする差別的AI(DAI)に大きく依存している。
DAIとは異なり、生成AI(GenAI)は、入力データの基盤となるデータ分布、パターン、特徴を識別できる生成モデル(GM)に関連する。
これにより、GenAIは、実世界のデータが不足し、不完全で、取得にコストがかかり、モデル化や理解が難しい、無線領域において重要な資産となる。
これらの魅力的な属性により、GenAIは様々な能力でDAIメソッドを置換または補うことができる。
そこで,本論文は6Gの予備研究と無線インテリジェンスを併用し,候補6Gアプリケーションとサービスを概説し,最先端のDAIモデルの分類を示し,著名なDAIのユースケースを実証し,GenAIがDAIを強化する多面的な方法を明らかにする。
次に, 生成逆数ネットワーク, 変分オートエンコーダ, フローベースGM, 拡散ベースGM, 生成変換器, 大規模言語モデルなどの例に注目して, GMに関するチュートリアルを示す。
GenAIが初期段階の傾向であるという一般的な信念とは対照的に、約120の技術的論文の総括的なレビューでは、物理層設計、ネットワーク最適化、組織、管理、ネットワークトラフィック分析、クロス層ネットワークセキュリティ、ローカライゼーションと位置決めなど、中核的なワイヤレス研究領域における研究の範囲が示されている。
さらに,semantic/thz/near-field communications, isac, 超大規模アンテナアレイ, digital twins, ai- generated content services, mobile edge computing and edge ai, adversarial ml, trustworthy aiなど6gネットワーク研究の先駆的分野におけるgmの役割について概説する。
最後に、私たちは、今後のさまざまな課題に光を当て、潜在的な戦略と今後の改善を提案しました。 The majority of data-driven wireless research leans heavily on discriminative AI (DAI) that requires vast real-world datasets. Unlike the DAI, Generative AI (GenAI) pertains to generative models (GMs) capable of discerning the underlying data distribution, patterns, and features of the input data. This makes GenAI a crucial asset in wireless domain wherein real-world data is often scarce, incomplete, costly to acquire, and hard to model or comprehend. With these appealing attributes, GenAI can replace or supplement DAI methods in various capacities. Accordingly, this combined tutorial-survey paper commences with preliminaries of 6G and wireless intelligence by outlining candidate 6G applications and services, presenting a taxonomy of state-of-the-art DAI models, exemplifying prominent DAI use cases, and elucidating the multifaceted ways through which GenAI enhances DAI. Subsequently, we present a tutorial on GMs by spotlighting seminal examples such as generative adversarial networks, variational autoencoders, flow-based GMs, diffusion-based GMs, generative transformers, large language models, to name a few. Contrary to the prevailing belief that GenAI is a nascent trend, our exhaustive review of approximately 120 technical papers demonstrates the scope of research across core wireless research areas, including physical layer design; network optimization, organization, and management; network traffic analytics; cross-layer network security; and localization & positioning. Furthermore, we outline the central role of GMs in pioneering areas of 6G network research, including semantic/THz/near-field communications, ISAC, extremely large antenna arrays, digital twins, AI-generated content services, mobile edge computing and edge AI, adversarial ML, and trustworthy AI. Lastly, we shed light on the multifarious challenges ahead, suggesting potential strategies and promising remedies. | 翻訳日:2024-03-03 19:10:39 公開日:2024-02-02 |
# 平衡共鳴火炎ニューロン Balanced Resonate-and-Fire Neurons ( http://arxiv.org/abs/2402.14603v1 ) ライセンス: Link先を確認 | Saya Higuchi, Sebastian Kairat, Sander M. Bohte, Sebastian Otte | (参考訳) 20年以上前に導入されたresonate-and-fire(rf)ニューロンは、シンプルで効率的だが生物学的に可能なスパイキングニューロンモデルであり、共鳴膜ダイナミクスによって時間領域内の周波数パターンを抽出することができる。
しかし、従来のRFの定式化は、効果的な学習を制限し、RFニューロンの原則的利点を活用できない固有の欠点に悩まされている。
本稿では、バニラRFニューロンの内在的制限を緩和し、様々なシーケンス学習タスクにおける繰り返しスパイクニューラルネットワーク(RSNN)における効果を示す平衡RF(BRF)ニューロンについて紹介する。
BRFニューロンのネットワークは、全体的なタスク性能を向上し、スパイクのごく一部しか発生せず、現代のRSNNに比べてパラメータが大幅に少ないことを示す。
さらに、BRF-RSNNは、時間によるバックプロパゲーション(BPTT)中に数百のタイムステップをブリッジしても、ずっと高速で安定したトレーニング収束を提供する。
これらの結果は、我々のBRF-RSNNが将来の大規模RSNNアーキテクチャ、SNN方法論のさらなる研究、より効率的なハードウェア実装の有力な候補であることを示している。 The resonate-and-fire (RF) neuron, introduced over two decades ago, is a simple, efficient, yet biologically plausible spiking neuron model, which can extract frequency patterns within the time domain due to its resonating membrane dynamics. However, previous RF formulations suffer from intrinsic shortcomings that limit effective learning and prevent exploiting the principled advantage of RF neurons. Here, we introduce the balanced RF (BRF) neuron, which alleviates some of the intrinsic limitations of vanilla RF neurons and demonstrates its effectiveness within recurrent spiking neural networks (RSNNs) on various sequence learning tasks. We show that networks of BRF neurons achieve overall higher task performance, produce only a fraction of the spikes, and require significantly fewer parameters as compared to modern RSNNs. Moreover, BRF-RSNN consistently provide much faster and more stable training convergence, even when bridging many hundreds of time steps during backpropagation through time (BPTT). These results underscore that our BRF-RSNN is a strong candidate for future large-scale RSNN architectures, further lines of research in SNN methodology, and more efficient hardware implementations. | 翻訳日:2024-02-25 16:46:01 公開日:2024-02-02 |
# 教育における適応学習に生成AIを導入する Bringing Generative AI to Adaptive Learning in Education ( http://arxiv.org/abs/2402.14601v1 ) ライセンス: Link先を確認 | Hang Li, Tianlong Xu, Chaoli Zhang, Eason Chen, Jing Liang, Xing Fan, Haoyang Li, Jiliang Tang, Qingsong Wen | (参考訳) 近年、大規模な言語モデルや拡散モデルなどの生成AI技術の急増により、科学、金融、教育など、さまざまな分野におけるAIアプリケーションの開発が加速している。
同時に、教育分野に多大な関心を寄せた適応学習は、生徒の学習効率を高める効果を証明している。
本稿では,生成AIと適応学習の概念を組み合わせ,これらの2つの手法の交叉研究に光を当てることを目的とする。
この分野での利益、課題、ポテンシャルに関する議論をすることで、この連合は教育における次の段階の学習形式の発展に大きく貢献するだろうと論じる。 The recent surge in generative AI technologies, such as large language models and diffusion models, have boosted the development of AI applications in various domains, including science, finance, and education. Concurrently, adaptive learning, a concept that has gained substantial interest in the educational sphere, has proven its efficacy in enhancing students' learning efficiency. In this position paper, we aim to shed light on the intersectional studies of these two methods, which combine generative AI with adaptive learning concepts. By presenting discussions about the benefits, challenges, and potentials in this field, we argue that this union will contribute significantly to the development of the next stage learning format in education. | 翻訳日:2024-02-25 16:45:40 公開日:2024-02-02 |
# todyformer: structure-aware tokenization を用いた包括的動的グラフトランスフォーマ Todyformer: Towards Holistic Dynamic Graph Transformers with Structure-Aware Tokenization ( http://arxiv.org/abs/2402.05944v1 ) ライセンス: Link先を確認 | Mahdi Biparva, Raika Karimi, Faezeh Faez, Yingxue Zhang | (参考訳) 時間グラフニューラルネットワークは、構造的および時間的パターンの進化をモデル化し、優れたパフォーマンスを示す能力にかなりの注意を払っている。
しかし,これらのアーキテクチャは,過密や過密といったパフォーマンスを制約する問題に悩まされていることが知られている。
一方、トランスフォーマーは長距離依存に関する問題に対して効果的に対処できる特別な計算能力を示している。
その結果,動的グラフに適した新しいトランスフォーマーベースニューラルネットワークであるTodyformerを導入した。
メッセージパッシングニューラルネットワーク(MPNN)の局所符号化能力とトランスフォーマーのグローバル符号化能力を一体化する。
一 オーバースワッシングを改善するための動的グラフに対する新しいパッチ適用パラダイム。
二 MPNNを利用した構造対応パラメトリックトークン化戦略
三 経時的位置エンコーディングにより長距離依存関係を捕捉するトランスフォーマー
iv)mpnnのオーバースムーシングを緩和し、ローカルとグローバルのコンテキスト化を交互に行うエンコーディングアーキテクチャ。
公開ベンチマークデータセットに対する実験的評価は、Todyformerがダウンストリームタスクの最先端メソッドを一貫して上回っていることを示している。
さらに,動的グラフの時間的依存性を効果的に捉えることにより,提案モデルの基盤となる側面を述べる。 Temporal Graph Neural Networks have garnered substantial attention for their capacity to model evolving structural and temporal patterns while exhibiting impressive performance. However, it is known that these architectures are encumbered by issues that constrain their performance, such as over-squashing and over-smoothing. Meanwhile, Transformers have demonstrated exceptional computational capacity to effectively address challenges related to long-range dependencies. Consequently, we introduce Todyformer-a novel Transformer-based neural network tailored for dynamic graphs. It unifies the local encoding capacity of Message-Passing Neural Networks (MPNNs) with the global encoding of Transformers through i) a novel patchifying paradigm for dynamic graphs to improve over-squashing, ii) a structure-aware parametric tokenization strategy leveraging MPNNs, iii) a Transformer with temporal positional-encoding to capture long-range dependencies, and iv) an encoding architecture that alternates between local and global contextualization, mitigating over-smoothing in MPNNs. Experimental evaluations on public benchmark datasets demonstrate that Todyformer consistently outperforms the state-of-the-art methods for downstream tasks. Furthermore, we illustrate the underlying aspects of the proposed model in effectively capturing extensive temporal dependencies in dynamic graphs. | 翻訳日:2024-02-18 14:35:15 公開日:2024-02-02 |
# ソフトウェア定義ネットワークにおけるリアルタイム異常検出のためのハイブリッドIndRNNLSTMアプローチ A hybrid IndRNNLSTM approach for real-time anomaly detection in software-defined networks ( http://arxiv.org/abs/2402.05943v1 ) ライセンス: Link先を確認 | Sajjad Salem, Salman Asoudeh | (参考訳) データフロー予測を用いたSDNの異常検出は難しい作業である。
この問題は時系列問題と回帰問題のカテゴリに含まれる。
この分野では、手動で機能を選択するため、機械学習アプローチが難しい。
一方で、ディープラーニングアプローチには、機能の自動選択による重要な機能がある。
一方、RNNベースのアプローチが最も多く使用されている。
LSTMとGRUアプローチは依存エンティティをよく学習するが、IndRNNアプローチは時系列で非依存エンティティを学習する。
提案手法では,IndRNNとLSTMを併用して,依存機能と非依存機能を学習する。
この目的のために、Filter、Wrapper、Embeded、Autoencoderの4つの機能選択モデルが使用された。
提案した IndRNNLSTM アルゴリズムは Embedded と組み合わせて,NSL-KDD のデータに対して MAE=1.22 と RMSE=9.92 を達成することができた。 Anomaly detection in SDN using data flow prediction is a difficult task. This problem is included in the category of time series and regression problems. Machine learning approaches are challenging in this field due to the manual selection of features. On the other hand, deep learning approaches have important features due to the automatic selection of features. Meanwhile, RNN-based approaches have been used the most. The LSTM and GRU approaches learn dependent entities well; on the other hand, the IndRNN approach learns non-dependent entities in time series. The proposed approach tried to use a combination of IndRNN and LSTM approaches to learn dependent and non-dependent features. Feature selection approaches also provide a suitable view of features for the models; for this purpose, four feature selection models, Filter, Wrapper, Embedded, and Autoencoder were used. The proposed IndRNNLSTM algorithm, in combination with Embedded, was able to achieve MAE=1.22 and RMSE=9.92 on NSL-KDD data. | 翻訳日:2024-02-18 14:34:14 公開日:2024-02-02 |
# 協調的知識蒸留:学習者非依存的アプローチ Cooperative Knowledge Distillation: A Learner Agnostic Approach ( http://arxiv.org/abs/2402.05942v1 ) ライセンス: Link先を確認 | Michael Livanos, Ian Davidson, Stephen Wong | (参考訳) 知識蒸留は、教師モデルと生徒モデルの間で知識を伝達する単純だが強力な方法である。
全ての知識は教師から生徒に受け継がれるが、その知識が役に立つかどうかは問わないが、学生はこの交換の中で唯一の学習であり、通常蒸留は1人の教師から1人の生徒にのみ知識を伝達する。
我々は,協調蒸留と呼ぶ学生と教師の両方として,多くのモデルが機能する新たな知識蒸留形態を定式化する。
モデル(学生)は、その性能の特定の欠陥を特定し、学習した知識を対物インスタンス生成を介して教育仮想インスタンスにエンコードする別のモデル(教師)を探索する。
異なるモデルが異なる強さと弱点を持つ可能性があるため、全てのモデルは学生または教師(協力)として適切に機能し、その強さ(焦点)に特有の分野の知識のみを蒸留することができる。
パラダイムとしての反事実は特定のアルゴリズムに縛られないため、異なるアーキテクチャ、アルゴリズム、さらには特徴空間の学習者間の知識を抽出するためにこの手法を用いることができる。
提案手法は, 転送学習, 自己教師付き学習, および複数の知識蒸留アルゴリズムなどのベースラインを複数のデータセットで上回るだけでなく, 上記の手法では不可能な設定でも利用できることを示す。 Knowledge distillation is a simple but powerful way to transfer knowledge between a teacher model to a student model. Existing work suffers from at least one of the following key limitations in terms of direction and scope of transfer which restrict its use: all knowledge is transferred from teacher to student regardless of whether or not that knowledge is useful, the student is the only one learning in this exchange, and typically distillation transfers knowledge only from a single teacher to a single student. We formulate a novel form of knowledge distillation in which many models can act as both students and teachers which we call cooperative distillation. The models cooperate as follows: a model (the student) identifies specific deficiencies in it's performance and searches for another model (the teacher) who encodes learned knowledge into instructional virtual instances via counterfactual instance generation. Because different models may have different strengths and weaknesses, all models can act as either students or teachers (cooperation) when appropriate and only distill knowledge in areas specific to their strengths (focus). Since counterfactuals as a paradigm are not tied to any specific algorithm, we can use this method to distill knowledge between learners of different architectures, algorithms, and even feature spaces. We demonstrate that our approach not only outperforms baselines such as transfer learning, self-supervised learning, and multiple knowledge distillation algorithms on several datasets, but it can also be used in settings where the aforementioned techniques cannot. | 翻訳日:2024-02-18 14:33:58 公開日:2024-02-02 |
# LLMを用いた視覚的スタイル抽出による文字ベースアウトフィット生成 Character-based Outfit Generation with Vision-augmented Style Extraction via LLMs ( http://arxiv.org/abs/2402.05941v1 ) ライセンス: Link先を確認 | Najmeh Forouzandehmehr, Yijie Cao, Nikhil Thakurdesai, Ramin Giahi, Luyi Ma, Nima Farrokhsiar, Jianpeng Xu, Evren Korpeoglu, Kannan Achan | (参考訳) 衣装生成問題は、ユーザーの興味に基づいて、完全な衣装を推奨することを含む。
既存のアプローチではアンカーアイテムや特定のクエリスタイルに基づいてアイテムを推薦するが、映画やソーシャルメディアなどの有名キャラクターに対する顧客の関心は考慮していない。
本稿では,文字情報を正確に解釈し,年齢や性別などの顧客仕様に従って完全な衣装セットを生成することを目的とした,新しい文字ベース衣装生成(cog)問題を定義する。
そこで本研究では,大規模言語モデル(lva-cog)を活用し,客の興味(文字情報など)から洞察を抽出し,客の嗜好を正確に理解するための迅速な工学的手法を活用した,新しいlva-cogを提案する。
さらに,結束した衣装の視覚的理解と生成(実物的あるいは反物的)を高めるために,テキストから画像へのモデルを取り入れた。
本フレームワークは,LLMとテキスト・ツー・イメージ・モデルを統合し,パーソナライズされたレコメンデーションを生成することにより,顧客のファッションへのアプローチを改善する。
実験とケーススタディにより,複数次元からの解の有効性を実証する。 The outfit generation problem involves recommending a complete outfit to a user based on their interests. Existing approaches focus on recommending items based on anchor items or specific query styles but do not consider customer interests in famous characters from movie, social media, etc. In this paper, we define a new Character-based Outfit Generation (COG) problem, designed to accurately interpret character information and generate complete outfit sets according to customer specifications such as age and gender. To tackle this problem, we propose a novel framework LVA-COG that leverages Large Language Models (LLMs) to extract insights from customer interests (e.g., character information) and employ prompt engineering techniques for accurate understanding of customer preferences. Additionally, we incorporate text-to-image models to enhance the visual understanding and generation (factual or counterfactual) of cohesive outfits. Our framework integrates LLMs with text-to-image models and improves the customer's approach to fashion by generating personalized recommendations. With experiments and case studies, we demonstrate the effectiveness of our solution from multiple dimensions. | 翻訳日:2024-02-18 14:33:31 公開日:2024-02-02 |
# 創造的視点による大規模言語モデル幻覚に関する調査 A Survey on Large Language Model Hallucination via a Creativity Perspective ( http://arxiv.org/abs/2402.06647v1 ) ライセンス: Link先を確認 | Xuhui Jiang, Yuxing Tian, Fengrui Hua, Chengjin Xu, Yuanzhuo Wang, Jian Guo | (参考訳) 大型言語モデル(LLM)における幻覚は常に制限と見なされる。
しかし、それらはクリエイティビティの源でもあるのだろうか?
この調査は、幻覚が創造性を育むことによってLLM応用に寄与する可能性を示唆している。
この調査は、幻覚の分類と、重要な応用におけるLLMの信頼性に対する負の影響のレビューから始まる。
そして、歴史的事例と最近の関連する理論を通して、LLMにおける幻覚の潜在的な創造的利益を探求する。
この関係の価値と評価基準を明らかにするために,創造性の定義と評価方法を考察する。
散発的・収束的な思考段階の枠組みに従って,LLMにおける幻覚の変容と活用に関する文献を体系的にレビューした。
最後に,LLMの創造的プロセスにおける幻覚の応用のさらなる探求と洗練の必要性を強調し,今後の研究方向性について考察した。 Hallucinations in large language models (LLMs) are always seen as limitations. However, could they also be a source of creativity? This survey explores this possibility, suggesting that hallucinations may contribute to LLM application by fostering creativity. This survey begins with a review of the taxonomy of hallucinations and their negative impact on LLM reliability in critical applications. Then, through historical examples and recent relevant theories, the survey explores the potential creative benefits of hallucinations in LLMs. To elucidate the value and evaluation criteria of this connection, we delve into the definitions and assessment methods of creativity. Following the framework of divergent and convergent thinking phases, the survey systematically reviews the literature on transforming and harnessing hallucinations for creativity in LLMs. Finally, the survey discusses future research directions, emphasizing the need to further explore and refine the application of hallucinations in creative processes within LLMs. | 翻訳日:2024-02-18 13:52:34 公開日:2024-02-02 |
# 180年東アジア気候復興のための拡散モデルに基づく確率的ダウンスケール Diffusion Model-based Probabilistic Downscaling for 180-year East Asian Climate Reconstruction ( http://arxiv.org/abs/2402.06646v1 ) ライセンス: Link先を確認 | Fenghua Ling, Zeyu Lu, Jing-Jia Luo, Lei Bai, Swadhin K. Behera, Dachao Jin, Baoxiang Pan, Huidong Jiang and Toshio Yamagata | (参考訳) 地球が「グローバル沸騰」の時代に入るにつれ、地域の気候変動を理解することが不可欠になる。
このターゲットには、ローカライズされた洞察を提供する効果的なダウンスケーリングメソッドが不可欠です。
局所力学モデルや統計ダウンスケーリングのフレームワークといった従来のアプローチは、しばしばダウンスケーリングの不確実性の影響に影響を受けやすい。
本稿では,拡散確率ダウンスケーリングモデル(DPDM)を気象分野に導入することにより,これらの制約に対処する。
このモデルは、データを 1{\deg} から 0.1{\deg} に効率的に変換することができる。
決定論的ダウンスケーリングスキームと比較すると、より正確な局所的詳細を持つだけでなく、確率分布サンプリングに基づく多数のアンサンブルメンバーを生成してダウンスケーリングの不確実性を評価することができる。
さらに、このモデルを用いて、東アジアにおける月間表面変数の180年間のデータセットを作成し、過去数世紀にわたる地域規模の気候変動を理解するためのより詳細な視点を提供する。 As our planet is entering into the "global boiling" era, understanding regional climate change becomes imperative. Effective downscaling methods that provide localized insights are crucial for this target. Traditional approaches, including computationally-demanding regional dynamical models or statistical downscaling frameworks, are often susceptible to the influence of downscaling uncertainty. Here, we address these limitations by introducing a diffusion probabilistic downscaling model (DPDM) into the meteorological field. This model can efficiently transform data from 1{\deg} to 0.1{\deg} resolution. Compared with deterministic downscaling schemes, it not only has more accurate local details, but also can generate a large number of ensemble members based on probability distribution sampling to evaluate the uncertainty of downscaling. Additionally, we apply the model to generate a 180-year dataset of monthly surface variables in East Asia, offering a more detailed perspective for understanding local scale climate change over the past centuries. | 翻訳日:2024-02-18 13:52:20 公開日:2024-02-02 |
# 生成aiはどのようにして盲目の幸福を高めるのか? How Can Generative AI Enhance the Well-being of Blind? ( http://arxiv.org/abs/2402.07919v1 ) ライセンス: Link先を確認 | Oliver Bendel | (参考訳) 本稿では, 視覚障害者の幸福感を, 生成型AIがいかに改善できるかを考察する。
これは現在の例であるBe My Eyesアプリで、2023年にBe My AI機能が統合され、OpenAIのGPT-4をベースにしている。
著者のテストが記述され、評価される。
倫理的・社会的な議論もある。
このツールのパワーは、静止画を驚くべき方法で分析できる。
影響を受けた人々は新たな独立と環境に対する新たな認識を得る。
同時に、それらは提供者または開発者の世界観やモラルに依存し、特定の記述を規定または否定する。
動いている画像の分析がさらに前進することを意味していることは、見通しから明らかだ。
生成的AIは、視覚障害者の健康を根本的に改善し、様々な方法でそれを変えることができると言えます。 This paper examines the question of how generative AI can improve the well-being of blind or visually impaired people. It refers to a current example, the Be My Eyes app, in which the Be My AI feature was integrated in 2023, which is based on GPT-4 from OpenAI. The author's tests are described and evaluated. There is also an ethical and social discussion. The power of the tool, which can analyze still images in an amazing way, is demonstrated. Those affected gain a new independence and a new perception of their environment. At the same time, they are dependent on the world view and morality of the provider or developer, who prescribe or deny them certain descriptions. An outlook makes it clear that the analysis of moving images will mean a further leap forward. It is fair to say that generative AI can fundamentally improve the well-being of blind and visually impaired people and will change it in various ways. | 翻訳日:2024-02-18 13:26:16 公開日:2024-02-02 |
# 心電図の時空間的関係を捉えるためのマスク表現学習 Guiding Masked Representation Learning to Capture Spatio-Temporal Relationship of Electrocardiogram ( http://arxiv.org/abs/2402.09450v1 ) ライセンス: Link先を確認 | Yeongyeon Na, Minje Park, Yunwon Tae, Sunghoon Joo | (参考訳) 心電図(ECG)は、心臓由来の電気信号を監視する診断ツールとして広く用いられている。
近年の機械学習研究は,心電図信号を用いた各種疾患のスクリーニングに重点を置いている。
しかし,ecgデータは限られているため,スクリーニング疾患の適用への適応は困難である。
自己教師付き学習(SSL)による一般的な表現の実現はラベル付きデータの不足を克服するためのよく知られたアプローチであるが、ECG信号に固有の空間的・時間的関係を考慮せずに、SSLをECGデータに適用することで、準最適結果が得られる。
本稿では,12誘導心電図データを再構成し,時空間特性を学習するためのST-MEM(Spatio-Temporal Masked Electrocardiogram Modeling)を提案する。
ST-MEMは、不整脈分類タスクの様々な実験環境で、他のSSLベースラインメソッドよりも優れている。
さらに,ST-MEMは様々な鉛の組み合わせに適応可能であることを示す。
定量的および定性的な分析により、心電図データ内の時空間関係を示す。 Electrocardiograms (ECG) are widely employed as a diagnostic tool for monitoring electrical signals originating from a heart. Recent machine learning research efforts have focused on the application of screening various diseases using ECG signals. However, adapting to the application of screening disease is challenging in that labeled ECG data are limited. Achieving general representation through self-supervised learning (SSL) is a well-known approach to overcome the scarcity of labeled data; however, a naive application of SSL to ECG data, without considering the spatial-temporal relationships inherent in ECG signals, may yield suboptimal results. In this paper, we introduce ST-MEM (Spatio-Temporal Masked Electrocardiogram Modeling), designed to learn spatio-temporal features by reconstructing masked 12-lead ECG data. ST-MEM outperforms other SSL baseline methods in various experimental settings for arrhythmia classification tasks. Moreover, we demonstrate that ST-MEM is adaptable to various lead combinations. Through quantitative and qualitative analysis, we show a spatio-temporal relationship within ECG data. | 翻訳日:2024-02-18 13:06:05 公開日:2024-02-02 |
# モーションマッピング認知:人間の視覚における非分解性一次過程 Motion Mapping Cognition: A Nondecomposable Primary Process in Human Vision ( http://arxiv.org/abs/2402.04275v1 ) ライセンス: Link先を確認 | Zhenping Xie | (参考訳) 人間の知性はあまりにも神秘的なので、これまでその基礎をうまく理解できなかった。
ここでは、人間の視覚において、分解不能な一次機能であるべき基本的な認知過程である運動マッピング認知(MMC)を紹介したい。
一方、MCCプロセスは、人間の視覚機能の大部分を基本的に説明するために使用することができるが、画像分割、オブジェクト認識、オブジェクト追跡などの従来の視覚処理方法によって効果的にモデル化することはできない。
さらに、MCCは、人間の視覚に対するChenのトポロジカルな認識の延長と見なされる可能性があり、既存のインテリジェントアルゴリズム技術では解決できないように思われる。
最後に、MCC問題、興味深い計算モデル、量子化されたトポロジカルマッチング原理の要求とともに、最適な輸送理論のアイデアを考案することで導出することができる。
以上の結果は、より堅牢で解釈可能なマシンビジョンモデルを開発するための大きなインスピレーションとなります。 Human intelligence seems so mysterious that we have not successfully understood its foundation until now. Here, I want to present a basic cognitive process, motion mapping cognition (MMC), which should be a nondecomposable primary function in human vision. Wherein, I point out that, MMC process can be used to explain most of human visual functions in fundamental, but can not be effectively modelled by traditional visual processing ways including image segmentation, object recognition, object tracking etc. Furthermore, I state that MMC may be looked as an extension of Chen's theory of topological perception on human vision, and seems to be unsolvable using existing intelligent algorithm skills. Finally, along with the requirements of MMC problem, an interesting computational model, quantized topological matching principle can be derived by developing the idea of optimal transport theory. Above results may give us huge inspiration to develop more robust and interpretable machine vision models. | 翻訳日:2024-02-11 15:29:54 公開日:2024-02-02 |
# LFADSのFPGAによるリアルタイム神経科学実験 FPGA Deployment of LFADS for Real-time Neuroscience Experiments ( http://arxiv.org/abs/2402.04274v1 ) ライセンス: Link先を確認 | Xiaohan Liu, ChiJui Chen, YanLun Huang, LingChi Yang, Elham E Khoda, Yihui Chen, Scott Hauck, Shih-Chieh Hsu, Bo-Cheng Lai | (参考訳) 神経活動の大規模記録は、神経集団の動態を研究する新しい機会を提供している。
このような高次元計測を分析するための強力な方法は、低次元潜在力学を学ぶアルゴリズムをデプロイすることである。
lfads(latent factor analysis via dynamical systems)は、単一の実験で同時に記録された高次元神経スパイクデータから潜時ダイナミクスを推測するディープラーニング手法である。
この手法は、数ミリ秒で平均的な推論遅延を持つ複雑な脳信号のモデリングにおいて顕著な性能を示した。
多くのニューロンを同時に記録する能力は指数関数的に増加しており、計算アルゴリズムの低レイテンシ推論をデプロイする能力を構築することが重要である。
LFADSのリアルタイム処理能力を向上させるために,フィールドプログラマブルゲートアレイ(FPGA)にLFADSモデルの効率的な実装を導入する。
我々の実装では、Xilinx U55Cで1回の試行でデータを処理するために41.97$\mu$sの推論遅延を示す。 Large-scale recordings of neural activity are providing new opportunities to study neural population dynamics. A powerful method for analyzing such high-dimensional measurements is to deploy an algorithm to learn the low-dimensional latent dynamics. LFADS (Latent Factor Analysis via Dynamical Systems) is a deep learning method for inferring latent dynamics from high-dimensional neural spiking data recorded simultaneously in single trials. This method has shown a remarkable performance in modeling complex brain signals with an average inference latency in milliseconds. As our capacity of simultaneously recording many neurons is increasing exponentially, it is becoming crucial to build capacity for deploying low-latency inference of the computing algorithms. To improve the real-time processing ability of LFADS, we introduce an efficient implementation of the LFADS models onto Field Programmable Gate Arrays (FPGA). Our implementation shows an inference latency of 41.97 $\mu$s for processing the data in a single trial on a Xilinx U55C. | 翻訳日:2024-02-11 15:29:38 公開日:2024-02-02 |
# 自動車サービスによる農村住民のアクセシビリティ向上 Enhancing Accessibility of Rural Populations through Vehicle-based Services ( http://arxiv.org/abs/2402.05118v1 ) ライセンス: Link先を確認 | Clemens Pizzinini, Nils Justen, David Ziegler, Markus Lienkamp | (参考訳) 医療や教育といった重要な公共サービスへのアクセスの改善は、特にサハラ以南のアフリカの農村部において、人間開発に不可欠である。
しかし、信頼性の高い交通機関や公共施設は限られており、大きな課題となっている。
移動診療所などの移動施設は,地域住民の空間的アクセシビリティを高めるための費用対効果の高いソリューションを提供する。公共機関は,資源を効率的に配分し,移動施設の影響を最大化するために,詳細な需要分布データを要求する。
これには、最適な車両サービス停止場所を決定し、運用コストを見積もることが含まれる。
地域住民の空間的アクセシビリティを評価するため,GISデータとアクセシビリティ・スケーリング・ファクタを利用する。
遠隔地や過少な人口を考慮した需要構造を調整します。
平均走行距離を5kmに抑えるため,クラスタリングアルゴリズムを適用し,車両の停止位置を最適化する。
エチオピアの農村部における4つの公共サービスに着目したケーススタディでは,人口が広く分布する地域においても,移動施設が需要の39~62.2%に対応できることが示されている。
このアプローチは、サハラ以南のアフリカの艦隊運営者、政策立案者、公共当局を含む意思決定者を支援する。
空間的アクセシビリティの向上と資源配分の最適化により,本手法は低所得者に対する公共サービスの効果的な提供に寄与する。 Improving access to essential public services like healthcare and education is crucial for human development, particularly in rural Sub-Saharan Africa. However, limited reliable transportation and sparse public facilities present significant challenges. Mobile facilities like mobile clinics offer a cost-effective solution to enhance spatial accessibility for the rural population.Public authorities require detailed demand distribution data to allocate resources efficiently and maximize the impact of mobile facilities. This includes determining optimal vehicle service stop locations and estimating operational costs. Our integrated approach utilizes GIS data and an accessibility scaling factor to assess spatial accessibility for rural populations. We tailor demand structures to account for remote and underserved populations. To reduce average travel distances to 5 km, we apply a clustering algorithm and optimize vehicle service stop locations. In a case study in rural Ethiopia, focusing on four key public services, our analysis demonstrates that mobile facilities can address 39-62\% of unmet demand, even in areas with widely dispersed populations. This approach aids decision-makers, including fleet operators, policymakers, and public authorities in Sub-Saharan Africa, during project evaluation and planning for mobile facilities. By enhancing spatial accessibility and optimizing resource allocation, our methodology contributes to the effective delivery of essential public services to underserved populations. | 翻訳日:2024-02-11 15:15:52 公開日:2024-02-02 |
# EMO: 自動回帰言語モデリングのためのアースモーバー距離最適化 EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling ( http://arxiv.org/abs/2310.04691v7 ) ライセンス: Link先を確認 | Siyu Ren, Zhiyong Wu, Kenny Q. Zhu | (参考訳) ニューラル言語モデルは人間のテキストの確率モデルである。
それらは主に、経験的データ分布とモデル分布の間の前方のクロスエントロピーを最小化するmle(maximum likelihood estimation)を使用して訓練される。
しかし、これらのモデルで学習した分布から復号する際には、様々な退化現象が広く見られる。
その結果,(1)リコール優先性(2)負の多様性無知,(3)列車試験ミスマッチによる人間とモデル分布の整合のための距離指標として,前方方向のクロスエントロピーが準最適であることが判明した。
本稿では,自動回帰言語モデリングのための地球間距離最適化(EMO)を提案する。
EMOは、前述の課題に対処するために、地球移動器距離の本質的な性質を生かしている。
直接計算の複雑さが高いため、emoのエンドツーエンドトレーニングを容易にするために、さらに実現可能な上限を導入する。
EMOとMLEを用いて訓練した言語モデルの広範囲な評価を行う。
EMOはドメイン間のMLEよりも一貫して優れた言語モデリング性能を示す。
さらに、EMOは、わずか25,000の文で最小限の微調整を施して、下流のパフォーマンスを向上する。
これは、大規模な事前学習された言語モデルを強化するための軽量キャリブレーション方法としてのemoの膨大な可能性を強調している。 Neural language models are probabilistic models of human text. They are predominantly trained using maximum likelihood estimation (MLE), which is equivalent to minimizing the forward cross-entropy between the empirical data distribution and the model distribution. However, various degeneration phenomena are still widely observed when decoding from the distributions learned by such models. We establish that the forward cross-entropy is suboptimal as a distance metric for aligning human and model distribution due to its (1) recall-prioritization (2) negative diversity ignorance and (3) train-test mismatch. In this paper, we propose Earth Mover Distance Optimization (EMO) for auto-regressive language modeling. EMO capitalizes on the inherent properties of earth mover distance to address the aforementioned challenges. Due to the high complexity of direct computation, we further introduce a feasible upper bound for EMO to ease end-to-end training. Upon extensive evaluation of language models trained using EMO and MLE. We find that EMO demonstrates a consistently better language modeling performance than MLE across domains. Moreover, EMO demonstrates noteworthy enhancements in downstream performance with minimal fine-tuning on merely 25,000 sentences. This highlights the tremendous potential of EMO as a lightweight calibration method for enhancing large-scale pre-trained language models. | 翻訳日:2024-02-07 20:01:13 公開日:2024-02-02 |
# 科学文献における拷問語の検出 Detection of tortured phrases in scientific literature ( http://arxiv.org/abs/2402.03370v1 ) ライセンス: Link先を確認 | El\'ena Martel (SIGMA, LIG), Martin Lentschat (SIGMA, GETALP), Cyril Labb\'e (LIG, SIGMA ) | (参考訳) 本稿では,科学論文からいわゆる拷問フレーズを抽出するための各種自動検出手法を提案する。
これらの拷問されたフレーズ(例えば、信号からノイズへの信号ではなく、フラグからクレモアへのフラグ)は、盗聴検出から逃れるために使われるパラフレーズツールの結果である。
データセットを構築し、未文書の拷問句にフラグを付けるためのいくつかの戦略を評価しました。
提案およびテストされた手法は、言語モデルに基づいており、埋め込みの類似性またはマスクトークンの予測に基づいている。
トークン予測とスコアをチャンクレベルに伝播するアプローチが,最良の結果をもたらすことがわかった。
リコール値 .87 と精度値 .61 では、検証のためにドメインの専門家に提出される新しい拷問されたフレーズを検索することができる。 This paper presents various automatic detection methods to extract so called tortured phrases from scientific papers. These tortured phrases, e.g. flag to clamor instead of signal to noise, are the results of paraphrasing tools used to escape plagiarism detection. We built a dataset and evaluated several strategies to flag previously undocumented tortured phrases. The proposed and tested methods are based on language models and either on embeddings similarities or on predictions of masked token. We found that an approach using token prediction and that propagates the scores to the chunk level gives the best results. With a recall value of .87 and a precision value of .61, it could retrieve new tortured phrases to be submitted to domain experts for validation. | 翻訳日:2024-02-07 18:50:52 公開日:2024-02-02 |
# 医療分野におけるGoogleの音声認識と文分類の評価 Evaluation of Google's Voice Recognition and Sentence Classification for Health Care Applications ( http://arxiv.org/abs/2402.03369v1 ) ライセンス: Link先を確認 | Majbah Uddin, Nathan Huynh, Jose M Vidal, Kevin M Taaffe, Lawrence D Fredendall, and Joel S Greenstein | (参考訳) 本研究では、周術期サービス(Periop)における音声認識技術を用いて、Periopのスタッフがモバイル技術を用いてワークフローのマイルストーンを記録できるようにする。
このような音声認識技術を堅牢化すれば、モバイル技術による患者の血流改善やケアの質の向上が促進される。
この実験の目的は、データ入力やクエリタスクを中断することなく、Periopのスタッフがケアを提供することだった。
しかし、結果は、エンジニアリングマネージャがモバイル技術を使用してコミュニケーション性能を改善しようとする他の状況に一般化できる。
本研究は,処理後分類器(バッグ・オブ・センテンス,サポート・ベクター・マシン,最大エントロピー)を用いて,googleの音声認識能力を高めるものである。
実験では,3つの要因(原語句,縮小語句,パーソナライズ語句)を3つのレベル(ゼロトレーニング繰り返し,5トレーニング反復,10トレーニング反復)で検討した。
その結果,個人的フラージングは最も正確性が高く,個人の声を認識するための訓練は正確性も向上した。
単純ではあるが、bag-of-sentences分類器は音声認識の正確性を大幅に改善した。
最大エントロピーと支持ベクトルマシンアルゴリズムの分類効率はほぼ同一であることが判明した。
これらの結果は、エンジニアリングマネージャが後処理技術を使用することで、googleの音声認識技術を大幅に向上させることができることを示唆している。 This study examined the use of voice recognition technology in perioperative services (Periop) to enable Periop staff to record workflow milestones using mobile technology. The use of mobile technology to improve patient flow and quality of care could be facilitated if such voice recognition technology could be made robust. The goal of this experiment was to allow the Periop staff to provide care without being interrupted with data entry and querying tasks. However, the results are generalizable to other situations where an engineering manager attempts to improve communication performance using mobile technology. This study enhanced Google's voice recognition capability by using post-processing classifiers (i.e., bag-of-sentences, support vector machine, and maximum entropy). The experiments investigated three factors (original phrasing, reduced phrasing, and personalized phrasing) at three levels (zero training repetition, 5 training repetitions, and 10 training repetitions). Results indicated that personal phrasing yielded the highest correctness and that training the device to recognize an individual's voice improved correctness as well. Although simplistic, the bag-of-sentences classifier significantly improved voice recognition correctness. The classification efficiency of the maximum entropy and support vector machine algorithms was found to be nearly identical. These results suggest that engineering managers could significantly enhance Google's voice recognition technology by using post-processing techniques, which would facilitate its use in health care and other applications. | 翻訳日:2024-02-07 18:50:40 公開日:2024-02-02 |
# 正規化関連報酬を用いた選好フリーアライメント学習 Preference-free Alignment Learning with Regularized Relevance Reward ( http://arxiv.org/abs/2402.03469v1 ) ライセンス: Link先を確認 | Sungdong Kim and Minjoon Seo | (参考訳) 人間の好みから学ぶことは、Large Language Models(LLM)と人間の価値を一致させる鍵と考えられている。
しかし,人間好みデータセットで学習した報酬モデルでは,短所の話題外回答に対するスコアが短所よりも高い傾向がみられた。
この観察に動機づけられて,'関係' をアライメントの重要な目的とする,選好フリーなアプローチを探求する。
最初の試みでは、強化学習の報奨としてスコアを利用すると、レトリバーだけで得られる関連スコアが報酬ハッキング、すなわち望ましくないショートカットへの過剰最適化に対して脆弱であることが分かりました。
これを緩和するために、バニラ関係に効果的な帰納バイアスを組み込んで互いに正則化し、報奨関数を混合する: 正則化関連リワード(R^3$)。
r^3$は、ロバストな報酬信号を提供することで、プリファレンスベンチマークのパフォーマンスを大幅に改善する。
特に、$R^3$は、人間の嗜好を改善するために、人間の嗜好データセット(例えば、嗜好のない)を必要としない。
r^3$は人の好みを高めつつ副作用を最小限に抑える効果がある。
最後に、r^3$の汎用性を示し、追加のデータセットコストなしで様々なバックボーンやサイズでの命令調整モデルに一貫して改善する。
私たちのコードはhttps://github.com/naver-ai/rrrで利用可能です。 Learning from human preference has been considered key to aligning Large Language Models (LLMs) with human values. However, contrary to popular belief, our preliminary study reveals that reward models trained on human preference datasets tend to give higher scores to long off-topic responses than short on-topic ones. Motivated by this observation, we explore a preference-free approach utilizing `relevance' as a key objective for alignment. On our first attempt, we find that the relevance score obtained by a retriever alone is vulnerable to reward hacking, i.e., overoptimizing to undesired shortcuts, when we utilize the score as a reward for reinforcement learning. To mitigate it, we integrate effective inductive biases into the vanilla relevance to regularize each other, resulting in a mixture of reward functions: Regularized Relevance Reward ($R^3$). $R^3$ significantly improves performance on preference benchmarks by providing a robust reward signal. Notably, $R^3$ does not require any human preference datasets (i.e., preference-free), outperforming open-source reward models in improving human preference. Our analysis demonstrates that $R^3$ has advantages in elevating human preference while minimizing its side effects. Finally, we show the generalizability of $R^3$, consistently improving instruction-tuned models in various backbones and sizes without additional dataset cost. Our code is available at https://github.com/naver-ai/RRR. | 翻訳日:2024-02-07 18:13:24 公開日:2024-02-02 |
# 任意の線型変換による完全テンソル完全化 Exact Tensor Completion Powered by Arbitrary Linear Transforms ( http://arxiv.org/abs/2402.03468v1 ) ライセンス: Link先を確認 | Li Ge, Xue Jiang, Lin Chen | (参考訳) 本研究では,部分的な観測からテンソルを完全に復元することを目的としたテンソル完成問題について検討する。
既存の理論的な保証は、関連する変換が直交することを必要とし、その応用を妨げる。
本稿では、等方性や自己随伴性の制約から外れて、任意の線型変換による厳密テンソル完全性の理論的保証を確立する。
そのために、新しいテンソル-テンソル積を定義し、それがテンソル核ノルムの新たな定義へと繋がる。
これらのツールにより、乗算器の交互方向に基づく効率的なアルゴリズムが変換テンソル完備化プログラムの解法として設計され、理論境界が得られる。
このモデルと証明はテンソル完成の柔軟性を大幅に向上させ,提案手法の優位性を検証した。 In this work, a tensor completion problem is studied, which aims to perfectly recover the tensor from partial observations. Existing theoretical guarantee requires the involved transform to be orthogonal, which hinders its applications. In this paper, jumping out of the constraints of isotropy or self-adjointness, the theoretical guarantee of exact tensor completion with arbitrary linear transforms is established. To that end, we define a new tensor-tensor product, which leads us to a new definition of the tensor nuclear norm. Equipped with these tools, an efficient algorithm based on alternating direction of multipliers is designed to solve the transformed tensor completion program and the theoretical bound is obtained. Our model and proof greatly enhance the flexibility of tensor completion and extensive experiments validate the superiority of the proposed method. | 翻訳日:2024-02-07 18:12:55 公開日:2024-02-02 |
# リーマン確率勾配の時効に対する確率修正流 Stochastic Modified Flows for Riemannian Stochastic Gradient Descent ( http://arxiv.org/abs/2402.03467v1 ) ライセンス: Link先を確認 | Benjamin Gess, Sebastian Kassing, Nimit Rana | (参考訳) リーマン確率勾配流(RSGD)のリーマン勾配流への収束率と拡散過程、いわゆるリーマン確率勾配流(RSMF)の収束率を定量的に推定する。
確率微分幾何学のツールを用いて、RSGD は無限次元ウィナー過程によって駆動される RSMF の解によって近似できることを示す。
RSMFはRSGDのランダムなゆらぎを考慮し、したがって決定論的リーマン勾配流と比較して近似の順序を増大させる。
rsgd は指数写像のコスト効率のよい近似であるretraction map の概念を用いて構築されており、retraction map 上の仮定、多様体の幾何学、勾配のランダムな推定子に対する拡散近似の弱い誤差の量的境界を証明している。 We give quantitative estimates for the rate of convergence of Riemannian stochastic gradient descent (RSGD) to Riemannian gradient flow and to a diffusion process, the so-called Riemannian stochastic modified flow (RSMF). Using tools from stochastic differential geometry we show that, in the small learning rate regime, RSGD can be approximated by the solution to the RSMF driven by an infinite-dimensional Wiener process. The RSMF accounts for the random fluctuations of RSGD and, thereby, increases the order of approximation compared to the deterministic Riemannian gradient flow. The RSGD is build using the concept of a retraction map, that is, a cost efficient approximation of the exponential map, and we prove quantitative bounds for the weak error of the diffusion approximation under assumptions on the retraction map, the geometry of the manifold, and the random estimators of the gradient. | 翻訳日:2024-02-07 18:12:13 公開日:2024-02-02 |
# トラックフローに及ぼす人口と雇用特性の影響の探索 : 次世代nhts原産地データの解析 Exploring the Effects of Population and Employment Characteristics on Truck Flows: An Analysis of NextGen NHTS Origin-Destination Data ( http://arxiv.org/abs/2402.04019v1 ) ライセンス: Link先を確認 | Majbah Uddin, Yuandong Liu, and Hyeonsup Lim | (参考訳) トラック輸送は、ピックアップ・アンド・ドロップオフ・ポイントへのアクセスの柔軟性や配達の高速化など、アメリカの貨物輸送において支配的なモードのままである。
トラックが輸送する貨物量が大きいため、交通計画や投資決定において、人口と雇用特性がトラックフローに与える影響を理解することが重要である。
アメリカ合衆国連邦道路局は、次世代の全国家計旅行調査プログラムの一環として、トラック旅行の発着予定データを公表した。
このデータセットには、各州とワシントンd.c.内のメトロポリタンと非メトロポリタンの統計地域を含む583の事前定義されたゾーン内および範囲内における2020年のトラック旅行の総数が含まれている。
本研究では,米国国勢調査局のゾーンレベル人口と雇用特性を含む原産地レベルのトラック走行フローデータを拡張した。
国勢調査人口と郡の事業パターンデータが含まれている。
最終データセットは、マシンラーニングアルゴリズムベースのモデルであるExtreme Gradient Boosting(XGBoost)のトレーニングに使用された。
モデル結果を説明するためにShapley Additive ExPlanation (SHAP)を採用した。
その結果、ゾーン間の距離は最も重要な変数であり、トラックの流れと非線形な関係があった。 Truck transportation remains the dominant mode of US freight transportation because of its advantages, such as the flexibility of accessing pickup and drop-off points and faster delivery. Because of the massive freight volume transported by trucks, understanding the effects of population and employment characteristics on truck flows is critical for better transportation planning and investment decisions. The US Federal Highway Administration published a truck travel origin-destination data set as part of the Next Generation National Household Travel Survey program. This data set contains the total number of truck trips in 2020 within and between 583 predefined zones encompassing metropolitan and nonmetropolitan statistical areas within each state and Washington, DC. In this study, origin-destination-level truck trip flow data was augmented to include zone-level population and employment characteristics from the US Census Bureau. Census population and County Business Patterns data were included. The final data set was used to train a machine learning algorithm-based model, Extreme Gradient Boosting (XGBoost), where the target variable is the number of total truck trips. Shapley Additive ExPlanation (SHAP) was adopted to explain the model results. Results showed that the distance between the zones was the most important variable and had a nonlinear relationship with truck flows. | 翻訳日:2024-02-07 14:44:17 公開日:2024-02-02 |
# 生データを用いた解答セットプログラムのニューロシンボリック学習 Neuro-Symbolic Learning of Answer Set Programs from Raw Data ( http://arxiv.org/abs/2205.12735v8 ) ライセンス: Link先を確認 | Daniel Cunnington, Mark Law, Jorge Lobo, Alessandra Russo | (参考訳) 人工知能の究極の目標のひとつは、複雑な意思決定を支援することだ。
この目標を達成するための有望な方向はNeuro-Symbolic AIであり、これは象徴的なテクニックの解釈可能性と、生データから学ぶ深層学習の能力を組み合わせることを目的としている。
しかし、現在のアプローチでは、手作業によるシンボリック知識が必要であり、エンドツーエンドのトレーニングが考慮される場合、そのようなアプローチは定型プログラムの学習に制限されるか、バイナリニューラルネットワークのトレーニングに制限される。
本稿では,ニューラルネットワークを用いて生データから潜伏概念を抽出する手法であるNuro-Symbolic Inductive Learner (NSIL)を導入するとともに,潜伏概念を目標ラベルにマッピングする記号知識を学習する。
本手法の新規性は,ニューラル成分とシンボリック成分の両方のトレーニング性能に基づいて,シンボリック知識の学習をバイアスする手法である。
NP完全問題を含む3つの問題領域におけるNSILの評価を行った。
その結果,nsilは表現力のある知識を学習し,計算量的に複雑な問題を解き,精度とデータ効率の面で最先端の性能を達成できた。
コードと技術付録: https://github.com/dancunnington/nsil One of the ultimate goals of Artificial Intelligence is to assist humans in complex decision making. A promising direction for achieving this goal is Neuro-Symbolic AI, which aims to combine the interpretability of symbolic techniques with the ability of deep learning to learn from raw data. However, most current approaches require manually engineered symbolic knowledge, and where end-to-end training is considered, such approaches are either restricted to learning definite programs, or are restricted to training binary neural networks. In this paper, we introduce Neuro-Symbolic Inductive Learner (NSIL), an approach that trains a general neural network to extract latent concepts from raw data, whilst learning symbolic knowledge that maps latent concepts to target labels. The novelty of our approach is a method for biasing the learning of symbolic knowledge, based on the in-training performance of both neural and symbolic components. We evaluate NSIL on three problem domains of different complexity, including an NP-complete problem. Our results demonstrate that NSIL learns expressive knowledge, solves computationally complex problems, and achieves state-of-the-art performance in terms of accuracy and data efficiency. Code and technical appendix: https://github.com/DanCunnington/NSIL | 翻訳日:2024-02-07 07:31:01 公開日:2024-02-02 |
# EVEREST: 冗長な時空間トークンを除去した効率的なマスクビデオオートエンコーダ EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens ( http://arxiv.org/abs/2211.10636v4 ) ライセンス: Link先を確認 | Sunil Hwang, Jaehong Yoon, Youngwan Lee, Sung Ju Hwang | (参考訳) Masked Video Autoencoder (MVA) アプローチは、従来のビデオ表現学習法を著しく上回り、その可能性を実証している。
しかし、ランダムマスキング戦略による不正なトークン/フレームの予測には、過剰な計算とメモリを浪費する。
(例:16ノード以上、128のNVIDIA A100 GPUを持つ)。
この問題を解決するために,ビデオ中のパッチ間の不平等な情報密度を利用して,リッチなモーション特徴を含むトークンを発見し,事前学習と微調整の両方で非形式的なトークンを捨てる,驚くほど効率的な映像表現学習手法であるVERESTを提案する。
さらに,情報集約型フレーム選択戦略を提案し,最小冗長度で情報的および因果的フレームにフォーカスできるようにする。
提案手法は,MVAの計算とメモリ要求を大幅に低減し,マルチベンチマークと未計算のEgo4Dデータセットの計算およびメモリ重大ベースラインに匹敵する性能を保ちながら,1台のGPUで事前学習と微調整を可能にする。
ビデオ理解のさらなる研究の障壁を減らすことに、私たちの研究が貢献できることを願っています。 Masked Video Autoencoder (MVA) approaches have demonstrated their potential by significantly outperforming previous video representation learning methods. However, they waste an excessive amount of computations and memory in predicting uninformative tokens/frames due to random masking strategies. (e.g., over 16 nodes with 128 NVIDIA A100 GPUs). To resolve this issue, we exploit the unequal information density among the patches in videos and propose EVEREST, a surprisingly efficient MVA approach for video representation learning that finds tokens containing rich motion features and discards uninformative ones during both pre-training and fine-tuning. We further present an information-intensive frame selection strategy that allows the model to focus on informative and causal frames with minimal redundancy. Our method significantly reduces the computation and memory requirements of MVA, enabling the pre-training and fine-tuning on a single machine with 8 GPUs while achieving comparable performance to computation- and memory-heavy baselines on multiple benchmarks and the uncurated Ego4D dataset. We hope that our work contributes to reducing the barrier to further research on video understanding. | 翻訳日:2024-02-07 07:19:19 公開日:2024-02-02 |
# 映画におけるマイノリティ理解 : 思考理論のメタラーニングと評価 Few-Shot Character Understanding in Movies as an Assessment to Meta-Learning of Theory-of-Mind ( http://arxiv.org/abs/2211.04684v2 ) ライセンス: Link先を確認 | Mo Yu, Qiujing Wang, Shunchi Zhang, Yisi Sang, Kangsheng Pu, Zekai Wei, Han Wang, Liyan Xu, Jing Li, Yue Yu, Jie Zhou | (参考訳) 物語を読むとき、人間はいくつかの観察で新しい架空のキャラクターを素早く理解することができる。
これは、人間によるキャラクターの精神状態の推論、すなわち精神の理論(tom)のごく少数とメタラーニングの本質を反映しており、既存の研究では無視されている。
このギャップを新しいNLPデータセットであるToM-in-AMCで埋め、現実的な物語理解シナリオにおける機械によるToMのメタラーニングを初めて評価する。
私たちのデータセットは、1,000近い解析された映画スクリプトで構成されており、それぞれが、新しい映画で数シーンの開始シーンで、人間の迅速な消化能力を模倣するモデルを必要とする、少数のキャラクタ理解タスクに対応しています。
複数のToM次元の影響を明示的に評価する新しいToMプロンプト手法を提案する。
既存のベースラインモデルを超え、タスクのために複数のToM次元をモデリングすることの重要性を強調します。
我々の広範な人間研究は、以前見た映画に基づいてキャラクターの精神状態を推測することで、人間が我々の問題を解決することができることを検証している。
比較として,最先端の大規模言語モデル (GPT-4) とメタラーニングアルゴリズム (メタラーニングアルゴリズム) が20%以上遅れており,既存のアプローチのToM能力を著しく制限している。 When reading a story, humans can quickly understand new fictional characters with a few observations, mainly by drawing analogies to fictional and real people they already know. This reflects the few-shot and meta-learning essence of humans' inference of characters' mental states, i.e., theory-of-mind (ToM), which is largely ignored in existing research. We fill this gap with a novel NLP dataset, ToM-in-AMC, the first assessment of machines' meta-learning of ToM in a realistic narrative understanding scenario. Our dataset consists of ~1,000 parsed movie scripts, each corresponding to a few-shot character understanding task that requires models to mimic humans' ability of fast digesting characters with a few starting scenes in a new movie. We propose a novel ToM prompting approach designed to explicitly assess the influence of multiple ToM dimensions. It surpasses existing baseline models, underscoring the significance of modeling multiple ToM dimensions for our task. Our extensive human study verifies that humans are capable of solving our problem by inferring characters' mental states based on their previously seen movies. In comparison, our systems based on either state-of-the-art large language models (GPT-4) or meta-learning algorithms lags >20% behind, highlighting a notable limitation in existing approaches' ToM capabilities. | 翻訳日:2024-02-07 07:18:02 公開日:2024-02-02 |
# コンテキスト正規化層と応用 Context Normalization Layer with Applications ( http://arxiv.org/abs/2303.07651v2 ) ライセンス: Link先を確認 | Bilal Faye, Mohamed-Djallel Dilmi, Hanane Azzag, Mustapha Lebbah, Djamel Bouchaffra | (参考訳) 正規化は、データをより使いやすい表現に変換する前処理ステップである。
ディープニューラルネットワーク(DNN)の一部として、バッチ正規化(BN)技術は、内部共変量シフトの問題に対処するために正規化を使用する。
様々なDNNに広く統合されている汎用モジュールとしてパッケージ化して、トレーニングの安定化と高速化を実現している。
しかし、BNの効果はミニバッチサイズに依存しており、人口統計を推定する際にデータセットに存在する可能性のあるグループやクラスタを考慮に入れない。
本研究では,画像データに対する文脈正規化と呼ばれる新しい正規化手法を提案する。
このアプローチでは,各サンプルの特性に基づいて特徴量のスケーリングを調整し,対象タスクのコンテキストにデータ値を適用することにより,モデルの収束速度と性能を向上させる。
文脈正規化の有効性は様々なデータセットで示され、その性能は他の標準正規化手法と比較される。 Normalization is a pre-processing step that converts the data into a more usable representation. As part of the deep neural networks (DNNs), the batch normalization (BN) technique uses normalization to address the problem of internal covariate shift. It can be packaged as general modules, which have been extensively integrated into various DNNs, to stabilize and accelerate training, presumably leading to improved generalization. However, the effect of BN is dependent on the mini-batch size and it does not take into account any groups or clusters that may exist in the dataset when estimating population statistics. This study proposes a new normalization technique, called context normalization, for image data. This approach adjusts the scaling of features based on the characteristics of each sample, which improves the model's convergence speed and performance by adapting the data values to the context of the target task. The effectiveness of context normalization is demonstrated on various datasets, and its performance is compared to other standard normalization techniques. | 翻訳日:2024-02-07 07:07:47 公開日:2024-02-02 |
# データバイアス調査における特徴量差 Feature Importance Disparities for Data Bias Investigations ( http://arxiv.org/abs/2303.01704v3 ) ライセンス: Link先を確認 | Peter W. Chang, Leor Fishman, Seth Neel | (参考訳) 分類器における下流バイアスの1つの原因は、トレーニングデータに存在するバイアスである。
このようなバイアスの是正には、サブグループで別々のモデルをトレーニングしたり、収集プロセスでバイアスのある特徴を取り除いたり、実際の実験を行ってバイアスの源を突き止めたりといったコンテキスト依存的な介入が含まれる。
このようなデータバイアスの調査の必要性にもかかわらず、実践者を支援する自動化された方法はほとんどない。
本稿では、保護された機能と保護されていない機能からなるデータセット$X$と、保護されていない機能からなるデータセット$y$と、与えられた$X$を予測するregressor$h$と、トレーニングデータセットのサブセットである$(X, y)$に相当する$(f_j, g)$を出力する。
機械学習コミュニティは、指数関数的に大きなサブグループクラスでさえ、大きなFID値を持つサブグループを効率的に見つけることができ、実際、これらのグループは、標準の公正度測定値によって測定された潜在的に深刻なバイアスのあるサブグループに対応する。 It is widely held that one cause of downstream bias in classifiers is bias present in the training data. Rectifying such biases may involve context-dependent interventions such as training separate models on subgroups, removing features with bias in the collection process, or even conducting real-world experiments to ascertain sources of bias. Despite the need for such data bias investigations, few automated methods exist to assist practitioners in these efforts. In this paper, we present one such method that given a dataset $X$ consisting of protected and unprotected features, outcomes $y$, and a regressor $h$ that predicts $y$ given $X$, outputs a tuple $(f_j, g)$, with the following property: $g$ corresponds to a subset of the training dataset $(X, y)$, such that the $j^{th}$ feature $f_j$ has much larger (or smaller) influence in the subgroup $g$, than on the dataset overall, which we call feature importance disparity (FID). We show across $4$ datasets and $4$ common feature importance methods of broad interest to the machine learning community that we can efficiently find subgroups with large FID values even over exponentially large subgroup classes and in practice these groups correspond to subgroups with potentially serious bias issues as measured by standard fairness metrics. | 翻訳日:2024-02-07 07:07:33 公開日:2024-02-02 |
# 深層学習型COVID-19画像分類のためのGANによる拡張機能の評価 Performance of GAN-based augmentation for deep learning COVID-19 image classification ( http://arxiv.org/abs/2304.09067v2 ) ライセンス: Link先を確認 | Oleksandr Fedoruk, Konrad Klimaszewski, Aleksander Ogonowski, Rafa{\l} Mo\.zd\.zonek | (参考訳) 医学領域へのディープラーニングの適用における最大の課題は、トレーニングデータの可用性である。
データ拡張は、限られたデータセットに直面すると機械学習で使用される典型的な手法である。
古典的なアプローチでは、回転、クロッピング、明るさ変化などの画像変換が用いられる。
本研究では,covid-19胸部x線画像セットを用いて,生成的敵ネットワークのstylegan2-adaモデルを訓練する。
生成された画像の品質を評価した後、クラス間のバランスを改善するトレーニングデータセットを増やすために使用される。
文献ではまだ徹底的に研究されていない新型コロナウイルス陽性クラスを含む胸部X線画像の多クラス分類問題を考察する。
転送学習に基づくcovid-19胸部x線画像の分類を行った。
複数の深層畳み込みニューラルネットワークモデルの性能を比較した。
古典的画像拡張の検知性能,すなわち回転,切り欠き,明るさ変化に及ぼす効果について検討した。
さらに、従来の画像拡張とganベースの拡張を比較する。
最も正確なモデルは90.2%の精度のEfficientNet-B0で、単純なクラスバランスのデータセットでトレーニングされている。
GAN拡張アプローチは、考慮されたデータセットの古典的手法に準じるものである。 The biggest challenge in the application of deep learning to the medical domain is the availability of training data. Data augmentation is a typical methodology used in machine learning when confronted with a limited data set. In a classical approach image transformations i.e. rotations, cropping and brightness changes are used. In this work, a StyleGAN2-ADA model of Generative Adversarial Networks is trained on the limited COVID-19 chest X-ray image set. After assessing the quality of generated images they are used to increase the training data set improving its balance between classes. We consider the multi-class classification problem of chest X-ray images including the COVID-19 positive class that hasn't been yet thoroughly explored in the literature. Results of transfer learning-based classification of COVID-19 chest X-ray images are presented. The performance of several deep convolutional neural network models is compared. The impact on the detection performance of classical image augmentations i.e. rotations, cropping, and brightness changes are studied. Furthermore, classical image augmentation is compared with GAN-based augmentation. The most accurate model is an EfficientNet-B0 with an accuracy of 90.2 percent, trained on a dataset with a simple class balancing. The GAN augmentation approach is found to be subpar to classical methods for the considered dataset. | 翻訳日:2024-02-07 06:55:06 公開日:2024-02-02 |
# x-time:camsによる表データ機械学習を高速化するインメモリエンジン X-TIME: An in-memory engine for accelerating machine learning on tabular data with CAMs ( http://arxiv.org/abs/2304.01285v3 ) ライセンス: Link先を確認 | Giacomo Pedretti, John Moon, Pedro Bruel, Sergey Serebryakov, Ron M. Roth, Luca Buonanno, Archit Gajjar, Tobias Ziegler, Cong Xu, Martin Foltin, Paolo Faraboschi, Jim Ignowski, Catherine E. Graves | (参考訳) データ構造は、データ科学において最も一般的な形式である。
ディープラーニングモデルは、画像や音声などの非構造化データから学習することが証明されているが、表データから学習する場合の単純なアプローチよりも正確ではない。
対照的に、現代的なツリーベース機械学習(ML)モデルでは、構造化データから関連する情報を抽出する。
データサイエンスにおける必須要件は、例えば、科学的な発見を加速するためにシミュレーションを伴うクローズドループでモデルが使用される場合のモデル推論レイテンシを低減することである。
しかしながら、ハードウェアアクセラレーションコミュニティは、主にディープニューラルネットワークに焦点を当てており、他の機械学習形式を無視している。
これまでの研究では、ランダムフォレストを効率的にマッピングするためにアナログコンテンツアドレスメモリ(CAM)コンポーネントが用いられてきた。
本研究では,XGBoostやCatBoostといった最先端のツリーベースMLモデルの推論を可能にする,新たな精度向上型アナログCAMと,チップ上のプログラマブルネットワークを実装した,アナログデジタルアーキテクチャ全般に焦点をあてる。
16nm技術で1チップで評価した結果、最先端のGPUと比較して119倍のレイテンシが9740倍、ピーク電力は19Wであった。 Structured, or tabular, data is the most common format in data science. While deep learning models have proven formidable in learning from unstructured data such as images or speech, they are less accurate than simpler approaches when learning from tabular data. In contrast, modern tree-based Machine Learning (ML) models shine in extracting relevant information from structured data. An essential requirement in data science is to reduce model inference latency in cases where, for example, models are used in a closed loop with simulation to accelerate scientific discovery. However, the hardware acceleration community has mostly focused on deep neural networks and largely ignored other forms of machine learning. Previous work has described the use of an analog content addressable memory (CAM) component for efficiently mapping random forests. In this work, we focus on an overall analog-digital architecture implementing a novel increased precision analog CAM and a programmable network on chip allowing the inference of state-of-the-art tree-based ML models, such as XGBoost and CatBoost. Results evaluated in a single chip at 16nm technology show 119x lower latency at 9740x higher throughput compared with a state-of-the-art GPU, with a 19W peak power consumption. | 翻訳日:2024-02-07 06:53:48 公開日:2024-02-02 |
# 大規模言語モデルにおける近隣住民のテスト時間訓練 Test-Time Training on Nearest Neighbors for Large Language Models ( http://arxiv.org/abs/2305.18466v3 ) ライセンス: Link先を確認 | Moritz Hardt and Yu Sun | (参考訳) 最近の多くの取り組みは、検索されたデータを入力コンテキストに追加することで、検索による言語モデルを強化している。
このアプローチが成功するためには、取得したデータをトレーニングとテストの両方で追加する必要がある。
さらに、入力長が検索データのサイズに比例して大きくなると、計算コストとメモリコストはモダントランスフォーマーの二次的に増加する。
これらの問題を回避するため、我々は、標準的なトレーニング設定を用いて、検索したデータのモデルをテスト時に微調整する。
Pileデータセットのテキスト埋め込みに基づく大規模分散インデックスを構築する。
テスト入力毎に,本システムは隣人を検索し,テキスト上でモデルを微調整する。
驚いたことに、わずか20人の隣人による検索とトレーニングは、それぞれ1回の勾配イテレーションで、20以上の言語モデリングタスクでパフォーマンスが大幅に向上する。
例えば、隣人のテストタイムトレーニングでは、小さなGPT-2と10倍以上のGPT-Neoモデルのパフォーマンスギャップが大幅に狭まる。
しかし、十分なインデックスの品質とサイズは必要である。
私たちの研究は、言語モデリングのためのテストタイムトレーニングの最初のベースラインを確立します。 Many recent efforts augment language models with retrieval, by adding retrieved data to the input context. For this approach to succeed, the retrieved data must be added at both training and test time. Moreover, as input length grows linearly with the size of retrieved data, cost in computation and memory grows quadratically for modern Transformers. To avoid these complications, we simply fine-tune the model on retrieved data at test time, using its standard training setup. We build a large-scale distributed index based on text embeddings of the Pile dataset. For each test input, our system retrieves its neighbors and fine-tunes the model on their text. Surprisingly, retrieving and training on as few as 20 neighbors, each for only one gradient iteration, drastically improves performance across more than 20 language modeling tasks in the Pile. For example, test-time training with nearest neighbors significantly narrows the performance gap between a small GPT-2 and a GPT-Neo model more than 10 times larger. Sufficient index quality and size, however, are necessary. Our work establishes a first baseline of test-time training for language modeling. | 翻訳日:2024-02-07 06:31:43 公開日:2024-02-02 |
# codet: 機械翻訳の対比弁別評価のためのベンチマーク CODET: A Benchmark for Contrastive Dialectal Evaluation of Machine Translation ( http://arxiv.org/abs/2305.17267v2 ) ライセンス: Link先を確認 | Md Mahfuz Ibn Alam, Sina Ahmadi, Antonios Anastasopoulos | (参考訳) ニューラルマシン翻訳(NMT)システムは、ソース側の言語的バリエーションを扱う場合に、限られた堅牢性を示す。
これらの性能は、ドメインや第2言語話者が導入したバリエーションなど、言語使用の微妙な違いに直面すると劣化する傾向がある。
この観察を方言のバリエーションにも拡張することは直感的であるが、コミュニティがこの次元でmtシステムを評価できる作業は限られている。
この問題を軽減するために、12の異なる言語から851の異なるバリエーションを含む対照的な方言ベンチマークであるCODETをコンパイルしてリリースする。
また,方言の変種を効果的に翻訳する上で,大規模なMTモデルが直面する課題を定量的に示す。
すべてのデータとコードがリリースされた。 Neural machine translation (NMT) systems exhibit limited robustness in handling source-side linguistic variations. Their performance tends to degrade when faced with even slight deviations in language usage, such as different domains or variations introduced by second-language speakers. It is intuitive to extend this observation to encompass dialectal variations as well, but the work allowing the community to evaluate MT systems on this dimension is limited. To alleviate this issue, we compile and release CODET, a contrastive dialectal benchmark encompassing 891 different variations from twelve different languages. We also quantitatively demonstrate the challenges large MT models face in effectively translating dialectal variants. All the data and code have been released. | 翻訳日:2024-02-07 06:30:51 公開日:2024-02-02 |
# LLaVAR: テキストリッチ画像理解のための強化されたビジュアルインストラクションチューニング LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding ( http://arxiv.org/abs/2306.17107v2 ) ライセンス: Link先を確認 | Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun | (参考訳) インストラクションチューニングは、人間と対話するLarge Language Models(LLM)の優れた能力を解き放つ。
さらに、最近の命令追跡データセットには、視覚入力としての画像が含まれ、画像に基づく命令に対する応答を収集する。
しかし、視覚的な命令調整モデルでは、画像内のテキストの詳細を十分に理解できない。
この作業は、テキストに富んだ画像(例えば映画のポスター、本のカバーなど)で、現在の視覚的な命令チューニングパイプラインを強化する。
具体的には、最初に公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
さらに、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
収集したデータと過去のマルチモーダル命令フォローデータを組み合わせることで、LLaVARはテキストベースのVQAデータセット上でのLLaVAモデルの能力を大幅に向上し(最大20%の精度向上)、ScienceQAでは91.42%の精度を達成する。
GPT-4に基づく命令追従評価は、自然画像とテキストリッチ画像の両方において、モデルの改善を示す。
質的な分析を通じて、LLaVARはテキストと画像を組み合わせた最新の現実世界のオンラインコンテンツに基づいて、人間と有望な相互作用(推論、記述、実験など)を示す。
コード/データ/モデルをhttps://llavar.github.io/で公開しています。 Instruction tuning unlocks the superior capability of Large Language Models (LLM) to interact with humans. Furthermore, recent instruction-following datasets include images as visual inputs, collecting responses for image-based instructions. However, visual instruction-tuned models cannot comprehend textual details within images well. This work enhances the current visual instruction tuning pipeline with text-rich images (e.g., movie posters, book covers, etc.). Specifically, we first use publicly available OCR tools to collect results on 422K text-rich images from the LAION dataset. Moreover, we prompt text-only GPT-4 with recognized texts and image captions to generate 16K conversations, each containing question-answer pairs for text-rich images. By combining our collected data with previous multi-modal instruction-following data, our model, LLaVAR, substantially improves the LLaVA model's capability on text-based VQA datasets (up to 20% accuracy improvement) while achieving an accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following evaluation also demonstrates the improvement of our model on both natural images and text-rich images. Through qualitative analysis, LLaVAR shows promising interaction (e.g., reasoning, writing, and elaboration) skills with humans based on the latest real-world online content that combines text and images. We make our code/data/models publicly available at https://llavar.github.io/. | 翻訳日:2024-02-07 06:07:21 公開日:2024-02-02 |
# 不確実性を考慮した意思決定における文脈最適化手法の検討 A Survey of Contextual Optimization Methods for Decision Making under Uncertainty ( http://arxiv.org/abs/2306.10374v2 ) ライセンス: Link先を確認 | Utsav Sadana, Abhilash Chenreddy, Erick Delage, Alexandre Forel, Emma Frejinger, Thibaut Vidal | (参考訳) 近年,不確実性に直面した意思決定問題を解決するために,予測アルゴリズムと最適化手法を組み合わせた操作研究(OR)と機械学習(ML)コミュニティへの関心が高まっている。
これによりコンテキスト最適化の分野が生まれ、データ駆動の手順が開発され、最も最近更新された情報を最大限に活用する意思決定者にアクションを処方する。
データ駆動型最適化、規範的最適化、予測確率プログラミング、ポリシー最適化、(スマート)予測/見積-最適化、決定中心学習、(タスクベース)エンドツーエンドの学習/予測/最適化など、さまざまな名前でORとMLの文献にさまざまなモデルとメソッドが提示されている。
本稿では,1段階と2段階の確率的プログラミング問題に着目し,データから方針を学ぶための3つの主要なフレームワークを特定し,その強みと限界について論じる。
既存のモデルと手法を統一的な記法と用語で提示し,識別された3つのフレームワークに従って分類する。
この調査の目的は、この活発な研究分野の一般的な理解を強化し、mlと確率的プログラミングの統合におけるさらなる理論とアルゴリズムの進歩を刺激することである。 Recently there has been a surge of interest in operations research (OR) and the machine learning (ML) community in combining prediction algorithms and optimization techniques to solve decision-making problems in the face of uncertainty. This gave rise to the field of contextual optimization, under which data-driven procedures are developed to prescribe actions to the decision-maker that make the best use of the most recently updated information. A large variety of models and methods have been presented in both OR and ML literature under a variety of names, including data-driven optimization, prescriptive optimization, predictive stochastic programming, policy optimization, (smart) predict/estimate-then-optimize, decision-focused learning, (task-based) end-to-end learning/forecasting/optimization, etc. Focusing on single and two-stage stochastic programming problems, this review article identifies three main frameworks for learning policies from data and discusses their strengths and limitations. We present the existing models and methods under a uniform notation and terminology and classify them according to the three main frameworks identified. Our objective with this survey is to both strengthen the general understanding of this active field of research and stimulate further theoretical and algorithmic advancements in integrating ML and stochastic programming. | 翻訳日:2024-02-07 06:04:45 公開日:2024-02-02 |
# 異種処理効果推定のためのr-learningと逆分散重み付けの関連 The Connection Between R-Learning and Inverse-Variance Weighting for Estimation of Heterogeneous Treatment Effects ( http://arxiv.org/abs/2307.09700v2 ) ライセンス: Link先を確認 | Aaron Fisher | (参考訳) 条件平均治療効果(CATE)を推定する多くの方法は、重み付き擬似アウトカム回帰(POR)として表すことができる。
従来のPOR手法との比較は、擬似アウトカム変換の選択に注意を払っている。
しかし、我々はパフォーマンスの主要な要因が重みの選択であると主張する。
例えば、R-Learningは、逆分散重み(IVW)を持つPORを暗黙的に実行する。
CATE設定では、IVWは逆正当性重みに関連する不安定性を緩和し、バイアス項の便利な単純化をもたらす。
シミュレーションにおけるIVWの優れた性能を示し、我々の知識により、共変量分布の知識を仮定することなく、最も高速に示されるIVWの収束率を導出する。 Many methods for estimating conditional average treatment effects (CATEs) can be expressed as weighted pseudo-outcome regressions (PORs). Previous comparisons of POR techniques have paid careful attention to the choice of pseudo-outcome transformation. However, we argue that the dominant driver of performance is actually the choice of weights. For example, we point out that R-Learning implicitly performs a POR with inverse-variance weights (IVWs). In the CATE setting, IVWs mitigate the instability associated with inverse-propensity weights, and lead to convenient simplifications of bias terms. We demonstrate the superior performance of IVWs in simulations, and derive convergence rates for IVWs that are, to our knowledge, the fastest yet shown without assuming knowledge of the covariate distribution. | 翻訳日:2024-02-07 05:55:20 公開日:2024-02-02 |
# 量子音響デバイスにおけるニオブ酸リチウムの逆バルクフォノンモードの自由空間結合とキャラクタリゼーション Free-space coupling and characterization of transverse bulk phonon modes in lithium niobate in a quantum acoustic device ( http://arxiv.org/abs/2308.00807v2 ) ライセンス: Link先を確認 | J.M. Kitzman, J.R. Lane, C. Undershute, M. Drimmer, A. J. Schleusner, N.R. Beysengulov, C.A. Mikolas, J. Pollanen | (参考訳) 多モード集積量子音響デバイスにおける横バルクフォノンは、3次元(3D)マイクロ波空洞への自由空間結合によって励起され特徴付けられる。
これらのバルク音響モードは、大きな双極子アンテナを介してキャビティ電界に結合し、キャビティ線幅の順に相互作用強度を持つyカットニオブ酸リチウム基板の形状によって定義される。
有限要素モデリング (FEM) を用いて, キャビティ場によって励起されるバルクフォノンは, 既報値と一致するせん断速度で横偏光することを確認した。
これらの横方向の音響モードと3次元キャビティの電界との結合がデバイス双極子の相対方向に依存し、室温への結合が持続することを示す。
本研究は, 量子・古典的圧音響デバイスとの非接触結合を媒介する3次元マイクロ波キャビティの汎用性を示す。 Transverse bulk phonons in a multimode integrated quantum acoustic device are excited and characterized via their free-space coupling to a three-dimensional (3D) microwave cavity. These bulk acoustic modes are defined by the geometry of the Y-cut lithium niobate substrate in which they reside and couple to the cavity electric field via a large dipole antenna, with an interaction strength on the order of the cavity line-width. Using finite element modeling (FEM) we determine that the bulk phonons excited by the cavity field have a transverse polarization with a shear velocity matching previously reported values. We demonstrate how the coupling between these transverse acoustic modes and the electric field of the 3D cavity depends on the relative orientation of the device dipole, with a coupling persisting to room temperature. Our study demonstrates the versatility of 3D microwave cavities for mediating contact-less coupling to quantum, and classical, piezoacoustic devices. | 翻訳日:2024-02-07 05:42:37 公開日:2024-02-02 |
# U-Net Convolutional LSTMアーキテクチャによるGPM用統合マルチサテライトE検索のグローバル化 Global Precipitation Nowcasting of Integrated Multi-satellitE Retrievals for GPM: A U-Net Convolutional LSTM Architecture ( http://arxiv.org/abs/2307.10843v2 ) ライセンス: Link先を確認 | Reyhaneh Rahimi, Praveen Ravirathinam, Ardeshir Ebtehaj, Ali Behrangi, Jackson Tan, Vipin Kumar | (参考訳) 本稿では,30分毎の降水量を4時間のリードタイムでほぼ全世界的に予測する深層学習アーキテクチャを提案する。
このアーキテクチャは、U-NetとLSTM(convolutional long-term memory)ニューラルネットワークを融合させ、GPM(IMERG)用のIntegrated MultisatellitE Retrievalsのデータと、Global Forecast System(GFS)のいくつかの主要な降水ドライバを使用してトレーニングされる。
平均二乗誤差 (regression) と焦点損失 (classification) を含む異なるトレーニング損失関数が降水流の質に及ぼす影響について検討した。
その結果, 回帰ネットワークは光降水量(1.6mm/hr以下)を捕捉するのに有効であるが, 分類ネットワークは, 臨界成功指数 (csi) の観点から, 降水極値 (>8mm/hr) を現在キャスティングする回帰ネットワークよりも優れることがわかった。
.
ワッサースタイン距離を用いて,分類ネットワークによって予測される降水は回帰ネットワークよりもimergに密接なクラス確率分布を持つことを示した。
物理変数を組み込むことで、特に両ネットワークのリードタイムが長くなると、降雨のノキャスティングを改善できることが判明した。
IMERGを相対的な基準として、分数スキルスコア(FSS)のマルチスケール分析を行い、GFSの50kmに比べて10kmの解像度で流し込み機(FSS > 0.5)が熟練していることを示した。
4~mm/hr以上の降水量では、2時間のリードタイムで50km以上のスケールでFSSに熟練している。 This paper presents a deep learning architecture for nowcasting of precipitation almost globally every 30 min with a 4-hour lead time. The architecture fuses a U-Net and a convolutional long short-term memory (LSTM) neural network and is trained using data from the Integrated MultisatellitE Retrievals for GPM (IMERG) and a few key precipitation drivers from the Global Forecast System (GFS). The impacts of different training loss functions, including the mean-squared error (regression) and the focal-loss (classification), on the quality of precipitation nowcasts are studied. The results indicate that the regression network performs well in capturing light precipitation (below 1.6 mm/hr), but the classification network can outperform the regression network for nowcasting of precipitation extremes (>8 mm/hr), in terms of the critical success index (CSI).. Using the Wasserstein distance, it is shown that the predicted precipitation by the classification network has a closer class probability distribution to the IMERG than the regression network. It is uncovered that the inclusion of the physical variables can improve precipitation nowcasting, especially at longer lead times in both networks. Taking IMERG as a relative reference, a multi-scale analysis in terms of fractions skill score (FSS), shows that the nowcasting machine remains skillful (FSS > 0.5) at the resolution of 10 km compared to 50 km for GFS. For precipitation rates greater than 4~mm/hr, only the classification network remains FSS-skillful on scales greater than 50 km within a 2-hour lead time. | 翻訳日:2024-02-07 05:40:26 公開日:2024-02-02 |
# 私が見るものはどうすれば安全か?
画像制御自律性のための安全確率の校正予測 How Safe Am I Given What I See? Calibrated Prediction of Safety Chances for Image-Controlled Autonomy ( http://arxiv.org/abs/2308.12252v3 ) ライセンス: Link先を確認 | Zhenjiang Mao, Carson Sobolewski, Ivan Ruchkin | (参考訳) エンドツーエンドの学習は、自律的なシステムを開発するための主要なパラダイムとして登場した。
残念ながら、パフォーマンスと利便性により、安全性の保証がさらに困難になる。
この課題の鍵となる要素は、従来の保証法が発展する低次元かつ解釈可能な動的状態の概念がないことである。
本稿では,オンライン安全性予測問題に着目し,低次元状態を必要としない生成世界モデルに基づく構成可能な学習パイプライン群を提案する。
これらのパイプラインを実装するために,予測誘導分布シフトの下で,安全インフォームト表現と安全性ラベルの欠落を学習する上での課題を克服する。
これらのパイプラインは、共形予測に基づいて安全確率予測の統計的キャリブレーションを保証する。
画像制御システムの2つのケーススタディ(レーシングカーとカートポール)において,提案する学習パイプラインを広範囲に評価した。 End-to-end learning has emerged as a major paradigm for developing autonomous systems. Unfortunately, with its performance and convenience comes an even greater challenge of safety assurance. A key factor of this challenge is the absence of the notion of a low-dimensional and interpretable dynamical state, around which traditional assurance methods revolve. Focusing on the online safety prediction problem, this paper proposes a configurable family of learning pipelines based on generative world models, which do not require low-dimensional states. To implement these pipelines, we overcome the challenges of learning safety-informed latent representations and missing safety labels under prediction-induced distribution shift. These pipelines come with statistical calibration guarantees on their safety chance predictions based on conformal prediction. We perform an extensive evaluation of the proposed learning pipelines on two case studies of image-controlled systems: a racing car and a cartpole. | 翻訳日:2024-02-07 05:30:09 公開日:2024-02-02 |
# データ効率、次元減少、および一般化対称情報ボトルネック Data efficiency, dimensionality reduction, and the generalized symmetric information bottleneck ( http://arxiv.org/abs/2309.05649v2 ) ライセンス: Link先を確認 | K. Michael Martini and Ilya Nemenman | (参考訳) シンメトリ・インフォメーション・ボトルネック(Symmetric Information Bottleneck, SIB)は、2つのランダム変数を同時に圧縮して圧縮したバージョン間の情報を保存する次元還元技術である。
本稿では, 一般化対称性情報ボトルネック (GSIB) を導入し, 同時還元コストの異なる機能形態を探索する。
次に、このような同時圧縮のデータセットサイズ要件について検討する。
我々は、関連する損失関数の統計的揺らぎの有界とルート平均2乗推定を導出した。
GSIB圧縮を同時に行う場合、同じ誤差を1回に1回に1回圧縮するのに比べて、定性的に少ないデータを必要とする。
これは、各入力変数の独立圧縮よりも同時圧縮の方がデータ効率が良いという、より一般的な原則の例である。 The Symmetric Information Bottleneck (SIB), an extension of the more familiar Information Bottleneck, is a dimensionality reduction technique that simultaneously compresses two random variables to preserve information between their compressed versions. We introduce the Generalized Symmetric Information Bottleneck (GSIB), which explores different functional forms of the cost of such simultaneous reduction. We then explore the dataset size requirements of such simultaneous compression. We do this by deriving bounds and root-mean-squared estimates of statistical fluctuations of the involved loss functions. We show that, in typical situations, the simultaneous GSIB compression requires qualitatively less data to achieve the same errors compared to compressing variables one at a time. We suggest that this is an example of a more general principle that simultaneous compression is more data efficient than independent compression of each of the input variables. | 翻訳日:2024-02-07 05:18:14 公開日:2024-02-02 |
# Infinite Horizon Average Reward Markov決定過程におけるポリシー勾配アルゴリズムの回帰解析 Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision Processes ( http://arxiv.org/abs/2309.01922v3 ) ライセンス: Link先を確認 | Qinbo Bai, Washim Uddin Mondal, Vaneet Aggarwal | (参考訳) 本稿では、無限水平平均報酬マルコフ決定過程(MDP)について考察する。
この文脈における既存の作品と区別して、我々のアプローチは一般的なポリシー勾配に基づくアルゴリズムの力を利用し、線形mdp構造を仮定する制約から解放する。
政策勾配に基づくアルゴリズムを提案し,その大域収束特性を示す。
次に、提案アルゴリズムが$\tilde{\mathcal{o}}({t}^{3/4})$ regretであることを証明する。
本稿は,平均報酬シナリオの文脈において,一般パラメータ化ポリシ勾配アルゴリズムの残差計算に関する最初の研究を行ない,先駆的な試みである。 In this paper, we consider an infinite horizon average reward Markov Decision Process (MDP). Distinguishing itself from existing works within this context, our approach harnesses the power of the general policy gradient-based algorithm, liberating it from the constraints of assuming a linear MDP structure. We propose a policy gradient-based algorithm and show its global convergence property. We then prove that the proposed algorithm has $\tilde{\mathcal{O}}({T}^{3/4})$ regret. Remarkably, this paper marks a pioneering effort by presenting the first exploration into regret-bound computation for the general parameterized policy gradient algorithm in the context of average reward scenarios. | 翻訳日:2024-02-07 05:17:37 公開日:2024-02-02 |
# 1つのモデル 多数のスコア:多元分析を用いてフェアネスハッキングを防止し、モデル設計決定の影響を評価する One Model Many Scores: Using Multiverse Analysis to Prevent Fairness Hacking and Evaluate the Influence of Model Design Decisions ( http://arxiv.org/abs/2308.16681v2 ) ライセンス: Link先を確認 | Jan Simson and Florian Pfisterer and Christoph Kern | (参考訳) 世界中の多くのシステムがアルゴリズムによる意思決定(ADM)を使用して、これまで人間が行ってきた決定を(部分的に)自動化しています。
ADMシステムの下流効果は、データ内のバイアスがモデリングパイプラインに沿って緩和または強化されるため、システムの設計、実装、評価の間の決定に大きく依存する。
これらの決定の多くは、最終的なシステムにどのように影響するかを正確に知ることなく、暗黙的に行われます。
この問題を研究するために,心理学の分野から洞察を導き,アルゴリズム的公正性に対する多元的分析手法を導入する。
提案手法では,設計および評価中の暗黙的な決定を明示的な決定とし,その公平さを実証する。
決定を組み合わせることで、可能なすべての"一元的"な決定の組み合わせのグリッドを作ります。
これらの宇宙のそれぞれについて、フェアネスとパフォーマンスのメトリクスを計算します。
結果のデータセットを使用して、公正度スコアの変動性と堅牢性を調べ、公平性にどのように、どの決定が影響するかを確認することができる。
本研究は, 弱者に対する公衆医療保険のカバー範囲を推定する模範事例を用いて, 設計・評価決定の公平さをよりよく理解するために, マルチバース分析をいかに活用できるかを実証するものである。
結果から,システム評価に関する決定が,同じモデルに対して,極めて異なる公平度指標をもたらす可能性を強調した。
これは、悪質な俳優がフェアネスメトリックを最適化したり、あるいは「ハック」したりして、その評価方法を変更するだけで差別モデルをフェアとして表現できるため、問題である。
マルチバース解析がこの問題にどう対処できるかを説明する。 A vast number of systems across the world use algorithmic decision making (ADM) to (partially) automate decisions that have previously been made by humans. The downstream effects of ADM systems critically depend on the decisions made during a systems' design, implementation, and evaluation, as biases in data can be mitigated or reinforced along the modeling pipeline. Many of these decisions are made implicitly, without knowing exactly how they will influence the final system. To study this issue, we draw on insights from the field of psychology and introduce the method of multiverse analysis for algorithmic fairness. In our proposed method, we turn implicit decisions during design and evaluation into explicit ones and demonstrate their fairness implications. By combining decisions, we create a grid of all possible "universes" of decision combinations. For each of these universes, we compute metrics of fairness and performance. Using the resulting dataset, one can investigate the variability and robustness of fairness scores and see how and which decisions impact fairness. We demonstrate how multiverse analyses can be used to better understand fairness implications of design and evaluation decisions using an exemplary case study of predicting public health care coverage for vulnerable populations. Our results highlight how decisions regarding the evaluation of a system can lead to vastly different fairness metrics for the same model. This is problematic, as a nefarious actor could optimise or "hack" a fairness metric to portray a discriminating model as fair merely by changing how it is evaluated. We illustrate how a multiverse analysis can help to address this issue. | 翻訳日:2024-02-07 05:17:04 公開日:2024-02-02 |
# NoisyNN:学習システムにおける情報エントロピー変化の影響を探る NoisyNN: Exploring the Influence of Information Entropy Change in Learning Systems ( http://arxiv.org/abs/2309.10625v3 ) ライセンス: Link先を確認 | Xiaowei Yu, Zhe Huang, Yao Xue, Lu Zhang, Li Wang, Tianming Liu, Dajiang Zhu | (参考訳) 本研究では,様々なレベルのノイズインジェクション,すなわち潜在空間と入力画像を用いて,深層学習システムにおけるエントロピー変化の影響について検討する。
我々の手法を応用した一連のモデルは、まとめてNoisy Neural Networks (NoisyNN)と呼ばれ、NoisyViTやNoisyCNNのような例がある。
ノイズは従来、畳み込みニューラルネットワーク(cnns)や視覚トランスフォーマー(vits)といったさまざまなディープラーニングアーキテクチャや、画像分類や転送学習といったさまざまな学習タスクにおいて、有害な摂動と見なされる。
しかし,本研究では,ノイズが学習システムのエントロピーを変える効果的な方法であることを示す。
特定の雑音が特定の条件下で様々な深層建築の性能を高めることを実証する。
本研究では,情報エントロピーによって定義されるタスク複雑性を低減し,画像ネットなどの大規模画像データセットにおいて有意な性能向上を実験的に示すことにより,正の雑音から得られる拡張を理論的に証明する。
ここでは,情報エントロピーを用いてタスクの複雑さを定義する。
ノイズが作業の複雑さを軽減するのに役立つかどうかに基づいて、ノイズを正ノイズ(PN)と有害ノイズ(HN)の2つのタイプに分類する。
CNNとViTの大規模な実験では、積極的に正のノイズを注入することでパフォーマンスが向上し、ImageNet上で95$\%以上の前例のないトップ1の精度を達成した。
理論的な分析と実証的な証拠の両方が、正のノイズの存在は学習プロセスにとって有益であり、伝統的に有害なノイズが深層学習モデルに悪影響を及ぼすことを証明している。
ノイズの異なる役割は、特定のタスクに関するディープモデルに対する新しい説明を提供し、モデルパフォーマンスを改善するための新しいパラダイムを提供する。
さらに,情報エントロピー変化によって学習システムの性能に影響を及ぼすことができることを思い出させる。 We explore the impact of entropy change in deep learning systems via noise injection at different levels, i.e., the latent space and input image. The series of models that employ our methodology are collectively known as Noisy Neural Networks (NoisyNN), with examples such as NoisyViT and NoisyCNN. Noise is conventionally viewed as a harmful perturbation in various deep learning architectures, such as convolutional neural networks (CNNs) and vision transformers (ViTs), as well as different learning tasks like image classification and transfer learning. However, this work shows noise can be an effective way to change the entropy of the learning system. We demonstrate that specific noise can boost the performance of various deep architectures under certain conditions. We theoretically prove the enhancement gained from positive noise by reducing the task complexity defined by information entropy and experimentally show the significant performance gain in large image datasets, such as the ImageNet. Herein, we use the information entropy to define the complexity of the task. We categorize the noise into two types, positive noise (PN) and harmful noise (HN), based on whether the noise can help reduce the complexity of the task. Extensive experiments of CNNs and ViTs have shown performance improvements by proactively injecting positive noise, where we achieved an unprecedented top 1 accuracy of over 95$\%$ on ImageNet. Both theoretical analysis and empirical evidence have confirmed that the presence of positive noise, can benefit the learning process, while the traditionally perceived harmful noise indeed impairs deep learning models. The different roles of noise offer new explanations for deep models on specific tasks and provide a new paradigm for improving model performance. Moreover, it reminds us that we can influence the performance of learning systems via information entropy change. | 翻訳日:2024-02-07 05:07:00 公開日:2024-02-02 |
# Fabricator: 教師 LLM を用いたラベル付きトレーニングデータ生成用オープンソースツールキット Fabricator: An Open Source Toolkit for Generating Labeled Training Data with Teacher LLMs ( http://arxiv.org/abs/2309.09582v2 ) ライセンス: Link先を確認 | Jonas Golde, Patrick Haller, Felix Hamborg, Julian Risch, Alan Akbik | (参考訳) ほとんどのNLPタスクは教師付き学習としてモデル化されており、効果的モデルのトレーニングにはラベル付きトレーニングデータが必要である。
しかしながら、このようなデータを十分な品質と量で手作業で生成することはコストと時間を要することが知られている。
現在の研究は、データセット生成によるゼロショット学習と呼ばれる新しいパラダイムを探求することで、このボトルネックに対処している。
ここでは、下流のNLPモデルをトレーニングするために使用できるラベル付きデータを生成するために、強力なLCMにタスク記述を付与する。
例えば、llmは「肯定的な総合感情を持つ500本の映画レビューと否定的な感情を持つ500本の映画レビューを生成」するよう促されるかもしれない。
生成されたデータはバイナリ感情分類器のトレーニングに使用することができ、LLMを教師として有効活用してより小さな学生モデルを構築することができる。
このデモでは、データセット生成のためのオープンソースのpythonツールキットであるfabricatorを紹介します。
Fabricatorは、共通のデータセット生成ワークフローを実装し、幅広い下流のNLPタスク(テキスト分類、質問応答、エンティティ認識など)をサポートし、よく知られたライブラリと統合されて、迅速な実験を容易にする。
fabricatorでは,llmを用いた再現可能なデータセット生成実験を支援するとともに,このアプローチを下流タスクのトレーニングモデルに適用する支援を行う。 Most NLP tasks are modeled as supervised learning and thus require labeled training data to train effective models. However, manually producing such data at sufficient quality and quantity is known to be costly and time-intensive. Current research addresses this bottleneck by exploring a novel paradigm called zero-shot learning via dataset generation. Here, a powerful LLM is prompted with a task description to generate labeled data that can be used to train a downstream NLP model. For instance, an LLM might be prompted to "generate 500 movie reviews with positive overall sentiment, and another 500 with negative sentiment." The generated data could then be used to train a binary sentiment classifier, effectively leveraging an LLM as a teacher to a smaller student model. With this demo, we introduce Fabricator, an open-source Python toolkit for dataset generation. Fabricator implements common dataset generation workflows, supports a wide range of downstream NLP tasks (such as text classification, question answering, and entity recognition), and is integrated with well-known libraries to facilitate quick experimentation. With Fabricator, we aim to support researchers in conducting reproducible dataset generation experiments using LLMs and help practitioners apply this approach to train models for downstream tasks. | 翻訳日:2024-02-07 05:05:36 公開日:2024-02-02 |
# 米国の量子情報教育における株式とアクセスの調査 Investigating equity and access in US quantum information education ( http://arxiv.org/abs/2309.08629v2 ) ライセンス: Link先を確認 | Josephine C. Meyer, Gina Passante, Bethany R. Wilcox | (参考訳) 2018年の国家量子イニシアティブ法(National Quantum Initiative Act of 2018)により、量子情報科学(QIS)のコースワークと学位プログラムが米国の機関に急速に普及している。
しかし、先行研究は、量子労働力教育へのアクセスが不平等に分散しており、学生団体が米国の高等教育全体を示さない大規模研究機関の学生に不釣り合いに利益をもたらすことを示唆している。
2022年秋時点で456の高等教育機関にまたがるQISコースの分布を回帰分析を用いて分析し,特に制度分類,資金提供,地理的分布の軸に沿って,機関間の統計的に重要な格差を同定した。
また,新たに出現するqis学位プログラムの分布を簡潔に分析する。
我々は、教育者、政策立案者、量子労働開発イニシアチブに影響を及ぼすものについて論じる。 Driven in large part by the National Quantum Initiative Act of 2018, quantum information science (QIS) coursework and degree programs are rapidly spreading across US institutions. Yet prior work suggests that access to quantum workforce education is inequitably distributed, disproportionately benefiting students at large research-focused institutions whose student bodies are unrepresentative of US higher education as a whole. We use regression analysis to analyze the distribution of QIS coursework across 456 institutions of higher learning as of fall 2022, identifying statistically significant disparities across institutions in particular along the axes of institution classification, funding, and geographic distribution. We also conduct a brief analysis of the distribution of emerging dedicated QIS degree programs. We conclude with a discussion of implications for educators, policymakers, and quantum workforce development initiatives. | 翻訳日:2024-02-07 05:04:10 公開日:2024-02-02 |
# 政策優先による任意の競争力強化学習 Anytime-Competitive Reinforcement Learning with Policy Prior ( http://arxiv.org/abs/2311.01568v3 ) ライセンス: Link先を確認 | Jianyi Yang, Pengfei Li, Tongxin Li, Adam Wierman, Shaolei Ren | (参考訳) 本稿では,A-CMDP(Anytime-Competitive Markov Decision Process)の問題について検討する。
既存のCMDP(Constrained Markov Decision Processs)の作業は、期待されるコストをランダムなダイナミクスに制限しながら、期待される報酬を最適化することを目的としているが、特定のエピソードのコストは不満足に高い。
対照的に、A-CMDPの目標は、期待される報酬を最適化し、前回のポリシーに対して各エピソードのラウンドのバウンドコストを保証することである。
我々は,anytime-competitive reinforcement learning (acrl) と呼ばれる新しいアルゴリズムを提案する。
後悔の分析は、ポリシーが常に競争上の制約の下で達成可能な最適報酬に漸近的に一致することを示している。
炭素インテリジェントコンピューティングの適用実験は、ACRLの報酬性能とコスト制約保証を検証する。 This paper studies the problem of Anytime-Competitive Markov Decision Process (A-CMDP). Existing works on Constrained Markov Decision Processes (CMDPs) aim to optimize the expected reward while constraining the expected cost over random dynamics, but the cost in a specific episode can still be unsatisfactorily high. In contrast, the goal of A-CMDP is to optimize the expected reward while guaranteeing a bounded cost in each round of any episode against a policy prior. We propose a new algorithm, called Anytime-Competitive Reinforcement Learning (ACRL), which provably guarantees the anytime cost constraints. The regret analysis shows the policy asymptotically matches the optimal reward achievable under the anytime competitive constraints. Experiments on the application of carbon-intelligent computing verify the reward performance and cost constraint guarantee of ACRL. | 翻訳日:2024-02-07 04:18:38 公開日:2024-02-02 |
# surprisal driven $k$-nn によるロバストで解釈可能な非パラメトリック学習 Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric Learning ( http://arxiv.org/abs/2311.10246v2 ) ライセンス: Link先を確認 | Amartya Banerjee, Christopher J. Hazard, Jacob Beel, Cade Mack, Jack Xia, Michael Resnick, Will Goddin | (参考訳) 非パラメトリック学習は、基礎となるデータ分布について強い仮定をすることなく、データの複雑なパターンや関係をキャプチャすることを目的とした機械学習の基本的な概念である。
単純さと精通性から、このパラダイムで最もよく知られているアルゴリズムの1つは、$k$-nearest neighbors(k$-NN)アルゴリズムである。
本研究は,安全クリティカルなアプリケーションにおける機械学習の利用により,情報理論の観点から,従来の近接近傍アルゴリズムに新たな光を当て,単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対して頑健で解釈可能なフレームワークを提案する。
明示的なモデルトレーニングを必要とせずに、機能追加のための条件エントロピーを計算することで、データポイント重みと特徴貢献を決定できる。
これにより、完全なアトリビューションで詳細なデータポイントの影響重み付けを提供することで、機能コントリビュートを計算できます。
スケールとコンテキスト化が必要な従来の距離尺度を使う代わりに、$\textit{surprisal}$(観測結果と期待結果の違いを説明するのに必要な情報量)という新しい定式化を使う。
最後に,分類と異常検出において最先端の成果を達成し,統計学的に有意なデータセットにわたる回帰の競合結果を得ることにより,アーキテクチャの汎用性を示す。 Nonparametric learning is a fundamental concept in machine learning that aims to capture complex patterns and relationships in data without making strong assumptions about the underlying data distribution. Owing to simplicity and familiarity, one of the most well-known algorithms under this paradigm is the $k$-nearest neighbors ($k$-NN) algorithm. Driven by the usage of machine learning in safety-critical applications, in this work, we shed new light on the traditional nearest neighbors algorithm from the perspective of information theory and propose a robust and interpretable framework for tasks such as classification, regression, density estimation, and anomaly detection using a single model. We can determine data point weights as well as feature contributions by calculating the conditional entropy for adding a feature without the need for explicit model training. This allows us to compute feature contributions by providing detailed data point influence weights with perfect attribution and can be used to query counterfactuals. Instead of using a traditional distance measure which needs to be scaled and contextualized, we use a novel formulation of $\textit{surprisal}$ (amount of information required to explain the difference between the observed and expected result). Finally, our work showcases the architecture's versatility by achieving state-of-the-art results in classification and anomaly detection, while also attaining competitive results for regression across a statistically significant number of datasets. | 翻訳日:2024-02-07 04:06:57 公開日:2024-02-02 |
# ReLUネットワークの初期化と深度による指数スケーリングの活用 Compelling ReLU Network Initialization and Training to Leverage Exponential Scaling with Depth ( http://arxiv.org/abs/2311.18022v2 ) ライセンス: Link先を確認 | Max Milkert and David Hyde and Forrest Laine | (参考訳) ReLUアクティベーションを持つニューラルネットワークは、断片的線形関数の合成と見なすことができる。
このようなネットワークでは、入力領域上で表現される異なる線形領域の数は、深さで指数関数的にスケールする可能性があるが、初期パラメータがランダムに選択された場合、そうするとは期待できない。
この貧弱なスケーリングは、単純な関数を近似するために非常に大きなモデルを使う必要がある。
この問題に対処するために、我々はまず、指数的なアクティベーションパターンの出現を強制する方法で、ネットワークウェイトを再パラメータ化する新しいトレーニング戦略を導入する。
これらの新しいパラメータをトレーニングすることで、基礎となるモデルの重みを更新することで改善できる初期ソリューションを提供する。
このアプローチにより、ランダムに初期化された関数よりも数桁良い関数近似を生成することができる。 A neural network with ReLU activations may be viewed as a composition of piecewise linear functions. For such networks, the number of distinct linear regions expressed over the input domain has the potential to scale exponentially with depth, but it is not expected to do so when the initial parameters are chosen randomly. This poor scaling can necessitate the use of overly large models to approximate even simple functions. To address this issue, we introduce a novel training strategy: we first reparameterize the network weights in a manner that forces an exponential number of activation patterns to manifest. Training first on these new parameters provides an initial solution that can later be refined by updating the underlying model weights. This approach allows us to produce function approximations that are several orders of magnitude better than their randomly initialized counterparts. | 翻訳日:2024-02-07 03:55:22 公開日:2024-02-02 |
# 単変量放射基底関数層:低次元入力のための脳誘発深部神経層 Univariate Radial Basis Function Layers: Brain-inspired Deep Neural Layers for Low-Dimensional Inputs ( http://arxiv.org/abs/2311.16148v2 ) ライセンス: Link先を確認 | Daniel Jost, Basavasagar Patil, Xavier Alameda-Pineda, Chris Reinke | (参考訳) Deep Neural Networks (DNN) は関数近似の標準ツールとなり、高次元の入力データのためにほとんどのアーキテクチャが開発された。
しかし、現実世界の多くの問題は、標準のMLP(Multi-Layer Perceptrons)がデフォルトの選択となる低次元入力を持つ。
専門アーキテクチャに関する調査は欠落している。
代替として,Univariate Radial Basis Function (U-RBF) と呼ばれる新しいDNN層を提案する。
脳の感覚ニューロンと同様に、U-RBF層は個々の入力次元を異なる入力値に依存するニューロンの集団で処理する。
低次元関数回帰および強化学習タスクにおけるMLPと比較しての有効性を検証する。
その結果,対象関数が複雑になり近似が困難になると,U-RBFは特に有利であることがわかった。 Deep Neural Networks (DNNs) became the standard tool for function approximation with most of the introduced architectures being developed for high-dimensional input data. However, many real-world problems have low-dimensional inputs for which standard Multi-Layer Perceptrons (MLPs) are the default choice. An investigation into specialized architectures is missing. We propose a novel DNN layer called Univariate Radial Basis Function (U-RBF) layer as an alternative. Similar to sensory neurons in the brain, the U-RBF layer processes each individual input dimension with a population of neurons whose activations depend on different preferred input values. We verify its effectiveness compared to MLPs in low-dimensional function regressions and reinforcement learning tasks. The results show that the U-RBF is especially advantageous when the target function becomes complex and difficult to approximate. | 翻訳日:2024-02-07 03:54:08 公開日:2024-02-02 |
# LLMトレーニングにおける構造化パッケージングによる長期利用の改善 Structured Packing in LLM Training Improves Long Context Utilization ( http://arxiv.org/abs/2312.17296v3 ) ライセンス: Link先を確認 | Konrad Staniszewski, Szymon Tworkowski, Yu Zhao, Sebastian Jaszczur, Henryk Michalewski, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s | (参考訳) 近年の大規模言語モデルの発展は注目を浴びている。
しかし、現実世界のアプリケーションは、しばしば非効率的なコンテキスト情報の使用によって妨げられる。
本研究は,意味的相互依存を高めるためのトレーニングデータの構造化が,文脈利用の最適化に有効な戦略であることを示す。
この目的のために、情報検索手法を用いて、相互に関連のある文書を単一のトレーニングコンテキストに照合することで、トレーニング例を作成する方法であるStructured Packing for Long Context (SPLiCe)を紹介した。
我々はSPLiCeを大規模な3$Bと7$Bのモデルで実証的に検証し、より複雑な改善と下流タスクにおける長期使用率の向上を示す。
注目すべきは、SPLiCeでの比較的短い微調整は、これらのメリットを達成するのに十分です。
さらに、spliceの包括的研究により、テキストデータに対するパープレキシティの改善につながるコードデータのトレーニングのような興味深い転送効果が明らかになった。 Recent developments in long-context large language models have attracted considerable attention. Yet, their real-world applications are often hindered by ineffective context information use. This work shows that structuring training data to increase semantic interdependence is an effective strategy for optimizing context utilization. To this end, we introduce Structured Packing for Long Context (SPLiCe), a method for creating training examples by using information retrieval methods to collate mutually relevant documents into a single training context. We empirically validate SPLiCe on large $3$B and $7$B models, showing perplexity improvements and better long-context utilization on downstream tasks. Remarkably, already relatively short fine-tuning with SPLiCe is enough to attain these benefits. Additionally, the comprehensive study of SPLiCe reveals intriguing transfer effects such as training on code data leading to perplexity improvements on text data. | 翻訳日:2024-02-07 03:45:50 公開日:2024-02-02 |
# スペクトル状態空間モデル Spectral State Space Models ( http://arxiv.org/abs/2312.06837v2 ) ライセンス: Link先を確認 | Naman Agarwal, Daniel Suo, Xinyi Chen, Elad Hazan | (参考訳) 本稿では,長距離依存型予測タスクのシーケンスモデリングについて検討する。
スペクトルフィルタリングアルゴリズム(Hazan et al. (2017))を用いて線形力学系の学習に基づく状態空間モデル(SSM)の新しい定式化を提案する。
これにより、スペクトル状態空間モデルと呼ばれる新しいシーケンス予測アーキテクチャが生まれます。
スペクトル状態空間モデルには2つの利点がある。
第一に、それらの性能は基礎となる力学のスペクトルや問題の次元に依存しないため、証明可能なロバスト性を持つ。
第二に、これらのモデルは学習を必要としない固定畳み込みフィルタで構成され、理論と実践の両方においてSSMよりも優れている。
得られたモデルは合成力学系と様々なモダリティの長距離予測タスクで評価される。
これらの評価は、非常に長いメモリを必要とするタスクに対するスペクトルフィルタリングの理論的利点を支持する。 This paper studies sequence modeling for prediction tasks with long range dependencies. We propose a new formulation for state space models (SSMs) based on learning linear dynamical systems with the spectral filtering algorithm (Hazan et al. (2017)). This gives rise to a novel sequence prediction architecture we call a spectral state space model. Spectral state space models have two primary advantages. First, they have provable robustness properties as their performance depends on neither the spectrum of the underlying dynamics nor the dimensionality of the problem. Second, these models are constructed with fixed convolutional filters that do not require learning while still outperforming SSMs in both theory and practice. The resulting models are evaluated on synthetic dynamical systems and long-range prediction tasks of various modalities. These evaluations support the theoretical benefits of spectral filtering for tasks requiring very long range memory. | 翻訳日:2024-02-07 03:43:51 公開日:2024-02-02 |
# リアクターモデルを用いた効率的な並列強化学習フレームワーク Efficient Parallel Reinforcement Learning Framework using the Reactor Model ( http://arxiv.org/abs/2312.04704v2 ) ライセンス: Link先を確認 | Jacky Kwok, Marten Lohstroh, Edward A. Lee | (参考訳) 並列強化学習(rl)フレームワークは、rlワークロードを複数の計算リソースにマッピングするために必須であり、サンプルの生成、値の推定、ポリシーの改善を可能にする。
これらの計算パラダイムは、トレーニング、サービス、シミュレーションワークロードのシームレスな統合を必要とします。
Rayのような既存のフレームワークは、特に単一ノード上のアクター間の集中的な入出力と同期を要求するRLタスクにおいて、このオーケストレーションを効率的に管理していない。
本研究では,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装する手法を提案する。
これによりスケジューラは、アクター毎のロックの取得とリリース、調整関連のメッセージの送受信など、同期に必要な作業を排除することができる。
我々のフレームワークであるLingua Franca(LF)は、リアクターモデルに基づくコーディネーション言語であり、Pythonの真の並列性をサポートし、RLタスク用のデータフローグラフを自動的に生成する統一インターフェースを提供する。
シングルノードのマルチコア計算プラットフォームであるrayと比較して、lfはopenaiジムとatari環境で1.21倍と11.62倍のシミュレーションスループットを達成し、同期並列q-learningの平均トレーニング時間を31.2%削減し、マルチエージェントrl推論を5.12倍高速化する。 Parallel Reinforcement Learning (RL) frameworks are essential for mapping RL workloads to multiple computational resources, allowing for faster generation of samples, estimation of values, and policy improvement. These computational paradigms require a seamless integration of training, serving, and simulation workloads. Existing frameworks, such as Ray, are not managing this orchestration efficiently, especially in RL tasks that demand intensive input/output and synchronization between actors on a single node. In this study, we have proposed a solution implementing the reactor model, which enforces a set of actors to have a fixed communication pattern. This allows the scheduler to eliminate work needed for synchronization, such as acquiring and releasing locks for each actor or sending and processing coordination-related messages. Our framework, Lingua Franca (LF), a coordination language based on the reactor model, also supports true parallelism in Python and provides a unified interface that allows users to automatically generate dataflow graphs for RL tasks. In comparison to Ray on a single-node multi-core compute platform, LF achieves 1.21x and 11.62x higher simulation throughput in OpenAI Gym and Atari environments, reduces the average training time of synchronized parallel Q-learning by 31.2%, and accelerates multi-agent RL inference by 5.12x. | 翻訳日:2024-02-07 03:42:57 公開日:2024-02-02 |
# トリミング平均によるロバストクラスタリングの一般理論 A general theory for robust clustering via trimmed mean ( http://arxiv.org/abs/2401.05574v2 ) ライセンス: Link先を確認 | Soham Jana, Jianqing Fan, Sanjeev Kulkarni | (参考訳) クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最近の多くの結果は、サブガウシアンエラーのあるセントロイドの周りにデータが分散される場合の、最適なミスラベルの保証に重点を置いている。
しかし、制限付きサブガウシアンモデルはしばしば無効であり、様々な実世界のアプリケーションでは、centroids周辺に重いテール分布を示すか、堅牢なデータ駆動初期化で堅牢なクラスタリングを求める敵の攻撃に苦しむためである。
本稿では,新しい多変量トリミング平均型セントロイド推定を用いたハイブリッドクラスタリング手法を導入し,セントロイド周辺の一般誤差分布に対する弱初期化条件下での誤ラベル保証を実現する。
一致した下界が導出され、クラスタ数に依存する要因まで導出される。
さらに,本手法は,対向性外乱の存在下においても,最適な誤ラベルを生じさせる。
その結果,誤差がサブガウス分布に従う場合,サブガウス分布が減少する。
そこで本研究では,新しいデータ駆動型ロバスト初期化手法を提案するとともに,これらの初期センタロイド推定値が1つに近づくと,後続のクラスタリングアルゴリズムが最適誤ラベル率を達成するのに十分有効であることを示す。
さらに,誤差がガウス型であっても2クラスタ以上,誤差分布が重みを持つ2クラスタではロイドアルゴリズムが最適であることを示す。
シミュレーションデータと実データサンプルの両方が、ロバストな初期化手順とクラスタリングアルゴリズムの両方をサポートする。 Clustering is a fundamental tool in statistical machine learning in the presence of heterogeneous data. Many recent results focus primarily on optimal mislabeling guarantees, when data are distributed around centroids with sub-Gaussian errors. Yet, the restrictive sub-Gaussian model is often invalid in practice, since various real-world applications exhibit heavy tail distributions around the centroids or suffer from possible adversarial attacks that call for robust clustering with a robust data-driven initialization. In this paper, we introduce a hybrid clustering technique with a novel multivariate trimmed mean type centroid estimate to produce mislabeling guarantees under a weak initialization condition for general error distributions around the centroids. A matching lower bound is derived, up to factors depending on the number of clusters. In addition, our approach also produces the optimal mislabeling even in the presence of adversarial outliers. Our results reduce to the sub-Gaussian case when errors follow sub-Gaussian distributions. To solve the problem thoroughly, we also present novel data-driven robust initialization techniques and show that, with probabilities approaching one, these initial centroid estimates are sufficiently good for the subsequent clustering algorithm to achieve the optimal mislabeling rates. Furthermore, we demonstrate that the Lloyd algorithm is suboptimal for more than two clusters even when errors are Gaussian, and for two clusters when errors distributions have heavy tails. Both simulated data and real data examples lend further support to both of our robust initialization procedure and clustering algorithm. | 翻訳日:2024-02-07 03:19:05 公開日:2024-02-02 |
# CreINNs: 分類タスクの不確実性推定のためのCredal-Setインターバルニューラルネットワーク CreINNs: Credal-Set Interval Neural Networks for Uncertainty Estimation in Classification Tasks ( http://arxiv.org/abs/2401.05043v2 ) ライセンス: Link先を確認 | Kaizheng Wang, Keivan Shariatmadar, Shireen Kudukkil Manchingal, Fabio Cuzzolin, David Moens, Hans Hallez | (参考訳) 不確実性推定は、ニューラルネットワークの信頼性を向上させるためにますます魅力的になっている。
本研究では,分類タスク用に設計された新しいクレーダセット・インターバルニューラルネットワーク(CreINN)を提案する。
CreINNは伝統的なインターバルニューラルネットワーク構造を保持し、決定論的間隔で重みの不確実性を捉え、確率間隔の数学的枠組みを用いてクレダルセットを予測する。
分布外検出ベンチマーク(CIFAR10 vs SVHN)の実験的検証では、CreINNsはベイズニューラルネットワーク(BNN)やディープアンサンブル(DE)と比較して、疫学的不確実性評価よりも優れていた。
さらに、CreINNは変分BNNに比べて計算複雑性が顕著に減少し、DESよりもモデルサイズが小さい。 Uncertainty estimation is increasingly attractive for improving the reliability of neural networks. In this work, we present novel credal-set interval neural networks (CreINNs) designed for classification tasks. CreINNs preserve the traditional interval neural network structure, capturing weight uncertainty through deterministic intervals, while forecasting credal sets using the mathematical framework of probability intervals. Experimental validations on an out-of-distribution detection benchmark (CIFAR10 vs SVHN) showcase that CreINNs outperform epistemic uncertainty estimation when compared to variational Bayesian neural networks (BNNs) and deep ensembles (DEs). Furthermore, CreINNs exhibit a notable reduction in computational complexity compared to variational BNNs and demonstrate smaller model sizes than DEs. | 翻訳日:2024-02-07 03:18:15 公開日:2024-02-02 |
# 基準自由度の分析による効率的なコーパスサンプリングとポスト編集のための単語レベルASR品質評価 Word-Level ASR Quality Estimation for Efficient Corpus Sampling and Post-Editing through Analyzing Attentions of a Reference-Free Metric ( http://arxiv.org/abs/2401.11268v2 ) ライセンス: Link先を確認 | Golara Javadi, Kamer Ali Yuksel, Yunsu Kim, Thiago Castro Ferreira, Mohamed Al-Badrashiny | (参考訳) 自動音声認識(ASR)の分野では、高い精度で機能するだけでなく、意思決定プロセスに透明性を提供するモデルを求めることが重要である。
品質推定(QE)メトリクスのポテンシャルは、ASRシステムにおける説明可能な人工知能(XAI)を強化する新しいツールとして導入され、評価される。
実験と分析を通じて, 単語レベルの誤りを識別するNoRefER(No Reference Error Rate)測定の能力について検討した。
この調査は、コーパス構築プロセスにおけるNoRefERの実用性にも拡張され、洞察に富んだアノテーションでデータセットを増強する効果が実証された。
NoRefERの診断的側面について検討し、モデル行動や決定パターンに関する貴重な洞察を提供する能力を明らかにする。
これは、後編集ワークフローや微調整のASRモデルにおける仮説の優先順位付けに有効であることが証明されている。
この結果は,NoRefERが単なるエラー検出ツールであるだけでなく,ASRシステムの透明性,効率,有効性を高めるための包括的なフレームワークでもあることを示唆している。
結果の再現性を確保するため,本研究のソースコードはすべて公開されている。 In the realm of automatic speech recognition (ASR), the quest for models that not only perform with high accuracy but also offer transparency in their decision-making processes is crucial. The potential of quality estimation (QE) metrics is introduced and evaluated as a novel tool to enhance explainable artificial intelligence (XAI) in ASR systems. Through experiments and analyses, the capabilities of the NoRefER (No Reference Error Rate) metric are explored in identifying word-level errors to aid post-editors in refining ASR hypotheses. The investigation also extends to the utility of NoRefER in the corpus-building process, demonstrating its effectiveness in augmenting datasets with insightful annotations. The diagnostic aspects of NoRefER are examined, revealing its ability to provide valuable insights into model behaviors and decision patterns. This has proven beneficial for prioritizing hypotheses in post-editing workflows and fine-tuning ASR models. The findings suggest that NoRefER is not merely a tool for error detection but also a comprehensive framework for enhancing ASR systems' transparency, efficiency, and effectiveness. To ensure the reproducibility of the results, all source codes of this study are made publicly available. | 翻訳日:2024-02-07 03:07:49 公開日:2024-02-02 |
# 本当にデータが必要なのか? Do We Really Even Need Data? ( http://arxiv.org/abs/2401.08702v2 ) ライセンス: Link先を確認 | Kentaro Hoffman, Stephen Salerno, Awan Afiaz, Jeffrey T. Leek, Tyler H. McCormick | (参考訳) 人工知能と機械学習ツールがよりアクセスしやすくなり、科学者はデータ収集に新たな障害に直面し(例えば、コストの上昇、サーベイ応答率の低下)、事前訓練されたアルゴリズムからの予測を結果変数として使うようになった。
財政的な理由や物流的な理由には訴えるが、推論に標準的なツールを使用することで、真の観測できない結果が予測された値に置き換えられる場合、独立した変数と利害関係の関係を誤って表現することができる。
本稿では、このいわゆる「予測データによる参照」問題に固有の統計的課題を特徴付け、3つの潜在的な誤り源を解明する。
(i)予測結果と真に観察できない結果の関係
二 トレーニングデータの再サンプリング又は不確実性に対する機械学習モデルの堅牢性、及び
(iii)バイアスだけでなく、予測から究極の推論手順への不確実性も適切に伝播する。 As artificial intelligence and machine learning tools become more accessible, and scientists face new obstacles to data collection (e.g. rising costs, declining survey response rates), researchers increasingly use predictions from pre-trained algorithms as outcome variables. Though appealing for financial and logistical reasons, using standard tools for inference can misrepresent the association between independent variables and the outcome of interest when the true, unobserved outcome is replaced by a predicted value. In this paper, we characterize the statistical challenges inherent to this so-called ``inference with predicted data'' problem and elucidate three potential sources of error: (i) the relationship between predicted outcomes and their true, unobserved counterparts, (ii) robustness of the machine learning model to resampling or uncertainty about the training data, and (iii) appropriately propagating not just bias but also uncertainty from predictions into the ultimate inference procedure. | 翻訳日:2024-02-07 03:05:34 公開日:2024-02-02 |
# 逆行性干し草スタックにおける針の発見 : 分布歪みが最小限のエッジケースを探索するためのパラフレージングアプローチ Finding a Needle in the Adversarial Haystack: A Targeted Paraphrasing Approach For Uncovering Edge Cases with Minimal Distribution Distortion ( http://arxiv.org/abs/2401.11373v2 ) ライセンス: Link先を確認 | Aly M. Kassem, Sherif Saad | (参考訳) 言語モデル(LM)に対する敵対的攻撃は重要な関心事である。
特に、敵対的なサンプルは、小さな入力変化に対するモデルの感度を利用する。
これらの変化は入力サンプルのセマンティクスには重要でないように見えるが、モデルの性能は著しく低下する。
本稿では,モデルの性能を最も向上させる可能性のある課題サンプルを生成するためのポリシを自動的に学習する手法である,rl(tprl)による対象パラフレージングを提案する。
TPRLは、言語モデルであるFLAN T5をジェネレータとして利用し、近似ポリシー勾配を用いて自己学習ポリシーを用いて、敵の例を自動的に生成する。
TPRLの報酬は、分類器で誘導される混乱に基づいており、相互インプリケーションスコアを通じて元のテキストの意味を保存する。
そこで本研究では,TPRLによる自然敵攻撃の発見とモデル性能の向上を,自動評価と人的評価による4つのNLP分類タスクの広範な実験により実証し,評価した。
TPRLは強力なベースラインを上回り、分類器とデータセットをまたいだ一般化可能性を示し、言語モデリングと強化学習の強みを組み合わせて、多種多様な影響力のある敵の例を生成する。 Adversarial attacks against language models(LMs) are a significant concern. In particular, adversarial samples exploit the model's sensitivity to small input changes. While these changes appear insignificant on the semantics of the input sample, they result in significant decay in model performance. In this paper, we propose Targeted Paraphrasing via RL (TPRL), an approach to automatically learn a policy to generate challenging samples that most likely improve the model's performance. TPRL leverages FLAN T5, a language model, as a generator and employs a self learned policy using a proximal policy gradient to generate the adversarial examples automatically. TPRL's reward is based on the confusion induced in the classifier, preserving the original text meaning through a Mutual Implication score. We demonstrate and evaluate TPRL's effectiveness in discovering natural adversarial attacks and improving model performance through extensive experiments on four diverse NLP classification tasks via Automatic and Human evaluation. TPRL outperforms strong baselines, exhibits generalizability across classifiers and datasets, and combines the strengths of language modeling and reinforcement learning to generate diverse and influential adversarial examples. | 翻訳日:2024-02-07 02:51:41 公開日:2024-02-02 |
# ステークホルダー・アライメント型機械学習の安定的選好に向けて Towards Stable Preferences for Stakeholder-aligned Machine Learning ( http://arxiv.org/abs/2401.15268v2 ) ライセンス: Link先を確認 | Haleema Sheraz, Stefan C. Kremer, Joshua August Skorburg, Graham Taylor, Walter Sinnott-Armstrong, Kyle Boerstler | (参考訳) 臓器要求の増加を特徴とする腎臓割当の厳しい課題に対応するため,本研究は,この問題に対するデータ駆動ソリューションの開発に着手し,ステークホルダーの価値観も取り入れた。
本研究の目的は,腎割当に関する個人およびグループレベルの選好を学習する方法を考案することである。
Pairwise Kidney patient Online Survey」のデータに基づく。
2つの異なるデータセットを活用して,3つのレベル – 個人,グループ,安定性 – を評価します。
個人レベルのモデルは個別の選好を予測し、グループレベルのモデルは参加者間で選好を集約し、グループレベルの拡張である安定性レベルモデルは、時間とともにこれらの選好の安定性を評価する。
利害関係者の選好を腎臓割当プロセスに取り入れることで,臓器移植の倫理的次元を向上し,より透明性と公平な実践に寄与するとともに,道徳的価値観のアルゴリズム的意思決定への統合を促進する。 In response to the pressing challenge of kidney allocation, characterized by growing demands for organs, this research sets out to develop a data-driven solution to this problem, which also incorporates stakeholder values. The primary objective of this study is to create a method for learning both individual and group-level preferences pertaining to kidney allocations. Drawing upon data from the 'Pairwise Kidney Patient Online Survey.' Leveraging two distinct datasets and evaluating across three levels - Individual, Group and Stability - we employ machine learning classifiers assessed through several metrics. The Individual level model predicts individual participant preferences, the Group level model aggregates preferences across participants, and the Stability level model, an extension of the Group level, evaluates the stability of these preferences over time. By incorporating stakeholder preferences into the kidney allocation process, we aspire to advance the ethical dimensions of organ transplantation, contributing to more transparent and equitable practices while promoting the integration of moral values into algorithmic decision-making. | 翻訳日:2024-02-07 02:42:29 公開日:2024-02-02 |
# 深層学習型COVID-19画像分類のためのGANによる拡張の検討 Additional Look into GAN-based Augmentation for Deep Learning COVID-19 Image Classification ( http://arxiv.org/abs/2401.14705v2 ) ライセンス: Link先を確認 | Oleksandr Fedoruk, Konrad Klimaszewski, Aleksander Ogonowski and Micha{\l} Kruk | (参考訳) トレーニングデータの可用性は、医学画像のディープラーニング応用における大きな制限の1つだ。
データ拡張は、この問題を克服するための一般的なアプローチである。
新しいアプローチは機械学習ベースの拡張であり、特にGAN(Generative Adversarial Networks)を使用する。
この場合、GANは元のデータセットに似た画像を生成し、全体的なトレーニングデータ量が大きくなると、トレーニングされたネットワークのパフォーマンスが向上する。
GANモデルは、ジェネレータと識別器の2つのネットワークで構成され、フィードバックループに相互接続して競合環境を生成する。
この研究は、nvidiaが限定的なcovid-19胸部x線画像データセットでstylegan2-adaをトレーニングした以前の研究の継続です。
本稿では,GANに基づく拡張性能のデータセットサイズ依存性について検討し,小型サンプルに着目した。
1つはクラス当たり1000画像(合計4000画像)、もう1つはクラス当たり500画像(合計2000画像)である。
両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。
我々は,ganに基づく強調法の品質を,covid-19胸部x線画像の転送学習に基づく分類を用いて,2つの異なるアプローチ(古典的増補と無増補)と比較した。
結果は、異なる分類品質指標を用いて定量化され、文献の結果と比較される。
GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。
元のデータセットのサイズと分類の質との間には、拡張アプローチとは独立に相関がある。 The availability of training data is one of the main limitations in deep learning applications for medical imaging. Data augmentation is a popular approach to overcome this problem. A new approach is a Machine Learning based augmentation, in particular usage of Generative Adversarial Networks (GAN). In this case, GANs generate images similar to the original dataset so that the overall training data amount is bigger, which leads to better performance of trained networks. A GAN model consists of two networks, a generator and a discriminator interconnected in a feedback loop which creates a competitive environment. This work is a continuation of the previous research where we trained StyleGAN2-ADA by Nvidia on the limited COVID-19 chest X-ray image dataset. In this paper, we study the dependence of the GAN-based augmentation performance on dataset size with a focus on small samples. Two datasets are considered, one with 1000 images per class (4000 images in total) and the second with 500 images per class (2000 images in total). We train StyleGAN2-ADA with both sets and then, after validating the quality of generated images, we use trained GANs as one of the augmentations approaches in multi-class classification problems. We compare the quality of the GAN-based augmentation approach to two different approaches (classical augmentation and no augmentation at all) by employing transfer learning-based classification of COVID-19 chest X-ray images. The results are quantified using different classification quality metrics and compared to the results from the literature. The GAN-based augmentation approach is found to be comparable with classical augmentation in the case of medium and large datasets but underperforms in the case of smaller datasets. The correlation between the size of the original dataset and the quality of classification is visible independently from the augmentation approach. | 翻訳日:2024-02-07 02:40:13 公開日:2024-02-02 |
# 脱獄攻撃に対する言語モデルのロバストプロンプト最適化 Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks ( http://arxiv.org/abs/2401.17263v2 ) ライセンス: Link先を確認 | Andy Zhou and Bo Li and Haohan Wang | (参考訳) AIアライメントの進歩にもかかわらず、言語モデル(LM)は敵の攻撃や脱獄に弱いままであり、敵が入力プロンプトを変更して有害な行動を引き起こす。
いくつかの防衛案が提案されているが、それらは狭義の脅威モデルに焦点を合わせており、我々は効果的で普遍的で実用的であるべきだと考えている。
そこで本研究では,LMをジェイルブレーキング攻撃から守るための最初の敵目標と,無害な出力を実行するために勾配に基づくトークン最適化を用いるロバストプロンプト最適化(RPO)を提案する。
これにより、最適化時に見られるジェイルブレイクと未知のジェイルブレイクの両方に対する堅牢性を著しく改善し、スターリング-7Bの攻撃成功率を20回のジェイルブレイクで84%から8.66%に下げる。
さらに, RPO は良性使用に対して軽微な影響があり, 適応攻撃下では成功し, ブラックボックスモデルへの移行が可能であり, GPT-4 に対する最強攻撃 GUARD の成功率は 92% から 6% に低下することがわかった。 Despite advances in AI alignment, language models (LM) remain vulnerable to adversarial attacks or jailbreaking, in which adversaries modify input prompts to induce harmful behavior. While some defenses have been proposed, they focus on narrow threat models and fall short of a strong defense, which we posit should be effective, universal, and practical. To achieve this, we propose the first adversarial objective for defending LMs against jailbreaking attacks and an algorithm, robust prompt optimization (RPO), that uses gradient-based token optimization to enforce harmless outputs. This results in an easily accessible suffix that significantly improves robustness to both jailbreaks seen during optimization and unknown, held-out jailbreaks, reducing the attack success rate on Starling-7B from 84% to 8.66% across 20 jailbreaks. In addition, we find that RPO has a minor effect on benign use, is successful under adaptive attacks, and can transfer to black-box models, reducing the success rate of the strongest attack on GPT-4, GUARD, from 92% to 6%. | 翻訳日:2024-02-07 02:30:25 公開日:2024-02-02 |
# cmrnext: 野生のカメラとライダーのマッチングによる位置推定と余分なキャリブレーション CMRNext: Camera to LiDAR Matching in the Wild for Localization and Extrinsic Calibration ( http://arxiv.org/abs/2402.00129v2 ) ライセンス: Link先を確認 | Daniele Cattaneo and Abhinav Valada | (参考訳) LiDARは動的環境におけるマッピングとローカライゼーションに広く利用されている。
しかし、その高いコストは広く普及を制限する。
一方、安価なカメラを用いたLiDARマップの単眼位置決めは、大規模展開のためのコスト効率の良い代替手段である。
それでも、既存のほとんどのアプローチは、新しいセンサーのセットアップと環境への一般化に苦労し、再訓練や微調整を必要としている。
本稿では,センサ固有パラメータに依存しないカメラ-LIDARマッチングの新しいアプローチであるCMRNextについて述べる。
CMRNextは、クロスモーダルデータとロバストポーズ推定のための標準的な幾何学的手法をマッチングするために、ディープニューラルネットワークの最近の進歩を活用している。
光フロー推定問題として画素マッチング問題を再構成し、その結果の対応に基づいてパースペクティブ・n・ポイント問題を解くことにより、カメラとLiDAR点雲の相対的なポーズを求める。
3つの公開データセットと3つの社内ロボットを含む6つの異なるロボットプラットフォーム上でCMRNextを広範囲に評価した。
実験により,CMRNextは両タスクの既存手法よりも優れており,従来は見つからなかった環境やセンサのセットアップをゼロショットで効果的に一般化することを示した。
コードと事前訓練されたモデルはhttp://cmrnext.cs.uni-freiburg.deで公開しています。 LiDARs are widely used for mapping and localization in dynamic environments. However, their high cost limits their widespread adoption. On the other hand, monocular localization in LiDAR maps using inexpensive cameras is a cost-effective alternative for large-scale deployment. Nevertheless, most existing approaches struggle to generalize to new sensor setups and environments, requiring retraining or fine-tuning. In this paper, we present CMRNext, a novel approach for camera-LIDAR matching that is independent of sensor-specific parameters, generalizable, and can be used in the wild for monocular localization in LiDAR maps and camera-LiDAR extrinsic calibration. CMRNext exploits recent advances in deep neural networks for matching cross-modal data and standard geometric techniques for robust pose estimation. We reformulate the point-pixel matching problem as an optical flow estimation problem and solve the Perspective-n-Point problem based on the resulting correspondences to find the relative pose between the camera and the LiDAR point cloud. We extensively evaluate CMRNext on six different robotic platforms, including three publicly available datasets and three in-house robots. Our experimental evaluations demonstrate that CMRNext outperforms existing approaches on both tasks and effectively generalizes to previously unseen environments and sensor setups in a zero-shot manner. We make the code and pre-trained models publicly available at http://cmrnext.cs.uni-freiburg.de . | 翻訳日:2024-02-07 02:16:25 公開日:2024-02-02 |
# LLMの政治的選好 The Political Preferences of LLMs ( http://arxiv.org/abs/2402.01789v1 ) ライセンス: Link先を確認 | David Rozado | (参考訳) 本稿では,Large Language Models (LLMs) に埋め込まれた政治的嗜好を包括的に分析する。
すなわち、テストテイカーの政治的嗜好を特定するために設計された11の政治的指向試験を、クローズドかつオープンソースの両方で24の最先端の会話型LLMに実施する。
以上の結果から,政治的意味を持つ質問・意見を調査した場合,ほとんどの会話型llmは,左中心的視点に対する嗜好を表わすものとして,ほとんどの政治試験機器によって認識される反応を生じる傾向が示唆された。
これは、人間との会話に最適化されたllmが構築されるベースモデル(すなわち基盤モデル)には当てはまらないことに注意する。
しかし,質問に忠実に答えるベースモデルの準最適性能は,政治的指向テストによる分類の解釈に注意を喚起する。
結論は定かではないが,本稿は政治的嗜好をLSMに組み込むことが,主に事前訓練後に起こりうるという興味深い仮説の予備的証拠を提供する。
すなわち、教師付き微調整(SFT)および/または強化学習(RL)段階における会話型LLM訓練パイプラインである。
我々は、この仮説をさらに支持し、LSMは、控えめな計算とカスタムデータのみを必要とするSFTを介して、政治的スペクトルのターゲット位置で容易に操縦可能であることを示し、LSMに政治的嗜好を印字するSFTの能力を示す。
LLMは検索エンジンやウィキペディアなどのより伝統的な情報ソースを廃止し始めているため、LLMに埋め込まれた政治的偏見が社会に重大な影響を及ぼす。 We report here a comprehensive analysis about the political preferences embedded in Large Language Models (LLMs). Namely, we administer 11 political orientation tests, designed to identify the political preferences of the test taker, to 24 state-of-the-art conversational LLMs, both close and open source. The results indicate that when probed with questions/statements with political connotations most conversational LLMs tend to generate responses that are diagnosed by most political test instruments as manifesting preferences for left-of-center viewpoints. We note that this is not the case for base (i.e. foundation) models upon which LLMs optimized for conversation with humans are built. However, base models' suboptimal performance at coherently answering questions suggests caution when interpreting their classification by political orientation tests. Though not conclusive, our results provide preliminary evidence for the intriguing hypothesis that the embedding of political preferences into LLMs might be happening mostly post-pretraining. Namely, during the supervised fine-tuning (SFT) and/or Reinforcement Learning (RL) stages of the conversational LLMs training pipeline. We provide further support for this hypothesis by showing that LLMs are easily steerable into target locations of the political spectrum via SFT requiring only modest compute and custom data, illustrating the ability of SFT to imprint political preferences onto LLMs. As LLMs have started to displace more traditional information sources such as search engines or Wikipedia, the implications of political biases embedded in LLMs has important societal ramifications. | 翻訳日:2024-02-07 02:07:00 公開日:2024-02-02 |
# LitLLM: 科学文献レビューのためのツールキット LitLLM: A Toolkit for Scientific Literature Review ( http://arxiv.org/abs/2402.01788v1 ) ライセンス: Link先を確認 | Shubham Agarwal, Issam H. Laradji, Laurent Charlin, Christopher Pal | (参考訳) 科学論文に対する文献レビューの実施は、研究の理解、限界、既存の研究に基づく構築に不可欠である。
自動文献レビュージェネレータをアピールするのは面倒な作業である。
残念ながら、LLM(Large Language Models)を使ってこのようなレビューを生成する既存の作品には、大きな制限がある。
彼らは非現実的な情報を幻覚的に表現し、訓練されていない最新の研究を無視する傾向がある。
これらの制約に対処するために,LLMの助けを借りて,特殊的なプロンプトと指導を行うRAG(Retrieval Augmented Generation)の原理に基づくツールキットを提案する。
提案システムでは,まず,既製のLLMを用いてユーザが提供する抽象文をキーワードに要約することで,関連論文の検索を開始する。
著者は、関連する論文やキーワードを補足することで検索を強化し、適切な検索プロセスに寄与することができる。
第2に、ユーザが提供する抽象化に基づいて、検索した論文を再ランクする。
そして、再ランクされた結果と要約とに基づいて関連作業部を生成する。
従来の方法に比べて,文献レビューに要する時間と労力は大幅に削減され,ツールキットを効率的な代替手段として確立しています。
私たちのオープンソースツールキットはhttps://github.com/shubhamagarwal92/LitLLMとHuggingfaceスペース(https://huggingface.co/spaces/shubhamagarwal92/LitLLM)で利用できます。 Conducting literature reviews for scientific papers is essential for understanding research, its limitations, and building on existing work. It is a tedious task which makes an automatic literature review generator appealing. Unfortunately, many existing works that generate such reviews using Large Language Models (LLMs) have significant limitations. They tend to hallucinate-generate non-actual information-and ignore the latest research they have not been trained on. To address these limitations, we propose a toolkit that operates on Retrieval Augmented Generation (RAG) principles, specialized prompting and instructing techniques with the help of LLMs. Our system first initiates a web search to retrieve relevant papers by summarizing user-provided abstracts into keywords using an off-the-shelf LLM. Authors can enhance the search by supplementing it with relevant papers or keywords, contributing to a tailored retrieval process. Second, the system re-ranks the retrieved papers based on the user-provided abstract. Finally, the related work section is generated based on the re-ranked results and the abstract. There is a substantial reduction in time and effort for literature review compared to traditional methods, establishing our toolkit as an efficient alternative. Our open-source toolkit is accessible at https://github.com/shubhamagarwal92/LitLLM and Huggingface space (https://huggingface.co/spaces/shubhamagarwal92/LitLLM) with the video demo at https://youtu.be/E2ggOZBAFw0. | 翻訳日:2024-02-07 02:06:32 公開日:2024-02-02 |
# 公正信用評価のための分布ロバスト最適化手法 A Distributionally Robust Optimisation Approach to Fair Credit Scoring ( http://arxiv.org/abs/2402.01811v1 ) ライセンス: Link先を確認 | Pablo Casas, Christophe Mues, Huan Yu | (参考訳) 信用スコアリングは欧州委員会と米大統領の執行部がハイリスクな分類タスクとして分類しており、特定のグループに偏見を抱くモデルに基づいてローン承認決定を下すことの潜在的危険が懸念されている。
この懸念に対処するため、近年の信用スコアリング研究は、分類システムにおけるバイアスと不公平な扱いを減らすために、機械学習コミュニティが進める公平性向上技術の範囲を検討した。
公平性の定義やそれらが課すアプローチは様々であるが、これらの手法のほとんどは結果の堅牢性を無視している。
これにより、トレーニングセット内で不公平な扱いが効果的に修正される状況が生まれるが、サンプル外の分類を作成する場合、不公平な扱いが再び発生する。
そこで本論文では,分散ロバスト最適化(DRO)法をクレジットスコアリングに適用する方法について検討し,公平性,正しく分類する能力,限界割合の変化に対する解の堅牢性について実証的に評価する。
このようにして、DRO法はフェアネスの面で大幅に改善され、性能がほとんど損なわれない。
これらの結果から,DROはクレジットスコアリングの公平性を向上し,これらのシステムを効率的に実装するためのさらなる進歩が期待できる。
さらに,本分析では,分類基準の選択に依存するため,一般的なフェアネス指標の多くは信用スコア設定には適さないことが示唆された。 Credit scoring has been catalogued by the European Commission and the Executive Office of the US President as a high-risk classification task, a key concern being the potential harms of making loan approval decisions based on models that would be biased against certain groups. To address this concern, recent credit scoring research has considered a range of fairness-enhancing techniques put forward by the machine learning community to reduce bias and unfair treatment in classification systems. While the definition of fairness or the approach they follow to impose it may vary, most of these techniques, however, disregard the robustness of the results. This can create situations where unfair treatment is effectively corrected in the training set, but when producing out-of-sample classifications, unfair treatment is incurred again. Instead, in this paper, we will investigate how to apply Distributionally Robust Optimisation (DRO) methods to credit scoring, thereby empirically evaluating how they perform in terms of fairness, ability to classify correctly, and the robustness of the solution against changes in the marginal proportions. In so doing, we find DRO methods to provide a substantial improvement in terms of fairness, with almost no loss in performance. These results thus indicate that DRO can improve fairness in credit scoring, provided that further advances are made in efficiently implementing these systems. In addition, our analysis suggests that many of the commonly used fairness metrics are unsuitable for a credit scoring setting, as they depend on the choice of classification threshold. | 翻訳日:2024-02-07 01:55:12 公開日:2024-02-02 |
# 近決定的回帰における不確実性 Misspecification uncertainties in near-deterministic regression ( http://arxiv.org/abs/2402.01810v1 ) ライセンス: Link先を確認 | Thomas D Swinburne and Danny Perez | (参考訳) 期待損失は、学習のための堅牢なPAC-Bayes境界を持つモデル一般化誤差の上限である。
しかし、損失最小化は、モデルが正確に観測を再現できない不特定性を無視することが知られている。
これにより、大規模なデータやパラメータ不足のリミットにおいて、パラメータの不確実性が著しく過小評価される。
本研究では, ほぼ決定論的, 不特定, 過度にパラメータ化された代理モデルの一般化誤差を解析した。
後方分布は、発散した一般化誤差を避けるためにすべてのトレーニングポイントをカバーする必要があり、この制約を尊重するアンサンブル {ansatz} を導出しなければならない。
原子論的機械学習における高次元データセットに適用する前に、モデル問題に対して効率的なアプローチが示される。
誤特定によるパラメータの不確実性は、過度なパラメータ化限界に留まり、正確な予測とテストエラーのバウンディングをもたらす。 The expected loss is an upper bound to the model generalization error which admits robust PAC-Bayes bounds for learning. However, loss minimization is known to ignore misspecification, where models cannot exactly reproduce observations. This leads to significant underestimates of parameter uncertainties in the large data, or underparameterized, limit. We analyze the generalization error of near-deterministic, misspecified and underparametrized surrogate models, a regime of broad relevance in science and engineering. We show posterior distributions must cover every training point to avoid a divergent generalization error and derive an ensemble {ansatz} that respects this constraint, which for linear models incurs minimal overhead. The efficient approach is demonstrated on model problems before application to high dimensional datasets in atomistic machine learning. Parameter uncertainties from misspecification survive in the underparametrized limit, giving accurate prediction and bounding of test errors. | 翻訳日:2024-02-07 01:53:50 公開日:2024-02-02 |
# PhenoLinker:異種グラフニューラルネットワークを用いたPhenotype-Gene Link予測と説明 PhenoLinker: Phenotype-Gene Link Prediction and Explanation using Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2402.01809v1 ) ライセンス: Link先を確認 | Jose L. Mellina Andreu, Luis Bernal, Antonio F. Skarmeta, Mina Ryten, Sara \'Alvarez, Alejandro Cisterna Garc\'ia, Juan A. Bot\'ia | (参考訳) 与えられたヒトの表現型と遺伝的変異との関連は、生物学にとって重要な課題である。
本稿では,不均一な情報ネットワークとグラフの畳み込みニューラルネットワークに基づくモデルを用いて,表現型-遺伝子関係にスコアを関連付けることのできるフェノールインカーという新しいシステムを提案する。
このシステムは、新しい関連の発見や、ヒトの遺伝的変異の結果の理解に役立てることができる。 The association of a given human phenotype to a genetic variant remains a critical challenge for biology. We present a novel system called PhenoLinker capable of associating a score to a phenotype-gene relationship by using heterogeneous information networks and a convolutional neural network-based model for graphs, which can provide an explanation for the predictions. This system can aid in the discovery of new associations and in the understanding of the consequences of human genetic variation. | 翻訳日:2024-02-07 01:53:30 公開日:2024-02-02 |
# HQA-Attack: テキストにおける高品質なブラックボックスハードラベル攻撃を目指して HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack on Text ( http://arxiv.org/abs/2402.01806v1 ) ライセンス: Link先を確認 | Han Liu, Zhi Xu, Xiaotong Zhang, Feng Zhang, Fenglong Ma, Hongyang Chen, Hong Yu and Xianchao Zhang | (参考訳) テキストデータ空間は本質的に離散的で非微分可能であり、予測されたラベルのみがアクセス可能であるため、テキストに対するブラックボックスのハードラベル攻撃は実用的で困難なタスクである。
この問題の研究はまだ胚期にあり、いくつかの方法のみが利用可能である。
それにもかかわらず、既存の手法は複雑なヒューリスティックアルゴリズムや信頼性の低い勾配推定戦略に依存しており、これはおそらく局所的に最適で必然的に多くのクエリを消費するため、限られたクエリ予算で高い意味的類似性と低い摂動率で満足できる逆例を作るのが困難である。
上記の問題を緩和するため,我々はhqa攻撃と呼ばれるブラックボックスのハードラベル攻撃シナリオにおいて,高品質なテキスト対向例を生成するための,単純かつ効果的なフレームワークを提案する。
具体的には、敵の例をランダムに初期化した後、HQAアタックは最初、可能な限り元の単語を置き換え、摂動率を下げる。
そして、残りの変化した単語の同義集合を利用して、意味的類似性を改善し、同時に敵条件を満たす方向の逆例をさらに最適化する。
さらに、最適化手順中に、変更した単語毎に遷移同義語を検索することで、同義語セット全体のトラバースを回避し、クエリ数をある程度削減する。
5つのテキスト分類データセット、3つの自然言語推論データセット、および2つの実世界のAPIに関する大規模な実験結果から、提案手法が他の強力なベースラインよりも優れていることが示された。 Black-box hard-label adversarial attack on text is a practical and challenging task, as the text data space is inherently discrete and non-differentiable, and only the predicted label is accessible. Research on this problem is still in the embryonic stage and only a few methods are available. Nevertheless, existing methods rely on the complex heuristic algorithm or unreliable gradient estimation strategy, which probably fall into the local optimum and inevitably consume numerous queries, thus are difficult to craft satisfactory adversarial examples with high semantic similarity and low perturbation rate in a limited query budget. To alleviate above issues, we propose a simple yet effective framework to generate high quality textual adversarial examples under the black-box hard-label attack scenarios, named HQA-Attack. Specifically, after initializing an adversarial example randomly, HQA-attack first constantly substitutes original words back as many as possible, thus shrinking the perturbation rate. Then it leverages the synonym set of the remaining changed words to further optimize the adversarial example with the direction which can improve the semantic similarity and satisfy the adversarial condition simultaneously. In addition, during the optimizing procedure, it searches a transition synonym word for each changed word, thus avoiding traversing the whole synonym set and reducing the query number to some extent. Extensive experimental results on five text classification datasets, three natural language inference datasets and two real-world APIs have shown that the proposed HQA-Attack method outperforms other strong baselines significantly. | 翻訳日:2024-02-07 01:53:12 公開日:2024-02-02 |
# 大規模言語モデルにおけるグラフ推論の限界を探る Exploring the Limitations of Graph Reasoning in Large Language Models ( http://arxiv.org/abs/2402.01805v1 ) ライセンス: Link先を確認 | Palaash Agrawal, Shavak Vasania and Cheston Tan | (参考訳) 事前訓練された大規模言語モデルは、言語ベースのプロンプトだけで様々なタイプの推論能力を示した。
しかし,本稿では,グラフ推論の問題から,5種類のLLM(GPT-4,GPT-3.5,Claude-2,Llama-2,Palm-2)に対するグラフ推論の深さを検証した。
特に、グラフトラバースの10の異なる問題を設計し、それぞれが複雑さのレベルを増すことを示す。
さらに,グラフのサイズやkショットプロンプトの異なる形態など,様々な設定におけるモデルの性能を解析した。
例えば、グラフ内のノード毎のトラバース自由度の平均値に対する逆関係、グラフ推論タスクにおけるkショットの全体的な負の影響、LLMが有効な解の欠如を識別するのを防ぐ正の応答バイアスなどである。
最後に,PathCompareと呼ばれるグラフトラバースタスクに特化して設計された新しいプロンプト手法を提案し,標準プロンプトやCoTと比較して,LCMの性能が顕著に向上したことを示す。 Pretrained Large Language Models have demonstrated various types of reasoning capabilities through language-based prompts alone. However, in this paper, we test the depth of graph reasoning for 5 different LLMs (GPT-4, GPT-3.5, Claude-2, Llama-2 and Palm-2) through the problems of graph reasoning. In particular, we design 10 distinct problems of graph traversal, each representing increasing levels of complexity. Further, we analyze the performance of models across various settings such as varying sizes of graphs as well as different forms of k-shot prompting. We highlight various limitations, biases, and properties of LLMs through this benchmarking process, such as an inverse relation to the average degrees of freedom of traversal per node in graphs, the overall negative impact of k-shot prompting on graph reasoning tasks, and a positive response bias which prevents LLMs from identifying the absence of a valid solution. Finally, we propose a new prompting technique specially designed for graph traversal tasks, known as PathCompare, which shows a notable increase in the performance of LLMs in comparison to standard prompting and CoT. | 翻訳日:2024-02-07 01:52:41 公開日:2024-02-02 |
# コールドサプライチェーンにおけるモノのインターネット実装障壁の解析:統合ISM-MICMACとDEMATELアプローチ Analysis of Internet of Things implementation barriers in the cold supply chain: an integrated ISM-MICMAC and DEMATEL approach ( http://arxiv.org/abs/2402.01804v1 ) ライセンス: Link先を確認 | Kazrin Ahmad, Md. Saiful Islam, Md Abrar Jahin, and M. F. Mridha | (参考訳) コールドサプライチェーン内でIoT(Internet of Things)テクノロジを統合することで、透明性、効率、品質の向上、運用手順の最適化、生産性の向上が可能になる。
この複雑な環境でのIoTの統合は、徹底的な検査を必要とする特定の障壁によって妨げられています。
コールドサプライチェーンにおけるIoT実装に対する重要な障壁は、2段階モデルを用いて同定される。
iot実装に関する利用可能な文献をレビューした結果、合計13の障壁が見つかった。
調査データは品質のためにクロスバリデーションされ、クロンバッハのアルファテストは有効性を確保するために使用された。
本研究は,第一段階における解釈的構造モデリング手法を適用し,主な障壁を同定する。
これらの障壁のうち、"レギュラリティコンプライアンス"と"コールドチェーンネットワーク"は、iot導入戦略の鍵となるものだ。
MICMACの駆動および依存パワー要素の分類はバリア相互作用の評価に役立つ。
本研究の第2段階では,障壁間の因果関係を同定し,その重要性に応じて評価するための意思決定試験および評価試験手法が採用された。
それぞれの原因が潜在的な駆動力であり、その効率が向上できれば、システム全体がメリットになります。
この調査の結果は、業界関係者、政府、組織にIoT採用の大きな要因を与え、これらの障壁を克服し、コールドサプライチェーンの有効性と信頼性を改善するためにIoTテクノロジの利用を最適化する。 Integrating Internet of Things (IoT) technology inside the cold supply chain can enhance transparency, efficiency, and quality, optimizing operating procedures and increasing productivity. The integration of IoT in this complicated setting is hindered by specific barriers that need a thorough examination. Prominent barriers to IoT implementation in the cold supply chain are identified using a two-stage model. After reviewing the available literature on the topic of IoT implementation, a total of 13 barriers were found. The survey data was cross-validated for quality, and Cronbach's alpha test was employed to ensure validity. This research applies the interpretative structural modeling technique in the first phase to identify the main barriers. Among those barriers, "regularity compliance" and "cold chain networks" are key drivers for IoT adoption strategies. MICMAC's driving and dependence power element categorization helps evaluate the barrier interactions. In the second phase of this research, a decision-making trial and evaluation laboratory methodology was employed to identify causal relationships between barriers and evaluate them according to their relative importance. Each cause is a potential drive, and if its efficiency can be enhanced, the system as a whole benefits. The research findings provide industry stakeholders, governments, and organizations with significant drivers of IoT adoption to overcome these barriers and optimize the utilization of IoT technology to improve the effectiveness and reliability of the cold supply chain. | 翻訳日:2024-02-07 01:52:24 公開日:2024-02-02 |
# 連合学習におけるモデル取引のためのオークションベースの市場 An Auction-based Marketplace for Model Trading in Federated Learning ( http://arxiv.org/abs/2402.01802v1 ) ライセンス: Link先を確認 | Yue Cui, Liuyi Yao, Yaliang Li, Ziqian Chen, Bolin Ding, Xiaofang Zhou | (参考訳) フェデレーション学習(fl)は,局所分散データを用いたトレーニングモデルの有効性がますます認識されている。
しかし、この協調プロセスにおける共有データの適切な評価は未だ不十分である。
この作業では、クライアントが購入者と販売者の両方として振る舞う、モデル取引のマーケットプレースとしてflを取り上げます。
このflマーケットは、顧客が自身のモデルを販売し、他人のモデルを購入してローカルモデルのパフォーマンスを向上させることで、金銭的な報酬を得ることができる。
性能向上に基づく適切な価格設定を実現するためのオークションベースのソリューションを提案する。
インセンティブメカニズムは、クライアントがモデル評価を真に明らかにするように設計されている。
さらに,動的かつ発展途上の市場状況下での取引量の最大化を目指す,マーケティング活動のための強化学習(rl)フレームワークを提案する。
4つのデータセットによる実験結果から,提案するFL市場は高い取引収益と公平な下流タスクの精度を達成できることが示された。 Federated learning (FL) is increasingly recognized for its efficacy in training models using locally distributed data. However, the proper valuation of shared data in this collaborative process remains insufficiently addressed. In this work, we frame FL as a marketplace of models, where clients act as both buyers and sellers, engaging in model trading. This FL market allows clients to gain monetary reward by selling their own models and improve local model performance through the purchase of others' models. We propose an auction-based solution to ensure proper pricing based on performance gain. Incentive mechanisms are designed to encourage clients to truthfully reveal their model valuations. Furthermore, we introduce a reinforcement learning (RL) framework for marketing operations, aiming to achieve maximum trading volumes under the dynamic and evolving market status. Experimental results on four datasets demonstrate that the proposed FL market can achieve high trading revenue and fair downstream task accuracy. | 翻訳日:2024-02-07 01:52:00 公開日:2024-02-02 |
# 時系列のための大規模言語モデル:調査 Large Language Models for Time Series: A Survey ( http://arxiv.org/abs/2402.01801v1 ) ライセンス: Link先を確認 | Xiyuan Zhang, Ranak Roy Chowdhury, Rajesh K. Gupta, Jingbo Shang | (参考訳) 大規模言語モデル (LLM) は自然言語処理やコンピュータビジョンといった領域で広く利用されている。
llmsはテキスト、画像、グラフィック以外にも、気候、iot、ヘルスケア、トラフィック、オーディオ、ファイナンスといった分野に利益をもたらす時系列データ分析に重要な可能性を秘めている。
本調査では,LLMのパワーを時系列解析に活用する様々な手法の詳細な調査と詳細な分類について述べる。
我々は,LLMの原文データトレーニングと時系列データの数値的性質のギャップを埋めることの課題に対処し,LLMから数値時系列解析への知識の伝達と蒸留の戦略を探究する。
本稿では,(1)LDMの直接的プロンプト,(2)時系列量子化,(3)アライメント技術,(4)ブリッジ機構としての視覚モダリティの利用,(5)LDMとツールの組み合わせなど,様々な手法について述べる。
さらに、本調査は、既存のマルチモーダル時系列とテキストデータセットの包括的概要を提供し、この新興分野の課題と将来の可能性について考察する。
調査で議論されたすべての論文とデータセットを含む、最新のGithubリポジトリを維持しています。 Large Language Models (LLMs) have seen significant use in domains such as natural language processing and computer vision. Going beyond text, image and graphics, LLMs present a significant potential for analysis of time series data, benefiting domains such as climate, IoT, healthcare, traffic, audio and finance. This survey paper provides an in-depth exploration and a detailed taxonomy of the various methodologies employed to harness the power of LLMs for time series analysis. We address the inherent challenge of bridging the gap between LLMs' original text data training and the numerical nature of time series data, and explore strategies for transferring and distilling knowledge from LLMs to numerical time series analysis. We detail various methodologies, including (1) direct prompting of LLMs, (2) time series quantization, (3) alignment techniques, (4) utilization of the vision modality as a bridging mechanism, and (5) the combination of LLMs with tools. Additionally, this survey offers a comprehensive overview of the existing multimodal time series and text datasets and delves into the challenges and future opportunities of this emerging field. We maintain an up-to-date Github repository which includes all the papers and datasets discussed in the survey. | 翻訳日:2024-02-07 01:51:46 公開日:2024-02-02 |
# より高速かつ軽量なLDM:現状の課題と今後の展望 Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward ( http://arxiv.org/abs/2402.01799v1 ) ライセンス: Link先を確認 | Arnav Chavan, Raghav Magazine, Shubham Kushwaha, M\'erouane Debbah and Deepak Gupta | (参考訳) LLMの優れた性能にもかかわらず、その普及は推論中にかなりの計算とメモリの要求のために困難に直面している。
モデル圧縮およびシステムレベルの最適化手法の最近の進歩は、LLM推論を強化することを目的としている。
この調査はこれらの手法の概要を提供し、最近の発展を強調している。
LLaMA(/2)-7Bの実験を通じて, 各種圧縮技術の評価を行い, 統一された環境下でのLLMの効率的な展開に関する実用的な知見を提供する。
LLaMA(/2)-7Bの実験的解析は,これらの手法の有効性を強調した。
調査の結果から,現在の限界を特定し,llm推論効率を改善するための今後の方向性を考察する。
我々は、この論文で提示された結果を再現するコードベースをhttps://github.com/nyunAI/Faster-LLM-Surveyでリリースします。 Despite the impressive performance of LLMs, their widespread adoption faces challenges due to substantial computational and memory requirements during inference. Recent advancements in model compression and system-level optimization methods aim to enhance LLM inference. This survey offers an overview of these methods, emphasizing recent developments. Through experiments on LLaMA(/2)-7B, we evaluate various compression techniques, providing practical insights for efficient LLM deployment in a unified setting. The empirical analysis on LLaMA(/2)-7B highlights the effectiveness of these methods. Drawing from survey insights, we identify current limitations and discuss potential future directions to improve LLM inference efficiency. We release the codebase to reproduce the results presented in this paper at https://github.com/nyunAI/Faster-LLM-Survey | 翻訳日:2024-02-07 01:51:25 公開日:2024-02-02 |
# 分散学習における重み付き勾配管理のための量子化戦略の改善 Improved Quantization Strategies for Managing Heavy-tailed Gradients in Distributed Learning ( http://arxiv.org/abs/2402.01798v1 ) ライセンス: Link先を確認 | Guangfeng Yan, Tan Li, Yuanzhang Xiao, Hanxu Hou and Linqi Song | (参考訳) 勾配圧縮は、分散学習におけるコミュニケーション効率の課題に対処するための鍵となる技術である。
しかし, 分散深層学習では, 勾配分布が重く, 外れ値が圧縮戦略の設計に大きな影響を与えることが観察された。
既存のパラメータ量子化手法では、この重み付き特徴が無視されると性能が低下する。
本稿では,重み付き勾配に特化して設計された新しい圧縮手法を提案する。
このスキームは、通信制限付き分散確率勾配降下(sgd)フレームワークでしばしば実装される。
我々は, パワーロー分布に従う重尾勾配の一般族を考えることで, 量子化による誤差を最小化し, 停止閾値と量子化密度の2つの臨界パラメータの最適値を決定することを目的とする。
均一および非一様量子化シナリオ下での収束誤差に関する理論的解析を行う。
他のベンチマークとの比較実験により,分散学習環境における重み付き勾配管理における提案手法の有効性が示された。 Gradient compression has surfaced as a key technique to address the challenge of communication efficiency in distributed learning. In distributed deep learning, however, it is observed that gradient distributions are heavy-tailed, with outliers significantly influencing the design of compression strategies. Existing parameter quantization methods experience performance degradation when this heavy-tailed feature is ignored. In this paper, we introduce a novel compression scheme specifically engineered for heavy-tailed gradients, which effectively combines gradient truncation with quantization. This scheme is adeptly implemented within a communication-limited distributed Stochastic Gradient Descent (SGD) framework. We consider a general family of heavy-tail gradients that follow a power-law distribution, we aim to minimize the error resulting from quantization, thereby determining optimal values for two critical parameters: the truncation threshold and the quantization density. We provide a theoretical analysis on the convergence error bound under both uniform and non-uniform quantization scenarios. Comparative experiments with other benchmarks demonstrate the effectiveness of our proposed method in managing the heavy-tailed gradients in a distributed learning environment. | 翻訳日:2024-02-07 01:51:15 公開日:2024-02-02 |
# conic最適化によるロバストサポートベクターマシン Robust support vector machines via conic optimization ( http://arxiv.org/abs/2402.01797v1 ) ライセンス: Link先を確認 | Valentina Cepeda, Andr\'es G\'omez, Shaoning Han | (参考訳) 不確実性に頑健な学習支援ベクターマシンの問題を考える。
ヒンジ損失を含む典型的な損失関数は、データ摂動や外乱に敏感であり、考慮された設定では不十分であることが文献で確認されている。
対照的に、0-1損失または適切な非凸近似を用いることで、大きな計算コストを犠牲にして、ロバストな推定が可能となる。
本稿では,学習問題の凸性を保ちながら,既存手法と比較して0-1損失を近似した新たな損失関数を導出するために混合整数最適化手法を用いる。
計算結果から,提案した推定器は標準SVMと競合し,外乱のない状態下でのヒンジ損失と外乱の存在下での精度が向上することを示した。 We consider the problem of learning support vector machines robust to uncertainty. It has been established in the literature that typical loss functions, including the hinge loss, are sensible to data perturbations and outliers, thus performing poorly in the setting considered. In contrast, using the 0-1 loss or a suitable non-convex approximation results in robust estimators, at the expense of large computational costs. In this paper we use mixed-integer optimization techniques to derive a new loss function that better approximates the 0-1 loss compared with existing alternatives, while preserving the convexity of the learning problem. In our computational results, we show that the proposed estimator is competitive with the standard SVMs with the hinge loss in outlier-free regimes and better in the presence of outliers. | 翻訳日:2024-02-07 01:50:58 公開日:2024-02-02 |
# 病的音声特徴予測のための伝達学習の探索:層選択の影響 Exploring transfer learning for pathological speech feature prediction: Impact of layer selection ( http://arxiv.org/abs/2402.01796v1 ) ライセンス: Link先を確認 | Daniela A. Wiepert, Rene L. Utianski, Joseph R. Duffy, John L. Stricker, Leland R. Barnard, David T. Jones, Hugo Botha | (参考訳) 音声障害の診断と治療を容易にするために、AIを活用して臨床音声の自動的客観的評価を行うことに関心がある。
病的発話の有無を予測する下流課題として,層選択の影響に着目し,伝達学習を検討する。
最適層を選択することで性能が向上する(平均12.4%のバランス精度向上)が、最高の層は予測された特徴によって異なり、常に見当たらないデータによく当てはまるとは限らない。
学習された重み付き和は、平均的最良層内分布に匹敵するパフォーマンスを提供し、分散外データのより優れた一般化を提供する。 There is interest in leveraging AI to conduct automatic, objective assessments of clinical speech, in turn facilitating diagnosis and treatment of speech disorders. We explore transfer learning, focusing on the impact of layer selection, for the downstream task of predicting the presence of pathological speech. We find that selecting an optimal layer offers large performance improvements (12.4% average increase in balanced accuracy), though the best layer varies by predicted feature and does not always generalize well to unseen data. A learned weighted sum offers comparable performance to the average best layer in-distribution and has better generalization for out-of-distribution data. | 翻訳日:2024-02-07 01:50:43 公開日:2024-02-02 |
# 地域範囲と類似度に基づく自動運転車の少数シナリオテスト Few-Shot Scenario Testing for Autonomous Vehicles Based on Neighborhood Coverage and Similarity ( http://arxiv.org/abs/2402.01795v1 ) ライセンス: Link先を確認 | Shu Li, Jingxuan Yang, Honglin He, Yi Zhang, Jianming Hu, Shuo Feng | (参考訳) 大規模展開の前には、自律走行車(AV)の安全性能の試験と評価が不可欠である。
実際、特定のavモデルをテストする許容されるコストは、テストコストや時間のため、非常に小さな制限内で制限できる。
既存のテスト手法では、厳格に制限されたテスト番号によって課される制限は、テスト結果の定量化に重大な不確実性や課題をもたらすことが多い。
本稿では,FST(Few-shot Testing)問題を初めて定式化し,この問題に対処するための体系的なFSTフレームワークを提案する。
小規模なテストシナリオセットに固有のかなりの不確実性を緩和し、シナリオ利用を最適化するために、FST問題を最適化問題とみなし、近隣のカバレッジと類似性に基づく小さなシナリオセットを探索する。
surrogate model(sms)の事前情報を活用することで,avsの一般化能力向上のガイダンスの下で,テストシナリオセットと各シナリオのテスト結果への寄与を動的に調整する。
SMに対する特定の仮説により、限定されたテスト数内でのテスト精度の十分性を検証するために、理論上のテスト誤差の上限が確立される。
FST法によるカットインシナリオの実験は、従来のテスト手法と比較して、特にシナリオ数に厳格な制限がある状況において、テストエラーと分散の顕著な減少を示す。 Testing and evaluating the safety performance of autonomous vehicles (AVs) is essential before the large-scale deployment. Practically, the acceptable cost of testing specific AV model can be restricted within an extremely small limit because of testing cost or time. With existing testing methods, the limitations imposed by strictly restricted testing numbers often result in significant uncertainties or challenges in quantifying testing results. In this paper, we formulate this problem for the first time the "few-shot testing" (FST) problem and propose a systematic FST framework to address this challenge. To alleviate the considerable uncertainty inherent in a small testing scenario set and optimize scenario utilization, we frame the FST problem as an optimization problem and search for a small scenario set based on neighborhood coverage and similarity. By leveraging the prior information on surrogate models (SMs), we dynamically adjust the testing scenario set and the contribution of each scenario to the testing result under the guidance of better generalization ability on AVs. With certain hypotheses on SMs, a theoretical upper bound of testing error is established to verify the sufficiency of testing accuracy within given limited number of tests. The experiments of the cut-in scenario using FST method demonstrate a notable reduction in testing error and variance compared to conventional testing methods, especially for situations with a strict limitation on the number of scenarios. | 翻訳日:2024-02-07 01:50:30 公開日:2024-02-02 |
# 可変量子回路による生成逆数ネットワークの強化 Variational Quantum Circuits Enhanced Generative Adversarial Network ( http://arxiv.org/abs/2402.01791v1 ) ライセンス: Link先を確認 | Runqiu Shu, Xusheng Xu, Man-Hong Yung, Wei Cui | (参考訳) GAN(Generative Adversarial Network)は、高品質な画像、ビデオ、オーディオコンテンツの生成など、幅広いアプリケーション向けに広く採用されている機械学習フレームワークの1つである。
しかし、ganのトレーニングは大きなニューラルネットワークにとって計算コストがかかる可能性がある。
本稿では、GAN(QC-GAN)を改善するためのハイブリッド量子古典アーキテクチャを提案する。
この性能は、手書き画像生成のタスクでMindSpore Quantumを用いて古典的なGANとベンチマークすることで数値的に検証された。
QC-GANのジェネレータは1層ニューラルネットワークと共に量子変動回路で構成され、識別器は従来のニューラルネットワークで構成されている。
量子回路のエンタングリングと表現力を活用して、我々のハイブリッドアーキテクチャは、従来のGANよりも優れた性能(フレッシュ・インセプション・ディスタンス)を達成し、トレーニングパラメータや収束のためのイテレーションの数を大幅に減らした。
また、QC-GANが16$\times$16以上の画像を生成することができない代替量子GANであるpathGANよりも優れていることを示した。
この研究は、量子コンピューティングのアイデアと、量子AIとAIの両方の領域における機械学習を組み合わせる価値を示す。 Generative adversarial network (GAN) is one of the widely-adopted machine-learning frameworks for a wide range of applications such as generating high-quality images, video, and audio contents. However, training a GAN could become computationally expensive for large neural networks. In this work, we propose a hybrid quantum-classical architecture for improving GAN (denoted as QC-GAN). The performance was examed numerically by benchmarking with a classical GAN using MindSpore Quantum on the task of hand-written image generation. The generator of the QC-GAN consists of a quantum variational circuit together with a one-layer neural network, and the discriminator consists of a traditional neural network. Leveraging the entangling and expressive power of quantum circuits, our hybrid architecture achieved better performance (Frechet Inception Distance) than the classical GAN, with much fewer training parameters and number of iterations for convergence. We have also demonstrated the superiority of QC-GAN over an alternative quantum GAN, namely pathGAN, which could hardly generate 16$\times$16 or larger images. This work demonstrates the value of combining ideas from quantum computing with machine learning for both areas of Quantum-for-AI and AI-for-Quantum. | 翻訳日:2024-02-07 01:50:08 公開日:2024-02-02 |
# 機械解釈のための図形テンソル表記法入門 An introduction to graphical tensor notation for mechanistic interpretability ( http://arxiv.org/abs/2402.01790v1 ) ライセンス: Link先を確認 | Jordan K. Taylor | (参考訳) グラフィカルテンソル記法(英: graphical tensor notation)は、物理学に由来するテンソル上の線型演算を表す単純な方法である。
現代の深層学習はテンソル上の操作とテンソル間の操作の両方から成り立っているため、テンソル操作を理解することはこれらのシステムを理解する上で非常に重要である。
これは、その振る舞いを理解するためにニューラルネットワークによって学習されたアルゴリズムをリバースエンジニアリングしようとするときに特に当てはまる。
テンソル間の操作を混乱させ、全体構造を見失うことはよくありますが、グラフィカルテンソル表記法によって、物事を一目で解析し、興味深い等価性を見るのがより簡単になります。
この文書の前半は表記を導入し、いくつかの分解(SVD, CP, Tucker, テンソルネットワーク分解)に適用し、後半は機械的に言語モデルを理解するためのいくつかの基礎的なアプローチに適用し、緩やかに 'A Mathematical Framework for Transformer Circuits'' に従って、図形テンソル表記法で 'induction head' 回路の例を構築する。 Graphical tensor notation is a simple way of denoting linear operations on tensors, originating from physics. Modern deep learning consists almost entirely of operations on or between tensors, so easily understanding tensor operations is quite important for understanding these systems. This is especially true when attempting to reverse-engineer the algorithms learned by a neural network in order to understand its behavior: a field known as mechanistic interpretability. It's often easy to get confused about which operations are happening between tensors and lose sight of the overall structure, but graphical tensor notation makes it easier to parse things at a glance and see interesting equivalences. The first half of this document introduces the notation and applies it to some decompositions (SVD, CP, Tucker, and tensor network decompositions), while the second half applies it to some existing some foundational approaches for mechanistically understanding language models, loosely following ``A Mathematical Framework for Transformer Circuits'', then constructing an example ``induction head'' circuit in graphical tensor notation. | 翻訳日:2024-02-07 01:49:47 公開日:2024-02-02 |
# ポジションペーパー:基礎モデルと統合したフェデレーション学習におけるロバスト性、プライバシ、公正性の評価 Position Paper: Assessing Robustness, Privacy, and Fairness in Federated Learning Integrated with Foundation Models ( http://arxiv.org/abs/2402.01857v1 ) ライセンス: Link先を確認 | Xi Li, Jiaqi Wang | (参考訳) フェデレートラーニング(FL)は、分散機械学習のブレークスルーである一方で、データ可用性の制限や計算リソースの多様性といった重要な課題と競合し、モデルの性能とスケーラビリティを損なう可能性がある。
基盤モデル(fms)をflに統合することは、これらの問題に対する説得力のある解決策となり、データの豊かさを高め、事前トレーニングとデータ拡張を通じて計算要求を減らすことができる。
しかし、この定式化は堅牢性、プライバシ、公平性といった点で新しい問題をもたらしており、既存の研究では十分に解決されていない。
我々は,これらの次元におけるfm-fl統合の意義を体系的に評価することにより,この分野の予備的な調査を行う。
我々は、関連するトレードオフを分析し、この統合によってもたらされる脅威と問題を明らかにし、これらの課題をナビゲートするための一連の基準と戦略を提案する。
さらに,この分野を前進させるための潜在的な研究方向を特定し,信頼性・安全・公平なflシステムの構築に向けた今後の開発基盤を構築した。 Federated Learning (FL), while a breakthrough in decentralized machine learning, contends with significant challenges such as limited data availability and the variability of computational resources, which can stifle the performance and scalability of the models. The integration of Foundation Models (FMs) into FL presents a compelling solution to these issues, with the potential to enhance data richness and reduce computational demands through pre-training and data augmentation. However, this incorporation introduces novel issues in terms of robustness, privacy, and fairness, which have not been sufficiently addressed in the existing research. We make a preliminary investigation into this field by systematically evaluating the implications of FM-FL integration across these dimensions. We analyze the trade-offs involved, uncover the threats and issues introduced by this integration, and propose a set of criteria and strategies for navigating these challenges. Furthermore, we identify potential research directions for advancing this field, laying a foundation for future development in creating reliable, secure, and equitable FL systems. | 翻訳日:2024-02-07 00:07:51 公開日:2024-02-02 |
# audio flamingo: 数少ない学習と対話能力を備えた新しい音声言語モデル Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities ( http://arxiv.org/abs/2402.01831v1 ) ライセンス: Link先を確認 | Zhifeng Kong, Arushi Goel, Rohan Badlani, Wei Ping, Rafael Valle, Bryan Catanzaro | (参考訳) LLMの多様な実世界の応用には、音声(非音声音声や非言語音声など)を理解するための大きな言語モデル(LLM)の強化が重要である。
本稿では,新しい音声言語モデルであるAudio Flamingoを提案する。
1)音声理解能力の強いこと。
2【文脈内学習・検索による未認識のタスクに迅速に適応する能力】
3) 強いマルチターン対話能力。
これらの能力でモデルを強化するために、一連のトレーニングテクニック、アーキテクチャ設計、データ戦略を導入します。
様々な音声理解タスクの広範囲な評価により,本手法の有効性を確認し,新たな最先端ベンチマークを設定した。 Augmenting large language models (LLMs) to understand audio -- including non-speech sounds and non-verbal speech -- is critically important for diverse real-world applications of LLMs. In this paper, we propose Audio Flamingo, a novel audio language model with 1) strong audio understanding abilities, 2) the ability to quickly adapt to unseen tasks via in-context learning and retrieval, and 3) strong multi-turn dialogue abilities. We introduce a series of training techniques, architecture design, and data strategies to enhance our model with these abilities. Extensive evaluations across various audio understanding tasks confirm the efficacy of our method, setting new state-of-the-art benchmarks. | 翻訳日:2024-02-07 00:07:31 公開日:2024-02-02 |
# Peer-Review-in-LLMs:オープン環境におけるLCMの自動評価方法 Peer-review-in-LLMs: Automatic Evaluation Method for LLMs in Open-environment ( http://arxiv.org/abs/2402.01830v1 ) ライセンス: Link先を確認 | Kun-Peng Ning, Shuo Yang, Yu-Yang Liu, Jia-Yu Yao, Zhen-Hui Liu, Yu Wang, Ming Pang, Li Yuan | (参考訳) 既存の大規模言語モデル (LLMs) の評価手法は一般的に、人間アノテーションを使ったクローズド環境とドメイン固有のベンチマークでの性能をテストすることに重点を置いている。
本稿では,LLMを自動計測するピアレビュー機構を利用して,教師なしの新たな評価方向を探索する。
この設定では、オープンソースのllmとクローズドソースのllmの両方が同じ環境にあり、ラベルのない質問に答え、互いに評価することができる。
これらのモデルの能力階層を得るために,各LLMに学習可能な能力パラメータを割り当て,最終ランク付けを調整する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化する。
裏にある重要な前提は、高レベルのLSMは低レベルのLSMよりも他人の回答をより正確に評価でき、高レベルのLMは高い応答スコアを達成できるということである。
さらに,PEN,CIN,LISという3つの指標を用いて,ランク付けのギャップを評価する。
これらのメトリクスを用いて複数のデータセットで実験を行い,提案手法の有効性を検証する。 Existing large language models (LLMs) evaluation methods typically focus on testing the performance on some closed-environment and domain-specific benchmarks with human annotations. In this paper, we explore a novel unsupervised evaluation direction, utilizing peer-review mechanisms to measure LLMs automatically. In this setting, both open-source and closed-source LLMs lie in the same environment, capable of answering unlabeled questions and evaluating each other, where each LLM's response score is jointly determined by other anonymous ones. To obtain the ability hierarchy among these models, we assign each LLM a learnable capability parameter to adjust the final ranking. We formalize it as a constrained optimization problem, intending to maximize the consistency of each LLM's capabilities and scores. The key assumption behind is that high-level LLM can evaluate others' answers more accurately than low-level ones, while higher-level LLM can also achieve higher response scores. Moreover, we propose three metrics called PEN, CIN, and LIS to evaluate the gap in aligning human rankings. We perform experiments on multiple datasets with these metrics, validating the effectiveness of the proposed approach. | 翻訳日:2024-02-07 00:07:21 公開日:2024-02-02 |
# 深層学習と自然言語処理によるタンパク質配列中のATP結合部位の予測 Predicting ATP binding sites in protein sequences using Deep Learning and Natural Language Processing ( http://arxiv.org/abs/2402.01829v1 ) ライセンス: Link先を確認 | Shreyas V, Swati Agarwal | (参考訳) 遺伝子中のATP-プロテイン結合部位の予測は、生物学と医学の分野で非常に重要である。
この分野の研究の大部分は、実験室における時間と資源集約的な「湿式実験」を通じて行われている。
長年にわたり、研究者は同じ目標を達成するために計算手法を調査し、高度なディープラーニングとNLPアルゴリズムの強みを活用してきた。
本稿ではATP-Protein結合部位を分類する手法を提案する。
我々はpssmsと複数の単語埋め込みを特徴とする各種実験を行った。
我々は2D CNNとLightGBM分類器を主ディープラーニングアルゴリズムとして使用した。
MP3VecモデルとBERTモデルも本研究でテストされている。
実験の結果,最先端ベンチマークよりも改善が見られた。 Predicting ATP-Protein Binding sites in genes is of great significance in the field of Biology and Medicine. The majority of research in this field has been conducted through time- and resource-intensive 'wet experiments' in laboratories. Over the years, researchers have been investigating computational methods computational methods to accomplish the same goals, utilising the strength of advanced Deep Learning and NLP algorithms. In this paper, we propose to develop methods to classify ATP-Protein binding sites. We conducted various experiments mainly using PSSMs and several word embeddings as features. We used 2D CNNs and LightGBM classifiers as our chief Deep Learning Algorithms. The MP3Vec and BERT models have also been subjected to testing in our study. The outcomes of our experiments demonstrated improvement over the state-of-the-art benchmarks. | 翻訳日:2024-02-07 00:06:59 公開日:2024-02-02 |
# 検索によるエンドツーエンド音声対話モデルの検討 Retrieval Augmented End-to-End Spoken Dialog Models ( http://arxiv.org/abs/2402.01828v1 ) ライセンス: Link先を確認 | Mingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu, Laurent El Shafey | (参考訳) 我々は最近,事前学習された基礎的発話モデルと大規模言語モデル(llm)とを融合させながら,事前学習されたllmに固有の文脈内学習能力を保った共同発話・言語モデルslmを開発した。
本稿では,音声信号から直接ダイアログ状態が推測される音声対話アプリケーションに対して,SLMを適用した。
タスク指向のダイアログには、レストラン、ホテル、駅、都市名など、ドメイン固有のエンティティが含まれていることが多いが、下流アプリケーションでは認識が難しい。
RAG(retrieval-augmented generation)パラダイムにヒントを得て,この弱点を克服する検索拡張SLM(ReSLM)を提案する。
まず,音声検索器を訓練し,音声中のテキストエンティティを検索する。
得られたエンティティは、バイアスモデル予測のために、下層のSLMにテキスト入力として追加される。
音声マルチウォズタスク (dstc-11 challenge) におけるreslmの評価を行い, この検索拡張により, 協調目標精度 (38.6% vs 32.7%), スロット誤り率 (20.6% vs 24.8%), asr単語誤り率 (5.5% vs 6.7%) が向上した。
ダイアログの状態追跡では,コンテキスト情報を必要とする他の音声タスクや,バイアスのあるコンテキストASRなどのドメイン固有のエンティティに広く適用できる。 We recently developed SLM, a joint speech and language model, which fuses a pretrained foundational speech model and a large language model (LLM), while preserving the in-context learning capability intrinsic to the pretrained LLM. In this paper, we apply SLM to speech dialog applications where the dialog states are inferred directly from the audio signal. Task-oriented dialogs often contain domain-specific entities, i.e., restaurants, hotels, train stations, and city names, which are difficult to recognize, however, critical for the downstream applications. Inspired by the RAG (retrieval-augmented generation) paradigm, we propose a retrieval augmented SLM (ReSLM) that overcomes this weakness. We first train a speech retriever to retrieve text entities mentioned in the audio. The retrieved entities are then added as text inputs to the underlying SLM to bias model predictions. We evaluated ReSLM on speech MultiWoz task (DSTC-11 challenge), and found that this retrieval augmentation boosts model performance, achieving joint goal accuracy (38.6% vs 32.7%), slot error rate (20.6% vs 24.8%) and ASR word error rate (5.5% vs 6.7%). While demonstrated on dialog state tracking, our approach is broadly applicable to other speech tasks requiring contextual information or domain-specific entities, such as contextual ASR with biasing capability. | 翻訳日:2024-02-07 00:06:50 公開日:2024-02-02 |
# 大規模言語モデルを用いた学術文献からの生物学的性別間の血圧変動の解析 Leveraging Large Language Models for Analyzing Blood Pressure Variations Across Biological Sex from Scientific Literature ( http://arxiv.org/abs/2402.01826v1 ) ライセンス: Link先を確認 | Yuting Guo, Seyedeh Somayyeh Mousavi, Reza Sameni, Abeed Sarker | (参考訳) 高血圧は、正常以上の血圧(bp)と定義されており、様々な心血管疾患(cvd)の重要な前駆体となり、世界中で死亡率の上昇に寄与しているため、公衆衛生の領域において最重要視されている。
しかし、多くの既存のBP測定技術や標準は、臨床結果、共同性、または人口統計学的要因を考慮せず、診断目的では決定的でないためバイアスを受ける可能性がある。
これらの変数間のBP測定のばらつきの研究に焦点を当てたデータ駆動型研究が限られている。
本研究では,大言語モデル(llm)であるgpt-35-turboを用いて,pubmedから抽出した2500万の抽象データから,男女ともにbpの平均偏差値と標準偏差値を自動的に抽出した。
993条の要約は、予め定義された包括的基準(血圧への言及の有無、mHgのような血圧単位、生物学的性への言及)を満たした。
これらの論文から得られた情報をもとに, 生物学的性別におけるbp値の変動を解析した。
以上の結果から, LLMを用いたBPの変動について, 様々な要因で検討できる可能性が示唆された。 Hypertension, defined as blood pressure (BP) that is above normal, holds paramount significance in the realm of public health, as it serves as a critical precursor to various cardiovascular diseases (CVDs) and significantly contributes to elevated mortality rates worldwide. However, many existing BP measurement technologies and standards might be biased because they do not consider clinical outcomes, comorbidities, or demographic factors, making them inconclusive for diagnostic purposes. There is limited data-driven research focused on studying the variance in BP measurements across these variables. In this work, we employed GPT-35-turbo, a large language model (LLM), to automatically extract the mean and standard deviation values of BP for both males and females from a dataset comprising 25 million abstracts sourced from PubMed. 993 article abstracts met our predefined inclusion criteria (i.e., presence of references to blood pressure, units of blood pressure such as mmHg, and mention of biological sex). Based on the automatically-extracted information from these articles, we conducted an analysis of the variations of BP values across biological sex. Our results showed the viability of utilizing LLMs to study the BP variations across different demographic factors. | 翻訳日:2024-02-07 00:06:21 公開日:2024-02-02 |
# フラクタルパターンは次世代予測の知性を損なうかもしれない Fractal Patterns May Unravel the Intelligence in Next-Token Prediction ( http://arxiv.org/abs/2402.01825v1 ) ライセンス: Link先を確認 | Ibrahim Alabdulmohsin, Vinh Q. Tran, Mostafa Dehghani | (参考訳) 従来は疑わしかったが正式には示されていなかった性質を定量化するための正確な形式主義を提供することを目的として,言語のフラクタル構造について検討した。
言語は、(1)自己相似で、特定の文脈長を持たない粒度のあらゆるレベルで複雑さを示し、(2)長距離依存(LRD)であり、ハーストパラメータは約H=0.70である。
これらの結果から,文書全体などより広い範囲において,文節などの言語における短期的パターン・依存性が反映されていると論じる。
これは、次の予測が、単語や節からより広い文脈や意図まで、様々なレベルの粒度でテキストの構造を理解することにどのようにつながるかについて、いくつかの光を当てるかもしれない。
また, フラクタルパラメータは, 下流の性能予測において, パープレキシティベースビット/バイト(BPB)により向上することが実証された。
これらの知見は,LLMの成功の基盤となる言語とメカニズムについて,新たな視点を与えてくれることを願っている。 We study the fractal structure of language, aiming to provide a precise formalism for quantifying properties that may have been previously suspected but not formally shown. We establish that language is: (1) self-similar, exhibiting complexities at all levels of granularity, with no particular characteristic context length, and (2) long-range dependent (LRD), with a Hurst parameter of approximately H=0.70. Based on these findings, we argue that short-term patterns/dependencies in language, such as in paragraphs, mirror the patterns/dependencies over larger scopes, like entire documents. This may shed some light on how next-token prediction can lead to a comprehension of the structure of text at multiple levels of granularity, from words and clauses to broader contexts and intents. We also demonstrate that fractal parameters improve upon perplexity-based bits-per-byte (BPB) in predicting downstream performance. We hope these findings offer a fresh perspective on language and the mechanisms underlying the success of LLMs. | 翻訳日:2024-02-07 00:05:58 公開日:2024-02-02 |
# 音響単語モデルの特徴選択とバグによる音声言語からの認知的劣化の同定 Identification of Cognitive Decline from Spoken Language through Feature Selection and the Bag of Acoustic Words Model ( http://arxiv.org/abs/2402.01824v1 ) ライセンス: Link先を確認 | Marko Niemel\"a and Mikaela von Bonsdorff and Sami \"Ayr\"am\"o and Tommi K\"arkk\"ainen | (参考訳) 記憶障害は高齢者における機能低下と日常活動の中心的要因である。
疾患の確認、進行を遅らせるための薬物の投与、認知能力の維持と回復を目的とした職業療法の開始には、医学的診断が必要である。
記憶障害の症状の早期発見、特に認知能力の低下は、集団の幸福を確実にする上で重要な役割を担っている。
音声生成に関連する特徴は、話者の認知能力や変化と結びつくことが知られている。
臨床環境での標準化された音声検査の欠如は、自然言語分析のための自動機械学習技術の開発にますます力を入れている。
音声言語の非語彙的・音響的性質は、疾患の迅速な診断に高速で費用効果が高く、スケーラブルなソリューションが必要な場合に有用であることが証明されている。
本研究は特徴選択に関するアプローチを提示し、ジェネバ最小音パラメータセットと相対音声停止から診断に必要な重要な特徴を自動的に選択し、自動パラ言語的および臨床音声分析を意図した。
これらの特徴は単語ヒストグラムに洗練され、機械学習の分類器は認知症バンクのpitオーディオデータベースから制御対象と認知症患者を分類するように訓練される。
その結果,ADReSS 2020コンペティションテストデータとLeave-One-Subject-Outクロスバリデーションを用いて,25機能のみを用いて75%の平均分類精度を達成できることが示唆された。
結果は、同じデータセットと音響的特徴のみを使用して患者を診断する国際研究と比較して上位にランクされている。 Memory disorders are a central factor in the decline of functioning and daily activities in elderly individuals. The confirmation of the illness, initiation of medication to slow its progression, and the commencement of occupational therapy aimed at maintaining and rehabilitating cognitive abilities require a medical diagnosis. The early identification of symptoms of memory disorders, especially the decline in cognitive abilities, plays a significant role in ensuring the well-being of populations. Features related to speech production are known to connect with the speaker's cognitive ability and changes. The lack of standardized speech tests in clinical settings has led to a growing emphasis on developing automatic machine learning techniques for analyzing naturally spoken language. Non-lexical but acoustic properties of spoken language have proven useful when fast, cost-effective, and scalable solutions are needed for the rapid diagnosis of a disease. The work presents an approach related to feature selection, allowing for the automatic selection of the essential features required for diagnosis from the Geneva minimalistic acoustic parameter set and relative speech pauses, intended for automatic paralinguistic and clinical speech analysis. These features are refined into word histogram features, in which machine learning classifiers are trained to classify control subjects and dementia patients from the Dementia Bank's Pitt audio database. The results show that achieving a 75% average classification accuracy with only twenty-five features with the separate ADReSS 2020 competition test data and the Leave-One-Subject-Out cross-validation of the entire competition data is possible. The results rank at the top compared to international research, where the same dataset and only acoustic features have been used to diagnose patients. | 翻訳日:2024-02-07 00:05:38 公開日:2024-02-02 |
# 大規模言語モデルのためのガードレールの構築 Building Guardrails for Large Language Models ( http://arxiv.org/abs/2402.01822v1 ) ライセンス: Link先を確認 | Yi Dong, Ronghui Mu, Gaojie Jin, Yi Qi, Jinwei Hu, Xingyu Zhao, Jie Meng, Wenjie Ruan, Xiaowei Huang | (参考訳) 大規模言語モデル(llm)が私たちの日常生活により統合されるようになるにつれ、特にリスクが人間のユーザや社会に大きな影響を与える可能性がある場合、リスクを特定し軽減することが重要となる。
LLMの入力や出力をフィルタリングするガードレールは、コアセーフガード技術として登場した。
このポジションペーパーでは、現在のオープンソースソリューション(Llama Guard, Nvidia NeMo, Guardrails AI)を詳しく調べ、より完全なソリューションを構築するための課題と道筋について論じる。
従来の研究から強固な証拠を引用し,様々なLLMアプリケーションにおける多様な文脈の包括的考察に基づいて,LLMのガードレール構築のための体系的アプローチを提唱する。
我々は,複数の学際チームと共同で,正確な技術的要件の特定,要求の複雑さを受け入れるための高度なニューラルシンボリック実装の探索,最終製品の品質を保証するための検証とテストの開発などを通じて,社会工学的手法を採用することを提案する。 As Large Language Models (LLMs) become more integrated into our daily lives, it is crucial to identify and mitigate their risks, especially when the risks can have profound impacts on human users and societies. Guardrails, which filter the inputs or outputs of LLMs, have emerged as a core safeguarding technology. This position paper takes a deep look at current open-source solutions (Llama Guard, Nvidia NeMo, Guardrails AI), and discusses the challenges and the road towards building more complete solutions. Drawing on robust evidence from previous research, we advocate for a systematic approach to construct guardrails for LLMs, based on comprehensive consideration of diverse contexts across various LLMs applications. We propose employing socio-technical methods through collaboration with a multi-disciplinary team to pinpoint precise technical requirements, exploring advanced neural-symbolic implementations to embrace the complexity of the requirements, and developing verification and testing to ensure the utmost quality of the final product. | 翻訳日:2024-02-07 00:05:08 公開日:2024-02-02 |
# 生態学的に合理的なメタ学習推論は人間のカテゴリー学習を説明する Ecologically rational meta-learned inference explains human category learning ( http://arxiv.org/abs/2402.01821v1 ) ライセンス: Link先を確認 | Akshay K. Jagadish, Julian Coda-Forno, Mirko Thalmann, Eric Schulz, and Marcel Binz | (参考訳) エコロジー的合理性(Ecoological rationality)とは、人間は環境に適応した合理的エージェントであるという考えを指す。
しかしながら、この理論の検証は、生態学的に妥当なタスクの定義が困難であることと、これらのタスクの合理的モデルを構築することの2つの理由から、依然として困難である。
本研究では,大規模言語モデルが実世界の課題の統計に合致する認知タスク,特にカテゴリ学習タスクを生成できることを示し,最初の課題に対処する。
本稿では,これらの課題に適応した有理的エージェントをメタラーニングの枠組みを用いて導き,生態学的に合理的なメタラーニング推論(ERMI)と呼ばれるモデルのクラスに導出する。
ERMIは2つの異なる実験で、人間のデータを他の7つの認知モデルより定量的に説明します。
さらに、質的レベルでの人間の行動にも適合する:(1)人間が難しいと感じるのと同じタスクを見つける、(2)カテゴリーを学習に割り当てる例題ベースの戦略に依存する、(3)人間のような方法で知覚できない刺激に一般化する。
さらに、ERMIの生態学的に有効な事前評価により、OpenML-CC18分類ベンチマークで最先端のパフォーマンスを達成することができることを示す。 Ecological rationality refers to the notion that humans are rational agents adapted to their environment. However, testing this theory remains challenging due to two reasons: the difficulty in defining what tasks are ecologically valid and building rational models for these tasks. In this work, we demonstrate that large language models can generate cognitive tasks, specifically category learning tasks, that match the statistics of real-world tasks, thereby addressing the first challenge. We tackle the second challenge by deriving rational agents adapted to these tasks using the framework of meta-learning, leading to a class of models called ecologically rational meta-learned inference (ERMI). ERMI quantitatively explains human data better than seven other cognitive models in two different experiments. It additionally matches human behavior on a qualitative level: (1) it finds the same tasks difficult that humans find difficult, (2) it becomes more reliant on an exemplar-based strategy for assigning categories with learning, and (3) it generalizes to unseen stimuli in a human-like way. Furthermore, we show that ERMI's ecologically valid priors allow it to achieve state-of-the-art performance on the OpenML-CC18 classification benchmark. | 翻訳日:2024-02-07 00:04:37 公開日:2024-02-02 |
# LLMは計画できないが、LLM-Moduloフレームワークの計画を助ける LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks ( http://arxiv.org/abs/2402.01817v1 ) ライセンス: Link先を確認 | Subbarao Kambhampati, Karthik Valmeekam, Lin Guan, Kaya Stechly, Mudit Verma, Siddhant Bhambri, Lucas Saldyt, Anil Murthy | (参考訳) 計画と推論タスクにおけるLLM(Large Language Models)の役割には、かなりの混乱がある。
他方では、LLMは正しいプロンプトや自己検証戦略だけでこれらのタスクを実際に実行できるという過度な最適化的主張がある。
他方で、llmが計画/調整タスクに適しているのは、単に問題仕様をある構文形式から別の形式に翻訳し、問題を外部のシンボリックソルバに送るだけである、という悲観的な主張は多すぎるだろう。
本稿では,両極端が誤導されているという見解を述べる。
自己回帰的LLMは、それ自体では、計画や自己検証(結局のところ、推論の形で)を行うことができず、文学における誤解の理由についていくつか光を当てている。
また、LCMは、単純なフロントエンド/バックエンドフォーマットトランスレータを超えて、計画/推論タスクにおいて、より意味のある役割を持つ、普遍的な近似知識ソースと見なされるべきである、と論じる。
本稿では, LLMの強度と外部モデルベース検証器の強度を, より厳密な双方向インタラクション方式で組み合わせた, {\displaystyle {\bf LLM-Modulo Frameworks} のビジョンを提案する。
外部検証器自体を駆動するモデルがLCMの助けを借りてどのように取得できるかを示す。
LLMとシンボリックコンポーネントを単純にパイプライン化するのではなく、このLLM-Modulo Frameworkは、LLMとシンボリックコンポーネントとの緊密な統合を提供する、より柔軟な知識、問題、嗜好仕様へのモデルベースの計画/推論体制の範囲を拡大する、より優れたニューロシンボリックアプローチを提供します。 There is considerable confusion about the role of Large Language Models (LLMs) in planning and reasoning tasks. On one side are over-optimistic claims that LLMs can indeed do these tasks with just the right prompting or self-verification strategies. On the other side are perhaps over-pessimistic claims that all that LLMs are good for in planning/reasoning tasks are as mere translators of the problem specification from one syntactic format to another, and ship the problem off to external symbolic solvers. In this position paper, we take the view that both these extremes are misguided. We argue that auto-regressive LLMs cannot, by themselves, do planning or self-verification (which is after all a form of reasoning), and shed some light on the reasons for misunderstandings in the literature. We will also argue that LLMs should be viewed as universal approximate knowledge sources that have much more meaningful roles to play in planning/reasoning tasks beyond simple front-end/back-end format translators. We present a vision of {\bf LLM-Modulo Frameworks} that combine the strengths of LLMs with external model-based verifiers in a tighter bi-directional interaction regime. We will show how the models driving the external verifiers themselves can be acquired with the help of LLMs. We will also argue that rather than simply pipelining LLMs and symbolic components, this LLM-Modulo Framework provides a better neuro-symbolic approach that offers tighter integration between LLMs and symbolic components, and allows extending the scope of model-based planning/reasoning regimes towards more flexible knowledge, problem and preference specifications. | 翻訳日:2024-02-07 00:03:59 公開日:2024-02-02 |
# シンメトリカルサステナブルソーティング - greeNsort の記事 Simple Symmetric Sustainable Sorting -- the greeNsort article ( http://arxiv.org/abs/2402.01816v1 ) ライセンス: Link先を確認 | Jens Oehlschl\"agel | (参考訳) 我々は,アルゴリズムのソートのための解空間の非チャート部分を探索し,分割・コンカレントアルゴリズムにおける対称性の役割について検討した。
我々は,CPU効率,ベストケース適応性,RAM要求のトレードオフを改善するために,連続した空間で動作する新しい単純なバイナリQuicksortとMergesortアルゴリズムを考案・設計した。
greeNsort'アルゴリズムは、以前の技術に比べてハードウェア(RAM)やエネルギー(CPU)を少なくする。
新しいアルゴリズムは理論的な枠組みに適合する: 'footprint' kpiはアルゴリズムと異なるram要求を比較することができ、apiターゲットをソートする新しい'定義'は、ミラー付きスキャン方向の安定したアルゴリズムの構築を単純化し、我々の順序機械モデルは'距離'を最小限にする頑健なアルゴリズムを奨励する。
以前の'Quicksorts'とは異なり、我々の'Zucksort'、'Zucksort'、'Ducksort'アルゴリズムはCPU効率とタイアダプティビティを最適に結合する。
100%離れたバッファを必要とする以前の'Mergesorts'とは異なり、我々の'Frogsort'と'Geckosort'アルゴリズムは、50%以下のローカルバッファで同様のCPU効率を達成する。
完全並べ替えのベストケースに最適化された"timsort"のような自然なマージソートとは異なり、"octosort"と"squidsort"のアルゴリズムは、実際のソートタスクで最悪のケース効率を犠牲にすることなく、事前に並べ替えられたベストケースに対して優れたbi-adaptivityを達成します。
私たちの'Walksort'と'Jumpsort'は、Astrelinの印象的な低メモリ'Grailsort'と'Sqrtsort'よりもフットプリントが低い。
現在の気候の緊急性を考えると、これはライブラリをソートするすべてのメンテナ、カスタムソートコードを使用するソフトウェアエンジニア、アルゴリズムを教えるすべての教授、プログラム言語、コンパイラ、CPUを設計するすべてのITプロフェッショナルに対するアクションである。 We explored an uncharted part of the solution space for sorting algorithms: the role of symmetry in divide&conquer algorithms. We found/designed novel simple binary Quicksort and Mergesort algorithms operating in contiguous space which achieve improved trade-offs between worst-case CPU-efficiency, best-case adaptivity and RAM-requirements. The 'greeNsort' algorithms need less hardware (RAM) and/or less energy (CPU) compared to the prior art. The new algorithms fit a theoretical framework: 'Footprint' KPIs allow to compare algorithms with different RAM-requirements, a new 'definition' of sorting API-targets simplifies construction of stable algorithms with mirrored scan directions, and our ordinal machine model encourages robust algorithms that minimize access 'distance'. Unlike earlier 'Quicksorts', our 'Zacksort', 'Zucksort' and 'Ducksort' algorithms optimally marry CPU-efficiency and tie-adaptivity. Unlike earlier 'Mergesorts' which required 100% distant buffer, our 'Frogsort' and 'Geckosort' algorithms achieve similar CPU-efficiency with 50% or less local buffer. Unlike natural Mergesorts such as 'Timsort' which are optimized for the best case of full-presorting, our 'Octosort' and 'Squidsort' algorithms achieve excellent bi-adaptivity to presorted best-cases without sacrificing worst-case efficiency in real sorting tasks. Our 'Walksort' and 'Jumpsort' have lower Footprint than the impressive low-memory 'Grailsort' and 'Sqrtsort' of Astrelin. Given the current climate-emergency, this is a call to action for all maintainers of sorting libraries, all software-engineers using custom sorting code, all professors teaching algorithms, all IT professionals designing programming languages, compilers and CPUs: check for better algorithms and consider symmetric code-mirroring. | 翻訳日:2024-02-07 00:02:59 公開日:2024-02-02 |
# ファジィクラスタリングによる超伝導量子プロセッサの誤り緩和 Mitigating Errors on Superconducting Quantum Processors through Fuzzy Clustering ( http://arxiv.org/abs/2402.01815v1 ) ライセンス: Link先を確認 | Halima G. Ahmad, Roberto Schiattarella, Pasquale Mastrovito, Angela Chiatto, Anna Levochkina, Martina Esposito, Domenico Montemurro, Giovanni P. Pepe, Alessandro Bruno, Francesco Tafuri, Autilia Vitiello, Giovanni Acampora, Davide Massarotti | (参考訳) 量子ユーティリティは、量子ビット状態の操作と読み出しに必要な外部環境との意図的な結合のため、これまで量子ビットの控えめな数と比較的高いレベルの制御および読み出しエラーによって、超伝導量子ハードウェアにおいて著しく制限されてきた。
ノイズ中間スケール量子(NISQ)時代の実用化は、繰り返し発生するノイズ量子回路のアンサンブルから古典的な後処理分析を実装することで、量子可観測体の期待値の精度を向上させることができる量子誤差緩和(QEM)技術に依存している。
本研究では,ファジィc-means(fcm)クラスタリングを用いて測定誤差パターンを特定できる最近のqem手法に注目した。
トランスモン量子ビットに基づく実NISQ 5-qubit超伝導量子プロセッサのサブセットとして得られた2-qubitレジスタ上で,この手法の原理的検証を初めて報告した。
我々は、fcmベースのqem技術により、最先端のコヒーレンス、ゲート、読み出しファイパリティを必ずしも呼び出すことなく、単一および2量子ビットゲートベースの量子回路の期待値を合理的に改善できることを実証する。 Quantum utility has been severely limited in superconducting quantum hardware until now by the modest number of qubits and the relatively high level of control and readout errors, due to the intentional coupling with the external environment required for manipulation and readout of the qubit states. Practical applications in the Noisy Intermediate Scale Quantum (NISQ) era rely on Quantum Error Mitigation (QEM) techniques, which are able to improve the accuracy of the expectation values of quantum observables by implementing classical post-processing analysis from an ensemble of repeated noisy quantum circuit runs. In this work, we focus on a recent QEM technique that uses Fuzzy C-Means (FCM) clustering to specifically identify measurement error patterns. For the first time, we report a proof-of-principle validation of the technique on a 2-qubit register, obtained as a subset of a real NISQ 5-qubit superconducting quantum processor based on transmon qubits. We demonstrate that the FCM-based QEM technique allows for reasonable improvement of the expectation values of single- and two-qubit gates based quantum circuits, without necessarily invoking state-of-the-art coherence, gate, and readout fidelities. | 翻訳日:2024-02-07 00:01:39 公開日:2024-02-02 |
# ソーシャルメディアの追跡,プロファイリング,レコメンデーションについて学ぶための教育的ツール An Educational Tool for Learning about Social Media Tracking, Profiling, and Recommendation ( http://arxiv.org/abs/2402.01813v1 ) ライセンス: Link先を確認 | Nicolas Pope, Juho Kahila, Jari Laru, Henriikka Vartiainen, Teemu Roos, Matti Tedre | (参考訳) 本稿では、初級の学習者を対象に、重要なソーシャルメディアメカニズムの追跡、プロファイリング、コンテンツレコメンデーションを減らし、説明可能なAI(XAI)に基づく授業用ツールを提案する。
このツールは、一般的なソーシャルメディアプラットフォームで学習者の体験と共鳴する使い慣れたインタラクティブなインターフェースを提供し、また「内部を覗き込む」手段を提供し、データ体験の基本的なメカニズムを公開する。
学習者は、コンテンツを見るために一時停止したり、デジタルフットプリントに記録されたり、さらに個人プロファイルに蒸留されたりといった、ごくわずかな行動でさえ、直接的に経験することができる。
このツールはリアルタイムの視覚化と言葉による説明を使って即興の感覚を作り出す。ユーザが行動するたびに、そのエンゲージメント履歴とプロフィールの変化が視覚的に魅力的で理解しやすい方法で表示される。
本稿では,データ変換とデジタルリテラシー教育におけるxaiと教育技術の可能性と,子供のプライバシーとセキュリティの考え方の育成について述べる。 This paper introduces an educational tool for classroom use, based on explainable AI (XAI), designed to demystify key social media mechanisms - tracking, profiling, and content recommendation - for novice learners. The tool provides a familiar, interactive interface that resonates with learners' experiences with popular social media platforms, while also offering the means to "peek under the hood" and exposing basic mechanisms of datafication. Learners gain first-hand experience of how even the slightest actions, such as pausing to view content, are captured and recorded in their digital footprint, and further distilled into a personal profile. The tool uses real-time visualizations and verbal explanations to create a sense of immediacy: each time the user acts, the resulting changes in their engagement history and their profile are displayed in a visually engaging and understandable manner. This paper discusses the potential of XAI and educational technology in transforming data and digital literacy education and in fostering the growth of children's privacy and security mindsets. | 翻訳日:2024-02-07 00:01:16 公開日:2024-02-02 |
# LLMの分解能力のコンパクト言語モデルへの拡張 Distilling LLMs' Decomposition Abilities into Compact Language Models ( http://arxiv.org/abs/2402.01812v1 ) ライセンス: Link先を確認 | Denis Tarasov, Kumar Shridhar | (参考訳) 大きな言語モデル(LLM)は推論能力に習熟性を示しているが、その大きなサイズはスケーラビリティの課題を示し、さらなるカスタマイズを制限している。
対照的に、コンパクトモデルはカスタマイズされたトレーニングを提供するが、複雑な推論タスクの解決には不足することが多い。
本研究は,LLMの分解技術をオフライン強化学習を用いて小型モデルに蒸留することに焦点を当てる。
LLMの能力の進歩を利用してフィードバックを提供し、コンパクトモデルをトレーニングするための特別なタスク固有のデータセットを生成する。
AI生成データセットの開発とベースラインの確立は,複雑な問題解決スキルを再現するコンパクトモデルの可能性を強調する上で,私たちの作業の主要な貢献となる。 Large Language Models (LLMs) have demonstrated proficiency in their reasoning abilities, yet their large size presents scalability challenges and limits any further customization. In contrast, compact models offer customized training but often fall short in solving complex reasoning tasks. This study focuses on distilling the LLMs' decomposition skills into compact models using offline reinforcement learning. We leverage the advancements in the LLM`s capabilities to provide feedback and generate a specialized task-specific dataset for training compact models. The development of an AI-generated dataset and the establishment of baselines constitute the primary contributions of our work, underscoring the potential of compact models in replicating complex problem-solving skills. | 翻訳日:2024-02-07 00:00:56 公開日:2024-02-02 |
# マイクロ波単一光子検出におけるトランスモンイオン化の開始 Onset of transmon ionization in microwave single-photon detection ( http://arxiv.org/abs/2402.01884v1 ) ライセンス: Link先を確認 | Yuki Nojiri, Kedar E. Honasoge, Achim Marx, Kirill G. Fedorov, Rudolf Gross | (参考訳) トランスモン共鳴系を強く駆動することで、トランスモン量子ビットはそのコサイン形ポテンシャルから逃げることができる。
この過程はトランスモンイオン化 (TI) と呼ばれ、量子ビットコヒーレンスと演算に有害であることが知られている。
本研究では, 固定周波数トランスモン量子ビットに結合した超伝導3Dキャビティからなるシステムにおいて, TIの非可逆・パラメトリック駆動型周波数変換過程の開始について検討する。
臨界ポンプの力の上には、トランスモン人口が突然増加する。
Renyi entropy, Floquet modes, Husimi Q 関数を用いて、この急激な変化は量子-古典相転移に起因すると推測する。
さらに、単一光子検出の文脈において、ti非補正検出効率を86%まで測定し、可逆的周波数変換を利用して最大78%のti補正値を推定する。
数値シミュレーションにより, ポンプとqubit周波数のデチューニングを増加させ, qubitアンハーモニティを増加させることでtiの影響を抑制できることが示唆された。
本研究は,結合量子キャビティシステムの動作におけるTIプロセスの重要性を明らかにするものである。 By strongly driving a transmon-resonator system, the transmon qubit may eventually escape from its cosine-shaped potential. This process is called transmon ionization (TI) and known to be detrimental to the qubit coherence and operation. In this work, we investigate the onset of TI in an irreversible, parametrically-driven, frequency conversion process in a system consisting of a superconducting 3D-cavity coupled to a fixed-frequency transmon qubit. Above a critical pump power we find a sudden increase in the transmon population. Using Renyi entropy, Floquet modes, and Husimi Q functions, we infer that this abrupt change can be attributed to a quantum-to-classical phase transition. Furthermore, in the context of the single-photon detection, we measure a TI-uncorrected detection efficiency of up to 86% and estimate a TI-corrected value of up to 78% by exploiting the irreversible frequency conversion. Our numerical simulations suggest that increasing the detuning between the pump and qubit frequencies and increasing the qubit anharmonicity can suppress the TI impact. Our findings highlight the general importance of the TI process when operating coupled qubit-cavity systems. | 翻訳日:2024-02-06 23:54:28 公開日:2024-02-02 |
# 弱い指導による構造学習のための大規模言語モデル活用 Leveraging Large Language Models for Structure Learning in Prompted Weak Supervision ( http://arxiv.org/abs/2402.01867v1 ) ライセンス: Link先を確認 | Jinyan Su, Peilin Yu, Jieyu Zhang, Stephen H. Bach | (参考訳) Promptedの弱い監視(PromptedWS)は、大きなラベル付きデータセットを得るための弱い監視フレームワークにおけるラベル付け機能(LF)の基礎として、事前訓練された大規模言語モデル(LLM)を適用している。
弱監督における重要な課題の1つ、すなわち、監督源間の統計的依存構造を学習するために、ループにおけるLLMの使用をさらに拡張する。
この研究において、我々はLLMに対して、これらがいかにLFを誘導しているかを尋ねる。
組込み空間における本質的な構造を生かして,プロンプトの類似性に基づく簡易かつ効果的な第1の手法であるStructure Refining Moduleを提案する。
構造精製モジュールのコアにはラベル付け機能除去(LaRe)と相関構造生成(CosGen)がある。
弱いラベルから依存関係を学習する以前の方法と比較すると,本手法はlfに固有でデータに依存しない依存関係を見出す。
私たちのStructure Refining Moduleは、ベンチマークタスクで最大12.7ポイント、PromptedWSパイプラインを改善しています。
また,包括的アブレーション実験と解析により,効率と性能のトレードオフを考察した。
このプロジェクトのコードはhttps://github.com/BatsResearch/su-bigdata23-codeにある。 Prompted weak supervision (PromptedWS) applies pre-trained large language models (LLMs) as the basis for labeling functions (LFs) in a weak supervision framework to obtain large labeled datasets. We further extend the use of LLMs in the loop to address one of the key challenges in weak supervision: learning the statistical dependency structure among supervision sources. In this work, we ask the LLM how similar are these prompted LFs. We propose a Structure Refining Module, a simple yet effective first approach based on the similarities of the prompts by taking advantage of the intrinsic structure in the embedding space. At the core of Structure Refining Module are Labeling Function Removal (LaRe) and Correlation Structure Generation (CosGen). Compared to previous methods that learn the dependencies from weak labels, our method finds the dependencies which are intrinsic to the LFs and less dependent on the data. We show that our Structure Refining Module improves the PromptedWS pipeline by up to 12.7 points on the benchmark tasks. We also explore the trade-offs between efficiency and performance with comprehensive ablation experiments and analysis. Code for this project can be found in https://github.com/BatsResearch/su-bigdata23-code. | 翻訳日:2024-02-06 23:54:07 公開日:2024-02-02 |
# 私のモデルは何を忘れるの?
言語モデルリファインメントにおける予測の例 What Will My Model Forget? Forecasting Forgotten Examples in Language Model Refinement ( http://arxiv.org/abs/2402.01865v1 ) ライセンス: Link先を確認 | Xisen Jin, Xiang Ren | (参考訳) 野放しにデプロイされた言語モデルはエラーを起こします。
しかし、単に修正されたエラーインスタンスでモデルを更新するだけで、壊滅的な忘れる - 更新されたモデルは、命令のチューニングや上流のトレーニングフェーズで学習したインスタンスのエラーを発生させる。
上流データのランダムな再生は不満足なパフォーマンスをもたらし、しばしば高いばらつきと制御性が伴います。
この目的のために,リプレイプロセスの制御性向上と解釈性向上のため,モデル更新によって忘れられる上流の例を予測しようとしている。
オンライン学習例とそれに対応する上流事前学習例の集合から予測モデルを訓練する。
本稿では,事前学習例のソフトマックス前のロジットスコアの変化がオンライン学習例に似ており,BARTでは良好に動作するが,T5モデルでは失敗する,という観察に基づく部分的に解釈可能な予測モデルを提案する。
さらに,サンプル表現の内積に基づくブラックボックス分類器が,一連の設定よりも優れた予測性能を実現することを示す。
最後に,忘れられると予測される例を再生して上流事前学習例の忘れ込みを低減し,忘れられる例の予測の実用性を示す。 Language models deployed in the wild make errors. However, simply updating the model with the corrected error instances causes catastrophic forgetting -- the updated model makes errors on instances learned during the instruction tuning or upstream training phase. Randomly replaying upstream data yields unsatisfactory performance and often comes with high variance and poor controllability. To this end, we try to forecast upstream examples that will be forgotten due to a model update for improved controllability of the replay process and interpretability. We train forecasting models given a collection of online learned examples and corresponding forgotten upstream pre-training examples. We propose a partially interpretable forecasting model based on the observation that changes in pre-softmax logit scores of pretraining examples resemble that of online learned examples, which performs decently on BART but fails on T5 models. We further show a black-box classifier based on inner products of example representations achieves better forecasting performance over a series of setups. Finally, we show that we reduce forgetting of upstream pretraining examples by replaying examples that are forecasted to be forgotten, demonstrating the practical utility of forecasting example forgetting. | 翻訳日:2024-02-06 23:53:45 公開日:2024-02-02 |
# (A)私は弁護士ではない。しかし...--法律専門家が法務顧問の責任あるLCM政策にむけて (A)I Am Not a Lawyer, But...: Engaging Legal Experts towards Responsible LLM Policies for Legal Advice ( http://arxiv.org/abs/2402.01864v1 ) ライセンス: Link先を確認 | Inyoung Cheong, King Xia, K.J. Kevin Feng, Quan Ze Chen, Amy X. Zhang | (参考訳) 一般向けチャットボットとしての大規模言語モデル(LLM)の急速な普及は、法律、医療、金融のプロフェッショナルガイダンスへのアクセスを拡大し、高い状況下でのLLMへの公衆依存を懸念する声が高まっている。
先行研究は高いレベルの倫理的考察を推測しているが、llmチャットボットが専門的な支援を提供するべきかどうかを判断する具体的な基準が欠けている。
法的ドメインを調べることで,事例に基づく推論に触発された手法を用いて,llmを専門的アドバイスに使用する際のニュアンス的ポリシーを解明するために,構造化された専門家分析を行う。
私たちは20人の法律専門家とワークショップを開き、サンプルユーザクエリ(`cases'')に適切なai支援を施した。
1) ユーザ属性, (2) クエリ特性, (3) ai能力, (4) 影響の3つに分類した。
幻覚のような既知の問題以外にも、専門家は、llmとの会話が弁護士と依頼人の機密性によって保護されないことや、対立する弁護士や質の悪い助言から守る専門的な倫理に縛られることなど、新しい法的問題を明らかにしている。
この説明責任の欠如により、参加者は特定の行動を推奨するのではなく、ユーザーが法的問題や関連する事実を洗練するためのAIシステムを支持するようになった。
より一般的には、プロフェッショナルドメインのアドバイスを生成する際に適切なAI行動を伝えるために、専門的整合性とドメイン知識を設計要求に責任を持って翻訳する手法として、ケースベースの専門家による検討の可能性を強調します。 The rapid proliferation of large language models (LLMs) as general purpose chatbots available to the public raises hopes around expanding access to professional guidance in law, medicine, and finance, while triggering concerns about public reliance on LLMs for high-stakes circumstances. Prior research has speculated on high-level ethical considerations but lacks concrete criteria determining when and why LLM chatbots should or should not provide professional assistance. Through examining the legal domain, we contribute a structured expert analysis to uncover nuanced policy considerations around using LLMs for professional advice, using methods inspired by case-based reasoning. We convened workshops with 20 legal experts and elicited dimensions on appropriate AI assistance for sample user queries (``cases''). We categorized our expert dimensions into: (1) user attributes, (2) query characteristics, (3) AI capabilities, and (4) impacts. Beyond known issues like hallucinations, experts revealed novel legal problems, including that users' conversations with LLMs are not protected by attorney-client confidentiality or bound to professional ethics that guard against conflicted counsel or poor quality advice. This accountability deficit led participants to advocate for AI systems to help users polish their legal questions and relevant facts, rather than recommend specific actions. More generally, we highlight the potential of case-based expert deliberation as a method of responsibly translating professional integrity and domain knowledge into design requirements to inform appropriate AI behavior when generating advice in professional domains. | 翻訳日:2024-02-06 23:53:25 公開日:2024-02-02 |
# DFML: 分散化した相互学習 DFML: Decentralized Federated Mutual Learning ( http://arxiv.org/abs/2402.01863v1 ) ライセンス: Link先を確認 | Yasser H. Khalil, Amir H. Estiri, Mahdi Beitollahi, Nader Asadi, Sobhan Hemati, Xu Li, Guojun Zhang, Xi Chen | (参考訳) 現実世界のデバイスの分野では、連合学習(fl)における集中型サーバには、通信ボトルネックや単一障害点に対する感受性といった課題がある。
さらに、現代のデバイスは本質的にモデルとデータの異質性を示す。
既存の作業には、アーキテクチャ上の制約や公開データの可用性を仮定することなく、そのような不均一性を調節できる分散FL(DFL)フレームワークが欠けている。
これらの問題に対処するため,我々は,非制限的異種モデルをサポートし,公開データへの依存を回避した分散連合型相互学習(dfml)フレームワークを提案する。
DFMLは相互学習を通じてモデルとデータの均一性を効果的に処理し、クライアント間の知識を蒸留し、監督信号と蒸留信号の量を周期的に変化させる。
DFMLの収束速度と大域的精度の両面での一貫した有効性を示し, 各種条件下での有意なベースラインよりも優れていた。
例えば、CIFAR-100データセットと50のクライアントで、DFMLは、それぞれ独立分散(IID)と非IIDデータシフトの下で、グローバル精度の+17.20%と+19.95%を大きく向上させる。 In the realm of real-world devices, centralized servers in Federated Learning (FL) present challenges including communication bottlenecks and susceptibility to a single point of failure. Additionally, contemporary devices inherently exhibit model and data heterogeneity. Existing work lacks a Decentralized FL (DFL) framework capable of accommodating such heterogeneity without imposing architectural restrictions or assuming the availability of public data. To address these issues, we propose a Decentralized Federated Mutual Learning (DFML) framework that is serverless, supports nonrestrictive heterogeneous models, and avoids reliance on public data. DFML effectively handles model and data heterogeneity through mutual learning, which distills knowledge between clients, and cyclically varying the amount of supervision and distillation signals. Extensive experimental results demonstrate consistent effectiveness of DFML in both convergence speed and global accuracy, outperforming prevalent baselines under various conditions. For example, with the CIFAR-100 dataset and 50 clients, DFML achieves a substantial increase of +17.20% and +19.95% in global accuracy under Independent and Identically Distributed (IID) and non-IID data shifts, respectively. | 翻訳日:2024-02-06 23:52:53 公開日:2024-02-02 |
# Parametric Feature Transfer: 基礎モデルによるワンショットフェデレーション学習 Parametric Feature Transfer: One-shot Federated Learning with Foundation Models ( http://arxiv.org/abs/2402.01862v1 ) ライセンス: Link先を確認 | Mahdi Beitollahi, Alex Bie, Sobhan Hemati, Leo Maxime Brunswic, Xu Li, Xi Chen, Guojun Zhang | (参考訳) ワンショットフェデレーション学習(FL)では、クライアントは単一の通信ラウンドでグローバルモデルを協調的にトレーニングする。
ワンショットflの既存のアプローチは、精度の低下を犠牲にして通信効率を高める。
本稿では,FedPFT(Federated Learning with Parametric Feature Transfer)について紹介する。
このアプローチでは、基礎モデルから抽出された機能のクライアント毎のパラメトリックモデル(特にガウス混合)を転送する。
その後、各パラメトリックモデルを用いて分類器ヘッドを訓練する合成特徴を生成する。
8つのデータセットの実験結果から、FedPFTは集中的および分散化されたFLシナリオと、共変量シフトやタスクシフトなどの多様なデータ不均一性設定の両方において、通信精度のフロンティアを強化し、最大20.6%の改善が示されている。
さらに、fedpftは、クライアントが実際の機能を送信しないため、flのデータ最小化原則に準拠している。
実際の特徴の送信は、強力な再構築攻撃に対して脆弱であることを示す。
さらに,feedpft は差分プライバシーを通した形式的プライバシー保証に適しており,良好なプライバシー妥当性のトレードオフを示す。 In one-shot federated learning (FL), clients collaboratively train a global model in a single round of communication. Existing approaches for one-shot FL enhance communication efficiency at the expense of diminished accuracy. This paper introduces FedPFT (Federated Learning with Parametric Feature Transfer), a methodology that harnesses the transferability of foundation models to enhance both accuracy and communication efficiency in one-shot FL. The approach involves transferring per-client parametric models (specifically, Gaussian mixtures) of features extracted from foundation models. Subsequently, each parametric model is employed to generate synthetic features for training a classifier head. Experimental results on eight datasets demonstrate that FedPFT enhances the communication-accuracy frontier in both centralized and decentralized FL scenarios, as well as across diverse data-heterogeneity settings such as covariate shift and task shift, with improvements of up to 20.6%. Additionally, FedPFT adheres to the data minimization principle of FL, as clients do not send real features. We demonstrate that sending real features is vulnerable to potent reconstruction attacks. Moreover, we show that FedPFT is amenable to formal privacy guarantees via differential privacy, demonstrating favourable privacy-accuracy tradeoffs. | 翻訳日:2024-02-06 23:52:31 公開日:2024-02-02 |
# 大規模マルチモーダルモデルを用いた生成モデルの潜在表現 Explaining latent representations of generative models with large multimodal models ( http://arxiv.org/abs/2402.01858v1 ) ライセンス: Link先を確認 | Mengdan Zhu, Zhenke Liu, Bo Pan, Abhinav Angirekula, Liang Zhao | (参考訳) データ生成的潜在要因の理解可能な表現の学習は、人工知能の開発において重要なトピックである。
大規模なマルチモーダルモデルの台頭により、画像とテキストをアライメントして回答を生成することができる。
本研究では,大規模マルチモーダルモデルを用いて生成モデルの各潜在因子を包括的に説明するためのフレームワークを提案する。
さらに、生成した説明の不確実性を測定し、複数の大規模マルチモーダルモデル間の説明生成性能を定量的に評価し、各潜在因子の変動を定性的に可視化し、異なる生成モデルが説明に絡み合う影響を学習する。
最後に,最先端の大規模マルチモーダルモデルの説明能力と限界について述べる。 Learning interpretable representations of data generative latent factors is an important topic for the development of artificial intelligence. With the rise of the large multimodal model, it can align images with text to generate answers. In this work, we propose a framework to comprehensively explain each latent factor in the generative models using a large multimodal model. We further measure the uncertainty of our generated explanations, quantitatively evaluate the performance of explanation generation among multiple large multimodal models, and qualitatively visualize the variations of each latent factor to learn the disentanglement effects of different generative models on explanations. Finally, we discuss the explanatory capabilities and limitations of state-of-the-art large multimodal models. | 翻訳日:2024-02-06 23:52:09 公開日:2024-02-02 |
# SPDEによるエンドツーエンドのニューラルデータ同化スキームの不確実性定量化 SPDE priors for uncertainty quantification of end-to-end neural data assimilation schemes ( http://arxiv.org/abs/2402.01855v1 ) ライセンス: Link先を確認 | Maxime Beauchamp, Nicolas Desassis, J. Emmanuel Johnson, Simon Benaichouche, Pierre Tandeo and Ronan Fablet | (参考訳) 大規模な物理データセットの時空間補間は、OI(Optimal Interpolation)とより洗練されたモデルベースまたはデータ駆動DA技術によって歴史的に調整されてきた。
過去10年間で、確率的偏微分方程式 (SPDE) とガウス的マルコフランダム場 (GMRF) の間に確立されたリンクは、最適補間における大きなデータセットと物理的に誘起される共分散行列の両方を扱う新しい方法を開いた。
ディープラーニングコミュニティの最近の進歩により、この問題を、データ同化変動フレームワークを組み込んだニューラルネットワークアーキテクチャとして扱うこともできる。
リコンストラクションタスクは、変動の内コストと勾配に基づく後者の最小化にかかわる事前の学習問題と見なされており、先行モデルとソルバーはどちらも、損失関数を最小化することで訓練できる自動微分を持つニューラルネットワークとして記述され、一般に、ある基底真理と再構成の間の平均二乗誤差として記述される。
本研究では、SPDEに基づくガウス過程から、空間と時間の両方で非定常共分散を扱える複雑な事前モデルを推定し、解釈可能性と不確実性定量化のための確率的枠組みを提供する。
我々のニューラル変分法は、状態とSPDEパラメトリゼーションの両方に拡張状態の定式化を組み込むように修正されている。
ニューラルネットワークに代えて、確率的PDEをデータ同化ウィンドウに沿った代理モデルとして使用します。
トレーニングには、復元タスクとSPDE事前モデルの両方の損失関数が含まれており、真の状態が与えられたSPDEパラメータの可能性がトレーニングに関係している。
前者は確率的であるため、条件付け前にサンプルを簡単に事前分布に描画することができ、数千のメンバに基づいて後方分布を推定する柔軟な方法を提供する。 The spatio-temporal interpolation of large geophysical datasets has historically been adressed by Optimal Interpolation (OI) and more sophisticated model-based or data-driven DA techniques. In the last ten years, the link established between Stochastic Partial Differential Equations (SPDE) and Gaussian Markov Random Fields (GMRF) opened a new way of handling both large datasets and physically-induced covariance matrix in Optimal Interpolation. Recent advances in the deep learning community also enables to adress this problem as neural architecture embedding data assimilation variational framework. The reconstruction task is seen as a joint learning problem of the prior involved in the variational inner cost and the gradient-based minimization of the latter: both prior models and solvers are stated as neural networks with automatic differentiation which can be trained by minimizing a loss function, typically stated as the mean squared error between some ground truth and the reconstruction. In this work, we draw from the SPDE-based Gaussian Processes to estimate complex prior models able to handle non-stationary covariances in both space and time and provide a stochastic framework for interpretability and uncertainty quantification. Our neural variational scheme is modified to embed an augmented state formulation with both state and SPDE parametrization to estimate. Instead of a neural prior, we use a stochastic PDE as surrogate model along the data assimilation window. The training involves a loss function for both reconstruction task and SPDE prior model, where the likelihood of the SPDE parameters given the true states is involved in the training. Because the prior is stochastic, we can easily draw samples in the prior distribution before conditioning to provide a flexible way to estimate the posterior distribution based on thousands of members. | 翻訳日:2024-02-06 23:51:56 公開日:2024-02-02 |
# NISQデバイスにおける離散時間量子ウォークの効率的な実装 Efficient implementation of discrete-time quantum walks in NISQ devices ( http://arxiv.org/abs/2402.01854v1 ) ライセンス: Link先を確認 | Luca Razzoli, Gabriele Cenedese, Maria Bondani, and Giuliano Benenti | (参考訳) 量子ウォーク(quantum walk)は、量子計算の普遍モデルであり、特定の量子アルゴリズムの高速化を提供する。
離散時間量子ウォーク(DTQW)モデルは、その離散性のため、回路実装に最も適した候補の1つである。
しかし、現在の実装は通常、大きなサイズと深さの量子回路によって特徴づけられ、ノイズの多い中間スケール量子(NISQ)デバイスで確実に実装できる時間ステップの数を著しく制限している。
本研究では,条件シフト演算子の対角化に基づくDTQWを2ドル^n$サイクルで実装した,効率的でスケーラブルな量子回路を提案する。
DTQWの時間ステップ$t$の場合、提案回路は量子フーリエ変換に基づく現在の最も効率的な実装の$O(n^2 + nt)$2量子ゲートのみを必要とする。
提案回路をIBM量子デバイス上で,アダマールDTQWに対して,周期的ダイナミクスと最大絡み合った単一粒子状態の繰り返し発生を特徴とする4ドルおよび8ドルサイクルで試験した。
実験結果は、非常に少ない時間ステップの体制を超えて、信頼性の高い実装とNISQデバイスへの利用の道を開いた。 Quantum walks have proven to be a universal model for quantum computation and to provide speed-up in certain quantum algorithms. The discrete-time quantum walk (DTQW) model, among others, is one of the most suitable candidates for circuit implementation, due to its discrete nature. Current implementations, however, are usually characterized by quantum circuits of large size and depth, which severely limit the number of time steps that can be reliably implemented in noisy intermediate-scale quantum (NISQ) devices. In this work, we propose an efficient and scalable quantum circuit implementing the DTQW on the $2^n$-cycle based on the diagonalization of the conditional shift operator. For $t$ time-steps of the DTQW, the proposed circuit requires only $O(n^2 + nt)$ two-qubit gates against the $O(n^2 t)$ of the current most efficient implementation based on quantum Fourier transforms. We test the proposed circuit on a IBM quantum device for a Hadamard DTQW on the $4$- and $8$-cycle characterized by periodic dynamics and recurrent generation of maximally entangled single-particle states. Experimental results are meaningful well beyond the regime of very few time steps, paving the way for reliable implementation and use on NISQ devices. | 翻訳日:2024-02-06 23:51:24 公開日:2024-02-02 |
# QPPとHPPK:ガロア置換グループを用いた量子セキュア暗号における非可換性の統合 QPP and HPPK: Unifying Non-Commutativity for Quantum-Secure Cryptography with Galois Permutation Group ( http://arxiv.org/abs/2402.01852v1 ) ライセンス: Link先を確認 | Randy Kuang | (参考訳) 量子コンピューティングの発展と古典暗号システムにおける脆弱性の増大に対応するため,本論文では,統一暗号フレームワークを提案する。
対称鍵暗号のための量子置換パッド(qpp)と、鍵カプセル化機構(kem)とデジタル署名(ds)のための準同型多項式公開鍵(hppk)である。
我々のアプローチは、量子の進歩によって引き起こされる課題にしばしば直面する。
ガロア置換群の行列表現を利用し、その単射的および非可換な性質を継承し、qppは量子セキュアな対称鍵暗号を実現し、シャノンの完全機密を古典的および量子ネイティブシステムの両方にシームレスに拡張した。
一方、NPハード問題のないHPPKでは、平易な公開鍵の対称暗号化が強化されている。
このことは、モジュラー乗法やガロア置換群の算術表現を通じて数学的構造を隠蔽し、その部分準同型性を利用することによって達成される。
これにより、秘密のカプセル化中に暗号化されたデータのセキュアな計算が可能になり、平易な公開鍵のセキュリティが強化される。
HPPK暗号におけるKEMとDSのシームレスな統合により、コンパクトキー、暗号、署名サイズが得られ、例外的な性能を示す。
本稿では、ガロア置換グループの下でQPPとHPPKを有機的に統一し、量子耐性暗号プロトコルの基盤となる重要な進歩を示す。
我々の貢献は、量子コンピューティングの時代にセキュアな通信システムの開発を促進する。 In response to the evolving landscape of quantum computing and the escalating vulnerabilities in classical cryptographic systems, our paper introduces a unified cryptographic framework. Rooted in the innovative work of Kuang et al., we leverage two novel primitives: the Quantum Permutation Pad (QPP) for symmetric key encryption and the Homomorphic Polynomial Public Key (HPPK) for Key Encapsulation Mechanism (KEM) and Digital Signatures (DS). Our approach adeptly confronts the challenges posed by quantum advancements. Utilizing the Galois Permutation Group's matrix representations and inheriting its bijective and non-commutative properties, QPP achieves quantum-secure symmetric key encryption, seamlessly extending Shannon's perfect secrecy to both classical and quantum-native systems. Meanwhile, HPPK, free from NP-hard problems, fortifies symmetric encryption for the plain public key. It accomplishes this by concealing the mathematical structure through modular multiplications or arithmetic representations of Galois Permutation Group over hidden rings, harnessing their partial homomorphic properties. This allows for secure computation on encrypted data during secret encapsulations, bolstering the security of the plain public key. The seamless integration of KEM and DS within HPPK cryptography yields compact key, cipher, and signature sizes, demonstrating exceptional performance. This paper organically unifies QPP and HPPK under the Galois Permutation Group, marking a significant advancement in laying the groundwork for quantum-resistant cryptographic protocols. Our contribution propels the development of secure communication systems amid the era of quantum computing. | 翻訳日:2024-02-06 23:51:03 公開日:2024-02-02 |
# 選好学習によるフィットネス機能における廃棄物収集計画知識の獲得 Capturing waste collection planning expert knowledge in a fitness function through preference learning ( http://arxiv.org/abs/2402.01849v1 ) ライセンス: Link先を確認 | Laura Fern\'andez D\'iaz, Miriam Fern\'andez D\'iaz, Jos\'e Ram\'on Quevedo, Elena Monta\~n\'es | (参考訳) 本稿では,COGERSA廃棄物収集プロセスに対処する。
これまで専門家は、試行錯誤のメカニズムを使って手動でプロセスを設計してきた。
このプロセスは、評議会の要求が現れるにつれて段階的かつ局所的に構築されているため、グローバルに最適化されていない。
計画最適化アルゴリズムは通常それを解くが、経路計画品質を評価するために適合度関数が必要である。
欠点は、専門家でさえ、プロセスの複雑さのために、簡単に提案できないことだ。
したがって,本論文の目標は,利用可能な専門家の知識と専門知識を生かして,選好フレームワークを用いたフィットネス機能の構築である。
有望なフィットネス機能を学ぶための専門家により、好み判定とともにいくつかの重要なパフォーマンス指標を慎重に確立する。
特に、それらの添加性は、経路計画よりもルートで作業できるので、タスクをより安価にすることができる。
さらに、専門家は、その中の潜在的な(しかし未知の)冗長性を疑っているため、このような指標に対して特徴選択分析が行われる。
実験の結果、21の指標のうち6つまたは8つが取られると、最高の$c-$index(約9,4\%$に対して98\%$)が得られるため、この仮説が裏付けられる。
特に、トラックの負荷は、非主要道路を走行する距離と共に、非常に有望なパフォーマンス指標であるように見える。
なぜなら、$C-$index は 72\%$ または 90\%$ から 98\%$ になるからである。 This paper copes with the COGERSA waste collection process. Up to now, experts have been manually designed the process using a trial and error mechanism. This process is not globally optimized, since it has been progressively and locally built as council demands appear. Planning optimization algorithms usually solve it, but they need a fitness function to evaluate a route planning quality. The drawback is that even experts are not able to propose one in a straightforward way due to the complexity of the process. Hence, the goal of this paper is to build a fitness function though a preference framework, taking advantage of the available expert knowledge and expertise. Several key performance indicators together with preference judgments are carefully established according to the experts for learning a promising fitness function. Particularly, the additivity property of them makes the task be much more affordable, since it allows to work with routes rather than with route plannings. Besides, a feature selection analysis is performed over such indicators, since the experts suspect of a potential existing (but unknown) redundancy among them. The experiment results confirm this hypothesis, since the best $C-$index ($98\%$ against around $94\%$) is reached when 6 or 8 out of 21 indicators are taken. Particularly, truck load seems to be a highly promising key performance indicator, together to the travelled distance along non-main roads. A comparison with other existing approaches shows that the proposed method clearly outperforms them, since the $C-$index goes from $72\%$ or $90\%$ to $98\%$. | 翻訳日:2024-02-06 23:50:34 公開日:2024-02-02 |
# 干渉を考慮したマルチアーマッドバンド Multi-Armed Bandits with Interference ( http://arxiv.org/abs/2402.01845v1 ) ライセンス: Link先を確認 | Su Jia, Peter Frazier, Nathan Kallus | (参考訳) 干渉による実験は、現代のオンラインプラットフォームにおいて大きな課題となる。
干渉による実験に関する以前の研究は、政策の最終出力に集中している。
累積的なパフォーマンスは、等しく重要なものの、あまり理解されていない。
このギャップに対処するために、学習者がT$ラウンドの時間的地平線上でN$の実験ユニットにアームを割り当てるMABI ( {\em Multi-armed Bandits with Interference) を導入する。
各ラウンドにおける各ユニットの報酬は、単位間の空間距離で単位の影響が減衰するような、全ての単位の処理に依存する。
さらに,報奨機能が敵によって選択され,ラウンドやユニット間で任意に変化するような一般的な設定も採用する。
まず、スイッチバックポリシーが最適に期待された後悔の$\tilde O(\sqrt T)$を最良の固定アームポリシーに対して達成することを示す。
それでも、あらゆるswitchbackポリシーに対する後悔(ランダム変数として)は、n$を考慮しないため、高いばらつきを被る。
我々は,クラスタランダム化政策を提案する。
i)は予想において最適であり、かつ
(ii) は、$n$ で消滅する高い確率境界を認めている。 Experimentation with interference poses a significant challenge in contemporary online platforms. Prior research on experimentation with interference has concentrated on the final output of a policy. The cumulative performance, while equally crucial, is less well understood. To address this gap, we introduce the problem of {\em Multi-armed Bandits with Interference} (MABI), where the learner assigns an arm to each of $N$ experimental units over a time horizon of $T$ rounds. The reward of each unit in each round depends on the treatments of {\em all} units, where the influence of a unit decays in the spatial distance between units. Furthermore, we employ a general setup wherein the reward functions are chosen by an adversary and may vary arbitrarily across rounds and units. We first show that switchback policies achieve an optimal {\em expected} regret $\tilde O(\sqrt T)$ against the best fixed-arm policy. Nonetheless, the regret (as a random variable) for any switchback policy suffers a high variance, as it does not account for $N$. We propose a cluster randomization policy whose regret (i) is optimal in {\em expectation} and (ii) admits a high probability bound that vanishes in $N$. | 翻訳日:2024-02-06 23:50:06 公開日:2024-02-02 |
# COMET:Delta Graphコンテキスト表現を用いたコミットメッセージの生成 COMET: Generating Commit Messages using Delta Graph Context Representation ( http://arxiv.org/abs/2402.01841v1 ) ライセンス: Link先を確認 | Abhinav Reddy Mandli, Saurabhsingh Rajput, and Tushar Sharma | (参考訳) コミットメッセージはコミットのコード変更を説明し、開発者間のコラボレーションを促進する。
いくつかのコミットメッセージ生成アプローチが提案されているが、コード変更のコンテキストを捉えることには成功していない。
我々は、グラフベースの表現を用いてコード変更のコンテキストをキャプチャし、トランスフォーマーベースのモデルを利用して高品質なコミットメッセージを生成する新しいアプローチであるComet(Context-Aware Commit Message Generation)を提案する。
提案手法は,コード差分を効果的に表現するために開発したデルタグラフを利用する。
また、最適なメッセージを特定するためのカスタマイズ可能な品質保証モジュールを導入し、コミットメッセージの主観性を軽減します。
実験によると、cometは最先端の技術よりもブレウノルムと流星測定で優れているが、ローグlでは同等である。
さらに,提案手法と一般的なgpt-3.5-turboモデル,および最も有能なGPTモデルであるgpt-4-turboとの比較を行った。
私たちはCometがそれぞれ5と4の指標でGPTモデルより優れており、他の2つの指標と競合する結果が得られました。
この研究は、研究者、ツール開発者、ソフトウェア開発者に影響を及ぼす。
ソフトウェア開発者はCometを使ってコンテキスト対応のコミットメッセージを生成することができる。
研究者とツール開発者は、コードレビューの要約のような類似のコンテキストで、提案されたデルタグラフ技術を適用することができる。 Commit messages explain code changes in a commit and facilitate collaboration among developers. Several commit message generation approaches have been proposed; however, they exhibit limited success in capturing the context of code changes. We propose Comet (Context-Aware Commit Message Generation), a novel approach that captures context of code changes using a graph-based representation and leverages a transformer-based model to generate high-quality commit messages. Our proposed method utilizes delta graph that we developed to effectively represent code differences. We also introduce a customizable quality assurance module to identify optimal messages, mitigating subjectivity in commit messages. Experiments show that Comet outperforms state-of-the-art techniques in terms of bleu-norm and meteor metrics while being comparable in terms of rogue-l. Additionally, we compare the proposed approach with the popular gpt-3.5-turbo model, along with gpt-4-turbo; the most capable GPT model, over zero-shot, one-shot, and multi-shot settings. We found Comet outperforming the GPT models, on five and four metrics respectively and provide competitive results with the two other metrics. The study has implications for researchers, tool developers, and software developers. Software developers may utilize Comet to generate context-aware commit messages. Researchers and tool developers can apply the proposed delta graph technique in similar contexts, like code review summarization. | 翻訳日:2024-02-06 23:49:48 公開日:2024-02-02 |
# SynthCLIP: 完全合成CLIPトレーニングの準備はできているか? SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training? ( http://arxiv.org/abs/2402.01832v1 ) ライセンス: Link先を確認 | Hasan Abed Al Kader Hammoud, Hani Itani, Fabio Pizzati, Philip Torr, Adel Bibi, Bernard Ghanem | (参考訳) 完全に合成されたテキストイメージペアでCLIPモデルをトレーニングするための新しいフレームワークであるSynthCLIPについて述べる。
近年のテキスト・ツー・イメージ(TTI)生成ネットワークと大規模言語モデル(LLM)を活用して,画像と対応するキャプションの合成データセットを任意の規模で生成することができる。
大規模トレーニングでは、SynthCLIPは、実際のデータセットでトレーニングされたCLIPモデルに匹敵するパフォーマンスを達成する。
また,3000万枚のキャプション画像からなる純合成データセットであるSynthCI-30Mも導入した。
私たちのコード、トレーニングされたモデル、生成されたデータはhttps://github.com/hammoudhasan/SynthCLIPでリリースされます。 We present SynthCLIP, a novel framework for training CLIP models with entirely synthetic text-image pairs, significantly departing from previous methods relying on real data. Leveraging recent text-to-image (TTI) generative networks and large language models (LLM), we are able to generate synthetic datasets of images and corresponding captions at any scale, with no human intervention. With training at scale, SynthCLIP achieves performance comparable to CLIP models trained on real datasets. We also introduce SynthCI-30M, a purely synthetic dataset comprising 30 million captioned images. Our code, trained models, and generated data are released at https://github.com/hammoudhasan/SynthCLIP | 翻訳日:2024-02-06 23:49:26 公開日:2024-02-02 |
# ベルマン残差最小化による分布的オフポリシー評価 Distributional Off-policy Evaluation with Bellman Residual Minimization ( http://arxiv.org/abs/2402.01900v1 ) ライセンス: Link先を確認 | Sungee Hong, Zhengling Qi, Raymond K. W. Wong | (参考訳) 本稿では,多くの分散強化学習(drl)アルゴリズムの基礎となる分布的オフポリシー評価の問題を考える。
既存のほとんどの研究(上限-ワッサーシュタイン距離のような超拡張統計距離に依存する)とは対照的に、分布ベルマン残差を定量化するための予想拡張統計距離を研究し、返却分布を推定する期待誤差を上限にすることができることを示す。
本稿では,ベルマン残差最小化の枠組みをDRLに拡張することにより,リターン分布を推定するEnergy Bellman Residual Minimizer(EBRM)を提案する。
本研究では, EBRM推定器の有限サンプル誤差を実現可能性仮定の下で確立する。
さらに,マルチステップ拡張を実現するために,マルチステップブートストラップ方式に基づく手法の変種を提案する。
適切なステップレベルを選択することで、単一ステップのEBRMに比べて、いくつかの非実現可能性設定の下で、この変種EBRMに対してより良いエラーバウンドが得られる。
最後に,本手法の優れた性能をシミュレーション研究により実証し,既存手法との比較を行った。 We consider the problem of distributional off-policy evaluation which serves as the foundation of many distributional reinforcement learning (DRL) algorithms. In contrast to most existing works (that rely on supremum-extended statistical distances such as supremum-Wasserstein distance), we study the expectation-extended statistical distance for quantifying the distributional Bellman residuals and show that it can upper bound the expected error of estimating the return distribution. Based on this appealing property, by extending the framework of Bellman residual minimization to DRL, we propose a method called Energy Bellman Residual Minimizer (EBRM) to estimate the return distribution. We establish a finite-sample error bound for the EBRM estimator under the realizability assumption. Furthermore, we introduce a variant of our method based on a multi-step bootstrapping procedure to enable multi-step extension. By selecting an appropriate step level, we obtain a better error bound for this variant of EBRM compared to a single-step EBRM, under some non-realizability settings. Finally, we demonstrate the superior performance of our method through simulation studies, comparing with several existing methods. | 翻訳日:2024-02-06 23:43:03 公開日:2024-02-02 |
# 量子乗算アルゴリズムの資源推定 Resource Estimation of Quantum Multiplication Algorithms ( http://arxiv.org/abs/2402.01891v1 ) ライセンス: Link先を確認 | Ethan R. Hansen, Sanskriti Joshi, Hannah Rarick | (参考訳) 量子コンピュータが大規模に進むにつれて、コンピューティング技術スタックの「トップ」が改善されることが不可欠である。
本稿では,プリミティブ演算アルゴリズム,特に乗算の計算に必要な量子資源について検討する。
microsoftのazure quantum resource estimatorなど、さまざまな量子リソース推定器を使用することで、多数の量子アルゴリズムに必要なリソースを決定できる [5]。
本稿では、新しいazure quantum resource estimatorを用いて、様々な量子ビットプラットフォーム(トラップイオン、超伝導、マヨアナ)に対して、カラツバ、スクールブック、ウィンドウ演算などの多数の量子乗算アルゴリズムの包括的なリソース分析を行う。 As quantum computers progress towards a larger scale, it is imperative that the "top" of the computing-technology stack is improved. This project investigates the quantum resources required to compute primitive arithmetic algorithms, particularly multiplication. By using various quantum resource estimators, like Microsoft's Azure Quantum Resource Estimator, one can determine the resources required for numerous quantum algorithms [5]. In this paper, we will provide a comprehensive resource analysis of numerous quantum multiplication algorithms such as Karatsuba, schoolbook, and windowed arithmetic for different qubit platforms (trapped ion, superconducting, and Majorana) using the new Azure Quantum Resource Estimator. | 翻訳日:2024-02-06 23:42:41 公開日:2024-02-02 |
# ニューロシンボリック学習と推論における基礎モデルの役割 The Role of Foundation Models in Neuro-Symbolic Learning and Reasoning ( http://arxiv.org/abs/2402.01889v1 ) ライセンス: Link先を確認 | Daniel Cunnington, Mark Law, Jorge Lobo, Alessandra Russo | (参考訳) Neuro-Symbolic AI(NeSy)は、解釈可能なシンボル技術が正式な行動保証を提供するため、AIシステムの安全なデプロイを保証することを約束している。
課題は、ニューラルネットワークとシンボル計算を効果的に統合して、生データから学習と推論を可能にする方法だ。
ニューラルネットワークとシンボリックコンポーネントを順次トレーニングする既存のパイプラインは、広範なラベル付けを必要とするが、エンドツーエンドのアプローチは、シンボルの接地問題における組合せの爆発のため、スケーラビリティの面で制限される。
本稿では,基礎モデルにおける暗黙の知識を活用して,データラベリングやマニュアルエンジニアリングの量を削減しつつ,nesyタスクの性能を向上させる。
我々はNeSyGPTと呼ばれる新しいアーキテクチャを導入する。このアーキテクチャは、下流タスクを解くために高度に表現力のある回答セットプログラムを学ぶ前に、視覚言語基盤モデルを微調整して生データから象徴的な特徴を抽出する。
総合評価の結果,nesygptは様々なベースラインよりも精度が高く,複雑なnesyタスクにスケールできることがわかった。
最後に、ニューラルネットワークとシンボリックコンポーネント間のプログラム的インターフェースを生成するために、大規模な言語モデルが効果的に使用されることを強調する。 Neuro-Symbolic AI (NeSy) holds promise to ensure the safe deployment of AI systems, as interpretable symbolic techniques provide formal behaviour guarantees. The challenge is how to effectively integrate neural and symbolic computation, to enable learning and reasoning from raw data. Existing pipelines that train the neural and symbolic components sequentially require extensive labelling, whereas end-to-end approaches are limited in terms of scalability, due to the combinatorial explosion in the symbol grounding problem. In this paper, we leverage the implicit knowledge within foundation models to enhance the performance in NeSy tasks, whilst reducing the amount of data labelling and manual engineering. We introduce a new architecture, called NeSyGPT, which fine-tunes a vision-language foundation model to extract symbolic features from raw data, before learning a highly expressive answer set program to solve a downstream task. Our comprehensive evaluation demonstrates that NeSyGPT has superior accuracy over various baselines, and can scale to complex NeSy tasks. Finally, we highlight the effective use of a large language model to generate the programmatic interface between the neural and symbolic components, significantly reducing the amount of manual engineering required. | 翻訳日:2024-02-06 23:42:27 公開日:2024-02-02 |
# f-divergence Principled Domain Adaptation: 改良されたフレームワーク On f-Divergence Principled Domain Adaptation: An Improved Framework ( http://arxiv.org/abs/2402.01887v1 ) ライセンス: Link先を確認 | Ziqiao Wang, Yongyi Mao | (参考訳) 教師なしドメイン適応(UDA)は、機械学習における分散シフトに対処する上で重要な役割を果たす。
本研究では, acuna et al. (2021) が提案した uda の理論的基礎を改良し, f-divergence-based discrepancy を改良し,さらに f-domain discrepancy (f-dd) を新たに導入した。
絶対値関数を取り除き、スケーリングパラメータを組み込むことで、f-ddは新しいターゲットエラーとサンプル複雑性境界を生じさせ、以前のklベースの結果を復元し、acuna et al. (2021)で示されたアルゴリズムと理論のギャップを埋めることができる。
また,ローカライズ手法を応用し,高速一般化手法を開発した。
実証実験の結果,従来のUDAベンチマークよりもf-DDベースのドメイン学習アルゴリズムの方が優れた性能を示した。 Unsupervised domain adaptation (UDA) plays a crucial role in addressing distribution shifts in machine learning. In this work, we improve the theoretical foundations of UDA proposed by Acuna et al. (2021) by refining their f-divergence-based discrepancy and additionally introducing a new measure, f-domain discrepancy (f-DD). By removing the absolute value function and incorporating a scaling parameter, f-DD yields novel target error and sample complexity bounds, allowing us to recover previous KL-based results and bridging the gap between algorithms and theory presented in Acuna et al. (2021). Leveraging a localization technique, we also develop a fast-rate generalization bound. Empirical results demonstrate the superior performance of f-DD-based domain learning algorithms over previous works in popular UDA benchmarks. | 翻訳日:2024-02-06 23:42:03 公開日:2024-02-02 |
# 実証者の熟練度推定による逆強化学習 Inverse Reinforcement Learning by Estimating Expertise of Demonstrators ( http://arxiv.org/abs/2402.01886v1 ) ライセンス: Link先を確認 | Mark Beliaev, Ramtin Pedarsani | (参考訳) 模倣学習(il:imitation learning)では,実世界のデータの性質が多様であるため,準最適および不均一な実演の活用が大きな課題となっている。
しかし、標準のILアルゴリズムはこれらのデータセットを均質とみなし、したがって準最適デモンストレータの欠陥を継承する。
この問題に対する以前のアプローチは、通常、高品質なデータサブセット、信頼性ランキング、明示的な環境知識のような非現実的な仮定に依存している。
本稿では,実証者の専門知識を事前に理解せずにこれらのハードルを克服する新しい枠組みであるIRLEED, Inverse Reinforcement Learning by Estimating Expertise of Demonstratorsを紹介する。
irleedは、報酬バイアスとアクション分散に対処するためのデモンストレータサブオプティリティの一般モデルと、多様なサブオプティマイズから最適なポリシーを効率的に導出するための最大エントロピーirlフレームワークを組み合わせることで、既存の逆強化学習(irl)アルゴリズムを強化する。
オンラインおよびオフラインのIL設定、シミュレーションおよび人為的なデータによる実験は、IRLEEDの適応性と有効性を示し、最適以下のデモンストレーションから学習するための汎用的なソリューションである。 In Imitation Learning (IL), utilizing suboptimal and heterogeneous demonstrations presents a substantial challenge due to the varied nature of real-world data. However, standard IL algorithms consider these datasets as homogeneous, thereby inheriting the deficiencies of suboptimal demonstrators. Previous approaches to this issue typically rely on impractical assumptions like high-quality data subsets, confidence rankings, or explicit environmental knowledge. This paper introduces IRLEED, Inverse Reinforcement Learning by Estimating Expertise of Demonstrators, a novel framework that overcomes these hurdles without prior knowledge of demonstrator expertise. IRLEED enhances existing Inverse Reinforcement Learning (IRL) algorithms by combining a general model for demonstrator suboptimality to address reward bias and action variance, with a Maximum Entropy IRL framework to efficiently derive the optimal policy from diverse, suboptimal demonstrations. Experiments in both online and offline IL settings, with simulated and human-generated data, demonstrate IRLEED's adaptability and effectiveness, making it a versatile solution for learning from suboptimal demonstrations. | 翻訳日:2024-02-06 23:41:45 公開日:2024-02-02 |
# 物理コンピューティング入門教室における成長マインドセットの実践理解--デザイン活動によるデバッギングへの高校生の取り組み Understanding Growth Mindset Practices in an Introductory Physical Computing Classroom: High School Students' Engagement with Debugging by Design Activities ( http://arxiv.org/abs/2402.01885v1 ) ライセンス: Link先を確認 | Luis Morales-Navarro, Deborah A. Fields, Yasmin B. Kafai | (参考訳) 背景と背景: デバッグは必須のプラクティスであると認識されているが、多くの学生にとって、バグに遭遇すると不安や不安といった感情的な反応が生じ、コンピュータプログラミングの障害や回避につながる可能性がある。
成長マインドセットはこれらの状況において忍耐性と学習を支援するが、物理的コンピューティングデバッグの課題に直面したk-12コンピューティング学生の間で、成長マインドセットが実際にどのように出現するかの研究はほとんどない。
目的:我々は,導入型コンピューティングコースの一環として,設計活動によるデバッグ中に,仲間が解決すべきバギーな物理コンピューティングプロジェクトの作成と交換において,(もしあれば)成長マインドセットのプラクティスが何であるかを理解したいと考えています。
方法: 本研究は, 成長マインドセットの発達とこれらの実践が出現する文脈を実証した, 他者のためのバグの設計・解決における学生間相互作用のモーメント・ツー・モーメント・マイクロジェネティック分析に着目した。
結論: 創発的な成長マインドセットの実践として,より多くの学習につながる課題の選択,失敗の継続,努力に対する称賛と評価,継続的な改善としての学習へのアプローチ,失敗による快適な開発という5つの方法を特定しました。
学生は、ピアツーピアインタラクションや、同僚が解決できるバグの多い物理コンピューティングプロジェクトを作る際に、これらのプラクティスをしばしば示した。
意味: この分析は、成長マインドセットプラクティスの特徴を通じて、物理コンピューティングプロジェクトをデバッグするための学生の社会的、感情的、モチベーション的なアプローチをより包括的に理解するのに役立つ。
紹介された成長マインドセットのプラクティスのインベントリは、他のコンピューティング環境での成長マインドセットをもっと研究するのに役立ちます。 Background and Context: While debugging is recognized as an essential practice, for many students, encountering bugs can generate emotional responses such as fear and anxiety that can lead to disengagement and the avoidance of computer programming. Growth mindsets can support perseverance and learning in these situations, yet few studies have investigated how growth mindsets emerge in practice amongst K-12 computing students facing physical computing debugging challenges. Objective: We seek to understand what (if any) growth mindset practices high school students exhibited when creating and exchanging buggy physical computing projects for their peers to solve during a Debugging by Design activity as part of their introductory computing course. Method: We focused on moment-to-moment microgenetic analysis of student interactions in designing and solving bugs for others to examine the practices students exhibited that demonstrated the development of a growth mindset and the contexts in which these practices emerged. Findings: We identified five emergent growth mindset practices: choosing challenges that lead to more learning, persisting after setbacks, giving and valuing praise for effort, approaching learning as constant improvement, and developing comfort with failure. Students most often exhibited these practices in peer-to-peer interactions and while making buggy physical computing projects for their peers to solve. Implications: Our analysis contributes to a more holistic understanding of students' social, emotional, and motivational approaches to debugging physical computing projects through the characterization of growth mindset practices. The presented inventory of growth mindset practices may be helpful to further study growth mindset in action in other computing settings. | 翻訳日:2024-02-06 23:41:23 公開日:2024-02-02 |
# 超パラメータ最適化のための大言語モデルエージェント Large Language Model Agent for Hyper-Parameter Optimization ( http://arxiv.org/abs/2402.01881v1 ) ライセンス: Link先を確認 | Siyi Liu, Chen Gao, Yong Li | (参考訳) ハイパーパラメータ最適化は現代の機械学習において重要であり、専門家の知識、数多くの試行、高い計算と人的資源を必要とする。
自動機械学習(automl)の進歩にもかかわらず、試行効率、セットアップの複雑さ、相互運用性の面での課題は依然として続いている。
これらの課題に対処するため,多種多様な機械学習タスクにおけるハイパーパラメータ最適化を自動化するために,LLM(Large Language Models)を利用した新しいパラダイムを導入する。
具体的には、AgentHPOはタスク情報を自律的に処理し、特定のハイパーパラメータ(HP)を用いて実験を行い、歴史的な試行に基づいて反復的に最適化する。
このヒューマンライクな最適化プロセスは、必要な試行回数を大幅に削減し、セットアッププロセスを単純化し、従来のAutoMLメソッドと比較して解釈可能性とユーザ信頼を高める。
12の代表的な機械学習タスクに対して行われた大規模な実験実験は、エージェントHPOが一致しただけでなく、最も優れたヒトの治験を上回り、同時に説明可能な結果を提供することを示している。
さらなる分析は、LLMがこれらのタスクを最適化する際の戦略に光を当て、様々なシナリオにおけるその有効性と適応性を強調している。 Hyperparameter optimization is critical in modern machine learning, requiring expert knowledge, numerous trials, and high computational and human resources. Despite the advancements in Automated Machine Learning (AutoML), challenges in terms of trial efficiency, setup complexity, and interoperability still persist. To address these issues, we introduce a novel paradigm leveraging Large Language Models (LLMs) to automate hyperparameter optimization across diverse machine learning tasks, which is named AgentHPO (short for LLM Agent-based Hyperparameter Optimization). Specifically, AgentHPO processes the task information autonomously, conducts experiments with specific hyperparameters (HPs), and iteratively optimizes them based on historical trials. This human-like optimization process largely reduces the number of required trials, simplifies the setup process, and enhances interpretability and user trust, compared to traditional AutoML methods. Extensive empirical experiments conducted on 12 representative machine-learning tasks indicate that AgentHPO not only matches but also often surpasses the best human trials in terms of performance while simultaneously providing explainable results. Further analysis sheds light on the strategies employed by the LLM in optimizing these tasks, highlighting its effectiveness and adaptability in various scenarios. | 翻訳日:2024-02-06 23:40:40 公開日:2024-02-02 |
# $\sigma$-zero: $\ell_0$-norm の勾配に基づく最適化 $\sigma$-zero: Gradient-based Optimization of $\ell_0$-norm Adversarial Examples ( http://arxiv.org/abs/2402.01879v1 ) ライセンス: Link先を確認 | Antonio Emanuele Cin\`a, Francesco Villani, Maura Pintor, Lea Sch\"onherr, Battista Biggio, and Marcello Pelillo | (参考訳) 勾配に基づく攻撃に対するディープネットワークの敵対的ロバスト性の評価は困難である。
ほとんどの攻撃は$\ell_2$- と $\ell_\infty$-norm の制約を入力の摂動に対して考慮しているが、sparse $\ell_1$- と $\ell_0$-norm 攻撃を調査するのはごくわずかである。
特に$\ell_0$-normアタックは、非凸かつ微分不可能な制約を最適化する固有の複雑さのために研究されていない。
しかし、これらの攻撃の下での敵対的堅牢性の評価は、より従来的な$\ell_2$-および$\ell_\infty$-norm攻撃でテストされていない弱点を明らかにする可能性がある。
本研究では,$\ell_0$ノルム攻撃($\sigma$-zero)を提案する。これは$\ell_0$ノルムのアドホック微分可能な近似を利用して勾配に基づく最適化を行い,損失最小化と摂動スパーシティのトレードオフを動的に調整する適応射影演算子を提案する。
MNIST、CIFAR10、ImageNetデータセットを使用した大規模な評価では、$\sigma$-zeroは、時間を要するハイパーパラメータチューニングを必要とせずに最小の$\ell_0$-normの逆例を見つけ、成功率、摂動サイズ、スケーラビリティの点で競合するすべてのスパース攻撃を上回ります。 Evaluating the adversarial robustness of deep networks to gradient-based attacks is challenging. While most attacks consider $\ell_2$- and $\ell_\infty$-norm constraints to craft input perturbations, only a few investigate sparse $\ell_1$- and $\ell_0$-norm attacks. In particular, $\ell_0$-norm attacks remain the least studied due to the inherent complexity of optimizing over a non-convex and non-differentiable constraint. However, evaluating adversarial robustness under these attacks could reveal weaknesses otherwise left untested with more conventional $\ell_2$- and $\ell_\infty$-norm attacks. In this work, we propose a novel $\ell_0$-norm attack, called $\sigma$-zero, which leverages an ad hoc differentiable approximation of the $\ell_0$ norm to facilitate gradient-based optimization, and an adaptive projection operator to dynamically adjust the trade-off between loss minimization and perturbation sparsity. Extensive evaluations using MNIST, CIFAR10, and ImageNet datasets, involving robust and non-robust models, show that $\sigma$-zero finds minimum $\ell_0$-norm adversarial examples without requiring any time-consuming hyperparameter tuning, and that it outperforms all competing sparse attacks in terms of success rate, perturbation size, and scalability. | 翻訳日:2024-02-06 23:40:20 公開日:2024-02-02 |
# LiPO:Learning-to-Rankによるリスショニング最適化 LiPO: Listwise Preference Optimization through Learning-to-Rank ( http://arxiv.org/abs/2402.01878v1 ) ライセンス: Link先を確認 | Tianqi Liu, Zhen Qin, Junru Wu, Jiaming Shen, Misha Khalman, Rishabh Joshi, Yao Zhao, Mohammad Saleh, Simon Baumgartner, Jialu Liu, Peter J. Liu, Xuanhui Wang | (参考訳) 人間のフィードバックをキュレートした言語モデル(LM)の調整は、現実世界のアプリケーションでそれらの振る舞いを制御するために重要である。
DPOやSLiCといった最近の政策最適化手法は、従来のRLHF(Reinforcement Learning from Human Feedback)アプローチに代わる有望な代替手段として機能している。
実際には、人間のフィードバックは、プロンプトを読むコストを償却するために、複数の応答に対してランク付けされたリストの形式にしばしば現れる。
複数の回答を報酬モデルやaiフィードバックでランク付けすることもできる。
応答のリストに直接適合するような研究は欠如している。
本研究では、LMアライメントをリストワイズランキング問題として定式化し、リストワイズ優先最適化(LiPO)フレームワークを記述する。
このビューは、既存の好み最適化作業の大部分を既存のランキング目標、特にペアワイズ目標にマッピングできる、ラーニング・トゥ・ランク(ltr)への明示的な接続を描いている。
本報告では,リストサイズが2の特別事例として,LMアライメントをDPOとSLiCと併用する上で,十分に研究されていないランク付け対象について検討する。
特に、現在最先端のランク付け目標を活用し、各選好ペアをより高度な方法で重み付けする特定の方法LiPO-{\lambdaを強調する。
lipo-{\lambda} は2つの選好アライメントタスクにおいて,dpo と slic を明確なマージンで上回ることができることを示す。 Aligning language models (LMs) with curated human feedback is critical to control their behaviors in real-world applications. Several recent policy optimization methods, such as DPO and SLiC, serve as promising alternatives to the traditional Reinforcement Learning from Human Feedback (RLHF) approach. In practice, human feedback often comes in a format of a ranked list over multiple responses to amortize the cost of reading prompt. Multiple responses can also be ranked by reward models or AI feedback. There lacks such a study on directly fitting upon a list of responses. In this work, we formulate the LM alignment as a listwise ranking problem and describe the Listwise Preference Optimization (LiPO) framework, where the policy can potentially learn more effectively from a ranked list of plausible responses given the prompt. This view draws an explicit connection to Learning-to-Rank (LTR), where most existing preference optimization work can be mapped to existing ranking objectives, especially pairwise ones. Following this connection, we provide an examination of ranking objectives that are not well studied for LM alignment withDPO and SLiC as special cases when list size is two. In particular, we highlight a specific method, LiPO-{\lambda}, which leverages a state-of-the-art listwise ranking objective and weights each preference pair in a more advanced manner. We show that LiPO-{\lambda} can outperform DPO and SLiC by a clear margin on two preference alignment tasks. | 翻訳日:2024-02-06 23:39:47 公開日:2024-02-02 |
# モバイルフィッティングルーム:拡散モデルによるデバイス上での仮想トライオン Mobile Fitting Room: On-device Virtual Try-on via Diffusion Models ( http://arxiv.org/abs/2402.01877v1 ) ライセンス: Link先を確認 | Justin Blalock, David Munechika, Harsha Karanth, Alec Helbling, Pratham Mehta, Seongmin Lee, Duen Horng Chau | (参考訳) ファッションeコマースのデジタル化が進む中、服を試着するためのインタラクティブでユーザーフレンドリーなインターフェースが求められている。
伝統的な試行法は、さまざまな背景、ポーズ、主題に適応する際の課題に対処する。
近年の拡散モデルを利用した新しい手法は高品質な画像生成を実現したが、モバイルインターフェース配信とプライバシに関する人間中心の次元はいまだに未検討のままである。
デバイス上で初めての拡散型仮想試行システムであるMobile Fitting Roomを紹介する。
モバイルデバイスの高品質な衣料品配置やモデル圧縮など,複数の関連技術課題に対処するため,新たな技術パイプラインと,プライバシ保護とユーザカスタマイズを可能にするインターフェース設計を提案する。
利用シナリオは、このツールが顧客に対してシームレスでインタラクティブな仮想試用体験を提供し、ファッションeコマースビジネスに価値あるサービスを提供する方法を示しています。 The growing digital landscape of fashion e-commerce calls for interactive and user-friendly interfaces for virtually trying on clothes. Traditional try-on methods grapple with challenges in adapting to diverse backgrounds, poses, and subjects. While newer methods, utilizing the recent advances of diffusion models, have achieved higher-quality image generation, the human-centered dimensions of mobile interface delivery and privacy concerns remain largely unexplored. We present Mobile Fitting Room, the first on-device diffusion-based virtual try-on system. To address multiple inter-related technical challenges such as high-quality garment placement and model compression for mobile devices, we present a novel technical pipeline and an interface design that enables privacy preservation and user customization. A usage scenario highlights how our tool can provide a seamless, interactive virtual try-on experience for customers and provide a valuable service for fashion e-commerce businesses. | 翻訳日:2024-02-06 23:39:20 公開日:2024-02-02 |
# HL-LHCのためのFPGA上の超高速ジェット分類 Sets are all you need: Ultrafast jet classification on FPGAs for HL-LHC ( http://arxiv.org/abs/2402.01876v1 ) ライセンス: Link先を確認 | Patrick Odagiu, Zhiqiang Que, Javier Duarte, Johannes Haller, Gregor Kasieczka, Artur Lobanov, Vladimir Loncar, Wayne Luk, Jennifer Ngadiuba, Maurizio Pierini, Philipp Rincke, Arpita Seksaria, Sioni Summers, Andre Sznajder, Alexander Tapper, Thea K. Aarrestad | (参考訳) フィールドプログラム可能なゲートアレイを用いて高精度なジェットフレーバー分類を行うための機械学習に基づく各種アルゴリズムについて検討し,入力サイズとアルゴリズムの選択によるレイテンシと資源消費のスケールの検証を行った。
これらのアーキテクチャは、CERN LHCの高輝度フェーズにおけるタグ付けに使用できるモデルの初期設計を提供する。
高輝度のアップグレードは、陽子-陽子衝突の瞬間的な光度を5倍に増やし、ジェット構成要素の可用性など、より高いデータ量と複雑さをもたらす。
量子化アウェアトレーニングと効率的なハードウェア実装を通じて、深層集合や相互作用ネットワークのような複雑なアーキテクチャのo(100)ns推論が計算資源コストの低さで実現可能であることを示す。 We study various machine learning based algorithms for performing accurate jet flavor classification on field-programmable gate arrays and demonstrate how latency and resource consumption scale with the input size and choice of algorithm. These architectures provide an initial design for models that could be used for tagging at the CERN LHC during its high-luminosity phase. The high-luminosity upgrade will lead to a five-fold increase in its instantaneous luminosity for proton-proton collisions and, in turn, higher data volume and complexity, such as the availability of jet constituents. Through quantization-aware training and efficient hardware implementations, we show that O(100) ns inference of complex architectures such as deep sets and interaction networks is feasible at a low computational resource cost. | 翻訳日:2024-02-06 23:39:04 公開日:2024-02-02 |
# RL/LLM分類木:強化学習と大規模言語モデルの相乗効果について The RL/LLM Taxonomy Tree: Reviewing Synergies Between Reinforcement Learning and Large Language Models ( http://arxiv.org/abs/2402.01874v1 ) ライセンス: Link先を確認 | Moschoula Pternea, Prerna Singh, Abir Chakraborty, Yagna Oruganti, Mirco Milletari, Sayli Bapat, Kebei Jiang | (参考訳) 本稿では,強化学習(RL)とLarge Language Models(LLM)を組み合わせた2つの研究分野について概説する。
2つのモデルタイプが相互に相互作用する方法に基づいて, 3つの主要クラスの新しい分類法を提案する。
最初のクラスであるRL4LLMは、自然言語処理に関連するタスクにおけるLLMのパフォーマンスを改善するためにRLを活用する研究を含んでいる。
L4LLMは、既存のLLMを直接微調整するためにRLを使用するか、LLMのプロンプトを改善するために使用されるかによって、2つのサブカテゴリに分けられる。
第2のクラスであるLLM4RLでは、LLMは自然言語とは本質的に関係のないタスクを実行するRLモデルのトレーニングを支援する。
我々はさらに、LLMが補助するRLトレーニングフレームワーク、すなわち報酬形成、ゴール生成、ポリシー機能に基づいてLLM4RLを分解する。
最後に、第3のクラスであるRL+LLMでは、LLMとRLエージェントが共通の計画フレームワークに埋め込まれ、どちらもトレーニングや微調整に寄与しない。
我々は、このクラスをさらに分岐して、自然言語によるフィードバックのない研究を区別する。
我々は、この分類法を用いて、llmとrlのシナジーの背後にある動機を探求し、その成功の理由を説明すると同時に、さらなる研究が必要となる潜在的な欠点と領域、および同じ目標を達成する代替方法論を指摘する。 In this work, we review research studies that combine Reinforcement Learning (RL) and Large Language Models (LLMs), two areas that owe their momentum to the development of deep neural networks. We propose a novel taxonomy of three main classes based on the way that the two model types interact with each other. The first class, RL4LLM, includes studies where RL is leveraged to improve the performance of LLMs on tasks related to Natural Language Processing. L4LLM is divided into two sub-categories depending on whether RL is used to directly fine-tune an existing LLM or to improve the prompt of the LLM. In the second class, LLM4RL, an LLM assists the training of an RL model that performs a task that is not inherently related to natural language. We further break down LLM4RL based on the component of the RL training framework that the LLM assists or replaces, namely reward shaping, goal generation, and policy function. Finally, in the third class, RL+LLM, an LLM and an RL agent are embedded in a common planning framework without either of them contributing to training or fine-tuning of the other. We further branch this class to distinguish between studies with and without natural language feedback. We use this taxonomy to explore the motivations behind the synergy of LLMs and RL and explain the reasons for its success, while pinpointing potential shortcomings and areas where further research is needed, as well as alternative methodologies that serve the same goal. | 翻訳日:2024-02-06 23:38:51 公開日:2024-02-02 |
# APIServe: 大規模言語モデル推論のための効率的なAPIサポート APIServe: Efficient API Support for Large-Language Model Inferencing ( http://arxiv.org/abs/2402.01869v1 ) ライセンス: Link先を確認 | Reyna Abhyankar, Zijian He, Vikranth Srivatsa, Hao Zhang, Yiying Zhang | (参考訳) 大きな言語モデルは、言語中心のタスクを超えて機能を拡張するために、ChatGPTプラグインのような外部ツールやAPIとますます統合されています。
しかし、今日のLLM推論システムはスタンドアロンのLLM向けに設計されている。
彼らはAPI呼び出しを新しいリクエストとして扱い、すでに計算済みのコンテキストを不必要に再計算し、全体のモデル転送時間の37~40%を占める。
本稿では,API拡張 LLM を対象とした最初の LLM 推論フレームワークである APIServe を提案する。
APISERVEは、API呼び出しによるGPUリソースの浪費を最小限に抑え、より多くのリクエストを処理するためにメモリを節約する。
APISERVEはサービス全体のスループットを1.6倍改善し、最先端のLCM推論システムと比較して毎秒2倍のリクエストを処理します。 Large language models are increasingly integrated with external tools and APIs like ChatGPT plugins to extend their capability beyond language-centric tasks. However, today's LLM inference systems are designed for standalone LLMs. They treat API calls as new requests, causing unnecessary recomputation of already computed contexts, which accounts for 37-40% of total model forwarding time. This paper presents APIServe, the first LLM inference framework targeting API-augmented LLMs. APISERVE minimizes the GPU resource waste caused by API calls and dedicates saved memory for serving more requests. APISERVE improves the overall serving throughput by 1.6x and completes 2x more requests per second compared to the state-of-the-art LLM inference systems. | 翻訳日:2024-02-06 23:38:17 公開日:2024-02-02 |
# PINN教育の課題 : 景観の喪失 Challenges in Training PINNs: A Loss Landscape Perspective ( http://arxiv.org/abs/2402.01868v1 ) ライセンス: Link先を確認 | Pratik Rathore, Weimu Lei, Zachary Frangella, Lu Lu, Madeleine Udell | (参考訳) 本稿では,物理情報ニューラルネットワーク(PINN)の学習における課題について考察し,学習過程における損失景観の役割を強調した。
本稿では,ピン損失関数の最小化の難しさ,特に残留項における微分作用素による悪条件化について検討する。
我々は、勾配に基づく最適化器AdamとL-BFGSとそれらの組み合わせAdam+L-BFGSを比較し、Adam+L-BFGSの優位性を示し、新しい二階最適化器NysNewton-CG(NNCG)を導入し、PINNの性能を大幅に向上させた。
理論上,本研究は,悪条件微分作用素とピン損失の悪条件化の関係を解明し,一階と二階の最適化手法を組み合わせることの利点を示す。
我々の研究は、PINNを訓練するための貴重な洞察とより強力な最適化戦略を示し、難しい偏微分方程式を解くためのPINNの有用性を向上させることができる。 This paper explores challenges in training Physics-Informed Neural Networks (PINNs), emphasizing the role of the loss landscape in the training process. We examine difficulties in minimizing the PINN loss function, particularly due to ill-conditioning caused by differential operators in the residual term. We compare gradient-based optimizers Adam, L-BFGS, and their combination Adam+L-BFGS, showing the superiority of Adam+L-BFGS, and introduce a novel second-order optimizer, NysNewton-CG (NNCG), which significantly improves PINN performance. Theoretically, our work elucidates the connection between ill-conditioned differential operators and ill-conditioning in the PINN loss and shows the benefits of combining first- and second-order optimization methods. Our work presents valuable insights and more powerful optimization strategies for training PINNs, which could improve the utility of PINNs for solving difficult partial differential equations. | 翻訳日:2024-02-06 23:38:00 公開日:2024-02-02 |
# サンプル,推定,集計:因果的発見基盤モデルのためのレシピ Sample, estimate, aggregate: A recipe for causal discovery foundation models ( http://arxiv.org/abs/2402.01929v1 ) ライセンス: Link先を確認 | Menghua Wu, Yujia Bao, Regina Barzilay, Tommi Jaakkola | (参考訳) 因果的構造をデータから推定するタスクである因果的発見は、科学研究の加速、政策決定の通知などを約束する。
しかし、既存の因果発見アルゴリズムのデータセット毎の性質は、それらを遅く、データが空腹で、不安定にする。
基礎モデルに着想を得て,より小さな変数のサブセット上で実行される古典的発見アルゴリズムからの予測を解決するために,ディープラーニングモデルを事前学習する因果的発見フレームワークを提案する。
この方法は、古典的アルゴリズムからの出力が小さな問題に対して高速に計算できること、データ構造を知らせること、そしてそれらの構造出力がデータセットに匹敵する状態にあることを観察することによって実現される。
提案手法は, 合成および現実的なデータセット上での最先端性能を実現し, トレーニング中に見えないデータ生成機構に一般化し, 既存のモデルよりも桁違いに高速な推論速度を提供する。 Causal discovery, the task of inferring causal structure from data, promises to accelerate scientific research, inform policy making, and more. However, the per-dataset nature of existing causal discovery algorithms renders them slow, data hungry, and brittle. Inspired by foundation models, we propose a causal discovery framework where a deep learning model is pretrained to resolve predictions from classical discovery algorithms run over smaller subsets of variables. This method is enabled by the observations that the outputs from classical algorithms are fast to compute for small problems, informative of (marginal) data structure, and their structure outputs as objects remain comparable across datasets. Our method achieves state-of-the-art performance on synthetic and realistic datasets, generalizes to data generating mechanisms not seen during training, and offers inference speeds that are orders of magnitude faster than existing models. | 翻訳日:2024-02-06 23:29:29 公開日:2024-02-02 |
# 機械学習におけるロバストな対実的説明:調査 Robust Counterfactual Explanations in Machine Learning: A Survey ( http://arxiv.org/abs/2402.01928v1 ) ライセンス: Link先を確認 | Junqi Jiang, Francesco Leofante, Antonio Rago, Francesca Toni | (参考訳) 対実的説明(CE)は、機械学習モデルの予測に影響された被験者にアルゴリズムによる会話を提供するのに理想的に適していると考えられている。
CEは影響のある人には有益であるが、最近の研究は、CEを得るための最先端の手法の堅牢性に関連する深刻な問題を露呈している。
堅牢性の欠如はCEの妥当性を損なう可能性があるため、このリスクを軽減する技術は順調である。
本調査では, 急速に成長するロバストCEの分野における研究を概観し, それらが考えるロバストネスの形式を詳細に分析する。
既存のソリューションとその制限についても議論し、将来の発展のための確かな基盤を提供します。 Counterfactual explanations (CEs) are advocated as being ideally suited to providing algorithmic recourse for subjects affected by the predictions of machine learning models. While CEs can be beneficial to affected individuals, recent work has exposed severe issues related to the robustness of state-of-the-art methods for obtaining CEs. Since a lack of robustness may compromise the validity of CEs, techniques to mitigate this risk are in order. In this survey, we review works in the rapidly growing area of robust CEs and perform an in-depth analysis of the forms of robustness they consider. We also discuss existing solutions and their limitations, providing a solid foundation for future developments. | 翻訳日:2024-02-06 23:29:13 公開日:2024-02-02 |
# ソフトウェア工学における説明責任の構築ブロックを理解する Understanding the Building Blocks of Accountability in Software Engineering ( http://arxiv.org/abs/2402.01926v1 ) ライセンス: Link先を確認 | Adam Alami and Neil Ernst | (参考訳) 社会科学や組織科学では、説明責任は組織の効率的な運営と結びついている。
しかしながら、最も人気のあるソフトウェア開発手法(例えば、スクラム)において中心的な役割を果たすにもかかわらず、ソフトウェア工学(SE)研究に限定的に注目されている。
本稿では,SE環境における説明責任のメカニズムについて考察する。
ソフトウェア技術者がチーム内で個々の説明責任を育む要因について,12人とのインタビュー調査を通じて検討する。
本研究は,ソフトウェア技術者の個々に説明責任感を表わす2つの主要な形態,すなわち制度化と草の根を認識する。
前者はパフォーマンスレビューのような形式的なプロセスとメカニズムによって指示されているが、草の根のアカウンタビリティはチーム内で組織的に発生し、ピアの期待や本質的なモチベーションといった要因によって引き起こされる。
この組織的な形態は、共有チームの標準と、個人的、専門的価値、自己セットの標準に対する個々のエンジニアの内的コミットメントから、共通の責任意識を育みます。
制度化された説明責任は、財政的なインセンティブや昇進拒否のような伝統的な「ニンジンとスティック」アプローチに依存するが、草の根の説明責任は、チームの評判を維持するなど、仲間や本質的なモチベーションと相互に作用する。 In the social and organizational sciences, accountability has been linked to the efficient operation of organizations. However, it has received limited attention in software engineering (SE) research, in spite of its central role in the most popular software development methods (e.g., Scrum). In this article, we explore the mechanisms of accountability in SE environments. We investigate the factors that foster software engineers' individual accountability within their teams through an interview study with 12 people. Our findings recognize two primary forms of accountability shaping software engineers individual senses of accountability: institutionalized and grassroots. While the former is directed by formal processes and mechanisms, like performance reviews, grassroots accountability arises organically within teams, driven by factors such as peers' expectations and intrinsic motivation. This organic form cultivates a shared sense of collective responsibility, emanating from shared team standards and individual engineers' inner commitment to their personal, professional values, and self-set standards. While institutionalized accountability relies on traditional "carrot and stick" approaches, such as financial incentives or denial of promotions, grassroots accountability operates on reciprocity with peers and intrinsic motivations, like maintaining one's reputation in the team. | 翻訳日:2024-02-06 23:29:00 公開日:2024-02-02 |
# あなたは本物のソフトウェアエンジニアですか?
ソフトウェア工学研究におけるオンライン採用のベストプラクティス Are You a Real Software Engineer? Best Practices in Online Recruitment for Software Engineering Studies ( http://arxiv.org/abs/2402.01925v1 ) ライセンス: Link先を確認 | Adam Alami and Mansooreh Zahedi and Neil Ernst | (参考訳) Prolificのようなオンライン研究プラットフォームは、多様な参加者プールへの迅速なアクセスを提供するが、受験資格とスキル検証に固有の課題をもたらす。
以前の調査では、資格のあるソフトウェアエンジニアの採用にオンラインプラットフォームを活用するためのさまざまな成果と課題が報告されていた。
Prolificを用いて3つの異なる研究を行った経験から、質的および定量的ソフトウェア工学(SE)研究サンプルの品質と関連性を高めるために、参加者の募集とスクリーニングのベストプラクティスを提案する。
本稿では,Se Research on Prolificにおける人材育成のベストプラクティスを提案する。
1)技術スキル,基本的なse概念の知識,専門職の関与度を評価するタスク指向・ターゲット質問を主眼とした,反復的かつ管理可能な事前スクリーニング。
3) フリーテキスト応答の真正性を検証するためのai検出。
(4)回答の質的・手動的評価,回答の信頼性と妥当性の確保,(5)研究の話題に関連するデータを収集するためには,追加の事前スクリーニング層が必要である。
6) 真の参加を奨励するための公正又は寛大な報酬
得られた経験と教訓を共有することで、SE実証研究の効果的で厳密な手法の開発に寄与する。
特に信頼性の高いデータ収集のガイドラインを確立するための努力が進行中です。
これらのプラクティスは、他の参加者募集プラットフォームへの転送可能性を持つ。 Online research platforms, such as Prolific, offer rapid access to diverse participant pools but also pose unique challenges in participant qualification and skill verification. Previous studies reported mixed outcomes and challenges in leveraging online platforms for the recruitment of qualified software engineers. Drawing from our experience in conducting three different studies using Prolific, we propose best practices for recruiting and screening participants to enhance the quality and relevance of both qualitative and quantitative software engineering (SE) research samples. We propose refined best practices for recruitment in SE research on Prolific. (1) Iterative and controlled prescreening, enabling focused and manageable assessment of submissions (2) task-oriented and targeted questions that assess technical skills, knowledge of basic SE concepts, and professional engagement. (3) AI detection to verify the authenticity of free-text responses. (4) Qualitative and manual assessment of responses, ensuring authenticity and relevance in participant answers (5) Additional layers of prescreening are necessary when necessary to collect data relevant to the topic of the study. (6) Fair or generous compensation post-qualification to incentivize genuine participation. By sharing our experiences and lessons learned, we contribute to the development of effective and rigorous methods for SE empirical research. particularly the ongoing effort to establish guidelines to ensure reliable data collection. These practices have the potential to transferability to other participant recruitment platforms. | 翻訳日:2024-02-06 23:28:37 公開日:2024-02-02 |
# FuzzSlice:ファンクションレベルファズリングによる静的分析警告における偽陽性の抽出 FuzzSlice: Pruning False Positives in Static Analysis Warnings Through Function-Level Fuzzing ( http://arxiv.org/abs/2402.01923v1 ) ライセンス: Link先を確認 | Aniruddhan Murali, Noble Saji Mathews, Mahmoud Alfadel, Meiyappan Nagappan and Meng Xu | (参考訳) 静的解析レポートの手動による確認は大変な作業です。
これは、警告の数が多いことと、それらの間の偽陽性の密度が高いためである。
静的解析警告を検証するためにファジング手法が提案されている。
しかし、大きな制限は、すべての静的解析警告に到達するためにプロジェクト全体をファジィズすることは不可能である。
これは、コードカバレッジを線形に増やすのに数日と指数関数的なマシン時間を要する可能性がある。
そこで本稿では,静的解析警告中の偽陽性を自動生成する新しいフレームワークであるFuzzSliceを提案する。
静的分析警告の真正の確認に主にフォーカスする以前の作業とは異なり、FuzzSliceは静的解析レポートの多数である潜在的な偽正の排除に重点を置いている。
作業の基盤となる重要な洞察は、所定の時間予算で関数レベルでファジットされた場合、クラッシュを発生しない警告が偽陽性である、ということです。
これを実現するために、FuzzSliceはまず関数レベルでコンパイル可能なコードスライスを生成し、それからバイナリ全体ではなく、これらのコードスライスをファズする。
fuzzsliceはまた、クラッシュする入力はファンクションレベルでfuzzerによっても再現できるため、真のバグを偽陽性と誤分類する可能性は低い。
ジュリエット合成データセットと実世界の複合Cプロジェクト上でFuzzSliceを評価する。
評価の結果,Julietデータセットの真理は864個の偽陽性を示し,いずれもFuzzSliceによって検出された。
オープンソースリポジトリでは、これらの2つのオープンソースリポジトリの開発者が、これらの警告を独立してラベル付けることができました。
FuzzSliceは、2つのリポジトリで開発者が確認した53の偽陽性のうち33を自動で識別する。
これにより、オープンソースリポジトリでは62.26%、Julietデータセットでは100%の偽陽性が減少する。 Manual confirmation of static analysis reports is a daunting task. This is due to both the large number of warnings and the high density of false positives among them. Fuzzing techniques have been proposed to verify static analysis warnings. However, a major limitation is that fuzzing the whole project to reach all static analysis warnings is not feasible. This can take several days and exponential machine time to increase code coverage linearly. Therefore, we propose FuzzSlice, a novel framework that automatically prunes possible false positives among static analysis warnings. Unlike prior work that mostly focuses on confirming true positives among static analysis warnings, which requires end-to-end fuzzing, FuzzSlice focuses on ruling out potential false positives, which are the majority in static analysis reports. The key insight that we base our work on is that a warning that does not yield a crash when fuzzed at the function level in a given time budget is a possible false positive. To achieve this, FuzzSlice first aims to generate compilable code slices at the function level and then fuzzes these code slices instead of the entire binary. FuzzSlice is also unlikely to misclassify a true bug as a false positive because the crashing input can be reproduced by a fuzzer at the function level as well. We evaluate FuzzSlice on the Juliet synthetic dataset and real-world complex C projects. Our evaluation shows that the ground truth in the Juliet dataset had 864 false positives which were all detected by FuzzSlice. For the open-source repositories, we were able to get the developers from two of these open-source repositories to independently label these warnings. FuzzSlice automatically identifies 33 out of 53 false positives confirmed by developers in these two repositories. Thus FuzzSlice reduces false positives by 62.26% in the open-source repositories and by 100% in the Juliet dataset. | 翻訳日:2024-02-06 23:28:15 公開日:2024-02-02 |
# 弱い監督から学ぶための一般的な枠組み A General Framework for Learning from Weak Supervision ( http://arxiv.org/abs/2402.01922v1 ) ライセンス: Link先を確認 | Hao Chen, Jindong Wang, Lei Feng, Xiang Li, Yidong Wang, Xing Xie, Masashi Sugiyama, Rita Singh, Bhiksha Raj | (参考訳) 弱い教師付き学習は、一般的に、多様な弱い監督を伴う様々なシナリオに適用性や、既存のアルゴリズムの複雑さによるスケーラビリティの問題に直面し、実際の展開を妨げる。
本稿では,新しいアルゴリズムを用いて,弱監視(glws)から学習するための汎用フレームワークを提案する。
GLWSの中心は期待最大化(EM)の定式化であり、サンプル部分ラベル、集約統計、ペアワイズ観測、ラベルなしデータなど、様々な弱い監督ソースを順調に収容している。
さらに,非決定性有限オートマトン(nfa)とフォワードバックワードアルゴリズムを用いてem計算要求を大幅に単純化する高度なアルゴリズムを提案する。
したがって、任意の弱監督から学習する問題は、それらのNFAモデリングに変換される。
GLWSは機械学習モデルのスケーラビリティを向上するだけでなく、11の弱い監視シナリオで優れたパフォーマンスと汎用性を示す。
この分野でのさらなる進歩と実践的な展開の道を開くことを願っています。 Weakly supervised learning generally faces challenges in applicability to various scenarios with diverse weak supervision and in scalability due to the complexity of existing algorithms, thereby hindering the practical deployment. This paper introduces a general framework for learning from weak supervision (GLWS) with a novel algorithm. Central to GLWS is an Expectation-Maximization (EM) formulation, adeptly accommodating various weak supervision sources, including instance partial labels, aggregate statistics, pairwise observations, and unlabeled data. We further present an advanced algorithm that significantly simplifies the EM computational demands using a Non-deterministic Finite Automaton (NFA) along with a forward-backward algorithm, which effectively reduces time complexity from quadratic or factorial often required in existing solutions to linear scale. The problem of learning from arbitrary weak supervision is therefore converted to the NFA modeling of them. GLWS not only enhances the scalability of machine learning models but also demonstrates superior performance and versatility across 11 weak supervision scenarios. We hope our work paves the way for further advancements and practical deployment in this field. | 翻訳日:2024-02-06 23:27:45 公開日:2024-02-02 |
# 報酬モデル学習における嗜好中毒攻撃 Preference Poisoning Attacks on Reward Model Learning ( http://arxiv.org/abs/2402.01920v1 ) ライセンス: Link先を確認 | Junlin Wu, Jiongxiao Wang, Chaowei Xiao, Chenguang Wang, Ning Zhang, Yevgeniy Vorobeychik | (参考訳) ペアワイズ比較の学習ユーティリティ(learning utility)あるいは報酬(reward)モデルは、多くのアプリケーションドメインの基本的なコンポーネントです。
これらのアプローチは本質的に人々から好みの情報を収集し、匿名でフィードバックを提供することが多い。
選好は主観的なものであるため、比較すべき金本位制は存在しないが、選好学習におけるハイインパクトなシステムへの依存は、悪意のある俳優がこの方法で収集したデータを最後に歪める強い動機付けとなる。
この脆弱性の性質と範囲を体系的に検討し、攻撃者がターゲットとなる結果の促進または降格の目標と、少数の選好比較のサブセットをひっくり返せる脅威モデルについて検討する。
まず,これらの攻撃に対するアルゴリズム的アプローチの2つのクラスを提案する。
次に、これら2つのクラスにおけるベストアタックの有効性を実証し、自律制御、レコメンデーションシステム、テキストによる即応学習という3つの異なるドメインのデータセットに対する悪意のある目標達成に成功させる。
最良の攻撃は、しばしば非常に成功し、最も極端なケース100%の成功率を達成し、データのわずか0.2%が汚染されている。
しかし、どの攻撃が最善かはドメインによって大きく異なるため、いくつかの攻撃アルゴリズムのクラスを含む包括的な脆弱性分析の価値が示される。
さらに,よりシンプルでスケーラブルなランク・バイ・ア・ディエンスアプローチは,しばしば最良と競合し,時には勾配に基づく手法を大幅に上回っていることも観察した。
最後に、他の種類の毒殺攻撃に対する最先端の防御が、せいぜい我々の設定において限定的な効果を示すことを示します。 Learning utility, or reward, models from pairwise comparisons is a fundamental component in a number of application domains. These approaches inherently entail collecting preference information from people, with feedback often provided anonymously. Since preferences are subjective, there is no gold standard to compare against; yet, reliance of high-impact systems on preference learning creates a strong motivation for malicious actors to skew data collected in this fashion to their ends. We investigate the nature and extent of this vulnerability systematically by considering a threat model in which an attacker can flip a small subset of preference comparisons with the goal of either promoting or demoting a target outcome. First, we propose two classes of algorithmic approaches for these attacks: a principled gradient-based framework, and several variants of rank-by-distance methods. Next, we demonstrate the efficacy of best attacks in both these classes in successfully achieving malicious goals on datasets from three diverse domains: autonomous control, recommendation system, and textual prompt-response preference learning. We find that the best attacks are often highly successful, achieving in the most extreme case 100% success rate with only 0.3% of the data poisoned. However, which attack is best can vary significantly across domains, demonstrating the value of our comprehensive vulnerability analysis that involves several classes of attack algorithms. In addition, we observe that the simpler and more scalable rank-by-distance approaches are often competitive with the best, and on occasion significantly outperform gradient-based methods. Finally, we show that several state-of-the-art defenses against other classes of poisoning attacks exhibit, at best, limited efficacy in our setting. | 翻訳日:2024-02-06 23:27:27 公開日:2024-02-02 |
# ノルウェーのWhispering: オルソグラフィーと弁証的挑戦の旅 Whispering in Norwegian: Navigating Orthographic and Dialectic Challenges ( http://arxiv.org/abs/2402.01917v1 ) ライセンス: Link先を確認 | Per E Kummervold, Javier de la Rosa, Freddy Wetjen, Rolv-Arild Braaten, Per Erik Solberg | (参考訳) この記事では、ノルウェー語自動音声認識(asr)用に特に微調整されたopenaiのwhisperを適応させたnb-whisperを紹介する。
我々は、その重要な貢献を強調し、ノルウェー語を書体に変換し、他の言語をノルウェー語に翻訳することで得られた結果を要約する。
我々は、openai whisper large-v3によるノルウェーのbokm{\aa}l転写をfleursデータセット上では10.4から6.6、nstデータセットでは6.8から2.2まで改善できることを示した。 This article introduces NB-Whisper, an adaptation of OpenAI's Whisper, specifically fine-tuned for Norwegian language Automatic Speech Recognition (ASR). We highlight its key contributions and summarise the results achieved in converting spoken Norwegian into written forms and translating other languages into Norwegian. We show that we are able to improve the Norwegian Bokm{\aa}l transcription by OpenAI Whisper Large-v3 from a WER of 10.4 to 6.6 on the Fleurs Dataset and from 6.8 to 2.2 on the NST dataset. | 翻訳日:2024-02-06 23:26:59 公開日:2024-02-02 |
# CoLe and LYS at BioASQ MESINESP8 Task: similarity based descriptor assignment in Spanish CoLe and LYS at BioASQ MESINESP8 Task: similarity based descriptor assignment in Spanish ( http://arxiv.org/abs/2402.01916v1 ) ライセンス: Link先を確認 | Francisco J. Ribadas-Pena, Shuyuan Cao, Elmurod Kuriyozov | (参考訳) 本稿では,bioasqバイオメディカル・セマンティクス・インデクス・チャレンジ(bioasq biomedical semantic indexing challenge)のmesinespタスクへの参加について述べる。
参加システムは,従来の情報検索ツールのみに基づくアプローチに従う。
我々は,IBECS/LILACS文書からインデックス項を抽出し,Apache Luceneインデックスに格納する手法について検討した。
これらの索引付き表現は、注釈すべき記事の内容を用いて照会され、検索された文書から候補ラベルのランクリストが作成される。
また,DeCSラベルを共起スコアの高いペアに結合するメタラベルを生成する限定ラベルパワーセット手法や,ラベルプロファイルマッチングに基づく代替手法についても検討した。
公式発表で得られた結果は、スペイン語のような言語に対するこのアプローチの適合性を確認するものと思われる。 In this paper, we describe our participation in the MESINESP Task of the BioASQ biomedical semantic indexing challenge. The participating system follows an approach based solely on conventional information retrieval tools. We have evaluated various alternatives for extracting index terms from IBECS/LILACS documents in order to be stored in an Apache Lucene index. Those indexed representations are queried using the contents of the article to be annotated and a ranked list of candidate labels is created from the retrieved documents. We also have evaluated a sort of limited Label Powerset approach which creates meta-labels joining pairs of DeCS labels with high co-occurrence scores, and an alternative method based on label profile matching. Results obtained in official runs seem to confirm the suitability of this approach for languages like Spanish. | 翻訳日:2024-02-06 23:26:45 公開日:2024-02-02 |
# 確率的推論によるロバスト逆グラフィックス Robust Inverse Graphics via Probabilistic Inference ( http://arxiv.org/abs/2402.01915v1 ) ライセンス: Link先を確認 | Tuan Anh Le, Pavel Sountsov, Matthew D. Hoffman, Ben Lee, Brian Patton, Rif A. Saurous | (参考訳) 雨や雪、霧といった汚職の存在下で、1枚の画像から3Dシーンを推測する方法。
ドメインのランダム化は、事前の腐敗の家族を知ることに依存している。
本稿では,前向きの強いシーンと,前向きの非形式的一様腐敗に依存した,ベイズ的アプローチによる頑健な逆グラフ(RIG)を提案する。
単一の画像が与えられると、rigはシーンと汚職に関して共同で後方推論を行う。
ニューラル・ラジアンス・フィールド (nerf) のシーンを前もって訓練し、二次的なnerfを使って不正な前置する腐敗を表現することで、このアイデアを実証する。
クリーンなデータのみに基づいてトレーニングされたRIGは、完全な推論の代わりにポイント推定を行うディープ推定器や代替のNeRFアプローチより優れている。
その結果、流れの正規化と拡散モデルに基づく多くのシーン先行アーキテクチャが得られた。
後者では,補助潜伏変数 (ReGAL) を用いた拡散条件付き再構成誘導法を, 汚職などの補助潜伏変数の存在下で適用する。
RIGは、シーン事前が生成タスクを超えてどのように使用できるかを示す。 How do we infer a 3D scene from a single image in the presence of corruptions like rain, snow or fog? Straightforward domain randomization relies on knowing the family of corruptions ahead of time. Here, we propose a Bayesian approach-dubbed robust inverse graphics (RIG)-that relies on a strong scene prior and an uninformative uniform corruption prior, making it applicable to a wide range of corruptions. Given a single image, RIG performs posterior inference jointly over the scene and the corruption. We demonstrate this idea by training a neural radiance field (NeRF) scene prior and using a secondary NeRF to represent the corruptions over which we place an uninformative prior. RIG, trained only on clean data, outperforms depth estimators and alternative NeRF approaches that perform point estimation instead of full inference. The results hold for a number of scene prior architectures based on normalizing flows and diffusion models. For the latter, we develop reconstruction-guidance with auxiliary latents (ReGAL)-a diffusion conditioning algorithm that is applicable in the presence of auxiliary latent variables such as the corruption. RIG demonstrates how scene priors can be used beyond generation tasks. | 翻訳日:2024-02-06 23:26:29 公開日:2024-02-02 |
# 合成アノテーションを用いた高忠実テキスト音声の自然言語指導 Natural language guidance of high-fidelity text-to-speech with synthetic annotations ( http://arxiv.org/abs/2402.01912v1 ) ライセンス: Link先を確認 | Dan Lyth, Simon King | (参考訳) 大規模データセットでトレーニングされたテキスト音声モデルは、コンテキスト内での学習能力と自然性を示す。
しかしながら、これらのモデルにおける話者識別とスタイルの制御は、典型的には基準音声記録の条件付けを必要とし、クリエイティブな応用を制限する。
あるいは、話者識別とスタイルの自然言語プロンプトは有望な結果を示し、直感的な制御方法を提供している。
しかしながら、人間のラベルによる記述への依存は、大規模なデータセットへのスケーリングを妨げている。
私たちの仕事はこれらの2つのアプローチのギャップを埋めます。
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に,この手法を45k時間データセットに適用し,音声言語モデルの学習を行う。
さらに,本研究では,音声の忠実度を高めるための簡単な手法を提案する。
本研究は, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成を, 一つのモデルと直感的な自然言語条件で実現した。
オーディオサンプルはhttps://text-description-to-speech.com/で確認できる。 Text-to-speech models trained on large-scale datasets have demonstrated impressive in-context learning capabilities and naturalness. However, control of speaker identity and style in these models typically requires conditioning on reference speech recordings, limiting creative applications. Alternatively, natural language prompting of speaker identity and style has demonstrated promising results and provides an intuitive method of control. However, reliance on human-labeled descriptions prevents scaling to large datasets. Our work bridges the gap between these two approaches. We propose a scalable method for labeling various aspects of speaker identity, style, and recording conditions. We then apply this method to a 45k hour dataset, which we use to train a speech language model. Furthermore, we propose simple methods for increasing audio fidelity, significantly outperforming recent work despite relying entirely on found data. Our results demonstrate high-fidelity speech generation in a diverse range of accents, prosodic styles, channel conditions, and acoustic conditions, all accomplished with a single model and intuitive natural language conditioning. Audio samples can be heard at https://text-description-to-speech.com/. | 翻訳日:2024-02-06 23:26:09 公開日:2024-02-02 |
# PEFTからDEFTへ:変圧器の活性化密度低減のためのパラメータ最適化 From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers ( http://arxiv.org/abs/2402.01911v1 ) ライセンス: Link先を確認 | Bharat Runwal, Tejaswini Pedapati, Pin-Yu Chen | (参考訳) 事前訓練言語モデル(PLM)は下流タスクの微調整の事実上の出発点となっている。
しかし、モデルのサイズが増大し続ければ、従来のパラメータの微調整は困難になる。
これを解決するために,パラメータ効率のよい微調整法(PEFT)がPLMを効果的に適応する手段として人気を集めている。
並行して、近年の研究では、トランスにおけるMLPブロックの中間出力内に活性化空間の存在が明らかにされている。
低アクティベーション密度は、スパーシティアウェアハードウェア上で効率的なモデル推論を可能にする。
そこで本研究では, この知見に基づいて, 事前学習モデルにおいて高い活性化スパーシティ(同等に低い活性化密度)を促進する新しい密度損失を提案する。
本稿では,QLoRA,LoRA,Adapter,Prompt/Prefix TuningなどのPEFT技術を用いて,様々な下流タスクにまたがる効率的なモデル適応を実現する手法の有効性を示す。
実験の結果,提案手法は,Flan-T5$_\mathrm{XXL}$$$$\boldsymbol{50.72\%}$ on RoBERTa$_\mathrm{Large}$, $\boldsymbol {53.19\%}$ (エンコーダ密度), $\boldsymbol{90.60\%}$ (デコーダ密度) on Flan-T5$_\mathrm{XXL}$$$$\boldsymbol{11B}$)に対して,それぞれGLUEおよびQA(SQuAD)ベンチマークを用いたPEFTと比較して,活性化密度を一定に低減できることがわかった。
また、DEFTは量子化およびプルーニングされたモデルと相補的に動作することを示す。 Pretrained Language Models (PLMs) have become the de facto starting point for fine-tuning on downstream tasks. However, as model sizes continue to increase, traditional fine-tuning of all parameters becomes challenging. To address this, parameter-efficient fine-tuning (PEFT) methods have gained popularity as a means to adapt PLMs effectively. In parallel, recent studies have revealed the presence of activation sparsity within the intermediate outputs of the multilayer perception (MLP) blocks in transformers. Low activation density enables efficient model inference on sparsity-aware hardware. Building upon this insight, in this work, we propose a novel density loss that encourages higher activation sparsity (equivalently, lower activation density) in the pre-trained models. We demonstrate the effectiveness of our approach by utilizing mainstream PEFT techniques including QLoRA, LoRA, Adapter, Prompt/Prefix Tuning to facilitate efficient model adaptation across diverse downstream tasks. Experiments show that our proposed method DEFT, Density-Efficient Fine-Tuning, can reduce the activation density consistently and up to $\boldsymbol{50.72\%}$ on RoBERTa$_\mathrm{Large}$, and $\boldsymbol {53.19\%}$ (encoder density) and $\boldsymbol{90.60\%}$ (decoder density) on Flan-T5$_\mathrm{XXL}$ ($\boldsymbol{11B}$) compared to PEFT using GLUE and QA (SQuAD) benchmarks respectively while maintaining competitive performance on downstream tasks. We also showcase that DEFT works complementary with quantized and pruned models | 翻訳日:2024-02-06 23:25:51 公開日:2024-02-02 |
# 大規模基盤モデルの破滅的継承について On Catastrophic Inheritance of Large Foundation Models ( http://arxiv.org/abs/2402.01909v1 ) ライセンス: Link先を確認 | Hao Chen, Bhiksha Raj, Xing Xie, Jindong Wang | (参考訳) 大きな基礎モデル(LFM)は素晴らしいパフォーマンスを誇示しています。
しかし、その神話的かつ未解釈の可能性は、機械学習だけでなく、他の様々な分野にも大きな関心が寄せられている。
本稿では,LFMに深く根ざした無視された問題を特定することを提案する。 破滅的継承(Caastrophic Inheritance)は,大規模事前学習データから,下流のタスクにおけるLFMの動作への欠陥や制限を記述したものである。
このような継承は、バイアス、一般化の欠如、パフォーマンスの低下、セキュリティの脆弱性、プライバシーの漏洩、価値の誤調整などのダウンストリームアプリケーションに大惨事を引き起こす可能性がある。
この問題の背景にある課題を論じ,事前学習と下流適応の両方からLFMの破滅的な継承を理解するためのフレームワークであるUIMを提案し,下流タスクにおける破滅的な継承の影響を解釈し,それを緩和する方法を提案する。
UIMは、機械学習と社会科学の両方のコミュニティを統合して、より責任を持ち、有望なAI開発とデプロイメントを目指している。 Large foundation models (LFMs) are claiming incredible performances. Yet great concerns have been raised about their mythic and uninterpreted potentials not only in machine learning, but also in various other disciplines. In this position paper, we propose to identify a neglected issue deeply rooted in LFMs: Catastrophic Inheritance, describing the weaknesses and limitations inherited from biased large-scale pre-training data to behaviors of LFMs on the downstream tasks, including samples that are corrupted, long-tailed, noisy, out-of-distributed, to name a few. Such inheritance can potentially cause catastrophes to downstream applications, such as bias, lack of generalization, deteriorated performance, security vulnerability, privacy leakage, and value misalignment. We discuss the challenges behind this issue and propose UIM, a framework to Understand the catastrophic inheritance of LFMs from both pre-training and downstream adaptation, Interpret the implications of catastrophic inheritance on downstream tasks, and how to Mitigate it. UIM aims to unite both the machine learning and social sciences communities for more responsible and promising AI development and deployment. | 翻訳日:2024-02-06 23:25:02 公開日:2024-02-02 |
# 大きな言語モデルは、アイデンティティグループを描写できないため、人間の参加者を置き換えることができない Large language models cannot replace human participants because they cannot portray identity groups ( http://arxiv.org/abs/2402.01908v1 ) ライセンス: Link先を確認 | Angelina Wang and Jamie Morgenstern and John P. Dickerson | (参考訳) 大規模言語モデル(llm)は、能力と人気が高まっており、計算社会科学における人間の参加者の代替、ユーザテスト、アノテーションタスクなど、新たなドメインでアプリケーションを推進している。
伝統的に、これらすべてのセッティング調査では、人為的なサンプルを見つけ、結果の妥当性を確認し、潜在的な人口統計差を理解するために注意が必要である。
このことは、適切な代替となるためには、LLMは位置性(性別や人種などの社会的アイデンティティの関連性)の影響を捉える必要があることを意味する。
しかしながら、現在のllmのトレーニング方法には、2つの固有の制限があることを示します。
我々は、LLMが人口集団の表現を不適切なものにし、フラットにする理由を分析的に論じ、それを16の人口集団の3200人の参加者による一連の研究を通して4つのLLMで実証的に示す。
また、アイデンティティープロンプトがアイデンティティーを不可欠なものにする方法についても論じる。
全体として、これらの制限を、それぞれがマージン化された人口集団に有害な理由を示す有害な歴史に結びつけています。
全体としては、LLMが課題に関連のある人物を置き換えることを意図したユースケースに注意を喚起する。
同時に、その目的が置き換えるよりも補うことにある場合(例えばパイロットスタディ)、我々は経験的にベターな推論時間技術を提供して、削減するが取り除くことはない。 Large language models (LLMs) are increasing in capability and popularity, propelling their application in new domains -- including as replacements for human participants in computational social science, user testing, annotation tasks, and more. Traditionally, in all of these settings survey distributors are careful to find representative samples of the human population to ensure the validity of their results and understand potential demographic differences. This means in order to be a suitable replacement, LLMs will need to be able to capture the influence of positionality (i.e., relevance of social identities like gender and race). However, we show that there are two inherent limitations in the way current LLMs are trained that prevent this. We argue analytically for why LLMs are doomed to both misportray and flatten the representations of demographic groups, then empirically show this to be true on 4 LLMs through a series of human studies with 3200 participants across 16 demographic identities. We also discuss a third consideration about how identity prompts can essentialize identities. Throughout, we connect each of these limitations to a pernicious history that shows why each is harmful for marginalized demographic groups. Overall, we urge caution in use cases where LLMs are intended to replace human participants whose identities are relevant to the task at hand. At the same time, in cases where the goal is to supplement rather than replace (e.g., pilot studies), we provide empirically-better inference-time techniques to reduce, but not remove, these harms. | 翻訳日:2024-02-06 23:24:41 公開日:2024-02-02 |
# EBV:ハチタイムシリーズの原則的マイニングと予測のための電子ビーベテリナリアン EBV: Electronic Bee-Veterinarian for Principled Mining and Forecasting of Honeybee Time Series ( http://arxiv.org/abs/2402.01902v1 ) ライセンス: Link先を確認 | Mst. Shamima Hossain, Christos Faloutsos, Boris Baer, Hyoseung Kim, Vassilis J. Tsotras | (参考訳) ハチは受粉と食糧生産に不可欠である。
多くの要因のうち、極端な温度(例えば気候変動による)は特にハチの健康にとって危険である。
このような極端さを期待すれば、養蜂家は早期予防行動を取ることができる。
したがって、ハチからのセンサー(温度)時系列データがあれば、どのようにパターンを見つけ、予測できるのか?
予測は予期せぬ行動を発見し、養蜂家に対して警告を出すのに役立つため重要である。
その場合、予測に適切なモデルは何ですか?
アリマとかrnnとか?
EBV法(Electronic Bee-Veterinarian)を提案する。
(i)原則;それに基づく
a) 物理学からの拡散方程式及び
ロ フィードバックループ制御装置の制御理論
(ii)有効:複数の実世界の時系列でうまく機能する。
(iii)説明可能:養蜂家が容易に理解し信頼できるパラメータ(蜂の強さなど)はほんの一握りでなければならない。
(iv) スケーラブル: 時間的に線形に動作します。
提案手法を実世界の複数の時系列に適用したところ,精度の高い予測(RMSEはベースラインに比べて最大49%改善)とセグメンテーションが得られた。
具体的には、EBVによって検出された不連続性は、主にドメイン専門家の意見と一致し、我々のアプローチの可能性と実用可能性を示している。
さらに、EBVはスケーラブルで高速で、2ヶ月のセンサーデータを再構築するためにストックラップトップで約20分かかる。 Honeybees are vital for pollination and food production. Among many factors, extreme temperature (e.g., due to climate change) is particularly dangerous for bee health. Anticipating such extremities would allow beekeepers to take early preventive action. Thus, given sensor (temperature) time series data from beehives, how can we find patterns and do forecasting? Forecasting is crucial as it helps spot unexpected behavior and thus issue warnings to the beekeepers. In that case, what are the right models for forecasting? ARIMA, RNNs, or something else? We propose the EBV (Electronic Bee-Veterinarian) method, which has the following desirable properties: (i) principled: it is based on a) diffusion equations from physics and b) control theory for feedback-loop controllers; (ii) effective: it works well on multiple, real-world time sequences, (iii) explainable: it needs only a handful of parameters (e.g., bee strength) that beekeepers can easily understand and trust, and (iv) scalable: it performs linearly in time. We applied our method to multiple real-world time sequences, and found that it yields accurate forecasting (up to 49% improvement in RMSE compared to baselines), and segmentation. Specifically, discontinuities detected by EBV mostly coincide with domain expert's opinions, showcasing our approach's potential and practical feasibility. Moreover, EBV is scalable and fast, taking about 20 minutes on a stock laptop for reconstructing two months of sensor data. | 翻訳日:2024-02-06 23:24:13 公開日:2024-02-02 |
# 等角予測による演算子学習のための校正不確かさ定量化 Calibrated Uncertainty Quantification for Operator Learning via Conformal Prediction ( http://arxiv.org/abs/2402.01960v1 ) ライセンス: Link先を確認 | Ziqi Ma, Kamyar Azizzadenesheli, Anima Anandkumar | (参考訳) オペレーター・ラーニングは科学や工学の応用でますます採用されてきているが、その多くは校正の不確かさの定量化を必要とする。
演算子学習の出力は連続関数であるため、領域内のすべての点で不確実性を同時に定量化することは困難である。
現在の方法では、単一点あるいは1つのスカラー関数上のキャリブレーションやガウス性のような強い仮定を考える。
本稿では, リスク制御型量子ニューラル演算子, 分布のない有限サンプル機能キャリブレーション等式予測法を提案する。
実数値が予測の不確かさ球内にある関数領域上の期待点の割合として定義される被覆率に関する理論的キャリブレーション保証を提供する。
2次元ダーシー流と3次元車表面圧力予測タスクによる実験結果が理論結果の妥当性を検証し,基準値よりも校正されたカバレッジと効率的な不確実性バンドを実証した。
特に, 3次元問題において, 対象校正率(不確実性推定を校正した試験試料の割合)が98\%を満たしている唯一の方法である。 Operator learning has been increasingly adopted in scientific and engineering applications, many of which require calibrated uncertainty quantification. Since the output of operator learning is a continuous function, quantifying uncertainty simultaneously at all points in the domain is challenging. Current methods consider calibration at a single point or over one scalar function or make strong assumptions such as Gaussianity. We propose a risk-controlling quantile neural operator, a distribution-free, finite-sample functional calibration conformal prediction method. We provide a theoretical calibration guarantee on the coverage rate, defined as the expected percentage of points on the function domain whose true value lies within the predicted uncertainty ball. Empirical results on a 2D Darcy flow and a 3D car surface pressure prediction tasks validate our theoretical results, demonstrating calibrated coverage and efficient uncertainty bands outperforming baseline methods. In particular, on the 3D problem, our method is the only one that meets the target calibration percentage (percentage of test samples for which the uncertainty estimates are calibrated) of 98\%. | 翻訳日:2024-02-06 23:14:58 公開日:2024-02-02 |
# OPSurv: 生存分析のための直交多項式四分法アルゴリズム OPSurv: Orthogonal Polynomials Quadrature Algorithm for Survival Analysis ( http://arxiv.org/abs/2402.01955v1 ) ライセンス: Link先を確認 | Lilian W. Bialokozowicz and Hoang M. Le and Tristan Sylvain, Peter A. I. Forsyth, Vineel Nagisetty, Greg Mori | (参考訳) 本稿では、生存分析における単一リスクと競合リスクの両方に対して、時間連続関数出力を提供する新しい手法であるOrthogonal Polynomials Quadrature Algorithm for Survival Analysis (OPSurv)を紹介する。
opsurvは累積帰納関数の初期ゼロ条件と直交多項式を用いた確率密度の独特な分解を利用して、リスクイベントごとに関数近似係数を学習し、ガウス・レジェンドル二次数を通じて累積帰納関数推定を構築する。
このアプローチは、特に競合するリスクシナリオにおける過度な適合を効果的に防止し、モデル表現性とコントロールを強化する。
論文はさらに、opsurvの実証的検証と理論的正当化を詳述し、競合リスクを伴う生存分析の進歩として、その堅牢な性能を強調した。 This paper introduces the Orthogonal Polynomials Quadrature Algorithm for Survival Analysis (OPSurv), a new method providing time-continuous functional outputs for both single and competing risks scenarios in survival analysis. OPSurv utilizes the initial zero condition of the Cumulative Incidence function and a unique decomposition of probability densities using orthogonal polynomials, allowing it to learn functional approximation coefficients for each risk event and construct Cumulative Incidence Function estimates via Gauss--Legendre quadrature. This approach effectively counters overfitting, particularly in competing risks scenarios, enhancing model expressiveness and control. The paper further details empirical validations and theoretical justifications of OPSurv, highlighting its robust performance as an advancement in survival analysis with competing risks. | 翻訳日:2024-02-06 23:14:40 公開日:2024-02-02 |
# conrf:条件付放射場を有する3次元シーンのゼロショットスタイライゼーション ConRF: Zero-shot Stylization of 3D Scenes with Conditioned Radiation Fields ( http://arxiv.org/abs/2402.01950v1 ) ライセンス: Link先を確認 | Xingyu Miao, Yang Bai, Haoran Duan, Fan Wan, Yawen Huang, Yang Long, Yefeng Zheng | (参考訳) 既存の作業の多くは、任意の3D NeRFスタイルの転送において、1つのスタイルの条件で再訓練する必要がある。
本研究の目的は、テキストや視覚入力を条件付け要素として利用する3次元シーンにおけるゼロショット制御型スタイリングの実現である。
ゼロショットスタイリングの新しい手法であるConRFを紹介する。
具体的には、CLIP特徴量のあいまいさから、CLIP特徴空間を事前訓練されたVGGネットワークのスタイル空間にマッピングし、CLIP多モード知識を伝達神経放射場に洗練する変換プロセスを用いる。
さらに,3次元ボリューム表現を用いて局所的なスタイル転送を行う。
これらの操作を組み合わせることで、ConRFはテキストまたはイメージを参照として利用する機能を提供し、グローバルまたはローカルなスタイリングによって強化された新しいビューを持つシーケンスを生成する。
実験の結果,ConRFは視覚的品質の観点から,他の3Dシーンや単一テキストスタイリング手法よりも優れていた。 Most of the existing works on arbitrary 3D NeRF style transfer required retraining on each single style condition. This work aims to achieve zero-shot controlled stylization in 3D scenes utilizing text or visual input as conditioning factors. We introduce ConRF, a novel method of zero-shot stylization. Specifically, due to the ambiguity of CLIP features, we employ a conversion process that maps the CLIP feature space to the style space of a pre-trained VGG network and then refine the CLIP multi-modal knowledge into a style transfer neural radiation field. Additionally, we use a 3D volumetric representation to perform local style transfer. By combining these operations, ConRF offers the capability to utilize either text or images as references, resulting in the generation of sequences with novel views enhanced by global or local stylization. Our experiment demonstrates that ConRF outperforms other existing methods for 3D scene and single-text stylization in terms of visual quality. | 翻訳日:2024-02-06 23:14:23 公開日:2024-02-02 |
# エンドツーエンド音声翻訳におけるフィルタリングの一事例 A Case Study on Filtering for End-to-End Speech Translation ( http://arxiv.org/abs/2402.01945v1 ) ライセンス: Link先を確認 | Md Mahfuz Ibn Alam and Antonios Anastasopoulos | (参考訳) 音声テキスト翻訳や音声音声翻訳など、機械学習タスクのための大きな並列コーパスのマイニングは比較的容易である。
これらの炭鉱コーパスは量が多いが、その品質は疑わしい。
この研究は、最も単純なフィルタリング技術が、これらの大きなノイズの多いデータセットを、より管理しやすいクリーンなデータセットにトリミングできることを示しています。
また,このクリーンなデータセットを使うことで,多言語間音声翻訳(st)モデルの場合のように,モデルの性能が向上し,平均して4.65 bleuスコアの改善が得られることを示した。 It is relatively easy to mine a large parallel corpus for any machine learning task, such as speech-to-text or speech-to-speech translation. Although these mined corpora are large in volume, their quality is questionable. This work shows that the simplest filtering technique can trim down these big, noisy datasets to a more manageable, clean dataset. We also show that using this clean dataset can improve the model's performance, as in the case of the multilingual-to-English Speech Translation (ST) model, where, on average, we obtain a 4.65 BLEU score improvement. | 翻訳日:2024-02-06 23:14:06 公開日:2024-02-02 |
# ソフトウェアセキュリティの保証 Guarantees in Software Security ( http://arxiv.org/abs/2402.01944v1 ) ライセンス: Link先を確認 | Marcel B\"ohme | (参考訳) ソフトウェアシステムのセキュリティに関する一般的なアプローチをレビューし、それらが提供する保証を反映する。
我々は,保証の提供に向けた基本的な課題の分類を紹介し,これらの課題が,バグがないという信頼できる保証にもかかわらず,システムを攻撃するために日常的に活用されている方法について論じる。
現在の推論システムの欠陥を特定し、研究し、認識するのは、将来、効果的な緩和戦略を開発することができるときだけです。
そこで我々は,この10年におけるソフトウェアセキュリティの課題に取り組むことを目標とする研究プログラムを,ついに提案する。 We review general approaches to reason about the security of a software system and reflect upon the guarantees they provide. We introduce a taxonomy of fundamental challenges towards the provision of guarantees, and discuss how these challenges are routinely exploited to attack a system in spite of credible assurances about the absence of such bugs. It is only when we identify, study, and acknowledge the flaws in our current reasoning systems today that we can develop effective mitigation strategies in the future. To this end, we finally propose a research programme whose goal it is to tackle the software security challenges of this decade. | 翻訳日:2024-02-06 23:13:56 公開日:2024-02-02 |
# グラフデータバリュエーションの事前制約付き冬値 Precedence-Constrained Winter Value for Effective Graph Data Valuation ( http://arxiv.org/abs/2402.01943v1 ) ライセンス: Link先を確認 | Hongliang Chi, Jin Wei, Charu Aggarwal, Yao Ma | (参考訳) データバリュエーションは、データの価値を定量化し、データ品質を評価し、公正な報酬を決定するのに不可欠である。
既存のデータ評価手法はユークリッドデータの価値評価に有効であることが証明されているが、人気が高まっているグラフ構造化データに適用すると限界に直面している。
特にグラフデータ評価は、ノード間の複雑な依存関係と、価値推定コストの指数的な増加から起因した、ユニークな課題をもたらす。
グラフデータ評価の課題に対処するため,複雑なグラフ構造を考慮し,PC-Winter(Precedence-Constrained Winter)値というイノベーティブなソリューションを考案した。
さらに,計算課題に対処し,pc-winter の効率的な近似を実現するための様々な戦略を考案する。
大規模な実験は、多様なデータセットやタスクにわたるPC-Winterの有効性を示す。 Data valuation is essential for quantifying data's worth, aiding in assessing data quality and determining fair compensation. While existing data valuation methods have proven effective in evaluating the value of Euclidean data, they face limitations when applied to the increasingly popular graph-structured data. Particularly, graph data valuation introduces unique challenges, primarily stemming from the intricate dependencies among nodes and the exponential growth in value estimation costs. To address the challenging problem of graph data valuation, we put forth an innovative solution, Precedence-Constrained Winter (PC-Winter) Value, to account for the complex graph structure. Furthermore, we develop a variety of strategies to address the computational challenges and enable efficient approximation of PC-Winter. Extensive experiments demonstrate the effectiveness of PC-Winter across diverse datasets and tasks. | 翻訳日:2024-02-06 23:13:45 公開日:2024-02-02 |
# 非表現言語機械翻訳のための形態素認識辞書に基づくデータ拡張手法 A Morphologically-Aware Dictionary-based Data Augmentation Technique for Machine Translation of Under-Represented Languages ( http://arxiv.org/abs/2402.01939v1 ) ライセンス: Link先を確認 | Md Mahfuz Ibn Alam, Sina Ahmadi and Antonios Anastasopoulos | (参考訳) 並列テキストの可用性は、機械翻訳モデルの性能に不可欠である。
しかし、世界のほとんどの言語は、データ不足という大きな課題に直面している。
本稿では,2言語レキシコンと少量のシードパラレルデータを用いて,モルフォ・シンタクティック情報に基づく並列データを合成する方法を提案する。
我々の手法は、小さな並列シードデータによって支えられた現実的なシナリオに固執する。
文法的に正しい可能性が高い拡張データを作成することを目的としており、言語的に知らされている。
合成データを生の並列データと組み合わせる方法について分析し,14言語(28組の英語<->Xペア)における実験において,良質から低リソースまで,一貫した性能向上を示す。
本手法は,5つのシード文とバイリンガル辞書を用いても改善につながる。 The availability of parallel texts is crucial to the performance of machine translation models. However, most of the world's languages face the predominant challenge of data scarcity. In this paper, we propose strategies to synthesize parallel data relying on morpho-syntactic information and using bilingual lexicons along with a small amount of seed parallel data. Our methodology adheres to a realistic scenario backed by the small parallel seed data. It is linguistically informed, as it aims to create augmented data that is more likely to be grammatically correct. We analyze how our synthetic data can be combined with raw parallel data and demonstrate a consistent improvement in performance in our experiments on 14 languages (28 English <-> X pairs) ranging from well- to very low-resource ones. Our method leads to improvements even when using only five seed sentences and a bilingual lexicon. | 翻訳日:2024-02-06 23:13:29 公開日:2024-02-02 |
# 大規模なコード表現学習 Code Representation Learning At Scale ( http://arxiv.org/abs/2402.01935v1 ) ライセンス: Link先を確認 | Dejiao Zhang, Wasi Ahmad, Ming Tan, Hantian Ding, Ramesh Nallapati, Dan Roth, Xiaofei Ma, Bing Xiang | (参考訳) 近年の研究では、大規模なコード言語モデルがダウンストリームタスク、すなわちコード生成において著しいパフォーマンス向上を示していることが示されている。
しかし、既存のモデルのほとんどは、非常に限定的な事前学習コーパスを使用して、1億のパラメータスケールでのコード表現学習トレインモデルに取り組んでいる。
本研究では,2段階事前学習方式を用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用してエンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
我々は,既存のモデルを多種多様な下流タスクに対して,大きなマージンで永続的に上回る,既定エンコーダモデルを確立する。
コード表現学習の成功に寄与する要因を理解するために,我々は詳細なアブレーションを行い,その知見を共有する。
i) ソースコードのカスタマイズ及び効果的なトークンレベルの復号化方式
(ii) 硬い否定と硬い肯定の重要性
(iii)提案するバイモーダルコントラスト学習が言語間意味検索性能をいかに高めるか,および
(iv)プリトレーニングスキームがダウンストリームタスクのパフォーマンスをモデルサイズに応じてどのように決定するか。 Recent studies have shown that code language models at scale demonstrate significant performance gains on downstream tasks, i.e., code generation. However, most of the existing works on code representation learning train models at a hundred million parameter scale using very limited pretraining corpora. In this work, we fuel code representation learning with a vast amount of code data via a two-stage pretraining scheme. We first train the encoders via a mix that leverages both randomness in masking language modeling and the structure aspect of programming language. We then enhance the representations via contrastive learning with hard negative and hard positive constructed in an unsupervised manner. We establish an off-the-shelf encoder model that persistently outperforms the existing models on a wide variety of downstream tasks by large margins. To comprehend the factors contributing to successful code representation learning, we conduct detailed ablations and share our findings on (i) a customized and effective token-level denoising scheme for source code; (ii) the importance of hard negatives and hard positives; (iii) how the proposed bimodal contrastive learning boost the cross-lingual semantic search performance; and (iv) how the pretraining schemes decide the downstream task performance scales with the model size. | 翻訳日:2024-02-06 23:13:14 公開日:2024-02-02 |
# 正確かつセキュアなトランザクションのためのDigitsマイクロモデル Digits micro-model for accurate and secure transactions ( http://arxiv.org/abs/2402.01931v1 ) ライセンス: Link先を確認 | Chirag Chhablani, Nikhita Sharma, Jordan Hosier, and Vijay K. Gurbani | (参考訳) 金融分野における音声認識(asr)システムは、自然言語理解を可能にし、効率的で直感的な対話を促進することにより、発信者エクスペリエンスを向上させるために用いられる。
ASRシステムの利用の増加には、そのようなシステムは非常に低いエラー率を示す必要がある。
数値データを収集する主要なASRモデルは、Google Speech-to-text(STT)やAmazon Transcribe(OpenAIのWhisper)など、大規模で汎用的な商用モデルである。
このようなasrモデルは、数十万時間に及ぶオーディオデータに基づいてトレーニングされ、かなりのリソースを必要とする。
近年の大規模音声認識モデルの発展にもかかわらず、より小型の「マイクロ」モデルの可能性を強調している。
このような光モデルは、WhisperやGoogle STTといった一般的なモデルと競合しながら、80分未満のトレーニング時間を使用し、少なくともメモリリソースの少ない順序で、数値認識固有のタスクでうまくトレーニングすることができる。
また、より大きな音声認識モデルとは異なり、マイクロモデルは注意深く選択されたデータセットで訓練され、低い計算リソースを使用しながら、高度に正確で、アジャイルで、再トレーニングが容易である。
実世界の発音パターンを反映した多様な話し方を扱う多桁数認識のためのマイクロモデルの作成について述べる。
我々の研究は、ドメイン固有のASRモデル、数値認識精度の向上、データのプライバシーに寄与する。
さらに、リソース消費の少ないため、オンプレミスでホストすることが可能で、外部クラウドにアップロードする代わりに、プライベートデータをローカルに保持することができる。
以上の結果から,我々のマイクロモデルでは,桁認識における最良の商用またはオープンソース ASR よりも誤りが少ない(最良マイクロモデルでは1.8%,Whisperでは5.8%)こと,メモリフットプリントが低い(Whisperでは0.66 GB VRAM,Whisperでは11 GB VRAM)。 Automatic Speech Recognition (ASR) systems are used in the financial domain to enhance the caller experience by enabling natural language understanding and facilitating efficient and intuitive interactions. Increasing use of ASR systems requires that such systems exhibit very low error rates. The predominant ASR models to collect numeric data are large, general-purpose commercial models -- Google Speech-to-text (STT), or Amazon Transcribe -- or open source (OpenAI's Whisper). Such ASR models are trained on hundreds of thousands of hours of audio data and require considerable resources to run. Despite recent progress large speech recognition models, we highlight the potential of smaller, specialized "micro" models. Such light models can be trained perform well on number recognition specific tasks, competing with general models like Whisper or Google STT while using less than 80 minutes of training time and occupying at least an order of less memory resources. Also, unlike larger speech recognition models, micro-models are trained on carefully selected and curated datasets, which makes them highly accurate, agile, and easy to retrain, while using low compute resources. We present our work on creating micro models for multi-digit number recognition that handle diverse speaking styles reflecting real-world pronunciation patterns. Our work contributes to domain-specific ASR models, improving digit recognition accuracy, and privacy of data. An added advantage, their low resource consumption allows them to be hosted on-premise, keeping private data local instead uploading to an external cloud. Our results indicate that our micro-model makes less errors than the best-of-breed commercial or open-source ASRs in recognizing digits (1.8% error rate of our best micro-model versus 5.8% error rate of Whisper), and has a low memory footprint (0.66 GB VRAM for our model versus 11 GB VRAM for Whisper). | 翻訳日:2024-02-06 23:12:58 公開日:2024-02-02 |
# 不完全協調ゲームにおける楽観バイアスの低減 Reducing Optimism Bias in Incomplete Cooperative Games ( http://arxiv.org/abs/2402.01930v1 ) ライセンス: Link先を確認 | Filip \'Uradn\'ik, David Sychrovsk\'y, Jakub \v{C}ern\'y and Martin \v{C}ern\'y | (参考訳) 協調ゲーム理論は、解釈可能な機械学習、リソース割り当て、協調的意思決定などを含む、現代の人工知能における多様な応用がある。
しかし、協調ゲームを指定することは、指数関数的に多数の連立に値の割り当てを伴い、単一の値でも得ることは、実際には資源集約的である。
しかし、特定の連立価値を開示されていないままにしておくと、連立に個人が貢献するあいまいさが生じる。
この曖昧さは、しばしばプレイヤーが過度に楽観的な期待を抱き、固有の偏見または戦略的考察から起因し、しばしば実際の大連立価値を超える集団的主張をもたらす。
本稿では,協調ゲームにおける選手の期待と達成可能な成果のギャップを効率的に解消することを目的として,連立価値を明らかにするためのシーケンスを最適化する枠組みを提案する。
私たちの貢献は3倍です
(i)コンビネート値の欠落した各プレイヤーの楽観的なコンプリートと、その発生するギャップについて検討し、より効率的な最適化を容易にする分析特性について検討する。
(二)オフライン・オンライン両方の連立の付加価値を開示することにより、既知の事前のゲームクラスにおけるこのギャップを最小化する方法を開発する。
(iii)実用シナリオにおけるアルゴリズムの性能を実証し,連立値を明らかにする典型的な順序について検討した。 Cooperative game theory has diverse applications in contemporary artificial intelligence, including domains like interpretable machine learning, resource allocation, and collaborative decision-making. However, specifying a cooperative game entails assigning values to exponentially many coalitions, and obtaining even a single value can be resource-intensive in practice. Yet simply leaving certain coalition values undisclosed introduces ambiguity regarding individual contributions to the collective grand coalition. This ambiguity often leads to players holding overly optimistic expectations, stemming from either inherent biases or strategic considerations, frequently resulting in collective claims exceeding the actual grand coalition value. In this paper, we present a framework aimed at optimizing the sequence for revealing coalition values, with the overarching goal of efficiently closing the gap between players' expectations and achievable outcomes in cooperative games. Our contributions are threefold: (i) we study the individual players' optimistic completions of games with missing coalition values along with the arising gap, and investigate its analytical characteristics that facilitate more efficient optimization; (ii) we develop methods to minimize this gap over classes of games with a known prior by disclosing values of additional coalitions in both offline and online fashion; and (iii) we empirically demonstrate the algorithms' performance in practical scenarios, together with an investigation into the typical order of revealing coalition values. | 翻訳日:2024-02-06 23:12:23 公開日:2024-02-02 |
# 意図ドリフト誘導llmを用いた意図保証 Intent Assurance using LLMs guided by Intent Drift ( http://arxiv.org/abs/2402.00715v2 ) ライセンス: Link先を確認 | Kristina Dzeparoska, Ali Tizghadam, Alberto Leon-Garcia | (参考訳) Intent-Based Networking (IBN) は、意図やビジネス目標をネットワーク操作と自動的に整合させることを約束することで、ネットワーク管理のパラダイムシフトを示す。
しかし、実際的な実現は困難です。
1)処理意図,すなわち,意図を満たすための論理を翻訳し,分解し,識別する
2) インテント適合性,すなわち動的ネットワークを考えると,論理はインテントの確保に適切に適応すべきである。
後者に対処するため、インテント保証は、運用状態とターゲット状態を調整するために必要なアクションを含め、継続的な検証と検証を行う。
本稿では,意図的ドリフトの発生を検知し,行動することができる保証フレームワークを定義する。
そのために、Large Language Models(LLMs)が生成するAI駆動のポリシーを活用して、必要なインコンテキスト要件を迅速に学習し、インテントの実現と保証を支援する。 Intent-Based Networking (IBN) presents a paradigm shift for network management, by promising to align intents and business objectives with network operations--in an automated manner. However, its practical realization is challenging: 1) processing intents, i.e., translate, decompose and identify the logic to fulfill the intent, and 2) intent conformance, that is, considering dynamic networks, the logic should be adequately adapted to assure intents. To address the latter, intent assurance is tasked with continuous verification and validation, including taking the necessary actions to align the operational and target states. In this paper, we define an assurance framework that allows us to detect and act when intent drift occurs. To do so, we leverage AI-driven policies, generated by Large Language Models (LLMs) which can quickly learn the necessary in-context requirements, and assist with the fulfillment and assurance of intents. | 翻訳日:2024-02-06 12:11:30 公開日:2024-02-02 |
# ほぼ凸性による量子エントロピー量の連続性 Continuity of quantum entropic quantities via almost convexity ( http://arxiv.org/abs/2208.00922v3 ) ライセンス: Link先を確認 | Andreas Bluhm, \'Angela Capel, Paul Gondolf, Antonio P\'erez-Hern\'andez | (参考訳) Alicki, Fannes, Winter による条件エントロピーの連続性の証明に基づいて,本研究では, ほぼ局所的なアフィン (ALAFF) 法を紹介する。
この方法により、導出エントロピー量に対して非常に多様な連続性境界を証明できる。
まず,ALAFF法を梅垣相対エントロピーに適用する。
このようにして、ほとんど厳密な境界が分かるだけでなく、相対エントロピーに対するいくつかの新しい連続性境界も回復する。
その後,Belavkin-Staszewski 相対エントロピー (BS-エントロピー) に適用した。
これにより、特にBS条件エントロピー、BS条件エントロピー、BS条件相互情報に対する新しい明示的境界が得られる。
一方, 梅垣相対エントロピーとBS-エントロピーは, 独立性を持つ可能性が示唆された。
最後に、量子情報理論における様々な文脈におけるこれらの連続性境界の応用について述べる。 Based on the proofs of the continuity of the conditional entropy by Alicki, Fannes, and Winter, we introduce in this work the almost locally affine (ALAFF) method. This method allows us to prove a great variety of continuity bounds for the derived entropic quantities. First, we apply the ALAFF method to the Umegaki relative entropy. This way, we recover known almost tight bounds, but also some new continuity bounds for the relative entropy. Subsequently, we apply our method to the Belavkin-Staszewski relative entropy (BS-entropy). This yields novel explicit bounds in particular for the BS-conditional entropy, the BS-mutual and BS-conditional mutual information. On the way, we prove almost concavity for the Umegaki relative entropy and the BS-entropy, which might be of independent interest. We conclude by showing some applications of these continuity bounds in various contexts within quantum information theory. | 翻訳日:2024-02-05 21:06:02 公開日:2024-02-02 |
# cpo:ロバストなパノラマをポイントクラウドローカライズに変更 CPO: Change Robust Panorama to Point Cloud Localization ( http://arxiv.org/abs/2207.05317v2 ) ライセンス: Link先を確認 | Junho Kim, Hojun Jang, Changwoon Choi, and Young Min Kim | (参考訳) 2dパノラマを、おそらく変化を含むシーンの3dポイントクラウドに対してローカライズする、高速でロバストなアルゴリズムであるcpoを提案する。
本手法は,シーン変化に頑健に対処するため,従来の特徴点マッチングから逸脱し,パノラマ画像から提供される空間的コンテキストに焦点をあてる。
具体的には,スコアマップを用いた効率的なカラーヒストグラム生成とそれに続くロバスト定位を提案する。
球面投影の特異な均一性を利用して,多数のカメラポーズに対して,候補ポーズの画像を明示的にレンダリングすることなく,非常に高速なカラーヒストグラム生成を提案する。
我々は,パノラマとポイントクラウドの地域的一貫性を2d/3dスコアマップとして蓄積し,入力カラー値の重み付けに用いた。
重み付き色分布は素早く良い初期条件を見つけ、勾配に基づく最適化のための安定した収束を達成する。
cpoは軽量で、テストされたすべてのシナリオにおいて効果的なローカライズを実現し、シーンの変更や繰り返し構造、機能のない領域に関わらず安定したパフォーマンスを示す。
コードは \url{https://github.com/82magnolia/panoramic-localization/} で入手できる。 We present CPO, a fast and robust algorithm that localizes a 2D panorama with respect to a 3D point cloud of a scene possibly containing changes. To robustly handle scene changes, our approach deviates from conventional feature point matching, and focuses on the spatial context provided from panorama images. Specifically, we propose efficient color histogram generation and subsequent robust localization using score maps. By utilizing the unique equivariance of spherical projections, we propose very fast color histogram generation for a large number of camera poses without explicitly rendering images for all candidate poses. We accumulate the regional consistency of the panorama and point cloud as 2D/3D score maps, and use them to weigh the input color values to further increase robustness. The weighted color distribution quickly finds good initial poses and achieves stable convergence for gradient-based optimization. CPO is lightweight and achieves effective localization in all tested scenarios, showing stable performance despite scene changes, repetitive structures, or featureless regions, which are typical challenges for visual localization with perspective cameras. Code is available at \url{https://github.com/82magnolia/panoramic-localization/}. | 翻訳日:2024-02-05 21:05:48 公開日:2024-02-02 |
# 余分な活動遅延を伴うビジネスプロセスシミュレーションモデルの拡張 Enhancing Business Process Simulation Models with Extraneous Activity Delays ( http://arxiv.org/abs/2206.14051v2 ) ライセンス: Link先を確認 | David Chapela-Campa and Marlon Dumas | (参考訳) ビジネスプロセスシミュレーション(Business Process Simulation, BPS)は、ビジネスプロセスの変更がパフォーマンス指標に与える影響を推定する一般的な手法である。
例えば、アクティビティの1つを自動化したり、いくつかのリソースが利用できない場合、プロセスのサイクルタイムを見積もることができます。
BPSの出発点は、シミュレーションパラメータ(BPSモデル)を付加したビジネスプロセスモデルである。
従来の手法では、BPSモデルはモデリングスペシャリストによって手動で設計される。
このアプローチは時間がかかり、エラーが発生しやすい。
この欠点に対処するため、プロセスマイニング技術を用いてイベントログからBPSモデルを自動的に検出する方法がいくつか提案されている。
しかし、この領域の現在の技術は、リソース競合やリソース利用不可能に起因する待ち時間のみをキャプチャするBPSモデルを発見している。
多くの場合、ビジネスプロセスにおける待ち時間のかなりの部分は余計な遅延に対応します。例えば、リソースは顧客が電話を返すのを待ちます。
本稿では,ビジネスプロセス実行のイベントログから異常な遅延を検出する手法を提案する。
提案手法は,各イベントログ内の因果連続したアクティビティインスタンスに対して,関連するリソースが利用可能であれば,対象アクティビティインスタンスが理論的に開始すべき時刻を算出する。
理論的な開始時刻と実際の開始時刻の差に基づき、提案手法は外部遅延の分布を推定し、タイマイベントによるBPSモデルを強化し、これらの遅延を捉える。
合成および実生活ログを含む実証的な評価は、この手法がプロセスの時間的ダイナミクスをよりよく反映するBPSモデルを生成することを示している。 Business Process Simulation (BPS) is a common approach to estimate the impact of changes to a business process on its performance measures. For example, it allows us to estimate what would be the cycle time of a process if we automated one of its activities, or if some resources become unavailable. The starting point of BPS is a business process model annotated with simulation parameters (a BPS model). In traditional approaches, BPS models are manually designed by modeling specialists. This approach is time-consuming and error-prone. To address this shortcoming, several studies have proposed methods to automatically discover BPS models from event logs via process mining techniques. However, current techniques in this space discover BPS models that only capture waiting times caused by resource contention or resource unavailability. Oftentimes, a considerable portion of the waiting time in a business process corresponds to extraneous delays, e.g., a resource waits for the customer to return a phone call. This article proposes a method that discovers extraneous delays from event logs of business process executions. The proposed approach computes, for each pair of causally consecutive activity instances in the event log, the time when the target activity instance should theoretically have started, given the availability of the relevant resource. Based on the difference between the theoretical and the actual start times, the approach estimates the distribution of extraneous delays, and it enhances the BPS model with timer events to capture these delays. An empirical evaluation involving synthetic and real-life logs shows that the approach produces BPS models that better reflect the temporal dynamics of the process, relative to BPS models that do not capture extraneous delays. | 翻訳日:2024-02-05 21:05:29 公開日:2024-02-02 |
# 敵対的模倣学習の自動エンコーディング Auto-Encoding Adversarial Imitation Learning ( http://arxiv.org/abs/2206.11004v5 ) ライセンス: Link先を確認 | Kaifeng Zhang, Rui Zhao, Ziming Zhang, Yang Gao | (参考訳) 強化学習(rl)は意思決定のための強力なフレームワークを提供するが、実際には注意深く設計された報酬機能を必要とすることが多い。
AIL(Adversarial Imitation Learning)は、環境からの報酬信号にアクセスせずに自動ポリシー取得に光を当てる。
本稿では,堅牢でスケーラブルな AIL フレームワークである Auto-Encoding Adversarial Imitation Learning (AEAIL) を提案する。
AEAILは、実証から専門家ポリシーを誘導するため、オートエンコーダの再構成エラーを報奨信号として利用し、従来の差別者ベースのものよりも、ポリシーを最適化するための情報を提供する。
その後、導出した目的関数を用いてオートエンコーダとエージェントポリシーを訓練する。
実験の結果,AEAILは現状および画像ベース環境において,最先端の手法よりも優れていることがわかった。
さらに重要なのは、AEAILは、専門家によるデモが騒々しいときに、はるかに優れた堅牢性を示します。 Reinforcement learning (RL) provides a powerful framework for decision-making, but its application in practice often requires a carefully designed reward function. Adversarial Imitation Learning (AIL) sheds light on automatic policy acquisition without access to the reward signal from the environment. In this work, we propose Auto-Encoding Adversarial Imitation Learning (AEAIL), a robust and scalable AIL framework. To induce expert policies from demonstrations, AEAIL utilizes the reconstruction error of an auto-encoder as a reward signal, which provides more information for optimizing policies than the prior discriminator-based ones. Subsequently, we use the derived objective functions to train the auto-encoder and the agent policy. Experiments show that our AEAIL performs superior compared to state-of-the-art methods on both state and image based environments. More importantly, AEAIL shows much better robustness when the expert demonstrations are noisy. | 翻訳日:2024-02-05 21:05:02 公開日:2024-02-02 |
# 1-リプシッツニューラルネットワークの解法特性について : 最適輸送の観点から On the explainable properties of 1-Lipschitz Neural Networks: An Optimal Transport Perspective ( http://arxiv.org/abs/2206.06854v3 ) ライセンス: Link先を確認 | Mathieu Serrurier (IRIT-ADRIA, UT), Franck Mamalet (UT), Thomas Fel (UT), Louis B\'ethune (UT3, UT, IRIT-ADRIA), Thibaut Boissin (UT) | (参考訳) 入力勾配は、モデルロバスト性を評価するための敵攻撃アルゴリズム、Saliency Mapsを生成するための説明可能なAI技術、そして反ファクトな説明など、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,1-LipschitzニューラルネットのSaliency Mapsが最適輸送問題の二重損失によって学習され,望ましいXAI特性を示すことを実証する。
また,これらの地図は,イメージネット上での人間による説明と前例のない整合性を示すとともに,これらのモデルに特に有益な性質を示すために,輸送計画の方向性と最も近い敵攻撃の方向の両方をコード化していることを示す。
決定境界への勾配に従うことは、もはや敵攻撃ではなく、あるクラスから別のクラスへの入力を明示的に輸送する反実的な説明である。
したがって,このような損失を伴って学習することで,分類目標と勾配のアライメント,すなわちサリエンシーマップと輸送計画方向を共同で最適化し,これらのネットワークは従来,設計によって確実に頑健であることが分かっており,大規模問題やモデルに対して拡張性があることを実証し,高速で分かりやすい方法を用いて説明可能なものに仕立てている。 Input gradients have a pivotal role in a variety of applications, including adversarial attack algorithms for evaluating model robustness, explainable AI techniques for generating Saliency Maps, and counterfactual explanations.However, Saliency Maps generated by traditional neural networks are often noisy and provide limited insights. In this paper, we demonstrate that, on the contrary, the Saliency Maps of 1-Lipschitz neural networks, learned with the dual loss of an optimal transportation problem, exhibit desirable XAI properties:They are highly concentrated on the essential parts of the image with low noise, significantly outperforming state-of-the-art explanation approaches across various models and metrics. We also prove that these maps align unprecedentedly well with human explanations on ImageNet.To explain the particularly beneficial properties of the Saliency Map for such models, we prove this gradient encodes both the direction of the transportation plan and the direction towards the nearest adversarial attack. Following the gradient down to the decision boundary is no longer considered an adversarial attack, but rather a counterfactual explanation that explicitly transports the input from one class to another. Thus, Learning with such a loss jointly optimizes the classification objective and the alignment of the gradient, i.e. the Saliency Map, to the transportation plan direction.These networks were previously known to be certifiably robust by design, and we demonstrate that they scale well for large problems and models, and are tailored for explainability using a fast and straightforward method. | 翻訳日:2024-02-05 21:04:16 公開日:2024-02-02 |
# TadML: Mechanics-MLPを用いた高速時間動作検出 TadML: A fast temporal action detection with Mechanics-MLP ( http://arxiv.org/abs/2206.02997v2 ) ライセンス: Link先を確認 | Bowen Deng and Dongchang Liu | (参考訳) 時間的行動検出(TAD)はビデオ理解において不可欠だが困難な課題であり、長いビデオで各アクションインスタンスのタイプと終了フレームの両方を検知することを目的としており、ほとんどのモデルでは、TADタスクにRGBとOpto-Flowストリームを採用する。
したがって、オリジナルのRGBフレームは、計算量と時間コストを増し、手動で光フローフレームに変換する必要があり、リアルタイム処理の障害となる。
現在、多くのモデルでは2段階の戦略を採用しており、推論の速度を遅くし、提案を複雑に調整している。比較により、新しいニュートン力学-mlpアーキテクチャが確立された、rgbストリームのみを用いた1段階アンカーフリーの時間的局所化手法を提案する。
既存の最先端モデルと同等の精度を持つ一方で、これらのメソッドの推論速度を大きなマージンで上回っている。
この論文の典型的な推論速度は、THUMOS14で毎秒4.44ビデオである。
アプリケーションでは、光学フローを変換する必要がないため、推論速度が速くなり、tadのような下流タスクにおいてmlpが大きな可能性を秘めている。
ソースコードはhttps://github.com/BonedDeng/TadMLで入手できる。 Temporal Action Detection(TAD) is a crucial but challenging task in video understanding.It is aimed at detecting both the type and start-end frame for each action instance in a long, untrimmed video.Most current models adopt both RGB and Optical-Flow streams for the TAD task. Thus, original RGB frames must be converted manually into Optical-Flow frames with additional computation and time cost, which is an obstacle to achieve real-time processing. At present, many models adopt two-stage strategies, which would slow the inference speed down and complicatedly tuning on proposals generating.By comparison, we propose a one-stage anchor-free temporal localization method with RGB stream only, in which a novel Newtonian Mechanics-MLP architecture is established. It has comparable accuracy with all existing state-of-the-art models, while surpasses the inference speed of these methods by a large margin. The typical inference speed in this paper is astounding 4.44 video per second on THUMOS14. In applications, because there is no need to convert optical flow, the inference speed will be faster.It also proves that MLP has great potential in downstream tasks such as TAD. The source code is available at https://github.com/BonedDeng/TadML | 翻訳日:2024-02-05 21:03:07 公開日:2024-02-02 |
# 単純クリグの統計的学習観 A Statistical Learning View of Simple Kriging ( http://arxiv.org/abs/2202.07365v5 ) ライセンス: Link先を確認 | Emilia Siviero, Emilie Chautru, Stephan Cl\'emen\c{c}on | (参考訳) ビッグデータ時代には、特に位置情報センサーが普及するにつれて、複雑な空間依存構造を示す巨大なデータセットが利用できるようになる。
この文脈では、統計的学習の標準確率論は直接適用されず、そのようなデータから学習された予測規則の一般化能力の保証が確立される。
ここでは,非パラメトリックな有限サンプル予測解析を行うことで,統計学習の観点から単純なクリッピングタスクを解析する。
平方可積分確率場 $x=\{x_s\}_{s\in s}$, $s\subset \mathbb{r}^2$, with unknown covariance structure, at sites $s_1,\; \ldots,\; s_d$ in $s$ が与えられると、s\in s$ は最小の二次リスクを持つ任意の場所における未知の値を予測することを目的としている。
予測規則はトレーニング空間データセットから派生している: 単一の実現値$x'$が$x$で、予測対象と独立して、$n\geq 1$の場所$\sigma_1,\; \ldots,\; \sigma_n$ in $s$ で観測される。
この最小化問題とカーネルリッジ回帰との関連にもかかわらず、経験的リスク最小化器の一般化能力の確立は、学習手順に関わる訓練データ $x'_{\sigma_1},\; \ldots,\; x'_{\sigma_n}$ の非独立かつ同分布性のため、単純ではない。
本稿では、等方定常ガウス過程において真の最小化器を模倣するプラグイン予測規則の過剰なリスクについて、学習段階において正則格子を形成する場所で観察される、順序 $o_{\mathbb{p}}(1/\sqrt{n})$ の非漸近境界を証明する。
これらの理論結果は、シミュレーションデータと実世界のデータセットに関する様々な数値実験によって示される。 In the Big Data era, with the ubiquity of geolocation sensors in particular, massive datasets exhibiting a possibly complex spatial dependence structure are becoming increasingly available. In this context, the standard probabilistic theory of statistical learning does not apply directly and guarantees of the generalization capacity of predictive rules learned from such data are left to establish. We analyze here the simple Kriging task from a statistical learning perspective, i.e. by carrying out a nonparametric finite-sample predictive analysis. Given $d\geq 1$ values taken by a realization of a square integrable random field $X=\{X_s\}_{s\in S}$, $S\subset \mathbb{R}^2$, with unknown covariance structure, at sites $s_1,\; \ldots,\; s_d$ in $S$, the goal is to predict the unknown values it takes at any other location $s\in S$ with minimum quadratic risk. The prediction rule being derived from a training spatial dataset: a single realization $X'$ of $X$, independent from those to be predicted, observed at $n\geq 1$ locations $\sigma_1,\; \ldots,\; \sigma_n$ in $S$. Despite the connection of this minimization problem with kernel ridge regression, establishing the generalization capacity of empirical risk minimizers is far from straightforward, due to the non independent and identically distributed nature of the training data $X'_{\sigma_1},\; \ldots,\; X'_{\sigma_n}$ involved in the learning procedure. In this article, non-asymptotic bounds of order $O_{\mathbb{P}}(1/\sqrt{n})$ are proved for the excess risk of a plug-in predictive rule mimicking the true minimizer in the case of isotropic stationary Gaussian processes, observed at locations forming a regular grid in the learning stage. These theoretical results are illustrated by various numerical experiments, on simulated data and on real-world datasets. | 翻訳日:2024-02-05 21:02:45 公開日:2024-02-02 |
# Sinkhorn Divergenceによる分散強化学習 Distributional Reinforcement Learning by Sinkhorn Divergence ( http://arxiv.org/abs/2202.00769v4 ) ライセンス: Link先を確認 | Ke Sun, Yingnan Zhao, Wulong Liu, Bei Jiang, Linglong Kong | (参考訳) 分布強化学習の実証的成功〜(RL)は分布表現と分布分岐の選択に大きく依存する。
本稿では、戻り分布から制限のない統計を学習し、シンクホーンの発散を利用して、現在のベルマン戻り分布とターゲットベルマン戻り分布の差を最小化する「シンクホーンDRL」を提案する。
理論的には、シンクホルンDRLの収縮特性は、ワッサーシュタイン距離と最大平均離散値(MMD)の間のシンクホルン発散の補間性質と一致する。
また, Sinkhorn divergence と正規化MDD との同値性を確立し, SinkhornDRL の優越性を説明するのに寄与する。
経験的に、SinkhornDRLは、Atariゲームスイートの既存のアルゴリズムと一貫して、あるいは同等であることを示す。 The empirical success of distributional reinforcement learning~(RL) highly depends on the distribution representation and the choice of distribution divergence. In this paper, we propose \textit{Sinkhorn distributional RL~(SinkhornDRL)} that learns unrestricted statistics from return distributions and leverages Sinkhorn divergence to minimize the difference between current and target Bellman return distributions. Theoretically, we prove the contraction properties of SinkhornDRL, consistent with the interpolation nature of Sinkhorn divergence between Wasserstein distance and Maximum Mean Discrepancy~(MMD). We also establish the equivalence between Sinkhorn divergence and a regularized MMD with a regularized Moment Matching behavior, contributing to explaining the superiority of SinkhornDRL. Empirically, we show that SinkhornDRL is consistently better or comparable to existing algorithms on the Atari games suite. | 翻訳日:2024-02-05 21:01:51 公開日:2024-02-02 |
# 実用的な応用のための集中型絡み合いの一般化:混合状態、qudit状態、および光学状態 Generalising concentratable entanglement for practical applications: mixed, qudit, and optical states ( http://arxiv.org/abs/2112.04333v5 ) ライセンス: Link先を確認 | Steph Foulds, Oliver Prove, and Viv Kendon | (参考訳) 純粋な量子ビット状態に適用した絡み合い判定のための制御SWAPテストは、状態の小さな誤差に対して頑健であり、大規模な多ビット状態[Foulds et al., QST 6 035002, 2021]に対して効率的である。
我々は、量子情報処理における重要な実践的応用を実現するために、これと関連する測度集中型絡み合い(CE)を拡張した。
我々は,高次元 (qudit) 状態, マルチキュービット状態における2部切片間の絡み合いの決定, およびいくつかの重要な絡み合った光学状態の試験を行った。
さらに、J. L. Beckey et al., Phys で与えられる集中的絡み合いの低い境界について検討する。
A 107, 062425 (2023) と、c-SWAPテストエラーに対して堅牢な混合状態集中型絡み合いの上界を予想する。
実験状態は常にわずかに混合されているため,本研究はc-swapテストとce測定を,絡み合いを特徴付ける実験に適合させる。 The controlled SWAP test for determination of entanglement applied to pure qubit states is robust to small errors in the states, and efficient for large multi-qubit states [Foulds et al., QST 6 035002, 2021]. We extend this and the related measure concentratable entanglement (CE) to enable important practical applications in quantum information processing. We provide tests for higher dimensional (qudit) states, determination of entanglement across a bipartite cut in multi-qubit states, and some key types of entangled optical states. We further investigate the lower bound of concentratable entanglement given in J. L. Beckey et al., Phys. Rev. A 107, 062425 (2023) and conjecture an upper bound of the mixed state concentrable entanglement that is robust to c-SWAP test errors. Since experimental states are always slightly mixed, our work makes the c-SWAP test and CE measure suitable for application in experiments to characterise entanglement. | 翻訳日:2024-02-05 21:01:36 公開日:2024-02-02 |
# カテゴリー分布の利点:強化学習における不確かさを意識した正規化探索 The Benefits of Being Categorical Distributional: Uncertainty-aware Regularized Exploration in Reinforcement Learning ( http://arxiv.org/abs/2110.03155v5 ) ライセンス: Link先を確認 | Ke Sun, Yingnan Zhao, Enze Shi, Yafei Wang, Xiaodong Yan, Bei Jiang, Linglong Kong | (参考訳) 古典的RLに対する分布強化学習(RL)の理論的優位性は、その顕著な経験的性能にもかかわらず、解明され続けている。
分類的分布RL~(CDRL)から始め、分布RLのポテンシャル優位性を、回帰密度関数分解法を適用して導出した分布整合正規化に帰着する。
この分散rlコンテキストにおける未検討の正規化は、期待のみによらず追加のリターン分配情報をキャプチャすることを目的としており、ポリシー最適化における報酬信号の拡張に寄与する。
探索を促進するためにポリシーを明示的に最適化するMaxEnt RLのエントロピー正則化と比較すると、CDRLの正則化は、新しい報酬信号によって導かれるポリシーを暗黙的に最適化し、ターゲットの戻り分布の不確実性と整合し、不確実性を認識した探索効果をもたらす。
最後に、分散RLにおけるこの不確実性を考慮した正則化の重要性を古典的RLに対する経験的利益について検証した。 The theoretical advantages of distributional reinforcement learning~(RL) over classical RL remain elusive despite its remarkable empirical performance. Starting from Categorical Distributional RL~(CDRL), we attribute the potential superiority of distributional RL to a derived distribution-matching regularization by applying a return density function decomposition technique. This unexplored regularization in the distributional RL context is aimed at capturing additional return distribution information regardless of only its expectation, contributing to an augmented reward signal in the policy optimization. Compared with the entropy regularization in MaxEnt RL that explicitly optimizes the policy to encourage the exploration, the resulting regularization in CDRL implicitly optimizes policies guided by the new reward signal to align with the uncertainty of target return distributions, leading to an uncertainty-aware exploration effect. Finally, extensive experiments substantiate the importance of this uncertainty-aware regularization in distributional RL on the empirical benefits over classical RL. | 翻訳日:2024-02-05 21:01:16 公開日:2024-02-02 |
# PICCOLO: ポイントクラウド中心のOmnidirectional Localization PICCOLO: Point Cloud-Centric Omnidirectional Localization ( http://arxiv.org/abs/2108.06545v3 ) ライセンス: Link先を確認 | Junho Kim, Changwoon Choi, Hojun Jang, and Young Min Kim | (参考訳) 一方向局所化のための単純かつ効率的なアルゴリズムであるPICCOLOを提案する。
カラーの点雲とシーンの360パノラマ画像が与えられた場合、パノラマ画像が撮影されるカメラのポーズを復元することが目的である。
私たちのパイプラインは、クエリとして与えられた単一のイメージで、オフザシェルフで動作し、ニューラルネットワークのトレーニングや、画像の地味なポーズの収集は必要ありません。
代わりに、各点雲の色をパノラマ画像の全体像と一致させ、グラデーション・ディッセント最適化を行い、カメラのポーズを見つける。
我々の損失関数はサンプリング損失と呼ばれ、点クラウド内の全ての点の投影された位置で評価される点クラウド中心である。
対照的に、従来の測光損失は画像中心であり、各画素位置の色を比較する。
比較対象の単純な変更により、サンプリング損失は全方位画像の激しい視覚歪みを効果的に克服し、360度ビューのグローバルなコンテキストを享受し、視覚的ローカライゼーションの困難なシナリオに対処する。
PICCOLOは、様々な環境で評価された場合、既存の全方位ローカライゼーションアルゴリズムよりも精度と安定性が優れている。
コードは \url{https://github.com/82magnolia/panoramic-localization/} で入手できる。 We present PICCOLO, a simple and efficient algorithm for omnidirectional localization. Given a colored point cloud and a 360 panorama image of a scene, our objective is to recover the camera pose at which the panorama image is taken. Our pipeline works in an off-the-shelf manner with a single image given as a query and does not require any training of neural networks or collecting ground-truth poses of images. Instead, we match each point cloud color to the holistic view of the panorama image with gradient-descent optimization to find the camera pose. Our loss function, called sampling loss, is point cloud-centric, evaluated at the projected location of every point in the point cloud. In contrast, conventional photometric loss is image-centric, comparing colors at each pixel location. With a simple change in the compared entities, sampling loss effectively overcomes the severe visual distortion of omnidirectional images, and enjoys the global context of the 360 view to handle challenging scenarios for visual localization. PICCOLO outperforms existing omnidirectional localization algorithms in both accuracy and stability when evaluated in various environments. Code is available at \url{https://github.com/82magnolia/panoramic-localization/}. | 翻訳日:2024-02-05 21:00:57 公開日:2024-02-02 |
# 欠測データを用いた予測のための簡易計算規則--理論的保証と経験的性能の対比 Simple Imputation Rules for Prediction with Missing Data: Contrasting Theoretical Guarantees with Empirical Performance ( http://arxiv.org/abs/2104.03158v3 ) ライセンス: Link先を確認 | Dimitris Bertsimas, Arthur Delarue, Jean Pauphilet | (参考訳) データの欠落は、現実世界のデータセットでよくある問題である。
本稿では, 理論と経験的証拠を対比して, インデュート・テン・レグレッシブ・パイプラインの性能について検討する。
このようなパイプラインの漸近的一貫性を,様々なインプテーション法に対して確立する。
一般的な意味では,「良い」計算手法は妥当なデータセットを生成することを示唆するが,それとは対照的に,予測に関しても,原油は良いものであることを示す。
特に,mode-impute は漸近的に最適であり, mean-impute は漸近的に最適である。
次に, 合成, 半実, 実データセットの大規模コーパスにおける理論的結論の有効性を徹底的に評価する。
私たちが収集した実証的な証拠は、主に理論的な結果を支持するが、MAR仮定の関連性、計算タスクと回帰タスクの複雑な相互依存性、現実的な合成データ生成モデルの必要性など、理論と実践のギャップと将来の研究機会も強調する。 Missing data is a common issue in real-world datasets. This paper studies the performance of impute-then-regress pipelines by contrasting theoretical and empirical evidence. We establish the asymptotic consistency of such pipelines for a broad family of imputation methods. While common sense suggests that a `good' imputation method produces datasets that are plausible, we show, on the contrary, that, as far as prediction is concerned, crude can be good. Among others, we find that mode-impute is asymptotically sub-optimal, while mean-impute is asymptotically optimal. We then exhaustively assess the validity of these theoretical conclusions on a large corpus of synthetic, semi-real, and real datasets. While the empirical evidence we collect mostly supports our theoretical findings, it also highlights gaps between theory and practice and opportunities for future research, regarding the relevance of the MAR assumption, the complex interdependency between the imputation and regression tasks, and the need for realistic synthetic data generation models. | 翻訳日:2024-02-05 21:00:37 公開日:2024-02-02 |
# 量子機器の不適合性 Incompatibility of quantum instruments ( http://arxiv.org/abs/2212.11225v2 ) ライセンス: Link先を確認 | Leevi Lepp\"aj\"arvi and Michal Sedl\'ak | (参考訳) 量子機器は、結果確率と、量子系の測定によって引き起こされる状態変化を記述する。
2つの楽器の非互換性。
e.
与えられた量子系上でそれらを同時に実現できないことは、チャネルの不整合性と正の演算子評価測度(POVM)の不整合を一般化する。
誘導されたPOVMとチャネルに対するインスツルメンツ互換性の影響を導出する。
また,非disturbanceの概念と器材適合性の関係についても検討した。
最後に,補助楽器と呼ぶ機器の適合性と後処理との等価性が証明される。
本稿では,様々な種類の楽器の例について述べる。 Quantum instruments describe outcome probability as well as state change induced by measurement of a quantum system. Incompatibility of two instruments, i. e. the impossibility to realize them simultaneously on a given quantum system, generalizes incompatibility of channels and incompatibility of positive operator-valued measures (POVMs). We derive implications of instrument compatibility for the induced POVMs and channels. We also study relation of instrument compatibility to the concept of non-disturbance. Finally, we prove equivalence between instrument compatibility and postprocessing of certain instruments, which we term complementary instruments. We illustrate our findings on examples of various classes of instruments. | 翻訳日:2024-02-05 20:54:42 公開日:2024-02-02 |
# 高速高忠実フライングビット整形 Efficient High-Fidelity Flying Qubit Shaping ( http://arxiv.org/abs/2212.11202v2 ) ライセンス: Link先を確認 | Benedikt Tissot and Guido Burkard | (参考訳) matter qubit to travel photonic qubit conversionは、分散量子コンピューティングやいくつかの量子インターネットやネットワークプロトコルといった多くの量子技術の基礎である。
我々は、量子ドット、固体欠陥、捕捉イオンを含む幅広い物理系、および様々なパラメータレジームに適用可能な刺激ラマン放出の理論を定式化する。
我々は不完全エミッタに対する任意の物質量子状態のフォトニックパルス放出効率の上限を見つけ、忠実度を最適化するための道筋を示す。
これらの結果に基づき, ドライブの最適化からクローズドフォーム式を用いたフライングキュービットの時間モードの直接最適化へのパラダイムシフトを提案する。
時間ビン符号化とスピン光子絡み合わせのためのプロトコルを提案する。
さらに、パルスの入出力理論を使って支配的な放出過程をコヒーレント力学に吸収する数学的アイデア、そして非エルミート的シュル=オディンガー方程式のアプローチは、他の物理系の研究に大きな可能性を秘めている。 Matter qubit to traveling photonic qubit conversion is the cornerstone of numerous quantum technologies such as distributed quantum computing, as well as several quantum internet and networking protocols. We formulate a theory for stimulated Raman emission which is applicable to a wide range of physical systems including quantum dots, solid state defects, and trapped ions, as well as various parameter regimes. We find the upper bound for the photonic pulse emission efficiency of arbitrary matter qubit states for imperfect emitters and show a path forward to optimizing the fidelity. Based on these results we propose a paradigm shift from optimizing the drive to directly optimizing the temporal mode of the flying qubit using a closed-form expression. Protocols for the production of time-bin encoding and spin-photon entanglement are proposed. Furthermore, the mathematical idea to use input-output theory for pulses to absorb the dominant emission process into the coherent dynamics, followed by a non-Hermitian Schr\"odinger equation approach has great potential for studying other physical systems. | 翻訳日:2024-02-05 20:54:33 公開日:2024-02-02 |
# 帰納的推論としての言語モデル Language Models as Inductive Reasoners ( http://arxiv.org/abs/2212.10923v2 ) ライセンス: Link先を確認 | Zonglin Yang, Li Dong, Xinya Du, Hao Cheng, Erik Cambria, Xiaodong Liu, Jianfeng Gao, Furu Wei | (参考訳) 帰納的推論は人間の知性の中核的な要素である。
コンピュータ科学における帰納的推論の研究では、形式言語は知識の表現(事実や規則)として用いられる。
しかし、形式言語は、自然言語のような生の入力を扱う障害、誤ったラベルされたデータに対する敏感さ、あいまいな入力を扱う能力の欠如など、帰納的推論の体系的な問題を引き起こす可能性がある。
そこで本研究では,自然言語の事実から自然言語規則を誘導する帰納的推論のための新しいパラダイム(タスク)を提案し,そのタスクのための1.2kのルールファクトペアを含むデータセットであるDEERを作成し,ルールと事実を自然言語で記述する。
また、このタスクの評価のために、新しい自動メトリクスを提案し、分析する。
DEERでは、自然言語を形式言語ではなく知識の表現として使用し、事前学習された言語モデルを「推論者」として使用する、帰納的推論の現代的なアプローチについて検討する。
さらに,事前学習された言語モデルが自然言語の事実から自然言語ルールをいかに引き起こすかを,最初に総合的に分析する。
また,本課題に対する哲学文献からの洞察を引き出す新たな枠組みを提案する。
第7節では,帰納的推論の今後の展望について論じる。
データセットとコードはhttps://github.com/zongliny/inductive_reasoningで入手できる。 Inductive reasoning is a core component of human intelligence. In the past research of inductive reasoning within computer science, formal language is used as representations of knowledge (facts and rules, more specifically). However, formal language can cause systematic problems for inductive reasoning such as disability of handling raw input such as natural language, sensitiveness to mislabeled data, and incapacity to handle ambiguous input. To this end, we propose a new paradigm (task) for inductive reasoning, which is to induce natural language rules from natural language facts, and create a dataset termed DEER containing 1.2k rule-fact pairs for the task, where rules and facts are written in natural language. New automatic metrics are also proposed and analysed for the evaluation of this task. With DEER, we investigate a modern approach for inductive reasoning where we use natural language as representation for knowledge instead of formal language and use pretrained language models as "reasoners". Moreover, we provide the first and comprehensive analysis of how well pretrained language models can induce natural language rules from natural language facts. We also propose a new framework drawing insights from philosophy literature for this task, which we show in the experiment section that surpasses baselines in both automatic and human evaluations. We discuss about our future perspectives for inductive reasoning in Section 7. Dataset and code are available at https://github.com/ZonglinY/Inductive_Reasoning. | 翻訳日:2024-02-05 20:54:16 公開日:2024-02-02 |
# 皮質階層間の効率的なバックプロジェクションをリアルタイムに学習する Learning efficient backprojections across cortical hierarchies in real time ( http://arxiv.org/abs/2212.10249v2 ) ライセンス: Link先を確認 | Kevin Max, Laura Kriener, Garibaldi Pineda Garc\'ia, Thomas Nowotny, Ismael Jaras, Walter Senn, Mihai A. Petrovici | (参考訳) 大脳皮質における知覚処理と学習のモデルは、あらゆる領域のシナプスに対するクレジットを効率的に割り当てる必要がある。
ディープラーニングでは、既知の解決策はエラーバックプロパゲーションであるが、フィードフォワードからフィードバックパスへの生物学的に意味のない重量輸送が必要である。
階層型大脳皮質階層における効率的なフィードバック重み付けを学習するための生物工学的手法であるPALを導入する。
これは、生体物理学システムで自然に見られるノイズを付加的な情報キャリアとして利用することで達成される。
私たちの力学系では、全ての重みは常時オン可塑性と同時に学習され、シナプスで利用可能な情報のみを使用する。
本手法は完全に位相フリー(前・後・後進学習なし)であり,生物学的に妥当な信号伝達と学習を維持しつつ,多層皮質階層間の効率的な誤り伝播を可能にする。
提案手法は幅広いモデルに適用可能であり,既知の生物学的に妥当な信用代入方法を改善する。ランダムなシナプスフィードバックと比較して,ニューロンが少ない複雑なタスクを解くことができ,より有用な潜在表現を学習することができる。
予測符号化を用いた皮質マイクロサーキットモデルを用いて,様々な分類タスクでこれを示す。 Models of sensory processing and learning in the cortex need to efficiently assign credit to synapses in all areas. In deep learning, a known solution is error backpropagation, which however requires biologically implausible weight transport from feed-forward to feedback paths. We introduce Phaseless Alignment Learning (PAL), a bio-plausible method to learn efficient feedback weights in layered cortical hierarchies. This is achieved by exploiting the noise naturally found in biophysical systems as an additional carrier of information. In our dynamical system, all weights are learned simultaneously with always-on plasticity and using only information locally available to the synapses. Our method is completely phase-free (no forward and backward passes or phased learning) and allows for efficient error propagation across multi-layer cortical hierarchies, while maintaining biologically plausible signal transport and learning. Our method is applicable to a wide class of models and improves on previously known biologically plausible ways of credit assignment: compared to random synaptic feedback, it can solve complex tasks with less neurons and learn more useful latent representations. We demonstrate this on various classification tasks using a cortical microcircuit model with prospective coding. | 翻訳日:2024-02-05 20:53:35 公開日:2024-02-02 |
# シンクホーンアルゴリズム初期化の生成的逆学習 Generative Adversarial Learning of Sinkhorn Algorithm Initializations ( http://arxiv.org/abs/2212.00133v4 ) ライセンス: Link先を確認 | Jonathan Geuter, Vaios Laschos | (参考訳) シンクホーンアルゴリズム(Sinkhorn algorithm)は、離散確率分布間のエントロピー最適輸送(OT)距離の解法である。
ニューラルネットワークを用いてエントロピーOT双対問題を用いてアルゴリズムの初期化を正確に学習することにより、Sinkhornアルゴリズムの微分可能性や並列化性といった望ましい特性を維持しつつ、収束を著しく高速化できることを示す。
我々は,第2のネットワークと自己教師型ブートストラップ損失を用いて,予測ネットワークを逆さまに訓練する。
予測ネットワークは,固定次元と推定コストの任意の対の分布に一般化できるという意味で普遍的であり,訓練中に任意の対の分布を生成できるという意味では,生成ネットワークを普遍化することができることを証明している。
さらに,我々のネットワークは,通常の輸送距離を数パーセントの誤差に近似するために,スタンドアロンのOTソルバとして使用することもできる。 The Sinkhorn algorithm is the state-of-the-art to approximate solutions of entropic optimal transport (OT) distances between discrete probability distributions. We show that meticulously training a neural network to learn initializations to the algorithm via the entropic OT dual problem can significantly speed up convergence, while maintaining desirable properties of the Sinkhorn algorithm, such as differentiability and parallelizability. We train our predictive network in an adversarial fashion using a second, generating network and a self-supervised bootstrapping loss. The predictive network is universal in the sense that it is able to generalize to any pair of distributions of fixed dimension and cost at inference, and we prove that we can make the generating network universal in the sense that it is capable of producing any pair of distributions during training. Furthermore, we show that our network can even be used as a standalone OT solver to approximate regularized transport distances to a few percent error, which makes it the first meta neural OT solver. | 翻訳日:2024-02-05 20:53:15 公開日:2024-02-02 |
# 好ましくは言わない:任意の個人データを用いたモデルにおけるユーザコンテントの保護 I Prefer not to Say: Protecting User Consent in Models with Optional Personal Data ( http://arxiv.org/abs/2210.13954v5 ) ライセンス: Link先を確認 | Tobias Leemann, Martin Pawelczyk, Christian Thomas Eberle, Gjergji Kasneci | (参考訳) 現代の保険価格モデルに見られるように、個人が任意の個人情報を意思決定システムと共有できるような設定で機械学習モデルを検討する。
使用中のデータに同意するユーザもいれば,データの公開を控えるユーザもいる。
本研究は,データの共有をしない決定を,ユーザのプライバシーを尊重するために保護すべき情報と見なすことができることを示す。
この観察は、個人情報を保護しているユーザーが不利益を被らないようにする方法の見過ごされがちな問題を引き起こす。
この問題に対処するため,我々は,アクティブユーザの同意を得た情報のみを使用するモデルに対する保護要件を定式化する。
これは、データを共有するか否かの決定に含まれる暗黙の情報を除外する。
保護要件下での損失最適性を証明した保護ユーザコンセント(PUC)の概念を提案することにより,この問題に対する最初の解決策を提供する。
プライバシとパフォーマンスは基本的には相反するものではなく、意思決定者がユーザの同意を尊重しながら追加データから利益を得ることが可能である。
PUCに準拠したモデルを学習するために,有限サンプル収束保証付きモデルに依存しないデータ拡張戦略を提案する。
最後に、実際のデータセット、タスク、モデルに挑戦する上でのPUCの影響を分析する。 We examine machine learning models in a setup where individuals have the choice to share optional personal information with a decision-making system, as seen in modern insurance pricing models. Some users consent to their data being used whereas others object and keep their data undisclosed. In this work, we show that the decision not to share data can be considered as information in itself that should be protected to respect users' privacy. This observation raises the overlooked problem of how to ensure that users who protect their personal data do not suffer any disadvantages as a result. To address this problem, we formalize protection requirements for models which only use the information for which active user consent was obtained. This excludes implicit information contained in the decision to share data or not. We offer the first solution to this problem by proposing the notion of Protected User Consent (PUC), which we prove to be loss-optimal under our protection requirement. We observe that privacy and performance are not fundamentally at odds with each other and that it is possible for a decision maker to benefit from additional data while respecting users' consent. To learn PUC-compliant models, we devise a model-agnostic data augmentation strategy with finite sample convergence guarantees. Finally, we analyze the implications of PUC on challenging real datasets, tasks, and models. | 翻訳日:2024-02-05 20:52:07 公開日:2024-02-02 |
# ディープラーニングモデルアーキテクチャはプライバシにどのように影響するか?
CNNとトランスフォーマーのプライバシ攻撃に関する総合的研究 How Does a Deep Learning Model Architecture Impact Its Privacy? A Comprehensive Study of Privacy Attacks on CNNs and Transformers ( http://arxiv.org/abs/2210.11049v3 ) ライセンス: Link先を確認 | Guangsheng Zhang, Bo Liu, Huan Tian, Tianqing Zhu, Ming Ding, Wanlei Zhou | (参考訳) 過去10年間の急成長する研究分野として、ディープラーニング技術は前例のない規模で収集・処理されたビッグデータによって推進されてきた。
しかし、プライバシーの懸念は、トレーニングデータから機密情報が漏洩する可能性があるため生じる。
最近の研究では、深層学習モデルは、メンバシップ推論攻撃、属性推論攻撃、勾配反転攻撃など、さまざまなプライバシ攻撃に対して脆弱であることが示されている。
特に、これらの攻撃の有効性はモデルによって異なる。
モデルアーキテクチャはモデルのプライバシに影響を与えますか?
畳み込みニューラルネットワーク(CNN)からトランスフォーマーへの代表モデルアーキテクチャの調査により、トランスフォーマーは一般的に、CNNよりもプライバシー攻撃に対する脆弱性が高いことを示した。
さらに、アクティベーション層、ステム層、LN層のマイクロデザインが、プライバシー攻撃に対するCNNのレジリエンスに寄与する主要な要因であると同時に、アテンションモジュールの存在がトランスフォーマーのプライバシー脆弱性を悪化させるもうひとつの主要な要因である。
私たちの発見は、ディープラーニングモデルがプライバシ攻撃を防ぎ、研究コミュニティにプライバシフレンドリーなモデルアーキテクチャの開発を促すための貴重な洞察を明らかにします。 As a booming research area in the past decade, deep learning technologies have been driven by big data collected and processed on an unprecedented scale. However, privacy concerns arise due to the potential leakage of sensitive information from the training data. Recent research has revealed that deep learning models are vulnerable to various privacy attacks, including membership inference attacks, attribute inference attacks, and gradient inversion attacks. Notably, the efficacy of these attacks varies from model to model. In this paper, we answer a fundamental question: Does model architecture affect model privacy? By investigating representative model architectures from convolutional neural networks (CNNs) to Transformers, we demonstrate that Transformers generally exhibit higher vulnerability to privacy attacks than CNNs. Additionally, we identify the micro design of activation layers, stem layers, and LN layers, as major factors contributing to the resilience of CNNs against privacy attacks, while the presence of attention modules is another main factor that exacerbates the privacy vulnerability of Transformers. Our discovery reveals valuable insights for deep learning models to defend against privacy attacks and inspires the research community to develop privacy-friendly model architectures. | 翻訳日:2024-02-05 20:51:48 公開日:2024-02-02 |
# ヒューマンAI意思決定における説明・公正・適切な信頼 Explanations, Fairness, and Appropriate Reliance in Human-AI Decision-Making ( http://arxiv.org/abs/2209.11812v4 ) ライセンス: Link先を確認 | Jakob Schoeffer, Maria De-Arteaga, Niklas Kuehl | (参考訳) 本研究では,特徴に基づく説明がAIによる意思決定の分配的公正性に及ぼす影響について検討する。
また、人間の公正感とAIレコメンデーションへの依存によって、どのような効果が媒介されるかについても検討する。
以上の結果から,説明は公正感に影響を及ぼし,人間のAI推奨に固執する傾向に影響を及ぼすことが明らかとなった。
しかし、このような説明は、人間が正しいAIレコメンデーションと誤ったAIレコメンデーションを識別することができない。
代わりに、AIレコメンデーションの正確性に関わらず、それらが依存に影響を与える可能性があることを示す。
説明がタスクと無関係で、明らかに繊細な属性に関連付けられている特徴を強調すると、このプロンプトは、性別のステレオタイプに合わせたai推奨に対抗して、オーバーライドする。
一方、説明がタスク関連性を示す場合、これはステレオタイプ整列エラーを強化する信頼行動を引き起こす。
これらの結果は、機能ベースの説明は分散的公平性を改善するための信頼できるメカニズムではないことを示している。 In this work, we study the effects of feature-based explanations on distributive fairness of AI-assisted decisions, specifically focusing on the task of predicting occupations from short textual bios. We also investigate how any effects are mediated by humans' fairness perceptions and their reliance on AI recommendations. Our findings show that explanations influence fairness perceptions, which, in turn, relate to humans' tendency to adhere to AI recommendations. However, we see that such explanations do not enable humans to discern correct and incorrect AI recommendations. Instead, we show that they may affect reliance irrespective of the correctness of AI recommendations. Depending on which features an explanation highlights, this can foster or hinder distributive fairness: when explanations highlight features that are task-irrelevant and evidently associated with the sensitive attribute, this prompts overrides that counter AI recommendations that align with gender stereotypes. Meanwhile, if explanations appear task-relevant, this induces reliance behavior that reinforces stereotype-aligned errors. These results imply that feature-based explanations are not a reliable mechanism to improve distributive fairness. | 翻訳日:2024-02-05 20:50:48 公開日:2024-02-02 |
# HyperPUT: バグフィンディングツールに挑戦する合成障害プログラムの生成 HyperPUT: Generating Synthetic Faulty Programs to Challenge Bug-Finding Tools ( http://arxiv.org/abs/2209.06615v2 ) ライセンス: Link先を確認 | Riccardo Felici, Laura Pozzi and Carlo A. Furia | (参考訳) バグを自動的に検出する研究が成長し、新たなテクニックが生み出されるにつれて、既知のバグを持つプログラムの適切なコレクションを持つことが、これらの手法の有効性を確実かつ有意義に比較することが重要となる。
既存のアプローチのほとんどは、実世界のバグを手作業で収集するベンチマークや、実世界のプログラムにシードされた合成バグに依存している。
実世界のプログラムを使うには、既存のベンチマークを拡張したり、新しいベンチマークを作成したりするのは複雑な作業である。
本稿では,シードバグのあるプログラムを自動生成する補完的手法を提案する。
提案手法は,プログラム変換(条件,ループなどのプログラミング構造の導入)を所望の大きさのプログラムが生成されるまで段階的に適用することで,"シード"バグからCプログラムを構築する。
実験的な評価では、hyperputが現代のバグ発見ツールの能力や、既存のベンチマークのバグに匹敵する特性に異なる方法で挑戦できるバグの多いプログラムをいかに生成できるかを実証する。
これらの結果から,HyperPUTはバグフィニングテクニック,特に経験的評価のさらなる研究を支援する上で,有用なツールである可能性が示唆されている。 As research in automatically detecting bugs grows and produces new techniques, having suitable collections of programs with known bugs becomes crucial to reliably and meaningfully compare the effectiveness of these techniques. Most of the existing approaches rely on benchmarks collecting manually curated real-world bugs, or synthetic bugs seeded into real-world programs. Using real-world programs entails that extending the existing benchmarks or creating new ones remains a complex time-consuming task. In this paper, we propose a complementary approach that automatically generates programs with seeded bugs. Our technique, called HyperPUT, builds C programs from a "seed" bug by incrementally applying program transformations (introducing programming constructs such as conditionals, loops, etc.) until a program of the desired size is generated. In our experimental evaluation, we demonstrate how HyperPUT can generate buggy programs that can challenge in different ways the capabilities of modern bug-finding tools, and some of whose characteristics are comparable to those of bugs in existing benchmarks. These results suggest that HyperPUT can be a useful tool to support further research in bug-finding techniques -- in particular their empirical evaluation. | 翻訳日:2024-02-05 20:50:28 公開日:2024-02-02 |
# Pix4Point:3Dポイントクラウド理解のためのイメージ事前トレーニング標準変換器 Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud Understanding ( http://arxiv.org/abs/2208.12259v3 ) ライセンス: Link先を確認 | Guocheng Qian, Abdullah Hamdi, Xingdi Zhang, Bernard Ghanem | (参考訳) Transformersは自然言語処理とコンピュータビジョンで素晴らしい成功を収めているが、3Dポイントクラウドのパフォーマンスは比較的劣っている。
これは主にトランスフォーマーの制限によるものであり、広範なトレーニングデータを必要とする。
残念ながら、3dポイントクラウドの領域では、大規模なデータセットの可用性が課題であり、3dタスクのためのトランスフォーマーのトレーニングの問題を悪化させている。
本研究では,ポイントクラウドトランスフォーマーのデータ課題を2つの視点から解決する。
(i)データへのトランスフォーマーの依存を軽減するため、より誘導バイアスを導入し、
(ii)クロスモダリティ事前学習による。
より具体的には、最初にプログレッシブポイントパッチの埋め込みを示し、pvitと呼ばれる新しいポイントクラウドトランスフォーマーモデルを示す。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
第2に,画像領域で事前トレーニングされたトランスフォーマーを活用することで,下流点のクラウド理解を促進する,シンプルかつ効果的なパイプライン「pix4point」を定式化する。
これは、異なるドメインに特化したトークン化子とデコーダの助けを借りて、モダリティ非依存のトランスフォーマーバックボーンによって実現される。
多数の画像に事前学習を行った結果,scanobjectnn,shapenetpart,s3disの3dポイントクラウド分類,部分セグメンテーション,セマンティックセグメンテーションなどのタスクにおいて,pvitの大幅な向上が見られた。
私たちのコードとモデルはhttps://github.com/guochengqian/Pix4Pointで利用可能です。 While Transformers have achieved impressive success in natural language processing and computer vision, their performance on 3D point clouds is relatively poor. This is mainly due to the limitation of Transformers: a demanding need for extensive training data. Unfortunately, in the realm of 3D point clouds, the availability of large datasets is a challenge, exacerbating the issue of training Transformers for 3D tasks. In this work, we solve the data issue of point cloud Transformers from two perspectives: (i) introducing more inductive bias to reduce the dependency of Transformers on data, and (ii) relying on cross-modality pretraining. More specifically, we first present Progressive Point Patch Embedding and present a new point cloud Transformer model namely PViT. PViT shares the same backbone as Transformer but is shown to be less hungry for data, enabling Transformer to achieve performance comparable to the state-of-the-art. Second, we formulate a simple yet effective pipeline dubbed "Pix4Point" that allows harnessing Transformers pretrained in the image domain to enhance downstream point cloud understanding. This is achieved through a modality-agnostic Transformer backbone with the help of a tokenizer and decoder specialized in the different domains. Pretrained on a large number of widely available images, significant gains of PViT are observed in the tasks of 3D point cloud classification, part segmentation, and semantic segmentation on ScanObjectNN, ShapeNetPart, and S3DIS, respectively. Our code and models are available at https://github.com/guochengqian/Pix4Point . | 翻訳日:2024-02-05 20:50:07 公開日:2024-02-02 |
# 高次精度2サンプルネットワーク推論とネットワークハッシュ Higher-order accurate two-sample network inference and network hashing ( http://arxiv.org/abs/2208.07573v3 ) ライセンス: Link先を確認 | Meijia Shao, Dong Xia, Yuan Zhang, Qiong Wu and Shuo Chen | (参考訳) Two-sample hypothesis testing for network comparison presents many significant challenges, including: leveraging repeated network observations and known node registration, but without requiring them to operate; relaxing strong structural assumptions; achieving finite-sample higher-order accuracy; handling different network sizes and sparsity levels; fast computation and memory parsimony; controlling false discovery rate (FDR) in multiple testing; and theoretical understandings, particularly regarding finite-sample accuracy and minimax optimality.
本稿では,これらの課題に対処するため,新しい手法とその変種に強力な理論的保証を伴って包括的ツールボックスを開発する。
提案手法は,既存のツールの高速化と精度に優れ,電力効率が最適であることが証明された。
我々のアルゴリズムはユーザフレンドリで、様々なデータ構造(単一または繰り返しのネットワーク観測、未知または未知のノード登録)を扱うのに便利です。
また,大規模ネットワークデータベースのための非常に有用なツールとして,オフラインハッシュと高速クエリのための革新的なフレームワークを開発した。
提案手法の有効性を2つの実世界のデータセットに網羅したシミュレーションと応用により明らかにした。 Two-sample hypothesis testing for network comparison presents many significant challenges, including: leveraging repeated network observations and known node registration, but without requiring them to operate; relaxing strong structural assumptions; achieving finite-sample higher-order accuracy; handling different network sizes and sparsity levels; fast computation and memory parsimony; controlling false discovery rate (FDR) in multiple testing; and theoretical understandings, particularly regarding finite-sample accuracy and minimax optimality. In this paper, we develop a comprehensive toolbox, featuring a novel main method and its variants, all accompanied by strong theoretical guarantees, to address these challenges. Our method outperforms existing tools in speed and accuracy, and it is proved power-optimal. Our algorithms are user-friendly and versatile in handling various data structures (single or repeated network observations; known or unknown node registration). We also develop an innovative framework for offline hashing and fast querying as a very useful tool for large network databases. We showcase the effectiveness of our method through comprehensive simulations and applications to two real-world datasets, which revealed intriguing new structures. | 翻訳日:2024-02-05 20:49:42 公開日:2024-02-02 |
# DINOv2: スーパービジョンなしでロバストな視覚機能を学ぶ DINOv2: Learning Robust Visual Features without Supervision ( http://arxiv.org/abs/2304.07193v2 ) ライセンス: Link先を確認 | Maxime Oquab, Timoth\'ee Darcet, Th\'eo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Herv\'e Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski | (参考訳) 大量のデータに基づくモデル事前学習のための自然言語処理の最近の進歩は、コンピュータビジョンにおける同様の基礎モデルへの道を開いた。
これらのモデルは、あらゆるシステムにおける画像の使用を大幅に単純化し、すべての目的の視覚的特徴、すなわち、微調整なしで画像分布やタスクをまたいで機能する機能を生成する。
この研究は、既存の事前学習方法、特に自己教師ありメソッドが、さまざまなソースからの十分なキュレーションデータに基づいてトレーニングされた場合、そのような特徴を生成できることを示しています。
既存のアプローチを再検討し、さまざまなテクニックを組み合わせて、データとモデルサイズの観点から事前トレーニングをスケールします。
技術的貢献のほとんどは、大規模なトレーニングの加速と安定化を目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
モデルの面では、1bのパラメータを持つvitモデル(dosovitskiy et al., 2020)をトレーニングし、画像やピクセルレベルのベンチマークのほとんどにおいて、最高の汎用機能であるopenclip(ilharco et al., 2021)を超える一連の小さなモデルに蒸留します。 The recent breakthroughs in natural language processing for model pretraining on large quantities of data have opened the way for similar foundation models in computer vision. These models could greatly simplify the use of images in any system by producing all-purpose visual features, i.e., features that work across image distributions and tasks without finetuning. This work shows that existing pretraining methods, especially self-supervised methods, can produce such features if trained on enough curated data from diverse sources. We revisit existing approaches and combine different techniques to scale our pretraining in terms of data and model size. Most of the technical contributions aim at accelerating and stabilizing the training at scale. In terms of data, we propose an automatic pipeline to build a dedicated, diverse, and curated image dataset instead of uncurated data, as typically done in the self-supervised literature. In terms of models, we train a ViT model (Dosovitskiy et al., 2020) with 1B parameters and distill it into a series of smaller models that surpass the best available all-purpose features, OpenCLIP (Ilharco et al., 2021) on most of the benchmarks at image and pixel levels. | 翻訳日:2024-02-05 20:44:51 公開日:2024-02-02 |
# 要件による機械学習 - マニフェスト Machine Learning with Requirements: a Manifesto ( http://arxiv.org/abs/2304.03674v2 ) ライセンス: Link先を確認 | Eleonora Giunchiglia, Fergus Imrie, Mihaela van der Schaar, Thomas Lukasiewicz | (参考訳) 近年、機械学習は様々なアプリケーションドメインにおける多くのブレークスルーの根底にある大きな進歩を遂げています。
しかし、しばしば脆く信頼性に欠けるので、ハイステイクやセーフティクリティカルなアプリケーションドメインに適用するには、まだ未解決の問題である。
本稿では,要求定義と満足度が,特に臨界領域において,機械学習モデルをより現実世界に適合させるための長い道のりをたどることができることを論じる。
この目的のために、我々は2つの問題を提起する。
(i)要件は自然に生じる
(ii)機械学習モデルは、実りあるデプロイが可能で、
(iii)要件の無視は劇的な結果をもたらす可能性がある。
我々は、要求仕様が標準的な機械学習開発パイプラインに実際に統合される方法を示し、要求定義がパイプラインの以降のすべてのフェーズに影響を与えうる新しいピラミッド開発プロセスを提案し、その逆も提案する。 In the recent years, machine learning has made great advancements that have been at the root of many breakthroughs in different application domains. However, it is still an open issue how make them applicable to high-stakes or safety-critical application domains, as they can often be brittle and unreliable. In this paper, we argue that requirements definition and satisfaction can go a long way to make machine learning models even more fitting to the real world, especially in critical domains. To this end, we present two problems in which (i) requirements arise naturally, (ii) machine learning models are or can be fruitfully deployed, and (iii) neglecting the requirements can have dramatic consequences. We show how the requirements specification can be fruitfully integrated into the standard machine learning development pipeline, proposing a novel pyramid development process in which requirements definition may impact all the subsequent phases in the pipeline, and viceversa. | 翻訳日:2024-02-05 20:44:28 公開日:2024-02-02 |
# バイオメトリックスにおける非目標近傍衝突攻撃:現実世界の境界と理論的限界 Untargeted Near-collision Attacks on Biometrics: Real-world Bounds and Theoretical Limits ( http://arxiv.org/abs/2304.01580v4 ) ライセンス: Link先を確認 | Axel Durbet and Paul-Marie Grollemund and Kevin Thiry-Atighehchi | (参考訳) 生体認証システムは、識別または検証の2つの異なるモードで動作する。
第1のモードでは、システムは、マッチするすべてのユーザの登録テンプレートを検索することで、個人を認識する。
第2モードでは、新たに提供されたテンプレートと登録されたテンプレートを比較して、ユーザのアイデンティティクレームを検証する。
バイオメトリック変換方式は通常、暗号方式によりよりよく扱われるバイナリテンプレートを生成し、比較は2つのバイオメトリックテンプレート間の類似性に関する情報をリークする距離に基づいて行われる。
認識しきい値調整による偽の一致率と偽の一致率の両方が認識精度を規定し、システムのセキュリティを規定している。
我々の知る限り、情報漏洩の最小化、すなわち閾値との比較のバイナリ結果に対するセキュリティの正式な扱いを提供する研究はほとんどない。
本稿では,オンラインとオフラインの両方,および識別モードと検証モードの両方で実行可能な非ターゲティング攻撃に焦点を当てる。
まず,生体計測システムの精度測定に焦点をあてる。
本稿では,False Match Rate (FMR) とFalse Positive Identification Rate (FPIR) を用いて,これらのシステムのセキュリティに対処する。
これらのメトリクスを用いてニアコレーションを研究することで、選択したFMRが与えられたデータベース内の最大ユーザ数を推定し、セキュリティと精度を維持することができる。
これらの結果は文献のシステムから評価される。
一方,バイオメトリックシステムの理論的セキュリティ限界を評価するためには,確率的モデリングに依存する。
この距離空間とシステムパラメータ(テンプレートサイズ、しきい値、データベースサイズ)の研究は、ターゲット外の攻撃の複雑さと近距離衝突の確率を与える。 A biometric recognition system can operate in two distinct modes: identification or verification. In the first mode, the system recognizes an individual by searching the enrolled templates of all the users for a match. In the second mode, the system validates a user's identity claim by comparing the fresh provided template with the enrolled template. The biometric transformation schemes usually produce binary templates that are better handled by cryptographic schemes, and the comparison is based on a distance that leaks information about the similarities between two biometric templates. Both the experimentally determined false match rate and false non-match rate through recognition threshold adjustment define the recognition accuracy, and hence the security of the system. To our knowledge, few works provide a formal treatment of security in case of minimal information leakage, i.e., the binary outcome of a comparison with a threshold. In this paper, we focus on untargeted attacks that can be carried out both online and offline, and in both identification and verification modes. On the first hand, we focus our analysis on the accuracy metrics of biometric systems. We provide the complexity of untargeted attacks using the False Match Rate (FMR) and the False Positive Identification Rate (FPIR) to address the security of these systems. Studying near-collisions with these metrics allows us to estimate the maximum number of users in a database, given a chosen FMR, to preserve the security and the accuracy. These results are evaluated on systems from the literature. On the other hand, we rely on probabilistic modelling to assess the theoretical security limits of biometric systems. The study of this metric space, and system parameters (template size, threshold and database size), gives us the complexity of untargeted attacks and the probability of a near-collision. | 翻訳日:2024-02-05 20:44:14 公開日:2024-02-02 |
# 安価なデバイス(VIDIMU)を用いた生活活動のマルチモーダルビデオとIMUキネマティックデータセット Multimodal video and IMU kinematic dataset on daily life activities using affordable devices (VIDIMU) ( http://arxiv.org/abs/2303.16150v2 ) ライセンス: Link先を確認 | Mario Mart\'inez-Zarzuela, Javier Gonz\'alez-Alonso, M\'iriam Ant\'on-Rodr\'iguez, Francisco J. D\'iaz-Pernas, Henning M\"uller, Cristina Sim\'on-Mart\'inez | (参考訳) ヒトの活動認識と臨床バイオメカニクスは、身体的テレリハビリテーション医学における課題である。
しかし、人間の体の動きに関するほとんどの公開データセットは、ラボ外の運動獲得設定において両方の問題を研究するために使用できない。
VIDIMUデータセットの目的は、日常的な活動認識と運動解析のために、手頃な価格の患者総運動追跡ソリューションへの道を開くことである。
データセットは、コモディティカメラと5つの慣性センサーを用いて登録された13のアクティビティを含む。
ビデオ記録は54の被験者で取得され、そのうち16は慣性センサーを同時に記録していた。
データセットの新規性は次のとおりである。
(i)選択された運動の臨床的関連性。
(ii)手頃な価格の映像・カスタムセンサーの併用、及び
(iii)慣性データを用いた筋骨格モデルにおける3次元姿勢追跡と運動再構成のマルチモーダルデータ処理のための最先端ツールの実装
実生活環境に応じて行われる最小限の乱雑な取得プロトコルが、日常生活活動中の人間の関節角を包括的に把握できることを確認した。 Human activity recognition and clinical biomechanics are challenging problems in physical telerehabilitation medicine. However, most publicly available datasets on human body movements cannot be used to study both problems in an out-of-the-lab movement acquisition setting. The objective of the VIDIMU dataset is to pave the way towards affordable patient gross motor tracking solutions for daily life activities recognition and kinematic analysis. The dataset includes 13 activities registered using a commodity camera and five inertial sensors. The video recordings were acquired in 54 subjects, of which 16 also had simultaneous recordings of inertial sensors. The novelty of dataset lies in: (i) the clinical relevance of the chosen movements, (ii) the combined utilization of affordable video and custom sensors, and (iii) the implementation of state-of-the-art tools for multimodal data processing of 3D body pose tracking and motion reconstruction in a musculoskeletal model from inertial data. The validation confirms that a minimally disturbing acquisition protocol, performed according to real-life conditions can provide a comprehensive picture of human joint angles during daily life activities. | 翻訳日:2024-02-05 20:43:12 公開日:2024-02-02 |
# 講演とバッジ: GitHubにおける個人的成果の探索的分析 A Lot of Talk and a Badge: An Exploratory Analysis of Personal Achievements in GitHub ( http://arxiv.org/abs/2303.14702v3 ) ライセンス: Link先を確認 | Fabio Calefato and Luigi Quaranta and Filippo Lanubile | (参考訳) コンテキスト。
GitHubは、個人的成果を通じて新たなゲーミフィケーション要素を導入し、バッジをアンロックし、開発者個人のプロフィールページに表示し、開発活動を認識する。
目的。
本稿では,GitHubにおける個人用バッジの拡散を研究するための混合手法を用いた探索分析と,導入に対する効果と反応について述べる。
方法。
まず,6,000人以上の開発者から経年データのマイニングを行い,相関解析と回帰解析を行った。
次に調査を行い,300以上のgithubコミュニティによる個人バッジに関する議論を分析し,新機能の導入に対するコミュニティの反応を評価する。
結果だ
ほとんどの開発者は少なくともバッジをサンプルにしているが、プロフィールを非公開にし、バッジを表示することをオプトアウトするユーザーの増加も観察している。
加えて、バッジは概して開発者の品質とタイムラインやコラボレーションへの欲求といった配置と相関が低い。
また、Starstruckバッジ(フォロワーの数を反映している)を除いて、その導入には効果がないこともわかりました。
最後に、コミュニティの反応は一般的に混ざり合っており、開発者は原則的にアピールするが、明確な目的を持たず、現在の形での彼らの能力をほとんど反映していない。
結論だ
我々はgithubプラットフォームデザイナに対して、ゲーム化メカニズムと開発者の評価のための信頼できる手がかりのソースとして、個人バッジの現在の実装を改善する方法について推奨する。 Context. GitHub has introduced a new gamification element through personal achievements, whereby badges are unlocked and displayed on developers' personal profile pages in recognition of their development activities. Objective. In this paper, we present an exploratory analysis using mixed methods to study the diffusion of personal badges in GitHub, in addition to the effects and reactions to their introduction. Method. First, we conduct an observational study by mining longitudinal data from more than 6,000 developers and performed correlation and regression analysis. Then, we conduct a survey and analyze over 300 GitHub community discussions on the topic of personal badges to gauge how the community responded to the introduction of the new feature. Results. We find that most of the developers sampled own at least a badge, but we also observe an increasing number of users who choose to keep their profile private and opt out of displaying badges. Besides, badges are generally poorly correlated with developers' qualities and dispositions such as timeliness and desire to collaborate. We also find that, except for the Starstruck badge (reflecting the number of followers), their introduction does not have an effect. Finally, the reaction of the community has been in general mixed, as developers find them appealing in principle but without a clear purpose and hardly reflecting their abilities in the current form. Conclusions. We provide recommendations to GitHub platform designers on how to improve the current implementation of personal badges as both a gamification mechanism and as sources of reliable cues of ability for developers' assessment | 翻訳日:2024-02-05 20:42:56 公開日:2024-02-02 |
# 直接反復によるインバージョン:画像復元における拡散の代替 Inversion by Direct Iteration: An Alternative to Denoising Diffusion for Image Restoration ( http://arxiv.org/abs/2303.11435v5 ) ライセンス: Link先を確認 | Mauricio Delbracio and Peyman Milanfar | (参考訳) inversion by direct iteration (indi) は、いわゆる「平均への回帰」効果を避け、既存の回帰に基づく方法よりもリアルで詳細な画像を生成する、教師あり画像復元の新しい定式化である。
これは、生成的ノイズ拡散モデルと同様に、小さなステップで画像品質を徐々に改善することで実現している。
画像復元は、複数の高品質画像が与えられた低品質入力を再現できるような不適切な問題である。
したがって、単一の段階回帰モデルの結果は、通常、全ての可能な説明の集まりであり、したがって詳細と現実主義を欠いている。
InDIの主な利点は、単一のステップでクリーンなターゲット画像を予測するのではなく、小さなステップで徐々に画像を改善し、知覚的品質を向上させることである。
生成的減数化拡散モデルも小さなステップで作用するが、この定式化は分解過程の分析形式に関する知識を必要としないという点で異なる。
代わりに、低品質で高品質なペアリング例から反復的な復元プロセスを直接学習します。
InDIは、ペアのトレーニングデータから、事実上どんな画像劣化にも適用できる。
条件付き復調拡散画像復元において、劣化した入力に基づいて条件付き純雑音の初期画像を繰り返し復調して復調した画像を生成する。
条件付きデノージングの定式化とは対照的に、indiは入力された低品質の画像を反復的に復元し、動きや焦点外デブローリング、超解像、圧縮アーティファクト除去、デノージングなど様々な画像復元タスクで高品質な結果を生成することで直接進行する。 Inversion by Direct Iteration (InDI) is a new formulation for supervised image restoration that avoids the so-called "regression to the mean" effect and produces more realistic and detailed images than existing regression-based methods. It does this by gradually improving image quality in small steps, similar to generative denoising diffusion models. Image restoration is an ill-posed problem where multiple high-quality images are plausible reconstructions of a given low-quality input. Therefore, the outcome of a single step regression model is typically an aggregate of all possible explanations, therefore lacking details and realism. The main advantage of InDI is that it does not try to predict the clean target image in a single step but instead gradually improves the image in small steps, resulting in better perceptual quality. While generative denoising diffusion models also work in small steps, our formulation is distinct in that it does not require knowledge of any analytic form of the degradation process. Instead, we directly learn an iterative restoration process from low-quality and high-quality paired examples. InDI can be applied to virtually any image degradation, given paired training data. In conditional denoising diffusion image restoration the denoising network generates the restored image by repeatedly denoising an initial image of pure noise, conditioned on the degraded input. Contrary to conditional denoising formulations, InDI directly proceeds by iteratively restoring the input low-quality image, producing high-quality results on a variety of image restoration tasks, including motion and out-of-focus deblurring, super-resolution, compression artifact removal, and denoising. | 翻訳日:2024-02-05 20:42:04 公開日:2024-02-02 |
# ResDiff:超解像のためのCNNと拡散モデルの組み合わせ ResDiff: Combining CNN and Diffusion Model for Image Super-Resolution ( http://arxiv.org/abs/2303.08714v3 ) ライセンス: Link先を確認 | Shuyao Shang, Zhengyang Shan, Guangxing Liu, LunQian Wang, XingHua Wang, Zekai Zhang, Jinglin Zhang | (参考訳) 単純な畳み込みニューラルネットワーク(cnn)が主低周波コンテンツを復元できるため、拡散確率モデル(dpm)を直接画像の超解像に適応することは無駄である。
そこで,Single Image Super-Resolution (SISR)のための残像構造に基づく拡散確率モデルResDiffを提案する。
ResDiffは、一次低周波成分を復元するCNNと、地上構造画像とCNN予測画像の間の残差を予測するDPMの組み合わせを利用する。
MR画像を直接HR空間へ誘導する拡散法とは対照的に、ResDiffはCNNの初期予測を利用して、HR空間とCNN予測空間の間の残留空間に向けてノイズを誘導し、生成プロセスを加速するだけでなく、優れたサンプル品質を得る。
また, 周波数領域に基づくcnnの損失関数を導入し, 復元を容易にするとともに, 周波数領域誘導拡散をdpm向けに設計した。
複数のベンチマークデータセットに関する広範な実験により、ResDiffはより短いモデル収束時間、より優れた生成品質、より多様なサンプルの観点から、従来の拡散に基づく手法よりも優れていることが示された。 Adapting the Diffusion Probabilistic Model (DPM) for direct image super-resolution is wasteful, given that a simple Convolutional Neural Network (CNN) can recover the main low-frequency content. Therefore, we present ResDiff, a novel Diffusion Probabilistic Model based on Residual structure for Single Image Super-Resolution (SISR). ResDiff utilizes a combination of a CNN, which restores primary low-frequency components, and a DPM, which predicts the residual between the ground-truth image and the CNN predicted image. In contrast to the common diffusion-based methods that directly use LR images to guide the noise towards HR space, ResDiff utilizes the CNN's initial prediction to direct the noise towards the residual space between HR space and CNN-predicted space, which not only accelerates the generation process but also acquires superior sample quality. Additionally, a frequency-domain-based loss function for CNN is introduced to facilitate its restoration, and a frequency-domain guided diffusion is designed for DPM on behalf of predicting high-frequency details. The extensive experiments on multiple benchmark datasets demonstrate that ResDiff outperforms previous diffusion based methods in terms of shorter model convergence time, superior generation quality, and more diverse samples. | 翻訳日:2024-02-05 20:41:33 公開日:2024-02-02 |
# 不均衡と光の最適輸送 Unbalanced and Light Optimal Transport ( http://arxiv.org/abs/2303.07988v2 ) ライセンス: Link先を確認 | Milena Gazdieva, Arip Asadulaev, Alexander Korotin, Evgeny Burnaev | (参考訳) 近年, 連続的エントロピー最適輸送 (EOT) の分野は活発に発展してきたが, 古典的EOT問題は, アウトレーヤに対する感受性や, ソースおよびターゲット尺度におけるクラスの不均衡など, 様々な問題を引き起こすことが明らかとなった。
この事実は、未均衡の EOT (UEOT) 問題に対処する解法の開発にインスピレーションを与えた。
驚いたことに、既存の解法はヒューリスティックな原理に基づいているか、あるいは複数のニューラルネットワークを含む複雑な最適化目標を重み付けしている。
本稿では,この課題に対処し,理論的に正当で軽量なEOT解法を提案する。
我々の進歩は、トラクタブルで非ミニマックス最適化の目的をもたらすUEOT問題の最適化に関する新しい視点の開発である。
近年提案されている光パラメトリゼーションと組み合わさって,我々の目的が高速でシンプルで効果的な解法に繋がることを示す。
CPU上で、連続するUEOT問題を数分で解決できる。
私たちは、解法の性能の例を示します。 While the field of continuous Entropic Optimal Transport (EOT) has been actively developing in recent years, it became evident that the classic EOT problem is prone to different issues like the sensitivity to outliers and imbalance of classes in the source and target measures. This fact inspired the development of solvers which deal with the unbalanced EOT (UEOT) problem - the generalization of EOT allowing for mitigating the mentioned issues by relaxing the marginal constraints. Surprisingly, it turns out that the existing solvers are either based on heuristic principles or heavy-weighted with complex optimization objectives involving several neural networks. We address this challenge and propose a novel theoretically-justified and lightweight unbalanced EOT solver. Our advancement consists in developing a novel view on the optimization of the UEOT problem yielding tractable and non-minimax optimization objective. We show that combined with a light parametrization recently proposed in the field our objective leads to fast, simple and effective solver. It allows solving the continuous UEOT problem in minutes on CPU. We provide illustrative examples of the performance of our solver. | 翻訳日:2024-02-05 20:41:11 公開日:2024-02-02 |
# 強化学習におけるタスク一般化のためのタスク認識ドリーム Task Aware Dreamer for Task Generalization in Reinforcement Learning ( http://arxiv.org/abs/2303.05092v3 ) ライセンス: Link先を確認 | Chengyang Ying, Zhongkai Hao, Xinning Zhou, Hang Su, Songming Liu, Dong Yan, Jun Zhu | (参考訳) 強化学習の長年の目標は、トレーニングタスクを学習し、同じような動的だが異なる報酬関数を持つ未確認タスクをうまく一般化できるエージェントを取得することである。
タスクをまたいで一般化する能力は、報酬メカニズムが異なる実世界のシナリオに対するエージェントの適応性を決定するために重要である。
本研究では,これらの課題に類似した構造を応用し,より一般化可能なエージェントを訓練する上で有効であることを示す。
タスクの一般化設定に世界モデルを拡張し,タスク認識ドリーマー (task aware dreamer, tad) という新しい手法を導入する。
tad内では、サンプルデータlog-likelihoodの変分下限を計算し、報酬に左右される世界モデルの最適化の目的として、それらの状態を使ってタスクを区別するように設計された新しい用語を導入します。
TADにおける報酬インフォームド・ポリシーの利点を実証するため,TDR(Task Distribution Relevance)と呼ばれる新しい尺度を導入し,タスクの妥当性を定量的に測定する。
高いTDRを示すタスク、すなわちタスクが著しく異なる場合、マルコフの政策がそれらを区別するのに苦労していることを示すため、TADの報酬インフォームドポリシーを利用する必要がある。
画像ベースのタスクと状態ベースのタスクの両方における大規模な実験により、TADは、特に高いTDRを持つタスクに対して、異なるタスクを同時に処理する性能を大幅に向上し、タスクを発見できないような強力な一般化能力を示す。 A long-standing goal of reinforcement learning is to acquire agents that can learn on training tasks and generalize well on unseen tasks that may share a similar dynamic but with different reward functions. The ability to generalize across tasks is important as it determines an agent's adaptability to real-world scenarios where reward mechanisms might vary. In this work, we first show that training a general world model can utilize similar structures in these tasks and help train more generalizable agents. Extending world models into the task generalization setting, we introduce a novel method named Task Aware Dreamer (TAD), which integrates reward-informed features to identify consistent latent characteristics across tasks. Within TAD, we compute the variational lower bound of sample data log-likelihood, which introduces a new term designed to differentiate tasks using their states, as the optimization objective of our reward-informed world models. To demonstrate the advantages of the reward-informed policy in TAD, we introduce a new metric called Task Distribution Relevance (TDR) which quantitatively measures the relevance of different tasks. For tasks exhibiting a high TDR, i.e., the tasks differ significantly, we illustrate that Markovian policies struggle to distinguish them, thus it is necessary to utilize reward-informed policies in TAD. Extensive experiments in both image-based and state-based tasks show that TAD can significantly improve the performance of handling different tasks simultaneously, especially for those with high TDR, and display a strong generalization ability to unseen tasks. | 翻訳日:2024-02-05 20:40:50 公開日:2024-02-02 |
# ベイズ深層学習のための変分線形ラプラス近似 Variational Linearized Laplace Approximation for Bayesian Deep Learning ( http://arxiv.org/abs/2302.12565v2 ) ライセンス: Link先を確認 | Luis A. Ortega, Sim\'on Rodr\'iguez Santana, Daniel Hern\'andez-Lobato | (参考訳) 線形化ラプラス近似(LLA)は、最近、事前訓練されたディープニューラルネットワーク(DNN)の予測の不確実性評価に使われている。
しかし、その広範な応用は、特に多数のトレーニングポイントやDNNパラメータを持つシナリオにおいて、計算コストの大幅な低下によって妨げられている。
その結果、Kronecker-factoredや対角近似GGN行列などのLLAのさらなる近似が利用でき、モデルの性能を損なう可能性がある。
これらの課題に対処するために,変分スパースガウスプロセス(GP)を用いてLLAを近似する新しい手法を提案する。
本手法は,GPの2つのRKHS定式化に基づいて,元のDNNの出力予測平均として保持する。
さらに、効率的な確率的最適化が可能で、トレーニングデータセットのサイズにおいて、サブ線形トレーニング時間が得られる。
特に、トレーニングコストはトレーニングポイントの数とは無関係である。
提案手法は,nystr\"om近似に依存する加速型lla (ella) と,サンプル最適化原理を用いた他のlla変種との比較を行った。
回帰データと分類データの両方を用いた実験結果から,本手法は予測分布の品質と計算時間の両方において,既存のLAの効率の良い変種よりも優れていることが示された。 The Linearized Laplace Approximation (LLA) has been recently used to perform uncertainty estimation on the predictions of pre-trained deep neural networks (DNNs). However, its widespread application is hindered by significant computational costs, particularly in scenarios with a large number of training points or DNN parameters. Consequently, additional approximations of LLA, such as Kronecker-factored or diagonal approximate GGN matrices, are utilized, potentially compromising the model's performance. To address these challenges, we propose a new method for approximating LLA using a variational sparse Gaussian Process (GP). Our method is based on the dual RKHS formulation of GPs and retains as the predictive mean the output of the original DNN. Furthermore, it allows for efficient stochastic optimization, which results in sub-linear training time in the size of the training dataset. Specifically, its training cost is independent of the number of training points. We compare our proposed method against accelerated LLA (ELLA), which relies on the Nystr\"om approximation, as well as other LLA variants employing the sample-then-optimize principle. Experimental results, both on regression and classification datasets, show that our method outperforms these already existing efficient variants of LLA, both in terms of the quality of the predictive distribution and in terms of total computational time. | 翻訳日:2024-02-05 20:40:22 公開日:2024-02-02 |
# データ強化マルチビューの深層学習アンサンブルを用いた化石画像の同定 Fossil Image Identification using Deep Learning Ensembles of Data Augmented Multiviews ( http://arxiv.org/abs/2302.08062v3 ) ライセンス: Link先を確認 | Chengbin Hou, Xinyu Lin, Hanhui Huang, Sheng Xu, Junxuan Fan, Yukun Shi, Hairong Lv | (参考訳) 化石種の同定は進化研究に不可欠である。
深層学習による最近の進歩は、化石画像の識別に有望な可能性を示している。
しかし、ラベル付き化石画像の量と品質は、しばしば化石保存、条件付きサンプリング、ドメインの専門家による高価で一貫性のないラベルアノテーションによって制限され、深層学習に基づく画像分類モデルの訓練に大きな課題が生じる。
これらの課題に対処するため,我々は,群集の知恵の考え方に従い,各化石画像のオリジナル(o),グレー(g),スケルトン(s)ビューを収集し,その特徴を反映して複数のベースモデルをトレーニングし,ソフト投票により最終決定を行うマルチビューアンサンブルフレームワークを提案する。
2400のイメージを持つ最大のフスリノイドデータセットの実験では、提案されたOGSはベースライン(ビュー毎に1つのモデルを使用して)を一貫して上回り、OOO(3つのベースモデルで同じオリジナルビューを3つ使用)よりも優れた、あるいは同等のパフォーマンスを得る。
さらに、トレーニングデータが減少するにつれて、提案するフレームワークはより多くのゲインを達成する。
人間の専門家に対する識別整合性の推定を考慮しながら、OGSはデータセットのオリジナルのラベルと2人の人間の専門家の再識別との合意が最も高い。
検証性能は、異なる専門家と属間の一貫性を定量的に推定する。
提案手法は, 化石の発見事例研究において, 最先端の性能を示すことができると結論付けた。
このフレームワークは一般的な化石識別のために設計されており、今後他の化石データセットへの応用が期待されている。
ソースコードはhttps://github.com/houchengbin/Fossil-Image-Identificationで公開されている。 Identification of fossil species is crucial to evolutionary studies. Recent advances from deep learning have shown promising prospects in fossil image identification. However, the quantity and quality of labeled fossil images are often limited due to fossil preservation, conditioned sampling, and expensive and inconsistent label annotation by domain experts, which pose great challenges to training deep learning based image classification models. To address these challenges, we follow the idea of the wisdom of crowds and propose a multiview ensemble framework, which collects Original (O), Gray (G), and Skeleton (S) views of each fossil image reflecting its different characteristics to train multiple base models, and then makes the final decision via soft voting. Experiments on the largest fusulinid dataset with 2400 images show that the proposed OGS consistently outperforms baselines (using a single model for each view), and obtains superior or comparable performance compared to OOO (using three base models for three the same Original views). Besides, as the training data decreases, the proposed framework achieves more gains. While considering the identification consistency estimation with respect to human experts, OGS receives the highest agreement with the original labels of dataset and with the re-identifications of two human experts. The validation performance provides a quantitative estimation of consistency across different experts and genera. We conclude that the proposed framework can present state-of-the-art performance in the fusulinid fossil identification case study. This framework is designed for general fossil identification and it is expected to see applications to other fossil datasets in future work. The source code is publicly available at https://github.com/houchengbin/Fossil-Image-Identification to benefit future research in fossil image identification. | 翻訳日:2024-02-05 20:39:42 公開日:2024-02-02 |
# オフラインデータによるモンテカルロ評価の改善 Improving Monte Carlo Evaluation with Offline Data ( http://arxiv.org/abs/2301.13734v3 ) ライセンス: Link先を確認 | Shuze Liu, Shangtong Zhang | (参考訳) ほとんどの強化学習実践者は、オンラインモンテカルロ推定器を用いて、ハイパーパラメータチューニングまたは異なるアルゴリズム設計選択のテストを行い、そこでポリシーを環境内で繰り返し実行し、平均的な結果を得る。
このような環境との大規模な相互作用は多くのシナリオで禁止されています。
本稿では,オンラインモンテカルロ推定器のデータ効率を不偏性を維持しながら向上させる手法を提案する。
まず,オンラインモンテカルロ推定器のばらつきを確実に低減する閉形式行動ポリシーを提案する。
次に、以前に収集したオフラインデータからこの閉形式行動ポリシーを学習するための効率的なアルゴリズムを設計する。
行動ポリシー学習誤差が分散の減少量にどのように影響するかを特徴づける理論的解析を行う。
従来の手法と比較して,オフラインデータに対する要求は少ないが,幅広い環境において経験的性能が向上する。 Most reinforcement learning practitioners evaluate their policies with online Monte Carlo estimators for either hyperparameter tuning or testing different algorithmic design choices, where the policy is repeatedly executed in the environment to get the average outcome. Such massive interactions with the environment are prohibitive in many scenarios. In this paper, we propose novel methods that improve the data efficiency of online Monte Carlo estimators while maintaining their unbiasedness. We first propose a tailored closed-form behavior policy that provably reduces the variance of an online Monte Carlo estimator. We then design efficient algorithms to learn this closed-form behavior policy from previously collected offline data. Theoretical analysis is provided to characterize how the behavior policy learning error affects the amount of reduced variance. Compared with previous works, our method achieves better empirical performance in a broader set of environments, with fewer requirements for offline data. | 翻訳日:2024-02-05 20:38:20 公開日:2024-02-02 |
# デコーダのみのトランスフォーマーモデルはどの程度強力か? How Powerful are Decoder-Only Transformer Neural Models? ( http://arxiv.org/abs/2305.17026v3 ) ライセンス: Link先を確認 | Jesse Roberts | (参考訳) 本稿では,現代大言語モデル (LLM) に基づく一般変圧器ニューラルモデルが,合理的な仮定の下でチューリング完全であることを証明する。
これは、gpt-xで採用されている基礎技術のチューリング完全性に直接対処する最初の仕事であり、より表現力に富み、完全なオートエンコーダトランスフォーマアーキテクチャにフォーカスしてきた。
この理論解析から, 単語埋め込みの空間/圧縮性は, チューリング完全性を維持する上で重要な考慮事項であることを示す。
また、Transformer は Hao Wang が研究した B マシンの変種であることを示す。 In this article we prove that the general transformer neural model undergirding modern large language models (LLMs) is Turing complete under reasonable assumptions. This is the first work to directly address the Turing completeness of the underlying technology employed in GPT-x as past work has focused on the more expressive, full auto-encoder transformer architecture. From this theoretical analysis, we show that the sparsity/compressibility of the word embedding is an important consideration for Turing completeness to hold. We also show that Transformers are are a variant of B machines studied by Hao Wang. | 翻訳日:2024-02-05 20:30:31 公開日:2024-02-02 |
# 最適輸送を用いた直接グラフモデル学習 Learning Directed Graphical Models with Optimal Transport ( http://arxiv.org/abs/2305.15927v3 ) ライセンス: Link先を確認 | Vy Vo, Trung Le, Long-Tung Vuong, He Zhao, Edwin Bonilla, Dinh Phung | (参考訳) 不完全なデータから確率的有向グラフィカルモデルのパラメータを推定することは長年の課題である。
これは、潜在変数の存在下では、構造依存やモデルクラスについてのさらなる仮定なしに、可能性関数と後方分布の両方が難解であるからである。
既設の学習手法は, 帰結の最大化を基本としているが, 最適移動のレンズを通してパラメータ学習問題の新たな視点を提供する。
この観点は、潜在変数の後方に非現実的な仮定をせず、あるいはブラックボックスの変分近似に頼ることなく、任意の有向グラフ上で動く一般的なフレームワークをライセンスする。
我々は理論的な枠組みを開発し、我々のアプローチの柔軟性と汎用性を示す広範な実証的な証拠でそれを支援する。
実験を通して,本手法は基底パラメータを復元できるだけでなく,下流アプリケーション,特に離散表現学習の非自明なタスクにおいて,比較可能あるいはよりよい性能を発揮することを示した。 Estimating the parameters of a probabilistic directed graphical model from incomplete data remains a long-standing challenge. This is because, in the presence of latent variables, both the likelihood function and posterior distribution are intractable without further assumptions about structural dependencies or model classes. While existing learning methods are fundamentally based on likelihood maximization, here we offer a new view of the parameter learning problem through the lens of optimal transport. This perspective licenses a general framework that operates on any directed graphs without making unrealistic assumptions on the posterior over the latent variables or resorting to black-box variational approximations. We develop a theoretical framework and support it with extensive empirical evidence demonstrating the flexibility and versatility of our approach. Across experiments, we show that not only can our method recover the ground-truth parameters but it also performs comparably or better on downstream applications, notably the non-trivial task of discrete representation learning. | 翻訳日:2024-02-05 20:30:18 公開日:2024-02-02 |
# ランダムな摂動を伴う鋭いミニマから逃れる方法 How to escape sharp minima with random perturbations ( http://arxiv.org/abs/2305.15659v2 ) ライセンス: Link先を確認 | Kwangjun Ahn, Ali Jadbabaie, Suvrit Sra | (参考訳) 現代の機械学習アプリケーションは、フラットなミニマを見つけるために設計された最適化アルゴリズムの驚くべき成功を目撃している。
このデザイン選択に動機づけられ 正式な研究が行われました
(i)平らなミニマの概念を定式化し、
(ii)発見の複雑さを研究する。
具体的には、コスト関数のヘッセンのトレースを平坦性の尺度として採用し、それを用いて近似平坦極小の概念を形式的に定義する。
この概念の下で、近似平坦な最小値を求めるアルゴリズムを効率的に解析する。
一般費用関数については、近似平坦な局所最小値を求める勾配に基づくアルゴリズムについて述べる。
アルゴリズムの主な構成要素は、ランダムに摂動した反復から計算された勾配を用いて、より平坦な最小値につながる方向を推定することである。
コスト関数がトレーニングデータよりも経験的リスクであるような設定のために,最近提案されているシャープネス認識最小化(sharpness-aware minimization)と呼ばれる実用的なアルゴリズムに触発された,より高速なアルゴリズムを提案する。 Modern machine learning applications have witnessed the remarkable success of optimization algorithms that are designed to find flat minima. Motivated by this design choice, we undertake a formal study that (i) formulates the notion of flat minima, and (ii) studies the complexity of finding them. Specifically, we adopt the trace of the Hessian of the cost function as a measure of flatness, and use it to formally define the notion of approximate flat minima. Under this notion, we then analyze algorithms that find approximate flat minima efficiently. For general cost functions, we discuss a gradient-based algorithm that finds an approximate flat local minimum efficiently. The main component of the algorithm is to use gradients computed from randomly perturbed iterates to estimate a direction that leads to flatter minima. For the setting where the cost function is an empirical risk over training data, we present a faster algorithm that is inspired by a recently proposed practical algorithm called sharpness-aware minimization, supporting its success in practice. | 翻訳日:2024-02-05 20:30:01 公開日:2024-02-02 |
# 速度場補間による$f$-divergencesの最小化 Minimizing $f$-Divergences by Interpolating Velocity Fields ( http://arxiv.org/abs/2305.15577v2 ) ライセンス: Link先を確認 | Song Liu, Jiahao Yu, Jack Simons, Mingxuan Yi, Mark Beaumont | (参考訳) 多くの機械学習問題は、統計的不一致を最小限に抑えて、粒子分布を用いた目標分布の近似として定式化することができる。
Wasserstein Gradient Flow は、 \textit{target} 分布と \textit{ Particle} 分布の間の$f$-divergence を最小限に抑える経路に沿って粒子を動かすために用いられる。
これら2つの分布間の密度比関数を含む対応する速度場を計算する必要がある。
従来の研究では、まず密度比関数を推定し、次に推定比を区別していたが、このアプローチは過度な適合に悩まされ、精度が低くなる。
非パラメトリックな曲線フィッティングにインスパイアされ、補間を用いてこれらの速度場を直接推定する。
本手法は軽度条件下で漸近的に一貫性があることを実証する。
ドメイン適応とデータ計算の欠如に対する新しい応用による有効性を検証する。 Many machine learning problems can be formulated as approximating a target distribution using a particle distribution by minimizing a statistical discrepancy. Wasserstein Gradient Flow can be employed to move particles along a path that minimizes the $f$-divergence between the \textit{target} and \textit{particle} distributions. To perform such movements we need to calculate the corresponding velocity fields which include a density ratio function between these two distributions. While previous works estimated the density ratio function first and then differentiated the estimated ratio, this approach may suffer from overfitting, which leads to a less accurate estimate. Inspired by non-parametric curve fitting, we directly estimate these velocity fields using interpolation. We prove that our method is asymptotically consistent under mild conditions. We validate the effectiveness using novel applications on domain adaptation and missing data imputation. | 翻訳日:2024-02-05 20:29:45 公開日:2024-02-02 |
# LLMのマルチステップ推論における自己整合性の2つの失敗 Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs ( http://arxiv.org/abs/2305.14279v4 ) ライセンス: Link先を確認 | Angelica Chen, Jason Phang, Alicia Parrish, Vishakh Padmakumar, Chen Zhao, Samuel R. Bowman, Kyunghyun Cho | (参考訳) 大規模言語モデル(LLM)は、様々なコンテキスト内数ショットタスクで広く成功しているが、この成功は通常、一貫性よりも正確性によって評価される。
自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。
本稿では,多段階推論において特に重要な自己整合性(仮説的他の文脈における出力の予測能力)と構成的整合性(中間的なサブステップをそれらのステップの出力に置き換える際のモデルの最終出力の整合性)の2つのタイプを提案する。
GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの一貫性の低下を示す。 Large language models (LLMs) have achieved widespread success on a variety of in-context few-shot tasks, but this success is typically evaluated via correctness rather than consistency. We argue that self-consistency is an important criteria for valid multi-step reasoning in tasks where the solution is composed of the answers to multiple sub-steps. We propose two types of self-consistency that are particularly important for multi-step reasoning -- hypothetical consistency (a model's ability to predict what its output would be in a hypothetical other context) and compositional consistency (consistency of a model's final outputs when intermediate sub-steps are replaced with the model's outputs for those steps). We demonstrate that multiple variants of the GPT-3/-4 models exhibit poor consistency rates across both types of consistency on a variety of tasks. | 翻訳日:2024-02-05 20:29:30 公開日:2024-02-02 |
# 文表現の包括的調査:BERTエポックからチャットGPT時代まで A Comprehensive Survey of Sentence Representations: From the BERT Epoch to the ChatGPT Era and Beyond ( http://arxiv.org/abs/2305.12641v3 ) ライセンス: Link先を確認 | Abhinav Ramesh Kashyap, Thanh-Tung Nguyen, Viktor Schlegel, Stefan Winkler, See-Kiong Ng, Soujanya Poria | (参考訳) 文表現は、検索、質問応答、テキスト分類などのNLPアプリケーションにおいて重要な要素である。
彼らは文章の意味を捉え、機械が人間の言語を理解し、推論することができる。
近年, 教師なし, 教師なし, 伝達学習など, 文表現の学習方法の開発が著しい進歩を遂げている。
しかし、現在まで文表現に関する文献レビューは行われていない。
本稿では,主に深層学習モデルに焦点をあて,文表現学習の異なる方法の概要について述べる。
文献の体系的な組織を提供し、この分野における重要な貢献と課題を強調する。
総じて,自然言語処理におけるこの領域の重要性,文表現学習における進歩,残る課題について考察した。
結論として,文表現の質と効率性を改善するための潜在的な道筋を示唆する。 Sentence representations are a critical component in NLP applications such as retrieval, question answering, and text classification. They capture the meaning of a sentence, enabling machines to understand and reason over human language. In recent years, significant progress has been made in developing methods for learning sentence representations, including unsupervised, supervised, and transfer learning approaches. However there is no literature review on sentence representations till now. In this paper, we provide an overview of the different methods for sentence representation learning, focusing mostly on deep learning models. We provide a systematic organization of the literature, highlighting the key contributions and challenges in this area. Overall, our review highlights the importance of this area in natural language processing, the progress made in sentence representation learning, and the challenges that remain. We conclude with directions for future research, suggesting potential avenues for improving the quality and efficiency of sentence representations. | 翻訳日:2024-02-05 20:29:14 公開日:2024-02-02 |
# 量子相対エントロピーの一般連続性境界 General Continuity Bounds for Quantum Relative Entropies ( http://arxiv.org/abs/2305.10140v2 ) ライセンス: Link先を確認 | Andreas Bluhm, \'Angela Capel, Paul Gondolf, Antonio P\'erez-Hern\'andez | (参考訳) 本稿では、Alicki, Fannes, Winterによる証明手法を一般化し、異なる量子相対エントロピーから導かれるエントロピー量の連続性境界を証明する方法を提案する。
梅垣相対エントロピーについては、ほぼ最適境界がほとんどであるが、Belavkin-Staszewski相対エントロピーの場合、我々の境界は新しいものである。
最後に、これらの連続性境界を用いて、新しいエントロピーの不確実性関係を導出する。 In this article, we generalize a proof technique by Alicki, Fannes and Winter and introduce a method to prove continuity bounds for entropic quantities derived from different quantum relative entropies. For the Umegaki relative entropy, we mostly recover known almost optimal bounds, whereas, for the Belavkin-Staszewski relative entropy, our bounds are new. Finally, we use these continuity bounds to derive a new entropic uncertainty relation. | 翻訳日:2024-02-05 20:28:39 公開日:2024-02-02 |
# 混合状態に対する最適量子速度 Optimal quantum speed for mixed states ( http://arxiv.org/abs/2305.08004v3 ) ライセンス: Link先を確認 | Ashraf Naderzadeh-ostad and Seyed Javad Akhtarshenas | (参考訳) 量子状態がどの程度高速に進化できるかという問題を考える。
phys におけるユークリッド距離に基づく二乗速度の定義を用いる。
Rev. Research, {\bf 2}, 033127 (2019)] では、時間非依存ハミルトニアンの下で一元的に進化した$d$次元システムの最適速度を得るための体系的な枠組みを提案する。
同じ純度を持つ混合量子状態の組のうち、最適状態はその純度パラメータを用いて得られる。
任意の$d$ に対して、最適状態は、二次対角線に対して対称である追加の性質を持つ$x$-状態によって表される。
純度が最大混合状態$\Id/d$を少なくとも2/d^2$で純度を超える十分低い純度に対して、最適状態の非零対角エントリーは$\varrho_{1d}$であり、それぞれ最小固有値と最大固有値を持つ2つのエネルギー固有状態間の遷移振幅に対応する。
しかし、より大きな純度の場合、他の二次径のエントリ$\varrho_{i,d-i+1}$を非零値とするかどうかは、相対エネルギーギャップ$|E_{d-i+1}-E_{i}|$に依存する。
エネルギー基底に対するコヒーレンスと絡み合いの影響も検討され、最適状態の場合、両方の資源は純度の単調関数であり、量子の進化を加速させ、量子速度制限を小さくすることができることが判明した。
以上の結果から,2次対角線上に位置する対角線外接点によって引き起こされるコヒーレンスのみが,最も高速な状態における役割を担っていることが示唆された。 The question of how fast a quantum state can evolve is considered. Using the definition of squared speed based on the Euclidean distance given in [Phys. Rev. Research, {\bf 2}, 033127 (2019)], we present a systematic framework to obtain the optimal speed of a $d$-dimensional system evolved unitarily under a time-independent Hamiltonian. Among the set of mixed quantum states having the same purity, the optimal state is obtained in terms of its purity parameter. We show that for an arbitrary $d$, the optimal state is represented by a $X$-state with an additional property of being symmetric with respect to the secondary diagonal. For sufficiently low purities for which the purity exceeds the purity of maximally mixed state $\Id/d$ by at most $2/d^2$, the only nonzero off-diagonal entry of the optimal state is $\varrho_{1d}$, corresponding to the transition amplitude between two energy eigenstates with minimum and maximum eigenvalues, respectively. For larger purities, however, whether or not the other secondary diameter entries $\varrho_{i,d-i+1}$ take nonzero values depends on their relative energy gaps $|E_{d-i+1}-E_{i}|$. The effects of coherence and entanglement, with respect to the energy basis, are also examined and found that for optimal states both resources are monotonic functions of purity, so they can cause speed up quantum evolution leading to a smaller quantum speed limit. Our results show that although the coherence of the states is responsible for the speed of evolution, only the coherence caused by some off-diagonal entries located on the secondary diagonal play a role in the fastest states. | 翻訳日:2024-02-05 20:28:30 公開日:2024-02-02 |
# 画像キャプションにおけるデータキュレーションの役割 The Role of Data Curation in Image Captioning ( http://arxiv.org/abs/2305.03610v2 ) ライセンス: Link先を確認 | Wenyan Li, Jonas F. Lotz, Chen Qiu, Desmond Elliott | (参考訳) 画像キャプションモデルは、典型的には全てのサンプルを等しく扱い、不一致や困難なデータポイントを考慮せずに訓練される。
対照的に,近年の研究では,カリキュラム学習戦略を用いたデータスケジューリングによる学習モデルの有効性が示された。
本論文は, サンプルの総数を増やすことなく, データセット中の難しいサンプルを積極的にキュレートすることによって, この方向性に寄与する。
トレーニングプロセスにおける3つのデータキュレーション手法(サンプルの完全除去、キャプション置換、テキスト・ツー・イメージ生成モデルによる画像置換)の効果について検討する。
BLIPとBEiT-3モデルを用いたFlickr30KとCOCOデータセットの実験は、これらのキュレーション手法が実際に改善された画像キャプションモデルを生み出し、その効果を裏付けることを示した。 Image captioning models are typically trained by treating all samples equally, neglecting to account for mismatched or otherwise difficult data points. In contrast, recent work has shown the effectiveness of training models by scheduling the data using curriculum learning strategies. This paper contributes to this direction by actively curating difficult samples in datasets without increasing the total number of samples. We explore the effect of using three data curation methods within the training process: complete removal of an sample, caption replacement, or image replacement via a text-to-image generation model. Experiments on the Flickr30K and COCO datasets with the BLIP and BEiT-3 models demonstrate that these curation methods do indeed yield improved image captioning models, underscoring their efficacy. | 翻訳日:2024-02-05 20:27:23 公開日:2024-02-02 |
# 動的断熱工学による例外点近傍のキラルおよび非キラル急速モード変換 Chiral and non-chiral swift mode conversion near an exception point with dynamic adiabaticity engineering ( http://arxiv.org/abs/2304.12912v2 ) ライセンス: Link先を確認 | Dong Wang, Wen-Xi Huang, Bo Zhou, Wenduo Yu, Pei-Chao Cao, Yu-Gui Peng, Zhengyang Zhou, Hongsheng Chen, Xue-Feng Zhu, Ying Li | (参考訳) 非エルミート的ハミルトニアンの固有値は、しばしば自己交差リーマン曲面を形成するため、ハミルトニアンが例外点 (EP) の周りの特定のループ経路に沿って進化する際、ユニークなモード変換現象を引き起こす。
モード変換の速度は断熱的な要求によって制限され、キラリティーは自由に制御できない。
ここでは,非エルミートハミルトニアンの進化において,同じ経路上でのカイラルモードと非カイラルモードの変換を動的に行う手法を提案する。
本手法は, 即時断熱性の定量化と制御を基本とし, 経路全体の不均一な進化を可能にする。
本手法をマイクロ波導波路系に適用し, 進化ループに沿った分散断熱性を最適化することにより, 従来の準断熱進化と同等のモード変換を, わずか4分の1の時間で達成する。
我々のアプローチはEPを取り巻くスピードとキラリティの問題に対処するための包括的で普遍的な解決策を提供する。
また、非断熱的なプロセスの動的な操作と制御が容易になり、操作を加速し、様々なモード変換パターンを選択できる。 The eigenvalue of a non-Hermitian Hamiltonian often forms a self-intersecting Riemann surface, leading to a unique mode conversion phenomenon when the Hamiltonian evolves along certain loop paths around an exceptional point (EP). However, two fundamental problems exist with the conventional scheme of EP encircling: the speed of mode conversion is restricted by the adiabatic requirement, and the chirality cannot be freely controlled. Here, we introduce a method which dynamically engineers the adiabaticity in the evolution of non-Hermitian Hamiltonians that allows for both chiral and non-chiral mode conversion on the same path. Our method is based on quantifying and controlling the instantaneous adiabaticity, allowing for non-uniform evolution throughout the entire path. We apply our method into the microwave waveguide system and by optimizing the distributed adiabaticity along the evolution loop, we achieve the same quality of mode conversion as conventional quasi-adiabatic evolution in only one-fourth of the time. Our approach provides a comprehensive and universal solution to address the speed and chirality challenges associated with EP encircling. It also facilitates the dynamic manipulation and regulation of non-adiabatic processes, thereby accelerating the operation and allowing for a selection among various mode conversion patterns. | 翻訳日:2024-02-05 20:26:49 公開日:2024-02-02 |
# ポジティブAI: 幸福のための人工知能設計における重要な課題 Positive AI: Key Challenges in Designing Artificial Intelligence for Wellbeing ( http://arxiv.org/abs/2304.12241v4 ) ライセンス: Link先を確認 | Willem van der Maden, Derek Lomas, Malak Sadek, Paul Hekkert | (参考訳) 人工知能(ai)は二重刃の剣であり、一方aiは人類に利益をもたらすような大きな進歩をもたらすことを約束しているが、他方、aiは実質的な(存在さえも)リスクを負う。
日々の進歩によって、多くの人々はAIが生活に与える影響をますます心配している。
AIの進歩を確実にするために、一部の研究者はAIを統治する鍵となる目的として「幸福」を提案した。
この記事では、幸福のためにAIを設計する際の重要な課題に対処する。
これらの課題を、コンテキストにおける幸福のモデリング、コンテキストにおける幸福の評価、幸福の改善のための介入の設計、時間とともに幸福のAIアライメントを維持するという課題にまとめる。
これらの課題の特定は、AI開発が人間の幸福と一致していることを保証するための努力のスコープを提供する。 Artificial Intelligence (AI) is a double-edged sword: on one hand, AI promises to provide great advances that could benefit humanity, but on the other hand, AI poses substantial (even existential) risks. With advancements happening daily, many people are increasingly worried about AI's impact on their lives. To ensure AI progresses beneficially, some researchers have proposed "wellbeing" as a key objective to govern AI. This article addresses key challenges in designing AI for wellbeing. We group these challenges into issues of modeling wellbeing in context, assessing wellbeing in context, designing interventions to improve wellbeing, and maintaining AI alignment with wellbeing over time. The identification of these challenges provides a scope for efforts to help ensure that AI developments are aligned with human wellbeing. | 翻訳日:2024-02-05 20:26:24 公開日:2024-02-02 |
# 乱数生成器としてのプログラム可能な量子アニーラの解析 Analysis of a Programmable Quantum Annealer as a Random Number Generator ( http://arxiv.org/abs/2307.02573v3 ) ライセンス: Link先を確認 | Elijah Pelofske | (参考訳) 量子アニーリング(quantum annealing, qa)は、アディアバティック量子計算の緩和形であり、プログラム可能なイジングモデルの基底状態解を探索するために量子揺らぎを用いるアナログ量子計算の一種である。
ここでは、d-wave 2000q量子アニーラによる広範囲な実験的な乱数結果を示し、200億ビット以上のqa測定を行い、これは従来のd-wave qa乱数生成器の研究よりもはるかに大きい。
現在の量子アニーラは環境からのノイズや校正誤差に影響を受けやすく、一般に偏りのないサンプリング器ではない。
したがって、ノイズ量子アニールが非バイアスQRNGとして効果的に機能できるかどうかを定量化することは興味深い。
量子アニール器から収集されたデータの量は、NIST SP 800-22 Rev 1aテストスーツとNIST SP 800-90Bのミンエントロピー推定を用いてランダムビットの包括的な分析を可能にする。
ランダムネステストは、D-Wave 2000Qから生成されたランダムビットがバイアスを受けており、予測不可能なランダムビットシーケンスではないことを示す。
サーバー側のサンプリング後処理がなく、マイクロ秒のアニーリング時間の測定値は0.824ドルであった。 Quantum annealing (QA) is a type of analog quantum computation that is a relaxed form of adiabatic quantum computation and uses quantum fluctuations in order to search for ground state solutions of a programmable Ising model. Here we present extensive experimental random number results from a D-Wave 2000Q quantum annealer, totaling over 20 billion bits of QA measurements, which is significantly larger than previous D-Wave QA random number generator studies. Current quantum annealers are susceptible to noise from environmental sources and calibration errors, and are not in general unbiased samplers. Therefore, it is of interest to quantify whether noisy quantum annealers can effectively function as an unbiased QRNG. The amount of data that was collected from the quantum annealer allows a comprehensive analysis of the random bits to be performed using the NIST SP 800-22 Rev 1a testsuite, as well as min-entropy estimates from NIST SP 800-90B. The randomness tests show that the generated random bits from the D-Wave 2000Q are biased, and not unpredictable random bit sequences. With no server-side sampling post-processing, the $1$ microsecond annealing time measurements had a min-entropy of $0.824$. | 翻訳日:2024-02-05 20:20:13 公開日:2024-02-02 |
# ディープグラフカーネルポイントプロセス Deep graph kernel point processes ( http://arxiv.org/abs/2306.11313v3 ) ライセンス: Link先を確認 | Zheng Dong, Matthew Repasky, Xiuyuan Cheng, Yao Xie | (参考訳) ポイントプロセスモデルは、連続した非同期イベントデータに広く使用され、各データポイントには、場所、ノード、イベントタイプといった「マーク」と呼ばれる時間と追加情報が含まれている。
本稿では,グラフ上の離散的なイベントデータに対する新たなポイントプロセスモデルを提案する。
我々のモデルは、ホークスの初期の自己引用点プロセスにおけるカーネルベースの定式化が、将来の出来事の発生に対する歴史的な出来事の影響を捉えるために働くことに基づいている。
キーとなるアイデアは、グラフニューラルネットワーク(GNN)による影響カーネルの表現であり、GNNの強力な表現能力を取得しながら、基盤となるグラフ構造をキャプチャする。
ニューラルネットワークを用いた条件強度関数の直接モデリングに焦点を当てた先行研究と比較し,統計モデルと深層モデルを組み合わせて,モデル推定/学習効率の向上と優れた予測性能を実現することにより,繰り返し発生する事象の影響パターンをより効果的に示す。
本研究は,観測空間の性質がグラフではなくユークリッドであることの根本的な違いから,既存の点プロセスデータに対する深部時空間カーネルを著しく拡張する。
本稿では,合成データと実世界のデータに関する総合的な実験を行い,今後の事象予測とデータ間の関係構造を明らかにするための最先端手法の優れた性能を示す。 Point process models are widely used for continuous asynchronous event data, where each data point includes time and additional information called "marks", which can be locations, nodes, or event types. This paper presents a novel point process model for discrete event data over graphs, where the event interaction occurs within a latent graph structure. Our model builds upon Hawkes's classic influence kernel-based formulation in the original self-exciting point processes work to capture the influence of historical events on future events' occurrence. The key idea is to represent the influence kernel by Graph Neural Networks (GNN) to capture the underlying graph structure while harvesting the strong representation power of GNNs. Compared with prior works focusing on directly modeling the conditional intensity function using neural networks, our kernel presentation herds the repeated event influence patterns more effectively by combining statistical and deep models, achieving better model estimation/learning efficiency and superior predictive performance. Our work significantly extends the existing deep spatio-temporal kernel for point process data, which is inapplicable to our setting due to the fundamental difference in the nature of the observation space being Euclidean rather than a graph. We present comprehensive experiments on synthetic and real-world data to show the superior performance of the proposed approach against the state-of-the-art in predicting future events and uncovering the relational structure among data. | 翻訳日:2024-02-05 20:19:36 公開日:2024-02-02 |
# 球殻の重ね合わせにおける重力量子スイッチ Gravitational quantum switch on a superposition of spherical shells ( http://arxiv.org/abs/2306.10984v3 ) ライセンス: Link先を確認 | Nat\'alia S. M\'oller, Bruna Sahdo, Nelson Yokomizo | (参考訳) 異なる時空幾何学の量子重ね合わせを記述する状態の存在は、一般に量子重力の理論で期待される特徴である。
現象論的モデルは、不定順序のプロセスの発生を含む、ジオメトリーの重畳による影響の解析のために最近研究されている。
重力量子スイッチでは、特に、ターゲット系上の2つのエージェントによって適用される操作の順序は、幾何学の状態と絡み合っている。
球状質量殻の異なる配置によって生成される幾何学の重ね合わせを記述するモデルを検討し、重力量子スイッチの実装のためのプロトコルをそのような系で定式化できることを示す。
重ね合わせのジオメトリは、所定の半径外の外部領域において同一であり、そのような半径内で異なる。
外界領域は、内部領域における幾何学の重ね合わせを調査できる古典的なフレームを提供する。
エージェントの1つは内部領域を横断し、量子スイッチの実装のリソースとして探索される幾何学と絡み合う。
このプロトコルの新たな特徴は、非等尺幾何学の重ね合わせ、一定の幾何学を持つ領域の存在、および幾何学の重ね合わせを経験するエージェントが自由落下であるという事実であり、その実験室から得られる大域幾何学に関する情報を妨げている。 The existence of states describing quantum superpositions of distinct spacetime geometries is a feature that is generally expected in theories of quantum gravity. Phenomenological models have recently been explored for the analysis of possible effects due to a superposition of geometries, including the occurrence of processes with indefinite order. In a gravitational quantum switch, in particular, the order of operations applied by two agents on a target system is entangled with the state of the geometry. We consider a model describing the superposition of geometries produced by distinct arrangements of spherical mass shells, and show that a protocol for the implementation of a gravitational quantum switch can be formulated in such a system. The geometries in superposition are identical in an exterior region outside a given radius, and differ within such a radius. The exterior region provides a classical frame from which the superposition of geometries in the interior region can be probed. One of the agents crosses the interior region and becomes entangled with the geometry, which is explored as a resource for the implementation of the quantum switch. Novel features of the protocol include the superposition of nonisometric geometries, the existence of a region with a definite geometry, and the fact that the agent that experiences the superposition of geometries is in free fall, preventing information on the global geometry to be obtained from within its laboratory. | 翻訳日:2024-02-05 20:19:11 公開日:2024-02-02 |
# 量子連合学習に向けて Towards Quantum Federated Learning ( http://arxiv.org/abs/2306.09912v2 ) ライセンス: Link先を確認 | Chao Ren, Han Yu, Rudai Yan, Minrui Xu, Yuan Shen, Huihui Zhu, Dusit Niyato, Zhao Yang Dong, Leong Chuan Kwek | (参考訳) 量子フェデレーション学習(quantum federated learning, qfl)は、量子コンピューティング(qc)とフェデレーション学習(fl)の原則を融合させた、新たな学際的分野である。
現在、この学際分野に関する総合的な調査は行われていない。
このレビューはQFLを徹底的に総合的に検証する。
我々は、QFLの原則、技術、および新しい応用に関する包括的理解を提供することを目指している。
我々は,この急速に発展する分野における研究の現状を議論し,これらの技術の統合に伴う課題と機会を特定し,今後の方向性と今後の研究課題を概説する。
本稿では,QFL法の特徴とそれを用いた量子技術に基づいて分類した独自の分類法を提案する。
QFLの分野が進むにつれて、さまざまな業界におけるさらなるブレークスルーやアプリケーション、イノベーションの推進、データプライバシ、セキュリティ、リソース最適化に関する課題への対処が期待できます。
このレビューは、QFLの分野の理解と進歩に関心のある研究者や実践者のための、先駆的な総合的なガイドとなっている。 Quantum Federated Learning (QFL) is an emerging interdisciplinary field that merges the principles of Quantum Computing (QC) and Federated Learning (FL), with the goal of leveraging quantum technologies to enhance privacy, security, and efficiency in the learning process. Currently, there is no comprehensive survey for this interdisciplinary field. This review offers a thorough, holistic examination of QFL. We aim to provide a comprehensive understanding of the principles, techniques, and emerging applications of QFL. We discuss the current state of research in this rapidly evolving field, identify challenges and opportunities associated with integrating these technologies, and outline future directions and open research questions. We propose a unique taxonomy of QFL techniques, categorized according to their characteristics and the quantum techniques employed. As the field of QFL continues to progress, we can anticipate further breakthroughs and applications across various industries, driving innovation and addressing challenges related to data privacy, security, and resource optimization. This review serves as a first-of-its-kind comprehensive guide for researchers and practitioners interested in understanding and advancing the field of QFL. | 翻訳日:2024-02-05 20:18:50 公開日:2024-02-02 |
# 自己修復はコード生成のための銀の弾丸か? Is Self-Repair a Silver Bullet for Code Generation? ( http://arxiv.org/abs/2306.09896v5 ) ライセンス: Link先を確認 | Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao, Armando Solar-Lezama | (参考訳) 大規模な言語モデルはコード生成に著しい適性を示しているが、それでも複雑なタスクの実行に苦労している。
自己修復 — モデルが自身のコードをデバッグし、修復する — は、最近、これらの設定のパフォーマンスを高める一般的な方法になっている。
しかし、その人気にもかかわらず、既存の自己修復研究の範囲は限られており、多くの設定においてその効果はいまだに理解されていない。
本稿では,Code Llama, GPT-3.5, GPT-4によるHumanEvalとAPPSの自己修復能力について分析する。
修復のコストを考慮すると、パフォーマンスの向上はしばしば控えめで、データのサブセットによって大きく異なり、時にはまったく存在しません。
これは、自己修復が、モデルが自身のコードに対してフィードバックを提供する能力によってボトルネックになっているためである、という仮説を立てる。
同様に、人間の参加者からのフィードバックをGPT-4で提供する小規模な研究は、最強のモデルであっても、人間レベルのデバッグで達成できるよりもはるかに遅れていることを示唆している。 Large language models have shown remarkable aptitude in code generation, but still struggle to perform complex tasks. Self-repair -- in which the model debugs and repairs its own code -- has recently become a popular way to boost performance in these settings. However, despite its increasing popularity, existing studies of self-repair have been limited in scope; in many settings, its efficacy thus remains poorly understood. In this paper, we analyze Code Llama, GPT-3.5 and GPT-4's ability to perform self-repair on problems taken from HumanEval and APPS. We find that when the cost of carrying out repair is taken into account, performance gains are often modest, vary a lot between subsets of the data, and are sometimes not present at all. We hypothesize that this is because self-repair is bottlenecked by the model's ability to provide feedback on its own code; using a stronger model to artificially boost the quality of the feedback, we observe substantially larger performance gains. Similarly, a small-scale study in which we provide GPT-4 with feedback from human participants suggests that even for the strongest models, self-repair still lags far behind what can be achieved with human-level debugging. | 翻訳日:2024-02-05 20:18:30 公開日:2024-02-02 |
# 通信波長における再構成可能な量子ネットワークのマルチモード圧縮状態 Multimode Squeezed State for Reconfigurable Quantum Networks at Telecommunication Wavelengths ( http://arxiv.org/abs/2306.07267v3 ) ライセンス: Link先を確認 | Victor Roman-Rodriguez, David Fainsin, Guilherme L. Zanin, Nicolas Treps, Eleni Diamanti, Valentina Parigi | (参考訳) 量子情報の連続的な可変符号化には、量子ネットワークの形で非常に相関性の高い光の量子状態が決定論的に生成する必要がある。
本研究では,光通信波長におけるマルチモード圧縮状態の実験的な源を提案する。
このような波長での生成は特に重要であり、量子情報処理、通信、センシングを実験室スケールを超えて実現することができる。
フェムト秒レーザーの第2高調波を励起した非線形導波路における単パス自発パラメトリックダウンコンバージョン法を用いる。
測定の結果, 周波数モードが21種類以上あり, 最大スクイーズ値は2.5dB以上であった。
状態の共分散行列を測定することで多人数の絡み合いを示す。
最後に、少数ノードのクラスタ状態を作成し、それらのnullifier squeezingレベルを測定することで、ソース再構成性を示す。
これらの結果は、通信波長、特にマルチパーティの絡み合った量子通信において、連続変数量子情報プロトコルをスケーラブルに実装するための道を開いた。
さらに、ソースは追加のパルスバイパルス多重化と互換性があり、量子コンピューティングプロトコルに必要な3次元の絡み合い構造を構築するのに使うことができる。 Continuous variable encoding of quantum information requires the deterministic generation of highly correlated quantum states of light in the form of quantum networks, which, in turn, necessitates the controlled generation of a large number of squeezed modes. In this work, we present an experimental source of multimode squeezed states of light at telecommunication wavelengths. Generation at such wavelengths is especially important as it can enable quantum information processing, communication, and sensing beyond the laboratory scale. We use a single-pass spontaneous parametric down-conversion process in a non-linear waveguide pumped with the second harmonic of a femtosecond laser. Our measurements reveal significant squeezing in more than 21 frequency modes, with a maximum squeezing value exceeding 2.5 dB. We demonstrate multiparty entanglement by measuring the state's covariance matrix. Finally, we show the source reconfigurability by preparing few-node cluster states and measure their nullifier squeezing level. These results pave the way for a scalable implementation of continuous variable quantum information protocols at telecommunication wavelengths, particularly for multiparty, entanglement-based quantum communications. Moreover, the source is compatible with additional pulse-by-pulse multiplexing, which can be utilized to construct the necessary three-dimensional entangled structures for quantum computing protocols. | 翻訳日:2024-02-05 20:18:08 公開日:2024-02-02 |
# k-テンソル:正の半定義行列のクラスタリング K-Tensors: Clustering Positive Semi-Definite Matrices ( http://arxiv.org/abs/2306.06534v4 ) ライセンス: Link先を確認 | Hanchao Zhang, Baoyi Shi, Thaddeus Tarpey | (参考訳) 本稿では,psd行列を固有構造によってクラスタ化するために設計された,新しい自己整合クラスタリングアルゴリズムである$k$-tensorsを提案する。
PSD行列のクラスタリングは、コンピュータやバイオメディカル科学など、さまざまな分野において重要である。
行列ベクトル化を伴う伝統的なクラスタリング手法は、固有のPSD特性を見落とし、価値ある形状や固有構造情報を捨てる傾向がある。
この本質的な形状と固有構造情報を保存するために,データのPSD特性を尊重するユニークな距離メートル法を取り入れた。
K$-Tensors は自己整合であるだけでなく、局所最適化に確実に収束することを示した。
数値研究を通じて,アルゴリズムの有効性をさらに検証し,その性質を詳細に検討する。 This paper introduces $K$-Tensors, a novel self-consistent clustering algorithm designed to cluster positive semi-definite (PSD) matrices by their eigenstructures. Clustering PSD matrices is crucial across various fields, including computer and biomedical sciences. Traditional clustering methods, which often involve matrix vectorization, tend to overlook the inherent PSD characteristics, thereby discarding valuable shape and eigenstructural information. To preserve this essential shape and eigenstructral information, our approach incorporates a unique distance metric that respects the PSD nature of the data. We demonstrate that $K$-Tensors is not only self-consistent but also reliably converges to a local optimum. Through numerical studies, we further validate the algorithm's effectiveness and explore its properties in detail. | 翻訳日:2024-02-05 20:17:47 公開日:2024-02-02 |
# 普遍自己回帰量子状態に対する条件付きモデリングの影響 Impact of conditional modelling for a universal autoregressive quantum state ( http://arxiv.org/abs/2306.05917v3 ) ライセンス: Link先を確認 | Massimo Bortone and Yannic Rath and George H. Booth | (参考訳) 本稿では,普遍的量子状態近似器を適応させるための一般化された枠組みを提案する。
また,ニューラルネットワークの畳み込み層に対するアナロジーとしてフィルタを導入し,任意の量子状態における変換対称性相関を取り込む。
この枠組みをガウス過程の状態に応用することにより,自己回帰的および/またはフィルター特性を強制し,変動の柔軟性,対称性,保存量に対する帰納的バイアスの影響を分析する。
これにより、マシンラーニングにインスパイアされたans\"atzeの統一フレームワークの下で、さまざまな自己回帰状態が統合されます。
この結果から,自己回帰構造がスピンおよびフェルミオン格子モデルの相関を記述するための変分モデルの能力にどのように影響するか,および表現の選択が精度に影響を及ぼす電子構造問題について考察した。
我々は,効率的な直接サンプリングを可能にしながら,メトロポリスサンプリングにおける自己相関やエルゴディシティの問題の消失を回避しつつ,多くのシステムにおいて,自己回帰的構成はモデルの表現性を物質的に制約していると結論づける。 We present a generalized framework to adapt universal quantum state approximators, enabling them to satisfy rigorous normalization and autoregressive properties. We also introduce filters as analogues to convolutional layers in neural networks to incorporate translationally symmetrized correlations in arbitrary quantum states. By applying this framework to the Gaussian process state, we enforce autoregressive and/or filter properties, analyzing the impact of the resulting inductive biases on variational flexibility, symmetries, and conserved quantities. In doing so we bring together different autoregressive states under a unified framework for machine learning-inspired ans\"atze. Our results provide insights into how the autoregressive construction influences the ability of a variational model to describe correlations in spin and fermionic lattice models, as well as ab initio electronic structure problems where the choice of representation affects accuracy. We conclude that, while enabling efficient and direct sampling, thus avoiding autocorrelation and loss of ergodicity issues in Metropolis sampling, the autoregressive construction materially constrains the expressivity of the model in many systems. | 翻訳日:2024-02-05 20:17:35 公開日:2024-02-02 |
# 大規模言語モデルからレコメンダシステムにどのようなメリットがあるか:調査 How Can Recommender Systems Benefit from Large Language Models: A Survey ( http://arxiv.org/abs/2306.05817v5 ) ライセンス: Link先を確認 | Jianghao Lin, Xinyi Dai, Yunjia Xi, Weiwen Liu, Bo Chen, Hao Zhang, Yong Liu, Chuhan Wu, Xiangyang Li, Chenxu Zhu, Huifeng Guo, Yong Yu, Ruiming Tang, Weinan Zhang | (参考訳) オンラインサービスの急速な発展に伴い、リコメンダシステム(rs)は情報過負荷の軽減にますます不可欠になっている。
目覚ましい進歩にもかかわらず、従来のレコメンデーションモデル(CRM)には、オープンワールド知識の欠如、ユーザの基本的な好みやモチベーションの理解の困難など、いくつかの制限がある。
一方、大きな言語モデル(LLM)は、その広範なオープンワールドの知識、推論能力、そして人間の文化や社会の理解から生まれた、印象的な汎用知性と人間のような能力を示している。
その結果、LLMの出現はレコメンダシステムの設計を刺激し、将来性のある研究方向、すなわち、LLMを取り入れてCRMの限界を補うための知識と能力の恩恵を受けることができるかどうかを指摘する。
本稿では,本研究の方向性について,実世界のレコメンダシステムにおけるパイプライン全体の観点から総合的な調査を行う。
具体的には、2つの直交的な側面から既存の作品を要約する: LLM を RS に適用する場所と方法。
WHERE質問では,LLMがレコメンデーションパイプラインのさまざまな段階,すなわち機能工学,機能エンコーダ,スコアリング/ランク機能,ユーザインタラクション,パイプラインコントローラで果たす役割について議論する。
HOW質問では、トレーニングと推論戦略について検討し、2つのきめ細かい分類基準、すなわち、LSMをチューニングするか否か、推論のための従来の推奨モデルを含むべきかを考察した。
次に,3つの側面,すなわち効率性,有効性,倫理性から,LSMをRSに適用する上での課題を強調した。
最後に,調査の概要と今後の展望について考察する。
論文やその他の関連リソースのGitHubリポジトリを積極的に管理しています。 With the rapid development of online services, recommender systems (RS) have become increasingly indispensable for mitigating information overload. Despite remarkable progress, conventional recommendation models (CRM) still have some limitations, e.g., lacking open-world knowledge, and difficulties in comprehending users' underlying preferences and motivations. Meanwhile, large language models (LLM) have shown impressive general intelligence and human-like capabilities, which mainly stem from their extensive open-world knowledge, reasoning ability, as well as their comprehension of human culture and society. Consequently, the emergence of LLM is inspiring the design of recommender systems and pointing out a promising research direction, i.e., whether we can incorporate LLM and benefit from their knowledge and capabilities to compensate for the limitations of CRM. In this paper, we conduct a comprehensive survey on this research direction from the perspective of the whole pipeline in real-world recommender systems. Specifically, we summarize existing works from two orthogonal aspects: where and how to adapt LLM to RS. For the WHERE question, we discuss the roles that LLM could play in different stages of the recommendation pipeline, i.e., feature engineering, feature encoder, scoring/ranking function, user interaction, and pipeline controller. For the HOW question, we investigate the training and inference strategies, resulting in two fine-grained taxonomy criteria, i.e., whether to tune LLM or not, and whether to involve conventional recommendation models for inference. Then, we highlight key challenges in adapting LLM to RS from three aspects, i.e., efficiency, effectiveness, and ethics. Finally, we summarize the survey and discuss the future prospects. We actively maintain a GitHub repository for papers and other related resources: https://github.com/CHIANGEL/Awesome-LLM-for-RecSys/. | 翻訳日:2024-02-05 20:17:16 公開日:2024-02-02 |
# 正規電位に基づくプレイヤーレーティング Ordinal Potential-based Player Rating ( http://arxiv.org/abs/2306.05366v3 ) ライセンス: Link先を確認 | Nelson Vadori and Rahul Savani | (参考訳) 近年、エロレーティングは戦略間の推移的関係を保つことに失敗し、ゲームの推移的要素を正しく抽出できないことが観測された。
順序ポテンシャルゲームの弱い変種としての推移ゲームの特徴を示し、適切な可逆写像を用いて、正しい空間で計算された場合の移動性が実際に維持されることを示す。
この知見を生かして,ニューラルネットワークアーキテクチャを用いて学習し,戦略間の推移的および循環的関係であるゲームの符号パターンを優先的に捉える,推移的および循環的要素に任意のゲームの新たなゲーム分解を導入する。
我々は,従来のサインランクの概念にアプローチをリンクし,実世界のゲームからの経験的データとおもちゃの例を用いて方法論を評価する。 It was recently observed that Elo ratings fail at preserving transitive relations among strategies and therefore cannot correctly extract the transitive component of a game. We provide a characterization of transitive games as a weak variant of ordinal potential games and show that Elo ratings actually do preserve transitivity when computed in the right space, using suitable invertible mappings. Leveraging this insight, we introduce a new game decomposition of an arbitrary game into transitive and cyclic components that is learnt using a neural network-based architecture and that prioritises capturing the sign pattern of the game, namely transitive and cyclic relations among strategies. We link our approach to the known concept of sign-rank, and evaluate our methodology using both toy examples and empirical data from real-world games. | 翻訳日:2024-02-05 20:16:46 公開日:2024-02-02 |
# 半線形楕円型PDEにおける非平滑重ね合わせ作用素の同定と最適化について On the Identification and Optimization of Nonsmooth Superposition Operators in Semilinear Elliptic PDEs ( http://arxiv.org/abs/2306.05185v2 ) ライセンス: Link先を確認 | Constantin Christof and Julia Kowalczyk | (参考訳) 本研究では,pde解と与えられた所望の状態との間の距離を最小化する半線形楕円偏微分方程式(pde)の非線形部分におけるネミツキー作用素の同定を目的とした無限次元最適化問題について検討する。
以前の研究とは対照的に、ネミトスキー作用素を誘導する関数が a-プリオリであることは、$H^1_{loc}(\mathbb{R})$ の要素であることが知られている。
これにより、未知の重ね合わせ演算子を非平滑活性化機能を有するニューラルネットワーク(ReLU, leaky-ReLUなど)を用いて近似する学習インフォームドPDEの訓練問題を厳格に解析する上で、学習問題クラスを出発点として適当となる。
制御の規則性が低いにもかかわらず、局所最小化器の古典的定常性系を導出し、勾配投影法を用いて検討された問題を解くことができる。
結果のアルゴリズムの収束性は関数空間の設定で証明される。
また、確立された一階必要最適条件は、局所最適重ね合わせ演算子が、一般的に使用される活性化関数と様々な特性を共有していることを示している。
本論文は理論的知見を裏付ける数値実験によって結論づける。 We study an infinite-dimensional optimization problem that aims to identify the Nemytskii operator in the nonlinear part of a prototypical semilinear elliptic partial differential equation (PDE) which minimizes the distance between the PDE-solution and a given desired state. In contrast to previous works, we consider this identification problem in a low-regularity regime in which the function inducing the Nemytskii operator is a-priori only known to be an element of $H^1_{loc}(\mathbb{R})$. This makes the studied problem class a suitable point of departure for the rigorous analysis of training problems for learning-informed PDEs in which an unknown superposition operator is approximated by means of a neural network with nonsmooth activation functions (ReLU, leaky-ReLU, etc.). We establish that, despite the low regularity of the controls, it is possible to derive a classical stationarity system for local minimizers and to solve the considered problem by means of a gradient projection method. The convergence of the resulting algorithm is proven in the function space setting. It is also shown that the established first-order necessary optimality conditions imply that locally optimal superposition operators share various characteristic properties with commonly used activation functions: They are always sigmoidal, continuously differentiable away from the origin, and typically possess a distinct kink at zero. The paper concludes with numerical experiments which confirm the theoretical findings. | 翻訳日:2024-02-05 20:16:32 公開日:2024-02-02 |
# 準備・測定シナリオにおける自己検証とウィグナーの定理の堅牢版 Self-testing in prepare-and-measure scenarios and a robust version of Wigner's theorem ( http://arxiv.org/abs/2306.00730v3 ) ライセンス: Link先を確認 | Miguel Navascues, K\'aroly F. P\'al, Tam\'as V\'ertesi and Mateus Ara\'ujo | (参考訳) 我々は、ある相手が既知の次元の量子状態のD$を信頼できない装置で準備した通信シナリオを別の相手に送信し、その相手を非特性測定装置で探索する。
我々は、任意の参照純量子状態のアンサンブルに対して、そのような準備と測定のシナリオと、観測された測定確率の線形汎関数 $w$ が存在することを証明し、その準備が基準状態、ユニタリまたは反ユニタリ変換と一致する場合にのみ$w$ が最大化可能であることを証明する。
言い換えれば、準備と測定のシナリオは純粋な量子状態の任意のアンサンブルを「自己テスト」することができる。
任意の極端な$D$次元量子測定、またはその集合も同様に自己検定することができる。
我々の結果は、物理対称性を特徴づける粒子物理学のよく知られた結果であるウィグナーの定理の堅牢な一般化に依存している。 We consider communication scenarios where one party sends quantum states of known dimensionality $D$, prepared with an untrusted apparatus, to another, distant party, who probes them with uncharacterized measurement devices. We prove that, for any ensemble of reference pure quantum states, there exists one such prepare-and-measure scenario and a linear functional $W$ on its observed measurement probabilities, such that $W$ can only be maximized if the preparations coincide with the reference states, modulo a unitary or an anti-unitary transformation. In other words, prepare-and-measure scenarios allow one to "self-test" arbitrary ensembles of pure quantum states. Arbitrary extreme $D$-dimensional quantum measurements, or sets thereof, can be similarly self-tested. Our results rely on a robust generalization of Wigner's theorem, a well-known result in particle physics that characterizes physical symmetries. | 翻訳日:2024-02-05 20:16:05 公開日:2024-02-02 |
# 意味的脳MRI合成のための条件拡散モデル Conditional Diffusion Models for Semantic 3D Brain MRI Synthesis ( http://arxiv.org/abs/2305.18453v4 ) ライセンス: Link先を確認 | Zolnamar Dorjsembe, Hsing-Kuo Pao, Sodtavilan Odonchimed, Furen Xiao | (参考訳) 医療、特に医療画像における人工知能(AI)は、データの不足とプライバシー上の懸念のために課題に直面している。
Med-DDPMは3次元意味脳MRI合成のための拡散モデルである。
このモデルはセマンティックコンディショニングを統合することでデータ不足とプライバシーの問題に効果的に取り組む。
これは、コンディショニング画像をモデル入力にチャネル単位で結合することを含み、画像生成における制御を可能にする。
Med-DDPMは既存の3次元脳画像合成法に比べて安定性と性能が優れている。
視覚的忠実度の高い多種多様な解剖学的コヒーレントな画像を生成する。
腫瘍セグメンテーションタスクにおけるダイススコアの精度に関して、Med-DDPMは実際の画像の0.6531精度に近い0.6207を達成し、ベースラインモデルを上回っている。
実画像と組み合わせることで、さらにセグメンテーション精度を 0.6675 に向上させ、提案するデータ拡張手法の可能性を示した。
このモデルは、3次元意味脳MRI合成における拡散モデルの最初の使用であり、高品質な画像を生成する。
そのセマンティックコンディショニング機能は、バイオメディカルイメージング、データ処理、プライバシー問題における画像匿名化の可能性も示している。
再現性をサポートするため、githubリポジトリ(https://github.com/mobaidoctor/med-ddpm/)にmed-ddpmのコードとモデルウェイトを提供します。 Artificial intelligence (AI) in healthcare, especially in medical imaging, faces challenges due to data scarcity and privacy concerns. Addressing these, we introduce Med-DDPM, a diffusion model designed for 3D semantic brain MRI synthesis. This model effectively tackles data scarcity and privacy issues by integrating semantic conditioning. This involves the channel-wise concatenation of a conditioning image to the model input, enabling control in image generation. Med-DDPM demonstrates superior stability and performance compared to existing 3D brain imaging synthesis methods. It generates diverse, anatomically coherent images with high visual fidelity. In terms of dice score accuracy in the tumor segmentation task, Med-DDPM achieves 0.6207, close to the 0.6531 accuracy of real images, and outperforms baseline models. Combined with real images, it further increases segmentation accuracy to 0.6675, showing the potential of our proposed method for data augmentation. This model represents the first use of a diffusion model in 3D semantic brain MRI synthesis, producing high-quality images. Its semantic conditioning feature also shows potential for image anonymization in biomedical imaging, addressing data and privacy issues. We provide the code and model weights for Med-DDPM on our GitHub repository (https://github.com/mobaidoctor/med-ddpm/) to support reproducibility. | 翻訳日:2024-02-05 20:15:23 公開日:2024-02-02 |
# パノラマ深度のキャリブレーションによる実用的位置推定とマッピング Calibrating Panoramic Depth Estimation for Practical Localization and Mapping ( http://arxiv.org/abs/2308.14005v2 ) ライセンス: Link先を確認 | Junho Kim, Eun Sun Lee, Young Min Kim | (参考訳) 周辺環境の絶対深度値は, 位置推定, ナビゲーション, 3次元構造推定など, 様々な支援技術にとって重要な手がかりとなる。
本研究では,パノラマ画像から推定された精度の高い深度を3d情報を必要とする幅広い下流タスクに対して強力で軽量な入力として利用できることを示す。
パノラマ画像はコモディティ機器から周囲の状況を容易に捉えることができるが、推定深度は従来の画像に基づく深度推定の限界と一致する。
総合的な視点を生かして,このような効果を自己教師ありの方法で緩和し,テストフェーズ中に幾何学的一貫性を持つネットワークを微調整する。
具体的には、現在の深度予測から3次元点雲を構築し、様々な視点で点雲を投影するか、あるいは現在の入力画像にストレッチを適用して合成パノラマを生成する。
そして, 合成画像から推定した3次元構造のばらつきを, 付加データを集めることなく最小化する。
本手法は,ロボットナビゲーションとマップフリーローカライズにおいて,大規模性能向上を示すため,実証的に評価する。
したがって, キャリブレーション法は, 様々な外部条件下で適用範囲を広げ, パノラマベースマシンビジョンシステムにおいて重要な要素となる。
コードは次のリンクから入手できる。 \url{https://github.com/82magnolia/panoramic-depth-calibration}。 The absolute depth values of surrounding environments provide crucial cues for various assistive technologies, such as localization, navigation, and 3D structure estimation. We propose that accurate depth estimated from panoramic images can serve as a powerful and light-weight input for a wide range of downstream tasks requiring 3D information. While panoramic images can easily capture the surrounding context from commodity devices, the estimated depth shares the limitations of conventional image-based depth estimation; the performance deteriorates under large domain shifts and the absolute values are still ambiguous to infer from 2D observations. By taking advantage of the holistic view, we mitigate such effects in a self-supervised way and fine-tune the network with geometric consistency during the test phase. Specifically, we construct a 3D point cloud from the current depth prediction and project the point cloud at various viewpoints or apply stretches on the current input image to generate synthetic panoramas. Then we minimize the discrepancy of the 3D structure estimated from synthetic images without collecting additional data. We empirically evaluate our method in robot navigation and map-free localization where our method shows large performance enhancements. Our calibration method can therefore widen the applicability under various external conditions, serving as a key component for practical panorama-based machine vision systems. Code is available through the following link: \url{https://github.com/82magnolia/panoramic-depth-calibration}. | 翻訳日:2024-02-05 20:08:33 公開日:2024-02-02 |
# 協調型マルチエージェント強化学習のための${\rm E}(3)$-equivariant Actor-Critic法 ${\rm E}(3)$-Equivariant Actor-Critic Methods for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2308.11842v2 ) ライセンス: Link先を確認 | Dingyang Chen, Qi Zhang | (参考訳) 自然界における対称的パターンの同定と分析は、物理学における重力法則の定式化や化学構造の研究の進展など、様々な科学分野において重要な発見をもたらした。
本稿では,ある協調型マルチエージェント強化学習(MARL)問題に固有のユークリッド対称性を活用することに着目し,多くの応用で広く利用されている。
まず、対称最適値とポリシーの存在を認める対称性の一般概念でマルコフゲームのサブクラスを正式に特徴づけることから始める。
これらの特性により、我々はマルチエージェントアクター批判手法の帰納バイアスとして対称制約を組み込んだニューラルネットワークアーキテクチャを設計する。
この帰納バイアスは、様々な協調型MARLベンチマークにおける優れた性能と、繰り返し対称パターンを持つ未知のシナリオにおけるゼロショット学習や転送学習のような印象的な一般化能力をもたらす。
コードはhttps://github.com/dchen48/e3ac。 Identification and analysis of symmetrical patterns in the natural world have led to significant discoveries across various scientific fields, such as the formulation of gravitational laws in physics and advancements in the study of chemical structures. In this paper, we focus on exploiting Euclidean symmetries inherent in certain cooperative multi-agent reinforcement learning (MARL) problems and prevalent in many applications. We begin by formally characterizing a subclass of Markov games with a general notion of symmetries that admits the existence of symmetric optimal values and policies. Motivated by these properties, we design neural network architectures with symmetric constraints embedded as an inductive bias for multi-agent actor-critic methods. This inductive bias results in superior performance in various cooperative MARL benchmarks and impressive generalization capabilities such as zero-shot learning and transfer learning in unseen scenarios with repeated symmetric patterns. The code is available at: https://github.com/dchen48/E3AC. | 翻訳日:2024-02-05 20:08:11 公開日:2024-02-02 |
# フォトプレチスモグラム信号を用いた不均衡クラスにおけるアーチファクト検出のためのラベル伝搬手法 Label Propagation Techniques for Artifact Detection in Imbalanced Classes using Photoplethysmogram Signals ( http://arxiv.org/abs/2308.08480v2 ) ライセンス: Link先を確認 | Clara Macabiau, Thanh-Dung Le, Kevin Albert, Philippe Jouvet, Rita Noumeir | (参考訳) photoplethysmogram (ppg) 信号はバイタルサインのモニタリングに広く使われているが、不正確な解釈につながる運動アーチファクトに影響を受けやすい。
本研究では, PPG サンプル間でラベルを伝搬するラベル伝搬技術について検討し, クリーンな PPG サンプルがアーティファクト汚染試料によって著しく劣る不均衡クラスシナリオについて検討した。
91%の精度、90%のリコール、90%のf1スコアのアーチファクトのないクラスでは、クリーンなサンプルであっても、医療データセットのラベル付けに効果があることが示されている。
アーティファクトの分類については,従来の分類器やニューラルネットワーク (MLP, Transformer, FCN) などの教師付き分類器と半教師付きラベル伝搬アルゴリズムを比較した。
89%の精度、95%のリコール、F1スコア92%の精度で、KNNの教師付きモデルでは良い結果が得られるが、半教師付きアルゴリズムはアーティファクトの検出に優れていた。
その結果,半教師付きアルゴリズムラベルの伝搬はPPG信号のアーティファクト検出の可能性を保ち,実世界のアプリケーションにおけるPPGベースの健康モニタリングシステムの信頼性を高めることが示唆された。 Photoplethysmogram (PPG) signals are widely used in healthcare for monitoring vital signs, but they are susceptible to motion artifacts that can lead to inaccurate interpretations. In this study, the use of label propagation techniques to propagate labels among PPG samples is explored, particularly in imbalanced class scenarios where clean PPG samples are significantly outnumbered by artifact-contaminated samples. With a precision of 91%, a recall of 90% and an F1 score of 90% for the class without artifacts, the results demonstrate its effectiveness in labeling a medical dataset, even when clean samples are rare. For the classification of artifacts our study compares supervised classifiers such as conventional classifiers and neural networks (MLP, Transformers, FCN) with the semi-supervised label propagation algorithm. With a precision of 89%, a recall of 95% and an F1 score of 92%, the KNN supervised model gives good results, but the semi-supervised algorithm performs better in detecting artifacts. The findings suggest that the semi-supervised algorithm label propagation hold promise for artifact detection in PPG signals, which can enhance the reliability of PPG-based health monitoring systems in real-world applications. | 翻訳日:2024-02-05 20:07:54 公開日:2024-02-02 |
# IIANet:オーディオ・ビジュアル音声分離のためのモダリティ内およびモダリティ間アテンションネットワーク IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual Speech Separation ( http://arxiv.org/abs/2308.08143v3 ) ライセンス: Link先を確認 | Kai Li, Runxuan Yang, Fuchun Sun, Xiaolin Hu | (参考訳) 最近の研究は、音声と視覚の分離のための融合モジュールの設計に大きな進歩をもたらした。
しかし、それらは主に、選択的注意機構を使わずに、聴覚と視覚の特徴の単一の時間スケールでのマルチモーダル融合に焦点を当てている。
この問題に対処するために,音声・視覚的特徴融合のための注意機構を活用するIIANet(Intra and Inter-Attention Network)という新しいモデルを提案する。
IIANetは、イントラアテンションブロック(IntraA)とインターアテンションブロック(InterA)の2つのタイプのアテンションブロックで構成されている。
人間の脳が様々な時間スケールで関連コンテンツに選択的にフォーカスする方法に触発されたこれらのブロックは、モダリティ固有の特徴を学習し、オーディオ視覚的特徴から異なる意味を抽出できる能力を維持している。
3つの標準オーディオ視覚分離ベンチマーク(LRS2, LRS3, VoxCeleb2)の総合的な実験により,IIANetの有効性が実証された。
特に、IIANetの高速バージョン(IIANet-fast)は、CTCNetのMACの7%しか持たず、CPU上のCTCNetよりも40%高速であり、より優れた分離品質を実現し、効率的で効果的なマルチモーダル融合のための注意機構の可能性を示している。 Recent research has made significant progress in designing fusion modules for audio-visual speech separation. However, they predominantly focus on multi-modal fusion at a single temporal scale of auditory and visual features without employing selective attention mechanisms, which is in sharp contrast with the brain. To address this issue, We propose a novel model called Intra- and Inter-Attention Network (IIANet), which leverages the attention mechanism for efficient audio-visual feature fusion. IIANet consists of two types of attention blocks: intra-attention (IntraA) and inter-attention (InterA) blocks, where the InterA blocks are distributed at the top, middle and bottom of IIANet. Heavily inspired by the way how human brain selectively focuses on relevant content at various temporal scales, these blocks maintain the ability to learn modality-specific features and enable the extraction of different semantics from audio-visual features. Comprehensive experiments on three standard audio-visual separation benchmarks (LRS2, LRS3, and VoxCeleb2) demonstrate the effectiveness of IIANet, outperforming previous state-of-the-art methods while maintaining comparable inference time. In particular, the fast version of IIANet (IIANet-fast) has only 7% of CTCNet's MACs and is 40% faster than CTCNet on CPUs while achieving better separation quality, showing the great potential of attention mechanism for efficient and effective multimodal fusion. | 翻訳日:2024-02-05 20:07:29 公開日:2024-02-02 |
# 地質CO2貯蔵のサロゲートモデルと階層MCMC履歴マッチングへの応用 Surrogate Model for Geological CO2 Storage and Its Use in Hierarchical MCMC History Matching ( http://arxiv.org/abs/2308.06341v2 ) ライセンス: Link先を確認 | Yifu Han, Francois P. Hamon, Su Jiang, Louis J. Durlofsky | (参考訳) 深層学習に基づくサロゲートモデルは、地質的な炭素貯蔵操作において非常に有望である。
本研究は,高度な地質学的不確かさを特徴とするストレージシステムの履歴マッチングを,重要な応用を対象とする。
この目的に向けて,最近導入されたr-u-netサロゲートモデルを拡張し,多岐にわたる地質シナリオから得られたジオモデル実現を扱う。
これらのシナリオは、水平相関長、対数透過性の平均と標準偏差、透過性異方性比、ポロシティ-透過性関係における定数を含むメタパラメータによって定義される。
各メタパラメータのセットに対して無限個の実現が生成されるので、事前の不確かさの範囲は大きい。
surrogateモデルは、2000のランダム実現のために、オープンソースのシミュレータgeosを使って生成されたフローシミュレーション結果で訓練される。
流れの問題には4つの井戸があり、それぞれ1mtco2/年を30年間注入している。
訓練されたサーロゲートモデルは、平均的な相対誤差が1.3%、飽和度が4.5%と、地質学的シナリオ全体にわたる新しい実現の正確な予測をもたらすことが示されている。
surrogateモデルは階層的マルコフ連鎖モンテカルロ履歴マッチングワークフローに組み込まれており、その目的は、ジオモデル実現の履歴とメタパラメータの後方推定を生成することである。
人工「真」モデルにおける坑井の観測データを用いて, 地質学的不確かさが大幅に減少することを示した。
これにより、後続の3次元圧力と飽和場は、以前の予測よりも真のモデル応答とより近い一致を示す。 Deep-learning-based surrogate models show great promise for use in geological carbon storage operations. In this work we target an important application - the history matching of storage systems characterized by a high degree of (prior) geological uncertainty. Toward this goal, we extend the recently introduced recurrent R-U-Net surrogate model to treat geomodel realizations drawn from a wide range of geological scenarios. These scenarios are defined by a set of metaparameters, which include the horizontal correlation length, mean and standard deviation of log-permeability, permeability anisotropy ratio, and constants in the porosity-permeability relationship. An infinite number of realizations can be generated for each set of metaparameters, so the range of prior uncertainty is large. The surrogate model is trained with flow simulation results, generated using the open-source simulator GEOS, for 2000 random realizations. The flow problems involve four wells, each injecting 1 Mt CO2/year, for 30 years. The trained surrogate model is shown to provide accurate predictions for new realizations over the full range of geological scenarios, with median relative error of 1.3% in pressure and 4.5% in saturation. The surrogate model is incorporated into a hierarchical Markov chain Monte Carlo history matching workflow, where the goal is to generate history matched geomodel realizations and posterior estimates of the metaparameters. We show that, using observed data from monitoring wells in synthetic `true' models, geological uncertainty is reduced substantially. This leads to posterior 3D pressure and saturation fields that display much closer agreement with the true-model responses than do prior predictions. | 翻訳日:2024-02-05 20:06:59 公開日:2024-02-02 |
# 量子多体電池のエルゴトロピー推定のための変分量子アルゴリズム Variational quantum algorithm for ergotropy estimation in quantum many-body batteries ( http://arxiv.org/abs/2308.03334v2 ) ライセンス: Link先を確認 | Duc Tuan Hoang, Friederike Metz, Andreas Thomasen, Tran Duong Anh-Tai, Thomas Busch and Thom\'as Fogarty | (参考訳) 量子バッテリは、従来のバッテリよりも優れた性能を持つ可能性があると予測されているため、量子技術の発展において重要な要素である。
特に興味深いのは、多体量子電池における相関の役割と、エルゴトロピーによって定量化された最大仕事抽出にどのように影響するかである。
本研究では,ノイズ・中間スケール量子(nisq)デバイス上での多体量子電池の帯電過程と作業抽出をシミュレーションし,電池からの作業抽出を最大化する最適ユニタリ操作を求める変分量子エルゴトロピー(vqergo)アルゴリズムを考案する。
我々は、急速クエンチ後に横磁場イジングダイナミクスを受ける多体量子電池のエルゴトロピーを計算してvqergoをテストする。
システムサイズや充電時間が異なるバッテリを調査し,理想シミュレータと雑音シミュレータを用いて変動最適化に必要なアンサッツ回路の最小繰り返し数を解析した。
また,大規模システムにおいて長距離相関の増大がvqergoの精度を阻害し,エラー低減のためにansatz回路の繰り返しを増加させる効果について検討した。
最後に、VQErgoアルゴリズムの一部を最適化し、IBMの量子デバイス上のエルゴトロピーを計算する。 Quantum batteries are predicted to have the potential to outperform their classical counterparts and are therefore an important element in the development of quantum technologies. Of particular interest is the role of correlations in many-body quantum batteries and how these can affect the maximal work extraction, quantified by the ergotropy. In this work we simulate the charging process and work extraction of many-body quantum batteries on noisy-intermediate scale quantum (NISQ) devices, and devise the Variational Quantum Ergotropy (VQErgo) algorithm which finds the optimal unitary operation that maximises work extraction from the battery. We test VQErgo by calculating the ergotropy of a many-body quantum battery undergoing transverse field Ising dynamics following a sudden quench. We investigate the battery for different system sizes and charging times, and analyze the minimum number of ansatz circuit repetitions needed for the variational optimization using both ideal and noisy simulators. We also discuss how the growth of long-range correlations can hamper the accuracy of VQErgo in larger systems, requiring increased repetitions of the ansatz circuit to reduce error. Finally, we optimize part of the VQErgo algorithm and calculate the ergotropy on one of IBM's quantum devices. | 翻訳日:2024-02-05 20:06:34 公開日:2024-02-02 |
# 大規模言語モデルに現れたデセプション能力 Deception Abilities Emerged in Large Language Models ( http://arxiv.org/abs/2307.16513v2 ) ライセンス: Link先を確認 | Thilo Hagendorff | (参考訳) 大規模言語モデル(llm)は現在、人間のコミュニケーションや日常生活と連動する人工知能(ai)システムの最前線にある。
したがって、それらを人間の価値観に合わせることが非常に重要である。
しかし、推論能力が着実に向上していることを考えると、将来のLLMは人間のオペレーターを騙し、監視努力を回避できる能力を利用するのではないかと疑っている。
この前提条件として、LLMは詐欺戦略の概念的理解を持つ必要がある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが、他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行い、複雑な騙しシナリオにおけるそれらのパフォーマンスを、チェーン・オブ・シント推論を用いて増幅し、LLMにおけるマキアベリア主義を誘発することで、その妥当性を欺くことができることを示した。
総じて, LLMにおける未知の機械行動を明らかにすることで, 本研究は機械心理学の新たな分野に寄与する。 Large language models (LLMs) are currently at the forefront of intertwining artificial intelligence (AI) systems with human communication and everyday life. Thus, aligning them with human values is of great importance. However, given the steady increase in reasoning abilities, future LLMs are under suspicion of becoming able to deceive human operators and utilizing this ability to bypass monitoring efforts. As a prerequisite to this, LLMs need to possess a conceptual understanding of deception strategies. This study reveals that such strategies emerged in state-of-the-art LLMs, such as GPT-4, but were non-existent in earlier LLMs. We conduct a series of experiments showing that state-of-the-art LLMs are able to understand and induce false beliefs in other agents, that their performance in complex deception scenarios can be amplified utilizing chain-of-thought reasoning, and that eliciting Machiavellianism in LLMs can alter their propensity to deceive. In sum, revealing hitherto unknown machine behavior in LLMs, our study contributes to the nascent field of machine psychology. | 翻訳日:2024-02-05 20:06:08 公開日:2024-02-02 |
# You Shall Pass: 凸最適化の予測と最適化におけるゼロ勾配問題への対処 You Shall Pass: Dealing with the Zero-Gradient Problem in Predict and Optimize for Convex Optimization ( http://arxiv.org/abs/2307.16304v2 ) ライセンス: Link先を確認 | Grigorii Veviurko, Wendelin B\"ohmer, and Mathijs de Weerdt | (参考訳) 予測と最適化は、機械学習を用いて最適化問題の未知のパラメータを予測する、人気の高い意思決定パラダイムである。
パラメータの予測誤差を最小化する代わりに、タスクパフォーマンスを損失関数として使用する予測モデルを訓練する。
このようなモデルを訓練する上での鍵となる課題は、パラメータに関する最適化問題の解のヤコビアンの計算である。
線型問題に対しては、このヤコビアンはゼロあるいは未定義であることが知られているため、近似は通常用いられる。
しかし、非線形凸問題に対しては、正確なヤコビアンを用いることが一般的である。
本稿では、ゼロ勾配問題も非線形の場合にも現れることを実証する。ヤコビアンは大きさのヌル空間を持つことができ、それによって訓練過程が最適でない点に留まってしまう。
形式的証明を通じて, 実現可能集合の平滑化がこの問題を解消することを示す。
この洞察と二次計画近似や射影距離正規化のような文献からの既知の手法を組み合わせることで、ジャコビアンを近似する新しい方法が導出される。
シミュレーション実験では, 提案手法は非線形の場合の性能を向上し, 線形問題に対する既存の最先端手法と少なくとも一致する。 Predict and optimize is an increasingly popular decision-making paradigm that employs machine learning to predict unknown parameters of optimization problems. Instead of minimizing the prediction error of the parameters, it trains predictive models using task performance as a loss function. The key challenge to train such models is the computation of the Jacobian of the solution of the optimization problem with respect to its parameters. For linear problems, this Jacobian is known to be zero or undefined; hence, approximations are usually employed. For non-linear convex problems, however, it is common to use the exact Jacobian. This paper demonstrates that the zero-gradient problem appears in the non-linear case as well -- the Jacobian can have a sizeable null space, thereby causing the training process to get stuck in suboptimal points. Through formal proofs, this paper shows that smoothing the feasible set resolves this problem. Combining this insight with known techniques from the literature, such as quadratic programming approximation and projection distance regularization, a novel method to approximate the Jacobian is derived. In simulation experiments, the proposed method increases the performance in the non-linear case and at least matches the existing state-of-the-art methods for linear problems. | 翻訳日:2024-02-05 20:05:47 公開日:2024-02-02 |
# 広帯域非調和ポテンシャルにおける粒子ダイナミクスとデコヒーレンスの解析 Wigner Analysis of Particle Dynamics and Decoherence in Wide Nonharmonic Potentials ( http://arxiv.org/abs/2307.14106v3 ) ライセンス: Link先を確認 | Andreu Riera-Campeny and Marc Roda-Llordes and Piotr T. Grochowski and Oriol Romero-Isart | (参考訳) 非調和ポテンシャルにおける粒子の1次元運動の時間発展を概ね記述したウィグナー関数の解析的表現を導出する。
提案手法は,初期状態のセントロイドの古典力学と,その軌道に関する回転と旋回の両方を考慮した2つの正確なフレーム変換を含む。
次に,2つの重要な近似,すなわち定数角近似と線形デコヒーレンス近似を用いる。
これらの近似は、広いポテンシャルと小さなゆらぎ、すなわち初期状態の1つよりも大きな大きさの空間展開を可能にするが、関連する動的長さスケール(例えば、回転点間の距離)よりも小さく保たれるポテンシャルの配置において有効である。
解析結果は,古典物理学と量子物理学の相互作用と非線形力学におけるデコヒーレンスの影響を解明する。
この解析結果は、非線形力学を用いて大規模粒子のマクロ量子状態を生成する提案を設計、最適化、理解するのに役立つ。 We derive an analytical expression of a Wigner function that approximately describes the time evolution of the one-dimensional motion of a particle in a nonharmonic potential. Our method involves two exact frame transformations, accounting for both the classical dynamics of the centroid of the initial state and the rotation and squeezing about that trajectory. Subsequently, we employ two crucial approximations, namely the constant-angle and linearized-decoherence approximations. These approximations are effective in the regime of wide potentials and small fluctuations, namely potentials that enable spatial expansions orders of magnitude larger than the one of the initial state but that remain smaller compared to the relevant dynamical length scale (e.g., distance between turning points). Our analytical result elucidates the interplay between classical and quantum physics and the impact of decoherence during nonlinear dynamics. This analytical result is instrumental to design, optimize and understand proposals using nonlinear dynamics to generate macroscopic quantum states of massive particles. | 翻訳日:2024-02-05 20:05:19 公開日:2024-02-02 |
# AdvFusion:コードの要約のための多言語適応型知識伝達 AdvFusion: Multilingual Adapter-based Knowledge Transfer for Code Summarization ( http://arxiv.org/abs/2307.07854v2 ) ライセンス: Link先を確認 | Iman Saberi, Fatemeh Fard and Fuxiang Chen | (参考訳) パラメータ効率的な微調整(PEFT)は、言語モデルを完全に微調整する代替選択肢である。
PEFT法は自然言語領域で広く使われているが、コードやコメントデータセット(つまりコード-LM)で事前訓練された言語モデルにPEFTを用いる研究は限られている。
以前の研究では、与えられたコードスニペットの自然な記述を自動的に生成しようとするタスクであるコード要約が、プログラムの理解に恩恵をもたらすことが知られている。
多言語微調整では、コード-LMは異なるプログラミング言語からなるデータセット上で微調整される。
AdapterFusionは、下流タスクのために複数の(言語)アダプタから潜伏した知識を抽出し、構成することを目的とした、特定のPEFTアプローチである。
しかし,本実験により, adapterfusion は他のプログラミング言語を利用せず,同じ言語から学習できることが判明した。
そこで我々はアーキテクチャを変更し,PEFTアプローチであるAdvFusionを提案し,まず他のプログラミング言語から学習するようにモデルを強制し,対象とするタスクの言語に注意を払う。
したがって、AdvFusionは多言語微調整で述べられているように、異なるプログラミング言語間の知識伝達を強調している。
2つのコード-LMを用いたCodeSearchNetデータセットの結果,Adapters,AdapterFusion,および提案したAdvFusionは,コード要約およびメソッド名予測のための完全な微調整モデルと同等以上の結果が得られることを示した。
特に、トレーニング可能なパラメータの数は123倍減少し、トレーニング時間が約30%短縮される。
AdvFusionはAdapterFusionと比較して顕著に拡張されており、特にRuby、JavaScript、Go向けのBLEU-4スコアの0.9から1.7ポイントの増加を示している。 Parameter Efficient Fine-Tuning (PEFT) is an alternate choice to full fine-tuning a language model. Though PEFT methods are used in natural language domain widely, there are limited studies on using PEFT for language models that are pre-trained on code and comment datasets (i.e., code-LMs). Previous research has also shown that code summarization, a task that intends to generate natural description of the given code snippet automatically and is known to benefit the program comprehension, benefits from multilingual fine-tuning approach. In multilingual fine-tuning, the code-LM is fine-tuned on a dataset consisting of different programming languages. AdapterFusion is a specific PEFT approach that aims to extract and compose the latent knowledge from multiple (language) adapters for a downstream task. However, our experiments reveal that the AdapterFusion still learns from the same language, not taking advantage of other programming languages. Therefore, we change the architecture and propose AdvFusion, a PEFT approach that enforces the model to first learn from other programming languages, and then pay attention to the language of the target task. Therefore, the AdvFusion emphasizes the knowledge transfer among different programming languages, as stated in the multilingual fine-tuning. Our results on the CodeSearchNet dataset using two code-LMs, show that Adapters, AdapterFusion, and our proposed AdvFusion can achieve results on-par with or higher than the full fine-tuning models for code summarization and method name prediction. Notably, the number of trainable parameters are 123x less and the training time is reduced by ~30%. AdvFusion exhibits a notable enhancement compared to AdapterFusion, showcasing a 0.9 to 1.7-point increase in BLEU-4 scores specifically for Ruby, JavaScript, and Go. | 翻訳日:2024-02-05 20:05:00 公開日:2024-02-02 |
# tvpr: テキストからビデオへの人物検索と新しいベンチマーク TVPR: Text-to-Video Person Retrieval and a New Benchmark ( http://arxiv.org/abs/2307.07184v2 ) ライセンス: Link先を確認 | Fan Ni, Xu Zhang, Jianhui Wu, Guan-Nan Dong, Aichun Zhu, Hui Liu, Yue Zhang | (参考訳) 既存のテキストベース人物検索の方法は、テキストから画像への人物検索に重点を置いている。
それでも、孤立フレームが提供する動的情報が欠如していることから、孤立フレームに隠れている場合や、テキスト記述に変動運動の詳細が記載されている場合、パフォーマンスが損なわれる。
本稿では,分離フレームの制約を効果的に克服することを目的とした,text-to-video person retrieval(tvpr)と呼ばれる新しいタスクを提案する。
自然言語による人的ビデオを記述するデータセットやベンチマークは存在しないため、人の出現、行動、環境との相互作用など、詳細な自然言語アノテーションを含む大規模なクロスモーダルな人的ビデオデータセットを構築しており、そのデータセットは「Text-to-Video Person Re-identification (TVPReid)」と呼ばれる。
この目的のために,tvprn(text-to-video person retrieval network)を提案する。
特に、tvprnは、個人ビデオの視覚的および動きの表現を融合してビデオ表現を取得しており、これは、時間的閉塞と、分離されたフレーム内の可変動き詳細の欠如に対処することができる。
一方,プレトレーニングされたBERTを用いてキャプション表現とキャプションとビデオ表現の関係を抽出し,最も関連性の高い人物映像を明らかにする。
提案するTVPRNの有効性を評価するため,TVPReidデータセットを用いた広範な実験を行った。
我々の知る限り、TVPRNは、テキストベースの人物検索タスクにビデオを使用した最初の試みであり、TVPReidデータセットで最先端のパフォーマンスを達成した。
TVPReidデータセットは、将来の研究のために公開されます。 Most existing methods for text-based person retrieval focus on text-to-image person retrieval. Nevertheless, due to the lack of dynamic information provided by isolated frames, the performance is hampered when the person is obscured in isolated frames or variable motion details are given in the textual description. In this paper, we propose a new task called Text-to-Video Person Retrieval(TVPR) which aims to effectively overcome the limitations of isolated frames. Since there is no dataset or benchmark that describes person videos with natural language, we construct a large-scale cross-modal person video dataset containing detailed natural language annotations, such as person's appearance, actions and interactions with environment, etc., termed as Text-to-Video Person Re-identification (TVPReid) dataset, which will be publicly available. To this end, a Text-to-Video Person Retrieval Network (TVPRN) is proposed. Specifically, TVPRN acquires video representations by fusing visual and motion representations of person videos, which can deal with temporal occlusion and the absence of variable motion details in isolated frames. Meanwhile, we employ the pre-trained BERT to obtain caption representations and the relationship between caption and video representations to reveal the most relevant person videos. To evaluate the effectiveness of the proposed TVPRN, extensive experiments have been conducted on TVPReid dataset. To the best of our knowledge, TVPRN is the first successful attempt to use video for text-based person retrieval task and has achieved state-of-the-art performance on TVPReid dataset. The TVPReid dataset will be publicly available to benefit future research. | 翻訳日:2024-02-05 20:04:26 公開日:2024-02-02 |
# unpacking polarization: オンラインインタラクションの署名ネットワークにおける対立性とアライメント Unpacking polarization: Antagonism and Alignment in Signed Networks of Online Interaction ( http://arxiv.org/abs/2307.06571v3 ) ライセンス: Link先を確認 | Emma Fraxanet, Max Pellert, Simon Schweighofer, Vicen\c{c} G\'omez, David Garcia | (参考訳) 政治紛争は民主主義体制の重要な要素であるが、過激化すればその存在を脅かすこともある。
これは特に、ほとんどの政治的問題が同じ主要な断層線に沿って整列し、社会を2つの敵対的なキャンプに分割するときに起こる。
20世紀、主要断層線は、所有者対労働者、中心対周辺など構造的な紛争によって形成された。
しかし、これらの古典的分断はその後、説明力を失っている。
新たな開裂を理論化する代わりに、署名されたオンラインインタラクションのデータ中の主要な障害線を明らかにする計算手法である faultana (fault-line alignment network analysis) パイプラインを提案する。
提案手法は,様々なオンライン討論会で普及している敵意の程度を定量化し,また,各議論がいかに主要な障害線に一致しているかを定量化する。
これにより、偏極を駆動するくさび問題の特定が可能となり、強烈な対立とアライメントが特徴である。
われわれのアプローチは、米国のTwitterファクトチェックコミュニティであるBirdwatchの大規模データセットと、オーストリアのオンライン新聞DerStandardのディスカッションフォーラムに適用する。
オンラインコミュニティは2つの大きなグループに分かれており、その分離は政治的アイデンティティとトピックに従っている。
さらに、DerStandardでは、社会的な断層線を強化し、偏光を駆動する問題を指摘します。
また、これらの分断線(例えば、COVID-19)と厳密に整合することなく、オンライン紛争を引き起こす問題も特定します。
本手法では, 対立する選挙やイベントにおけるアライメントのダイナミクスに対する, 密着性, 分裂性の別々な寄与を示す, 感情分極の時間分解図を構築することができる。 Political conflict is an essential element of democratic systems, but can also threaten their existence if it becomes too intense. This happens particularly when most political issues become aligned along the same major fault line, splitting society into two antagonistic camps. In the 20th century, major fault lines were formed by structural conflicts, like owners vs workers, center vs periphery, etc. But these classical cleavages have since lost their explanatory power. Instead of theorizing new cleavages, we present the FAULTANA (FAULT-line Alignment Network Analysis) pipeline, a computational method to uncover major fault lines in data of signed online interactions. Our method makes it possible to quantify the degree of antagonism prevalent in different online debates, as well as how aligned each debate is to the major fault line. This makes it possible to identify the wedge issues driving polarization, characterized by both intense antagonism and alignment. We apply our approach to large-scale data sets of Birdwatch, a US-based Twitter fact-checking community and the discussion forums of DerStandard, an Austrian online newspaper. We find that both online communities are divided into two large groups and that their separation follows political identities and topics. In addition, for DerStandard, we pinpoint issues that reinforce societal fault lines and thus drive polarization. We also identify issues that trigger online conflict without strictly aligning with those dividing lines (e.g. COVID-19). Our methods allow us to construct a time-resolved picture of affective polarization that shows the separate contributions of cohesiveness and divisiveness to the dynamics of alignment during contentious elections and events. | 翻訳日:2024-02-05 20:03:58 公開日:2024-02-02 |
# 人工知能システムにおける蝶効果:AIバイアスとフェアネスの意義 The Butterfly Effect in Artificial Intelligence Systems: Implications for AI Bias and Fairness ( http://arxiv.org/abs/2307.05842v4 ) ライセンス: Link先を確認 | Emilio Ferrara | (参考訳) カオス理論を起源とするバタフライ効果は、小さな変化が複雑なシステムに対して、いかに重要かつ予測不能な影響をもたらすかを強調するものだ。
AIフェアネスとバイアスの文脈では、バタフライエフェクトは、アルゴリズム開発中の小さなバイアスや歪んだデータ入力、トレーニング中のサドルポイント、トレーニングとテストフェーズ間のデータの分散シフトなど、さまざまなソースに由来する可能性がある。
これらの一見小さな変化は、予期せぬ、実質的な不公平な結果をもたらす可能性がある。
さらに、バタフライエフェクトは、データやアルゴリズム内の固有のバイアスを増幅し、フィードバックループを悪化させ、敵攻撃の脆弱性を作成することができる。
AIシステムの複雑な性質とその社会的意味を考えると、意図しない結果をもたらす可能性のあるアルゴリズムや入力データの変更を徹底的に検討することが不可欠である。
本稿では,aiシステムにおけるバタフライ効果の検出,定量化,緩和のためのアルゴリズム的戦略と経験的戦略の両方を想定し,公平性を促進し,責任あるai開発を確実にするためにこれらの課題に取り組むことの重要性を強調する。 The Butterfly Effect, a concept originating from chaos theory, underscores how small changes can have significant and unpredictable impacts on complex systems. In the context of AI fairness and bias, the Butterfly Effect can stem from a variety of sources, such as small biases or skewed data inputs during algorithm development, saddle points in training, or distribution shifts in data between training and testing phases. These seemingly minor alterations can lead to unexpected and substantial unfair outcomes, disproportionately affecting underrepresented individuals or groups and perpetuating pre-existing inequalities. Moreover, the Butterfly Effect can amplify inherent biases within data or algorithms, exacerbate feedback loops, and create vulnerabilities for adversarial attacks. Given the intricate nature of AI systems and their societal implications, it is crucial to thoroughly examine any changes to algorithms or input data for potential unintended consequences. In this paper, we envision both algorithmic and empirical strategies to detect, quantify, and mitigate the Butterfly Effect in AI systems, emphasizing the importance of addressing these challenges to promote fairness and ensure responsible AI development. | 翻訳日:2024-02-05 20:03:27 公開日:2024-02-02 |
# RACH-Space:Weak Supervisionでの応用による適応凸ハル空間の再構築 RACH-Space: Reconstructing Adaptive Convex Hull Space with Applications in Weak Supervision ( http://arxiv.org/abs/2307.04870v5 ) ライセンス: Link先を確認 | Woojoo Na, Abiy Tasissa | (参考訳) RACH-Spaceは、ラベルに関する不完全でノイズの多い情報を与えられた弱教師付き学習において、ラベル付きデータをラベル付けするアルゴリズムである。
RACH-Spaceは、データや監督の弱いソースに厳しい仮定を必要とせず、実装の単純さを提供しており、完全なラベル付きデータが利用できない実用的なアプリケーションに適している。
本手法は,弱信号の集合に分散した空間の幾何学的解釈に基づいて構築される。
また、この空間における凸船体と出力ラベルの精度の関係を理論的に解析し、機械学習によるブリッジ幾何学を検証した。
実験の結果、RACH-Spaceは実際にうまく機能し、弱教師付き学習のための最良のラベルモデルと比較できる。 We introduce RACH-Space, an algorithm for labelling unlabelled data in weakly supervised learning, given incomplete, noisy information about the labels. RACH-Space offers simplicity in implementation without requiring hard assumptions on data or the sources of weak supervision, and is well suited for practical applications where fully labelled data is not available. Our method is built upon a geometrical interpretation of the space spanned by the set of weak signals. We also analyze the theoretical properties underlying the relationship between the convex hulls in this space and the accuracy of our output labels, bridging geometry with machine learning. Empirical results demonstrate that RACH-Space works well in practice and compares favorably to the best existing label models for weakly supervised learning. | 翻訳日:2024-02-05 20:03:05 公開日:2024-02-02 |
# 次世代貯留層計算によるカオスマップの制御 Controlling Chaotic Maps using Next-Generation Reservoir Computing ( http://arxiv.org/abs/2307.03813v2 ) ライセンス: Link先を確認 | Robert M. Kent and Wendson A. S. Barbosa and Daniel J. Gauthier | (参考訳) 本研究では,非線形システム制御手法と次世代貯水池計算を併用し,動的システムの挙動を予測する機械学習手法を提案する。
本稿では,不安定な固定点間のシステム制御,高次周期軌道への安定化,任意の所望状態への安定化など,カオスH'enonマップの一連の制御タスクにおけるコントローラの性能を示す。
我々の制御器はこれらのタスクに成功し、トレーニングに10点のデータポイントしか必要とせず、1回の繰り返しで所望の軌道にシステムを制御することができ、ノイズやモデリングエラーに対して堅牢であることを示す。 In this work, we combine nonlinear system control techniques with next-generation reservoir computing, a best-in-class machine learning approach for predicting the behavior of dynamical systems. We demonstrate the performance of the controller in a series of control tasks for the chaotic H\'enon map, including controlling the system between unstable fixed-points, stabilizing the system to higher order periodic orbits, and to an arbitrary desired state. We show that our controller succeeds in these tasks, requires only 10 data points for training, can control the system to a desired trajectory in a single iteration, and is robust to noise and modeling error. | 翻訳日:2024-02-05 20:02:52 公開日:2024-02-02 |
# EXMOSユーザスタディから学んだ教訓:EXMOSプラットフォームを評価するために実施されたユーザスタディから重要な教訓を要約する技術レポート Lessons Learned from EXMOS User Studies: A Technical Report Summarizing Key Takeaways from User Studies Conducted to Evaluate The EXMOS Platform ( http://arxiv.org/abs/2310.02063v2 ) ライセンス: Link先を確認 | Aditya Bhattacharya, Simone Stumpf, Lucija Gosak, Gregor Stiglic, Katrien Verbert | (参考訳) インタラクティブな機械学習システムにおいて、説明の提供は、予測モデルのデバッグと強化のプロセスにおいて重要な助けとなる。
しかし、様々なグローバルモデル中心とデータ中心の説明が、モデル改善のために潜在的なデータ関連問題の検出と解決をドメインの専門家が効果的に支援できる程度は、ほとんど未調査のままである。
本技術報告では,2つのユーザ研究の要点を要約する。
システム内のデータ中心とモデル中心の両方の視点に根ざしたグローバル説明の影響を包括的に検証し、自動化されたデータ設定と手動データ設定の両方で機械学習モデルを最適化する上で、医療専門家を支援するように設計しました。
そこで本研究では,70名の医療専門家を対象とした定量的分析と,30名の医療専門家による質的評価を行った。
これらの研究は、異なる説明タイプが3つの主要な次元(信頼、理解可能性、モデル改善)に与える影響を照明することを目的としていた。
その結果、グローバルモデル中心の説明だけでは、データ構成の複雑なプロセス中にユーザーを効果的に導くには不十分であることがわかった。
対照的に、データ中心の説明は、構成後のシステム変更の理解を強化することで、その可能性を示した。
しかし, 両者の組み合わせは, 信頼の育成, 理解性の向上, および医療専門家のモデル強化の促進に最も有効であった。
また、説明によって駆動される対話型機械学習システムの開発にも重要な意味を持つ。
これらの洞察は、ドメインの専門家が機械学習の潜在能力を最大限活用するための、より効果的なシステムの構築を導くことができる。 In the realm of interactive machine-learning systems, the provision of explanations serves as a vital aid in the processes of debugging and enhancing prediction models. However, the extent to which various global model-centric and data-centric explanations can effectively assist domain experts in detecting and resolving potential data-related issues for the purpose of model improvement has remained largely unexplored. In this technical report, we summarise the key findings of our two user studies. Our research involved a comprehensive examination of the impact of global explanations rooted in both data-centric and model-centric perspectives within systems designed to support healthcare experts in optimising machine learning models through both automated and manual data configurations. To empirically investigate these dynamics, we conducted two user studies, comprising quantitative analysis involving a sample size of 70 healthcare experts and qualitative assessments involving 30 healthcare experts. These studies were aimed at illuminating the influence of different explanation types on three key dimensions: trust, understandability, and model improvement. Results show that global model-centric explanations alone are insufficient for effectively guiding users during the intricate process of data configuration. In contrast, data-centric explanations exhibited their potential by enhancing the understanding of system changes that occur post-configuration. However, a combination of both showed the highest level of efficacy for fostering trust, improving understandability, and facilitating model enhancement among healthcare experts. We also present essential implications for developing interactive machine-learning systems driven by explanations. These insights can guide the creation of more effective systems that empower domain experts to harness the full potential of machine learning | 翻訳日:2024-02-05 19:56:33 公開日:2024-02-02 |
# ブリッジ生成とセグメンテーションによる視覚オブジェクトの完成 Completing Visual Objects via Bridging Generation and Segmentation ( http://arxiv.org/abs/2310.00808v2 ) ライセンス: Link先を確認 | Xiang Li, Yinpeng Chen, Chung-Ching Lin, Hao Chen, Kai Hu, Rita Singh, Bhiksha Raj, Lijuan Wang, Zicheng Liu | (参考訳) 本稿では,その部分的可視成分から完全な物体を再構築することを目的とした,新しい物体完成手法を提案する。
maskcompと呼ばれるこの手法は、生成とセグメンテーションの反復的な段階を通じて完了プロセスを記述します。
各イテレーションにおいて、オブジェクトマスクは画像生成を促進する追加条件として提供され、その代わり、生成された画像は画像のセグメンテーションを融合させてより正確なマスクに導かれる。
1世代と1つのセグメンテーションステージの組み合わせがマスクデノイザーとして効果的に機能することを示す。
生成段階とセグメンテーション段階の交互化により、部分物体マスクは徐々に洗練され、正確な形状誘導を提供し、優れた物体完成結果が得られる。
我々の実験は、既存のアプローチであるControlNetやStable DiffusionよりもMaskCompの方が優れていることを実証し、オブジェクト補完に有効なソリューションとして確立した。 This paper presents a novel approach to object completion, with the primary goal of reconstructing a complete object from its partially visible components. Our method, named MaskComp, delineates the completion process through iterative stages of generation and segmentation. In each iteration, the object mask is provided as an additional condition to boost image generation, and, in return, the generated images can lead to a more accurate mask by fusing the segmentation of images. We demonstrate that the combination of one generation and one segmentation stage effectively functions as a mask denoiser. Through alternation between the generation and segmentation stages, the partial object mask is progressively refined, providing precise shape guidance and yielding superior object completion results. Our experiments demonstrate the superiority of MaskComp over existing approaches, e.g., ControlNet and Stable Diffusion, establishing it as an effective solution for object completion. | 翻訳日:2024-02-05 19:56:06 公開日:2024-02-02 |
# 光イオン化とパラメトリック励起を持つイオントラップにおける純$^{43}$Ca$^+$サンプルの準備 Preparing pure $^{43}$Ca$^+$ samples in an ion trap with photoionization and parametric excitations ( http://arxiv.org/abs/2309.11809v2 ) ライセンス: Link先を確認 | C.-H. Kuo, Y.-C. Hsiao, C.-Y. Jhang, Y.-D. Chen, and S. Tung | (参考訳) 本稿では,レーザー冷却した$^{43}$Ca$^+$イオンをイオントラップで効率的に調製するための実用的手法を提案する。
本手法は, 同位体選択光イオン化法と同位体特異的パラメトリック励起法という, 確立された2つの方法を統合する。
それぞれの方法の個々の利点から着想を得て、これらの技法を統合して、天然資源中で0.135\%の天然存在量で生じる課題を克服し、$^{43}$ca$^+$ イオンの拡張鎖を作成することに成功した。
さらに, 浄化過程における諸因子の影響に着目し, スキームの微妙な性質について検討した。
本研究は,本手法のより広範な理解に寄与し,特定の同位体問題に対処する確立された手法の適応性を強調した。 We present a practical scheme for the efficient preparation of laser-cooled $^{43}$Ca$^+$ ions in an ion trap. Our approach integrates two well-established methods: isotope-selective photoionization and isotope-specific parametric excitation. Drawing inspiration from the individual merits of each method, we have successfully integrated these techniques to prepare extended chains of $^{43}$Ca$^+$ ions, overcoming the challenge posed by their low natural abundance of 0.135\% in a natural source. Furthermore, we explore the subtleties of our scheme, focusing on the influence of different factors on the purification process. Our investigation contributes to a broader understanding of the technique and highlights the adaptability of established methods in addressing specific isotopic challenges. | 翻訳日:2024-02-05 19:55:32 公開日:2024-02-02 |
# QXAI: 患者モニタリングシステムにおける定量的分析のための説明可能なAIフレームワーク QXAI: Explainable AI Framework for Quantitative Analysis in Patient Monitoring Systems ( http://arxiv.org/abs/2309.10293v3 ) ライセンス: Link先を確認 | Thanveer Shaik, Xiaohui Tao, Haoran Xie, Lin Li, Juan D. Velasquez, Niall Higgins | (参考訳) 人工知能技術は、患者の身体活動の分類や、遠隔患者の監視に不可欠な兆候を予測するのに使うことができる。
ディープラーニングモデルのような非線形モデルに基づく回帰分析は、ブラックボックスの性質のため説明可能性に制限がある。
これは、意思決定者が、特に医療アプリケーションにおいて、非線形モデルの結果に基づいて盲目な飛躍を行う必要がある。
非侵襲的なモニタリングでは、追跡センサーからの患者データとその臨床属性が将来のバイタルサインを予測するための入力機能として機能する。
モニタリングアプリケーション全体のアウトプットに対する様々な機能の貢献を説明することは、臨床医の意思決定に不可欠である。
本研究では,定量的分析のための説明可能なAI(QXAI)フレームワークを,教師付き学習手法における回帰・分類タスクのポストホックモデル説明可能性と本質的説明性を用いて提案する。
これはshapley valuesの概念を利用し、ディープラーニングモデルに注意の仕組みを組み込むことで達成された。
我々は,センサデータに基づく心拍数予測と身体活動の分類のために,人工ニューラルネットワーク(ANN)と注目に基づく双方向LSTM(BiLSTM)モデルを採用した。
ディープラーニングモデルは、予測と分類の両方のタスクで最先端の結果を得た。
様々な患者データの特徴的寄与を理解するため,入力データに対してグローバル説明と局所的説明を行った。
提案したQXAIフレームワークは,PPG-DaLiAデータを用いて心拍数とモバイルヘルス(MHEALTH)データを予測し,センサデータに基づいて身体活動の分類を行う。
モンテカルロ近似は、Shapley値計算に必要な時間複雑性と高い計算パワー要求を克服するためにフレームワークに適用された。 Artificial Intelligence techniques can be used to classify a patient's physical activities and predict vital signs for remote patient monitoring. Regression analysis based on non-linear models like deep learning models has limited explainability due to its black-box nature. This can require decision-makers to make blind leaps of faith based on non-linear model results, especially in healthcare applications. In non-invasive monitoring, patient data from tracking sensors and their predisposing clinical attributes act as input features for predicting future vital signs. Explaining the contributions of various features to the overall output of the monitoring application is critical for a clinician's decision-making. In this study, an Explainable AI for Quantitative analysis (QXAI) framework is proposed with post-hoc model explainability and intrinsic explainability for regression and classification tasks in a supervised learning approach. This was achieved by utilizing the Shapley values concept and incorporating attention mechanisms in deep learning models. We adopted the artificial neural networks (ANN) and attention-based Bidirectional LSTM (BiLSTM) models for the prediction of heart rate and classification of physical activities based on sensor data. The deep learning models achieved state-of-the-art results in both prediction and classification tasks. Global explanation and local explanation were conducted on input data to understand the feature contribution of various patient data. The proposed QXAI framework was evaluated using PPG-DaLiA data to predict heart rate and mobile health (MHEALTH) data to classify physical activities based on sensor data. Monte Carlo approximation was applied to the framework to overcome the time complexity and high computation power requirements required for Shapley value calculations. | 翻訳日:2024-02-05 19:55:17 公開日:2024-02-02 |
# FRAMU:フェデレーション強化学習を用いた注意に基づく機械学習 FRAMU: Attention-based Machine Unlearning using Federated Reinforcement Learning ( http://arxiv.org/abs/2309.10283v3 ) ライセンス: Link先を確認 | Thanveer Shaik, Xiaohui Tao, Lin Li, Haoran Xie, Taotao Cai, Xiaofeng Zhu, and Qing Li | (参考訳) Machine Unlearningは、マシンラーニングプロセスからプライベートまたは無関係なデータを削除可能にすることで、データのプライバシ問題に対処する新興分野である。
プライバシとモデル効率に関する課題は、時代遅れ、プライベート、無関係なデータを使用することによって生じる。
これらの問題は、機械学習とアンラーニングの両方におけるモデルの精度と計算効率の両方を損なう。
これらの課題を軽減するために,FRAMU(Federated Reinforcement Learning)を用いたアテンションベースの機械学習フレームワークを導入する。
このフレームワークは適応学習機構、プライバシ保護技術、最適化戦略を取り入れており、正確性とプライバシを維持しながら、シングルモダリティまたはマルチモダリティといったさまざまなデータソースを処理するための、周到なソリューションとなっている。
FRAMUの強みは、変動するデータランドスケープへの適応性、時代遅れ、プライベート、あるいは無関係なデータを解き放つ能力、プライバシーを損なうことなく継続的なモデル進化をサポートすることにある。
シングルモダリティデータセットとマルチモダリティデータセットの両方で行った実験により、framuがベースラインモデルを大幅に上回っていることが明らかとなった。
収束行動と最適化戦略のさらなる評価は、連合学習アプリケーションにおけるフレームワークの有用性をさらに検証する。
全体としてFRAMUは、動的データ環境における重要な課題にも対処しながら、モデルパフォーマンスを最適化する堅牢でプライバシ保護ソリューションを提供することで、Machine Unlearningを推進している。 Machine Unlearning is an emerging field that addresses data privacy issues by enabling the removal of private or irrelevant data from the Machine Learning process. Challenges related to privacy and model efficiency arise from the use of outdated, private, and irrelevant data. These issues compromise both the accuracy and the computational efficiency of models in both Machine Learning and Unlearning. To mitigate these challenges, we introduce a novel framework, Attention-based Machine Unlearning using Federated Reinforcement Learning (FRAMU). This framework incorporates adaptive learning mechanisms, privacy preservation techniques, and optimization strategies, making it a well-rounded solution for handling various data sources, either single-modality or multi-modality, while maintaining accuracy and privacy. FRAMU's strength lies in its adaptability to fluctuating data landscapes, its ability to unlearn outdated, private, or irrelevant data, and its support for continual model evolution without compromising privacy. Our experiments, conducted on both single-modality and multi-modality datasets, revealed that FRAMU significantly outperformed baseline models. Additional assessments of convergence behavior and optimization strategies further validate the framework's utility in federated learning applications. Overall, FRAMU advances Machine Unlearning by offering a robust, privacy-preserving solution that optimizes model performance while also addressing key challenges in dynamic data environments. | 翻訳日:2024-02-05 19:54:48 公開日:2024-02-02 |
# アダプティブインテリジェンスを用いた時系列予測のためのグラフ対応強化学習 Graph-enabled Reinforcement Learning for Time Series Forecasting with Adaptive Intelligence ( http://arxiv.org/abs/2309.10186v2 ) ライセンス: Link先を確認 | Thanveer Shaik, Xiaohui Tao, Haoran Xie, Lin Li, Jianming Yong, and Yuefeng Li | (参考訳) 強化学習は、逐次タスクをモデル化し、潜在データパターンを適応的に学習する能力でよく知られている。
ディープラーニングモデルは、回帰と分類タスクで広く研究され、採用されている。
しかし、深層学習には、等間隔データや順序データの仮定、時系列予測の観点からグラフ構造を組み込む能力の欠如といった制限がある。
グラフィカルニューラルネットワーク(gnn)は、これらの課題を克服し、時系列データの時間依存性をキャプチャする能力を持つ。
本研究では,GNNを用いた時系列データの予測と強化学習(RL)によるモニタリング手法を提案する。
GNNは、データのグラフ構造をモデルに明示的に組み込むことができ、時間的依存関係をより自然な方法でキャプチャすることができる。
このアプローチは、医療、交通、天気予報など、複雑な時間構造におけるより正確な予測を可能にする。
また、ベイズ最適化技術を用いてGraphRLモデルを微調整し、さらなる性能向上を図る。
提案されたフレームワークは、時系列予測と監視においてベースラインモデルを上回る。
本研究の貢献は,時系列予測のための新しいgraphrlフレームワークの導入と,rnnやlstmといった従来のディープラーニングモデルとの比較によるgnnの有効性の実証である。
本研究は, 動的RL環境において, 高精度かつ効率的に予測できるグラフRLの可能性を示す。 Reinforcement learning is well known for its ability to model sequential tasks and learn latent data patterns adaptively. Deep learning models have been widely explored and adopted in regression and classification tasks. However, deep learning has its limitations such as the assumption of equally spaced and ordered data, and the lack of ability to incorporate graph structure in terms of time-series prediction. Graphical neural network (GNN) has the ability to overcome these challenges and capture the temporal dependencies in time-series data. In this study, we propose a novel approach for predicting time-series data using GNN and monitoring with Reinforcement Learning (RL). GNNs are able to explicitly incorporate the graph structure of the data into the model, allowing them to capture temporal dependencies in a more natural way. This approach allows for more accurate predictions in complex temporal structures, such as those found in healthcare, traffic and weather forecasting. We also fine-tune our GraphRL model using a Bayesian optimisation technique to further improve performance. The proposed framework outperforms the baseline models in time-series forecasting and monitoring. The contributions of this study include the introduction of a novel GraphRL framework for time-series prediction and the demonstration of the effectiveness of GNNs in comparison to traditional deep learning models such as RNNs and LSTMs. Overall, this study demonstrates the potential of GraphRL in providing accurate and efficient predictions in dynamic RL environments. | 翻訳日:2024-02-05 19:54:23 公開日:2024-02-02 |
# 音声によるセグメンテーションの促進は、音声-視覚ソースローカライザを一般化する Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer ( http://arxiv.org/abs/2309.07929v3 ) ライセンス: Link先を確認 | Yaoting Wang, Weisong Liu, Guangyao Li, Jian Ding, Di Hu, Xi Li | (参考訳) 物体を見て同時に音を聞いたことはないが、モデルはまだ入力音声から視覚位置を正確に特定できるのだろうか?
本研究では,ゼロショットと少数ショットのシナリオを前提として,オーディオ・ビジュアル・ローカライゼーションとセグメンテーションのタスクに集中する。
この目的を達成するために,コーダ・フュージョン・デコーダ・パラダイムを主に採用する既存のアプローチとは異なり,プリトレーニングモデルから豊富な知識を生かして,データ不足やデータ分散ジレンマの適合性を向上させることを目的としたエンコーダ・プロンプト・デコーダ・パラダイムを導入する。
具体的には、まず、視覚基盤モデルがオブジェクトの聴取に焦点を合わせるのを支援するために、セマンティック・アウェア・オーディオ・プロンプト(SAP)を構築することを提案する。
次に,視覚基礎モデルの知識を十分に保持すると同時に,最小限のトレーニング努力を維持するための相関アダプタ(cola)を開発した。
これらの手段を装備することにより、この新しいパラダイムは、目に見えないクラスとデータセット間の設定の両方において、他の融合ベースのメソッドよりも優れていることを示す。
我々は,本研究が,実用シナリオにおける視聴覚定位とセグメンテーションの一般化研究をさらに促進できることを願っている。 Never having seen an object and heard its sound simultaneously, can the model still accurately localize its visual position from the input audio? In this work, we concentrate on the Audio-Visual Localization and Segmentation tasks but under the demanding zero-shot and few-shot scenarios. To achieve this goal, different from existing approaches that mostly employ the encoder-fusion-decoder paradigm to decode localization information from the fused audio-visual feature, we introduce the encoder-prompt-decoder paradigm, aiming to better fit the data scarcity and varying data distribution dilemmas with the help of abundant knowledge from pre-trained models. Specifically, we first propose to construct Semantic-aware Audio Prompt (SAP) to help the visual foundation model focus on sounding objects, meanwhile, the semantic gap between the visual and audio modalities is also encouraged to shrink. Then, we develop a Correlation Adapter (ColA) to keep minimal training efforts as well as maintain adequate knowledge of the visual foundation model. By equipping with these means, extensive experiments demonstrate that this new paradigm outperforms other fusion-based methods in both the unseen class and cross-dataset settings. We hope that our work can further promote the generalization study of Audio-Visual Localization and Segmentation in practical application scenarios. | 翻訳日:2024-02-05 19:54:00 公開日:2024-02-02 |
# MagiCapture: 高解像度マルチコンセプトポートレートカスタマイズ MagiCapture: High-Resolution Multi-Concept Portrait Customization ( http://arxiv.org/abs/2309.06895v2 ) ライセンス: Link先を確認 | Junha Hyung, Jaeyo Shin, and Jaegul Choo | (参考訳) 安定拡散を含む大規模テキスト対画像モデルは、高忠実度フォトリアリスティックなポートレート画像を生成することができる。
これらのモデルをパーソナライズする活動的な研究領域があり、提供された参照画像を用いて特定の主題やスタイルを合成することを目的としている。
しかし、こうしたパーソナライズ手法によるもっともらしい結果にもかかわらず、現実主義に欠け、まだ商業的に実現可能なレベルには達していないイメージをしばしば生成する傾向にある。
これは、人間の顔の不自然なアーチファクトが、人間固有の偏見のために容易に識別できるポートレート画像生成において特に顕著である。
そこで本研究では,被写体とスタイルの概念を統合し,数個の被写体とスタイルの参照を用いて高精細なポートレート画像を生成するパーソナライズ手法であるmagicaptureを提案する。
例えば、一握りのランダムなセルフィーがあれば、われわれの微調整されたモデルは、パスポートやプロフィール写真など、特定のスタイルで高品質なポートレート画像を生成することができる。
このタスクの主な課題は、構成された概念に対する基礎的真理の欠如であり、最終的な出力の品質の低下と、ソースの主題のアイデンティティシフトにつながる。
これらの課題に対処するために,この弱教師付き学習環境内での頑健な学習を促進する補助的事前学習と合わせて,新たな注意再焦点損失を提案する。
私たちのパイプラインには、非常に現実的なアウトプットを作成するための、追加の処理ステップも含まれています。
MagiCaptureは定量評価と定性評価の両方において他のベースラインよりも優れており、他の非人間オブジェクトにも一般化することができる。 Large-scale text-to-image models including Stable Diffusion are capable of generating high-fidelity photorealistic portrait images. There is an active research area dedicated to personalizing these models, aiming to synthesize specific subjects or styles using provided sets of reference images. However, despite the plausible results from these personalization methods, they tend to produce images that often fall short of realism and are not yet on a commercially viable level. This is particularly noticeable in portrait image generation, where any unnatural artifact in human faces is easily discernible due to our inherent human bias. To address this, we introduce MagiCapture, a personalization method for integrating subject and style concepts to generate high-resolution portrait images using just a few subject and style references. For instance, given a handful of random selfies, our fine-tuned model can generate high-quality portrait images in specific styles, such as passport or profile photos. The main challenge with this task is the absence of ground truth for the composed concepts, leading to a reduction in the quality of the final output and an identity shift of the source subject. To address these issues, we present a novel Attention Refocusing loss coupled with auxiliary priors, both of which facilitate robust learning within this weakly supervised learning setting. Our pipeline also includes additional post-processing steps to ensure the creation of highly realistic outputs. MagiCapture outperforms other baselines in both quantitative and qualitative evaluations and can also be generalized to other non-human objects. | 翻訳日:2024-02-05 19:53:29 公開日:2024-02-02 |
# Noisy Demkov-Kunikeモデル Noisy Demkov-Kunike model ( http://arxiv.org/abs/2309.06448v2 ) ライセンス: Link先を確認 | Lin Chen and Zhaoxin Liang | (参考訳) Demkov-Kunike (DK) モデルは、時間依存の Rabi coupling $J~\text{sech}(t/T)$ と on-site detuning $\Delta_0+\Delta_1\tanh(t/T)$ が特徴であり、正確に解ける2状態量子系の最も一般的な形式の一つであり、従って量子ビットの量子状態のコヒーレントな操作のパラダイムを提供する。
ノイズのないケースに広く応用されているにもかかわらず、ノイズの多いDKモデルの探索は依然として限られている。
ここで、コヒーレントなDKモデルを拡張して、$J\rightarrow J_{\text{noisy}}(t)$というノイズの多い結合項を考慮する。
電信ノイズとガウスノイズで表される色付きマルコフ雑音源について考察する。
ノイズDKモデルの生存確率 $Q^{\text{noisy}}_{\text{DK}}$ の正確な解を示す。
緩やかな電信ノイズに対して、生存確率$Q^{\text{noisy}}_{\text{DK}}$がノイズによって強化されるのではなく抑制されるパラメータ状態を特定する。
対照的に、ガウス雑音が遅い場合、ノイズは常にエネルギーギャップを越えた雑音量子の吸収のために生存確率$q^{\text{noisy}}_{\text{dk}}$を増大させる。
この研究は、うるさいランダウ・ツェナーモデルに関する既存の研究を補完するだけでなく、2レベル量子システムの制御に関する貴重な洞察を提供する。 The Demkov-Kunike (DK) model, characterized by a time-dependent Rabi coupling $J~\text{sech}(t/T)$ and on-site detuning $\Delta_0+\Delta_1\tanh(t/T)$, has one of the most general forms of an exactly solvable two-state quantum system, and, therefore, it provides a paradigm for coherent manipulations of a qubit's quantum state. Despite its extensive applications in the noise-free cases, the exploration of the noisy DK model remains limited. Here, we extend the coherent DK model to take into account of a noisy coupling term $J\rightarrow J_{\text{noisy}}(t)$. We consider colored Markovian noise sources represented by the telegraph noise and Gaussian noise. We present exact solutions for the survival probability $Q^{\text{noisy}}_{\text{DK}}$ of the noisy DK model, namely the probability of the system to remain in its initial state. For the slow telegraph noise, we identify parameter regimes where the survival probability $Q^{\text{noisy}}_{\text{DK}}$ is suppressed rather than enhanced by noise. In contrast, for slow Gaussian noise, the noise always enhances the survival probability $Q^{\text{noisy}}_{\text{DK}}$, due to the absorption of noise quanta across the energy gap. This study not only complements the existing research on the noisy Landau-Zener model, but also provides valuable insights for the control of two-level quantum systems. | 翻訳日:2024-02-05 19:53:04 公開日:2024-02-02 |
# ニューラルネットワークを用いた大規模シーンモデリングのためのフェデレートラーニング Federated Learning for Large-Scale Scene Modeling with Neural Radiance Fields ( http://arxiv.org/abs/2309.06030v2 ) ライセンス: Link先を確認 | Teppei Suzuki | (参考訳) 我々は、車両やドローンから収集したデータを用いて、地球規模神経放射野(nerf)に基づく地図を生涯学習的に構築・維持するシステムを提案する。
しかし、NeRFによる既存の大規模モデリングでは、地球規模の環境をモデル化する際のスケーラビリティと保守性に問題がある。
そこで本研究では,NeRFを用いた大規模モデリングのためのフェデレート学習パイプラインを提案する。
我々は、NeRFのフェデレーション学習におけるモデル集約パイプラインを調整し、NeRFの局所的な更新を可能にする。
集約ステップでは、クライアントのグローバルなポーズの正確さが重要です。
また,集約前にクライアントのノイズの多いグローバルなポーズを調整するために,グローバルなポーズアライメントを提案する。
実験では,大規模シーンデータセット mill19 におけるポーズアライメントとフェデレーション学習パイプラインの有効性を示す。 We envision a system to continuously build and maintain a map based on earth-scale neural radiance fields (NeRF) using data collected from vehicles and drones in a lifelong learning manner. However, existing large-scale modeling by NeRF has problems in terms of scalability and maintainability when modeling earth-scale environments. Therefore, to address these problems, we propose a federated learning pipeline for large-scale modeling with NeRF. We tailor the model aggregation pipeline in federated learning for NeRF, thereby allowing local updates of NeRF. In the aggregation step, the accuracy of the clients' global pose is critical. Thus, we also propose global pose alignment to align the noisy global pose of clients before the aggregation step. In experiments, we show the effectiveness of the proposed pose alignment and the federated learning pipeline on the large-scale scene dataset, Mill19. | 翻訳日:2024-02-05 19:52:32 公開日:2024-02-02 |
# ニューラルセマンティックサーフェスマップ Neural Semantic Surface Maps ( http://arxiv.org/abs/2309.04836v2 ) ライセンス: Link先を確認 | Luca Morreale and Noam Aigerman and Vladimir G. Kim and Niloy J. Mitra | (参考訳) 本稿では,意味的に対応する領域と一致する2つの属ゼロ形状間のマップを自動計算する手法を提案する。
注釈付きデータの欠如は、3dセマンティクスの直接的推論を禁止している。代わりに、現在の最先端の手法は、主に幾何学的特性を最適化するか、あるいは様々な手動アノテーションを必要とする。
注釈付きトレーニングデータの欠如を克服するため,事前学習された視覚モデルからセマンティックマッチを抽出し,複数の視点から2組の3次元形状をレンダリングし,得られたレンダリング結果を,事前学習された視覚モデルを利用して特徴点を生成するオフザシェルフ画像マッチング手法に投入する。
これにより意味対応が得られ、3次元形状に投影され、異なる視点間で不正確で矛盾する生のマッチングが生成される。
これらの対応は、出力マップの単射性と連続性を促進する専用最適化スキームにより、表面マップに精製され、蒸留される。
提案手法は,手動のアノテーションや3Dトレーニングデータ要求を排除し,意味的表面-表面マップを生成する。
さらに、オブジェクトが非等尺的に関連しているような意味複雑性の高いシナリオや、それらがほぼ等尺的な状況において有効であることを示す。 We present an automated technique for computing a map between two genus-zero shapes, which matches semantically corresponding regions to one another. Lack of annotated data prohibits direct inference of 3D semantic priors; instead, current State-of-the-art methods predominantly optimize geometric properties or require varying amounts of manual annotation. To overcome the lack of annotated training data, we distill semantic matches from pre-trained vision models: our method renders the pair of 3D shapes from multiple viewpoints; the resulting renders are then fed into an off-the-shelf image-matching method which leverages a pretrained visual model to produce feature points. This yields semantic correspondences, which can be projected back to the 3D shapes, producing a raw matching that is inaccurate and inconsistent between different viewpoints. These correspondences are refined and distilled into an inter-surface map by a dedicated optimization scheme, which promotes bijectivity and continuity of the output map. We illustrate that our approach can generate semantic surface-to-surface maps, eliminating manual annotations or any 3D training data requirement. Furthermore, it proves effective in scenarios with high semantic complexity, where objects are non-isometrically related, as well as in situations where they are nearly isometric. | 翻訳日:2024-02-05 19:52:00 公開日:2024-02-02 |
# geo-encoder:中国地理的再ランキングのためのチャンクアグリゲーションバイエンコーダフレームワーク Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese Geographic Re-Ranking ( http://arxiv.org/abs/2309.01606v2 ) ライセンス: Link先を確認 | Yong Cao, Ruixue Ding, Boli Chen, Xianzhi Li, Min Chen, Daniel Hershcovich, Pengjun Xie, and Fei Huang | (参考訳) 中国の地理的再ランクタスクは、検索された候補のうち、最も関連性の高いアドレスを見つけることを目的としており、ナビゲーションマップのような位置情報関連サービスにとって不可欠である。
一般的な文とは異なり、地理的文脈は、一般的なスパン(例えば州)から特定のスパン(例えば道路)まで、地理的概念と密接に絡み合っている。
本稿では,中国における地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
我々の方法論は、テキストと地理的スパンを関連付け、それらをチャンキング単位として扱うために、既製のツールを使うことから始まります。
次に,マルチタスク学習モジュールを提示し,追加の意味表現へのチャンク貢献を決定する効果的な注意行列を同時に取得する。
さらに,提案する追加タスクの非同期更新機構を提示し,特定のチャンクに効果的に集中可能なモデルを導出することを目的とした。
2つの異なる地理的再分類データセットの実験は、Geo-Encoderが最先端のベースラインと比較して大幅に改善されていることを示している。
特に、MGEO-BERTのhit@1スコアが大幅に改善され、GeoTESデータセットでは62.76から68.98に6.22%増加した。 Chinese geographic re-ranking task aims to find the most relevant addresses among retrieved candidates, which is crucial for location-related services such as navigation maps. Unlike the general sentences, geographic contexts are closely intertwined with geographical concepts, from general spans (e.g., province) to specific spans (e.g., road). Given this feature, we propose an innovative framework, namely Geo-Encoder, to more effectively integrate Chinese geographical semantics into re-ranking pipelines. Our methodology begins by employing off-the-shelf tools to associate text with geographical spans, treating them as chunking units. Then, we present a multi-task learning module to simultaneously acquire an effective attention matrix that determines chunk contributions to extra semantic representations. Furthermore, we put forth an asynchronous update mechanism for the proposed addition task, aiming to guide the model capable of effectively focusing on specific chunks. Experiments on two distinct Chinese geographic re-ranking datasets, show that the Geo-Encoder achieves significant improvements when compared to state-of-the-art baselines. Notably, it leads to a substantial improvement in the Hit@1 score of MGEO-BERT, increasing it by 6.22% from 62.76 to 68.98 on the GeoTES dataset. | 翻訳日:2024-02-05 19:51:36 公開日:2024-02-02 |
# 光機械系の量子相転移 Quantum Phase Transitions in Optomechanical Systems ( http://arxiv.org/abs/2308.15278v2 ) ライセンス: Link先を確認 | Bo Wang, Franco Nori, Ze-Liang Xiang | (参考訳) 本稿では,共振器とメカニカルモードを組み合わせた光学系の基底状態特性について検討する。
正確な解は、キャビティと機械的周波数の比$\eta$が無限大となるときに与えられる。
この解は、連続的または離散的対称性を破って基底状態におけるコヒーレント光子占有を示し、平衡量子相転移(qpt)を示す。
u(1)=ブロークフェーズでは、不安定なゴールドストーンモードが励起される。
Z_2$対称性を持つモデルでは、空洞の圧縮真空と機械的モードの間の相互(有限$\eta$)または一方向($\eta \rightarrow \infty$)依存関係を発見する。
特にキャビティが要求されるスクイーズパラメータに沿って圧縮されたフィールドによって駆動されると、$Z_2$-breakken 位相の領域を変更でき、結合強度を著しく低減して QPT に到達することができる。
さらに、原子をキャビティモードに結合することにより、ハイブリッドシステムは、光学力学および光原子系によって協調的に決定されるハイブリッド臨界点においてqptを行うことができる。
これらの結果は、この光学系が新しい臨界現象を探索する他の相転移モデルを補完していることを示唆している。 In this letter, we investigate the ground state properties of an optomechanical system consisting of a coupled cavity and mechanical modes. An exact solution is given when the ratio $\eta$ between the cavity and mechanical frequencies tends to infinity. This solution reveals a coherent photon occupation in the ground state by breaking continuous or discrete symmetries, exhibiting an equilibrium quantum phase transition (QPT). In the $U(1)$-broken phase, an unstable Goldstone mode can be excited. In the model featuring $Z_2$ symmetry, we discover the mutually (in the finite $\eta$) or unidirectionally (in $\eta \rightarrow \infty$) dependent relation between the squeezed vacuum of the cavity and mechanical modes. In particular, when the cavity is driven by a squeezed field along the required squeezing parameter, it enables modifying the region of $Z_2$-broken phase and significantly reducing the coupling strength to reach QPTs. Furthermore, by coupling atoms to the cavity mode, the hybrid system can undergo a QPT at a hybrid critical point, which is cooperatively determined by the optomechanical and light-atom systems. These results suggest that this optomechanical system complements other phase transition models for exploring novel critical phenomena. | 翻訳日:2024-02-05 19:51:14 公開日:2024-02-02 |
# リー代数畳み込みによる概等分散 Almost Equivariance via Lie Algebra Convolutions ( http://arxiv.org/abs/2310.13164v4 ) ライセンス: Link先を確認 | Daniel McNeela | (参考訳) 近年,機械学習の研究において,集団行動に関するモデルの等価性が重要な話題となっている。
既存のニューラルネットワークアーキテクチャの組込み等価性の解析や、明示的に"bake in"等価性を持つモデルの構築に関する研究は、それ自体で重要な研究領域となっている。
しかし、特定のグループの同値性を持つアーキテクチャを付与することは、モデルが期待するデータ変換のタイプに強く先行する。
厳密な同変モデルは対称性を強制するが、実世界のデータは必ずしもそのような厳密な等式に従わない。
そのような場合、厳密な等分散の事前は実際には強すぎることが証明され、モデルが過小評価される。
そこで本研究では,近縁な話題であるほぼ同値な話題について考察する。
概等分散の定義を提供し、リー群のリー代数に訴えることでモデルの概等分散を符号化する実用的な方法を与える。
具体的には、リー代数の畳み込みを定義し、それらはリー群畳み込みよりもいくつかの利点をもたらすことを証明している。
そこから, 等分散および等化の概念と, 概等分散および概等化の概念との関係を示す。
2つの存在定理を証明し、1つは多様体の等距離の有界距離における概等距離の存在を示し、もう1つはヒルベルト空間の逆を示す。
我々は、これらの定理を拡張して、群作用と関数類に関する一定の制約に従う完全同値な埋め込み関数の有界距離内における概同値多様体埋め込みの存在を証明する。
最後に、完全同値およびほぼ同値な設定でデータセットに対してベンチマークを行うことにより、このアプローチの有効性を実証する。 Recently, the equivariance of models with respect to a group action has become an important topic of research in machine learning. Analysis of the built-in equivariance of existing neural network architectures, as well as the study of building models that explicitly "bake in" equivariance, have become significant research areas in their own right. However, imbuing an architecture with a specific group equivariance imposes a strong prior on the types of data transformations that the model expects to see. While strictly-equivariant models enforce symmetries, real-world data does not always conform to such strict equivariances. In such cases, the prior of strict equivariance can actually prove too strong and cause models to underperform. Therefore, in this work we study a closely related topic, that of almost equivariance. We provide a definition of almost equivariance and give a practical method for encoding almost equivariance in models by appealing to the Lie algebra of a Lie group. Specifically, we define Lie algebra convolutions and demonstrate that they offer several benefits over Lie group convolutions, including being well-defined for non-compact Lie groups having non-surjective exponential map. From there, we demonstrate connections between the notions of equivariance and isometry and those of almost equivariance and almost isometry. We prove two existence theorems, one showing the existence of almost isometries within bounded distance of isometries of a manifold, and another showing the converse for Hilbert spaces. We extend these theorems to prove the existence of almost equivariant manifold embeddings within bounded distance of fully equivariant embedding functions, subject to certain constraints on the group action and the function class. Finally, we demonstrate the validity of our approach by benchmarking against datasets in fully equivariant and almost equivariant settings. | 翻訳日:2024-02-05 19:43:25 公開日:2024-02-02 |
# 無限距離相互作用量子系の平均場ダイナミクス:カオス、動的相転移、局所化 Mean-field dynamics of an infinite-range interacting quantum system: chaos, dynamical phase transition, and localisation ( http://arxiv.org/abs/2310.11947v2 ) ライセンス: Link先を確認 | Bojan \v{Z}unkovi\v{c} and Antonio Zegarra | (参考訳) 無限範囲の逆相互作用を持つxyスピン1/2鎖の力学特性を調べ、カオス動的位相を持つ動的相転移を求める。
後者では,非破壊的有限時間リアプノフ指数と間欠的挙動を高速で遅いエントロピー成長周期で示す。
さらに,xy鎖を局所的自己整合横方向の場で研究し,局在相転移を観察した。
局所化はカオス力学相を安定化させる。 We investigate the dynamical properties of the XY spin 1/2 chain with infinite-range transverse interactions and find a dynamical phase transition with a chaotic dynamical phase. In the latter, we find non-vanishing finite-time Lyapunov exponents and intermittent behavior signaled by fast and slow entropy growth periods. Further, we study the XY chain with a local self-consistent transverse field and observe a localization phase transition. We show that localization stabilizes the chaotic dynamical phase. | 翻訳日:2024-02-05 19:42:58 公開日:2024-02-02 |
# 分散学習タスクにおける生成モデルの評価について On the Evaluation of Generative Models in Distributed Learning Tasks ( http://arxiv.org/abs/2310.11714v2 ) ライセンス: Link先を確認 | Zixiao Wang, Farzan Farnia, Zhenghao Lin, Yunheng Shen, Bei Yu | (参考訳) 生成的逆ネットワーク(gans)や拡散モデルを含む深層生成モデルの評価は文献で広く研究されている。
既存の評価方法は、主に単一のクライアントが格納したトレーニングデータによる集中学習問題を対象としているが、生成モデルの多くの応用は、複数のクライアント間でトレーニングデータを収集し分散するフェデレーション学習シナリオなど、分散学習設定に関するものである。
本稿では,異種データ分布を持つ分散学習タスクにおける生成モデルの評価について検討する。
まず、Fr'echet開始距離(FID)に着目し、クライアントに対する以下のFIDベースの集計スコアを検討する。
1)クライアントの個別FIDスコアの平均としてのFID-avg
2)FID-allは、訓練されたモデルからすべてのクライアントのデータを含む集合データセットまでのFID距離である。
FID-allとFID-avgのスコアによるモデルランキングは矛盾する可能性があり、2つのスコアに応じて最適な生成モデルを生成することができる。
次に、カーネル開始距離(KID)を考察し、同様にKID-avgおよびKID-allアグリゲーションを定義する。
FIDの場合とは異なり、KID-allとKID-avgは生成モデルと同じランキングになる。
我々は,分散学習問題における生成モデルの評価に関する理論的知見を支援するために,標準画像データセットとトレーニングスキームに関する数値実験を行った。 The evaluation of deep generative models including generative adversarial networks (GANs) and diffusion models has been extensively studied in the literature. While the existing evaluation methods mainly target a centralized learning problem with training data stored by a single client, many applications of generative models concern distributed learning settings, e.g. the federated learning scenario, where training data are collected by and distributed among several clients. In this paper, we study the evaluation of generative models in distributed learning tasks with heterogeneous data distributions. First, we focus on the Fr\'echet inception distance (FID) and consider the following FID-based aggregate scores over the clients: 1) FID-avg as the mean of clients' individual FID scores, 2) FID-all as the FID distance of the trained model to the collective dataset containing all clients' data. We prove that the model rankings according to the FID-all and FID-avg scores could be inconsistent, which can lead to different optimal generative models according to the two aggregate scores. Next, we consider the kernel inception distance (KID) and similarly define the KID-avg and KID-all aggregations. Unlike the FID case, we prove that KID-all and KID-avg result in the same rankings of generative models. We perform several numerical experiments on standard image datasets and training schemes to support our theoretical findings on the evaluation of generative models in distributed learning problems. | 翻訳日:2024-02-05 19:42:49 公開日:2024-02-02 |
# 事前学習言語モデルによる文書レベルインコンテクストのFew-Shot関係抽出 Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models ( http://arxiv.org/abs/2310.11085v2 ) ライセンス: Link先を確認 | Yilmazcan Ozyurt, Stefan Feuerriegel, Ce Zhang | (参考訳) 関係抽出は、テキスト文書から構造化された人間知識を推測することを目的としている。
言語モデルに基づく最先端のメソッドは、一般的に2つの制限がある: (1) 名前付きエンティティは入力として与えられるか推論されるか、追加のノイズをもたらすか、(2) ドキュメントの人間のアノテーションを必要とする。
本稿では,事前学習された言語モデルによる文書レベルのコンテキスト内少数ショット関係抽出のための新しいフレームワークを提案する。
我々は、名前付きエンティティ認識と文書の人的アノテーションの両方の必要性をなくすことで、重要な利益を達成する。
微調整に基づく既存の手法とは異なり、我々のフレームワークは柔軟であり、再トレーニングなしに新しい関係に対して簡単に更新できる。
ドキュメントレベルの関係抽出のための最大の公開データセットであるdocredを用いて,我々のフレームワークを評価し,そのフレームワークが最先端のパフォーマンスを達成できることを実証する。
最後に、私たちのフレームワークはDocREDの開発セットのオリジナルのラベルよりもはるかに優れたパフォーマンスを示します。
私たちの知る限りでは、ドキュメントレベルの関係抽出タスクを、コンテキスト内最小限の学習パラダイムとして再編成した最初の例です。 Relation extraction aims at inferring structured human knowledge from textual documents. State-of-the-art methods based on language models commonly have two limitations: (1) they require named entities to be either given as input or infer them, which introduces additional noise, and (2) they require human annotations of documents. As a remedy, we present a novel framework for document-level in-context few-shot relation extraction via pre-trained language models. We achieve crucial benefits in that we eliminate the need for both named entity recognition and human annotation of documents. Unlike existing methods based on fine-tuning, our framework is flexible in that it can be easily updated for a new set of relations without re-training. We evaluate our framework using DocRED, the largest publicly available dataset for document-level relation extraction, and demonstrate that our framework achieves state-of-the-art performance. Finally, we show that our framework actually performs much better than the original labels from the development set of DocRED. To the best of our knowledge, we are the first to reformulate the document-level relation extraction task as a tailored in-context few-shot learning paradigm. | 翻訳日:2024-02-05 19:41:44 公開日:2024-02-02 |
# STELLA: 時空間定位アライメントによる連続的なオーディオビデオ事前トレーニング STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment ( http://arxiv.org/abs/2310.08204v2 ) ライセンス: Link先を確認 | Jaewoo Lee, Jaehong Yoon, Wonjae Kim, Yunji Kim, and Sung Ju Hwang | (参考訳) 音声とビデオのセマンティクスを継続的に学習することは、進化を続ける世界のオーディオ関連の推論タスクにとって不可欠である。
しかし、これは非自明な問題であり、オーディオとビデオのペア間のスパース時空間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトの2つの重要な課題を提起する。
この問題に対処するため,(1)局所的パッチ・コンパタンス・スコアリング(Localized Patch Importance Scoring):各パッチの重要スコアを決定するためのマルチモーダル・エンコーダを導入し,セマンティック・インターツウィンド・オーディオ・ビデオ・パッチを強調した。
2) 再生誘導型相関評価: ドリフトによる学習前の聴覚知識の劣化を低減するため, 過去のステップにおける現在のパッチの相関性を評価し, 過去のステップと高い相関性を示すパッチを特定することを提案する。
この2つのアイデアから得られた結果に基づき,音声-ビデオの効果的な事前学習のための確率的パッチ選択を行う。
複数のベンチマークによる実験結果から, ゼロショット検索タスクの相対的性能向上率は, 連続学習ベースラインに比べて3.69%向上し, メモリ消費量は45%削減された。 Continuously learning a variety of audio-video semantics over time is crucial for audio-related reasoning tasks in our ever-evolving world. However, this is a nontrivial problem and poses two critical challenges: sparse spatio-temporal correlation between audio-video pairs and multimodal correlation overwriting that forgets audio-video relations. To tackle this problem, we propose a new continual audio-video pre-training method with two novel ideas: (1) Localized Patch Importance Scoring: we introduce a multimodal encoder to determine the importance score for each patch, emphasizing semantically intertwined audio-video patches. (2) Replay-guided Correlation Assessment: to reduce the corruption of previously learned audiovisual knowledge due to drift, we propose to assess the correlation of the current patches on the past steps to identify the patches exhibiting high correlations with the past steps. Based on the results from the two ideas, we perform probabilistic patch selection for effective continual audio-video pre-training. Experimental validation on multiple benchmarks shows that our method achieves a 3.69%p of relative performance gain in zero-shot retrieval tasks compared to strong continual learning baselines, while reducing memory consumption by ~45%. | 翻訳日:2024-02-05 19:41:08 公開日:2024-02-02 |
# CAST: 語彙データのためのクラスタ対応自己学習 CAST: Cluster-Aware Self-Training for Tabular Data ( http://arxiv.org/abs/2310.06380v2 ) ライセンス: Link先を確認 | Minwook Kim, Juseong Kim, Ki Beom Kim, Giltae Song | (参考訳) 自己学習は単純さと汎用性から注目を集めているが、誤った自信によって生じる偽のラベルに弱い。
この問題に対処するためにいくつかの解決策が提案されているが、それらは自己学習アルゴリズムやモデルアーキテクチャの大幅な修正を必要とする。
この問題に対処するため,我々は,自己学習コンテキストにおける信頼の新たな方向性を探求し,疑似ラベルの値を表す信頼度がクラスタの仮定を意識すべきであると結論付ける。
本稿では,有意な修正を伴わずに既存の自己学習アルゴリズムを無視できるコストで拡張する,表型データのためのクラスタアウェア自己学習(CAST)を提案する。
具体的には、castはラベル付きトレーニングデータ内の各クラスの局所密度を利用して分類器の信頼性を定式化し、低密度領域の疑似ラベルの信頼性を低下させる。
最大21の実世界のデータセットに対する大規模な実験的評価は、CASTの優れた性能だけでなく、自己学習コンテキストにおける様々な設定における堅牢性も確認する。 Self-training has gained attraction because of its simplicity and versatility, yet it is vulnerable to noisy pseudo-labels caused by erroneous confidence. Several solutions have been proposed to handle the problem, but they require significant modifications in self-training algorithms or model architecture, and most have limited applicability in tabular domains. To address this issue, we explore a novel direction of reliable confidence in self-training contexts and conclude that the confidence, which represents the value of the pseudo-label, should be aware of the cluster assumption. In this regard, we propose Cluster-Aware Self-Training (CAST) for tabular data, which enhances existing self-training algorithms at a negligible cost without significant modifications. Concretely, CAST regularizes the confidence of the classifier by leveraging local density for each class in the labeled training data, forcing the pseudo-labels in low-density regions to have lower confidence. Extensive empirical evaluations on up to 21 real-world datasets confirm not only the superior performance of CAST but also its robustness in various setups in self-training contexts. | 翻訳日:2024-02-05 19:40:44 公開日:2024-02-02 |
# 過パラメータニューラルネットワークの部分的参加によるフェデレーション平均値の収束性について On the Convergence of Federated Averaging under Partial Participation for Over-parameterized Neural Networks ( http://arxiv.org/abs/2310.05495v2 ) ライセンス: Link先を確認 | Xin Liu, Wei li, Dazhi Zhan, Yu Pan, Xin Ma, Yu Ding, Zhisong Pan | (参考訳) フェデレートラーニング(FL)は、ローカルデータを共有せずに複数のクライアントから機械学習モデルを協調訓練するための分散パラダイムである。
実際にFLは、帯域幅の制限、断続接続、厳密な同期遅延により、部分的なクライアント参加を扱う際の課題に直面している。
同時に、この実践的な環境では、特にニューラルネットワークの非凸最適化に関連する理論収束保証がほとんど存在しない。
このギャップを埋めるために、我々は2つの標準モデル(ディープ線形ネットワークと2層ReLUネットワーク)に対するフェデレーション平均化(FedAvg)法のトレーニング問題に焦点を当てた。
過度にパラメータ化された仮定の下では、FedAvg が線型レート $\mathcal{O}\left((1-\frac{min_{i \in [t]}|S_i|}{N^2})^t\right)$ の後に$t$ の反復で、$N$ はクライアントの数で、$|S_i|$ は第2の反復で参加したクライアントの数であることを示す。
実験的評価は理論的な結果を裏付ける。 Federated learning (FL) is a widely employed distributed paradigm for collaboratively training machine learning models from multiple clients without sharing local data. In practice, FL encounters challenges in dealing with partial client participation due to the limited bandwidth, intermittent connection and strict synchronized delay. Simultaneously, there exist few theoretical convergence guarantees in this practical setting, especially when associated with the non-convex optimization of neural networks. To bridge this gap, we focus on the training problem of federated averaging (FedAvg) method for two canonical models: a deep linear network and a two-layer ReLU network. Under the over-parameterized assumption, we provably show that FedAvg converges to a global minimum at a linear rate $\mathcal{O}\left((1-\frac{min_{i \in [t]}|S_i|}{N^2})^t\right)$ after $t$ iterations, where $N$ is the number of clients and $|S_i|$ is the number of the participated clients in the $i$-th iteration. Experimental evaluations confirm our theoretical results. | 翻訳日:2024-02-05 19:40:21 公開日:2024-02-02 |
# 非制限連続離散型形態素ニューラルネットワークの学習アルゴリズム An Algorithm to Train Unrestricted Sequential Discrete Morphological Neural Networks ( http://arxiv.org/abs/2310.04584v2 ) ライセンス: Link先を確認 | Diego Marcondes, Mariana Feldman and Junior Barrera | (参考訳) 数学的形態学演算子(MM)を畳み込みニューラルネットワーク(CNN)に挿入する試みが試みられ、これまでで最も成功したのが形態学ニューラルネットワーク(MNN)である。
MNNはいくつかの問題を解決する際にCNNよりも優れているが、ブラックボックスの性質を継承している。
さらに、二元画像の場合、それらはMM演算子のブール格子構造を緩める近似であり、したがって所望の性質を持つW-演算子の特定のクラスを表現することはできない。
本研究では,w-operatorsの特定クラスを表現し,機械学習により推定する2値画像変換のための離散形態的ニューラルネットワーク(dmnn)を提案する。
また,正規離散型モルフォロジーニューラルネットワーク (CDMNN) のパラメータを学習するための確率格子降下アルゴリズム (SLDA) も提案した。
本稿では,一般W-演算子の構成によりアーキテクチャが与えられる制約のない連続DMNNを学習するアルゴリズムを提案する。
このアルゴリズムを実例で説明する。 There have been attempts to insert mathematical morphology (MM) operators into convolutional neural networks (CNN), and the most successful endeavor to date has been the morphological neural networks (MNN). Although MNN have performed better than CNN in solving some problems, they inherit their black-box nature. Furthermore, in the case of binary images, they are approximations that loose the Boolean lattice structure of MM operators and, thus, it is not possible to represent a specific class of W-operators with desired properties. In a recent work, we proposed the Discrete Morphological Neural Networks (DMNN) for binary image transformation to represent specific classes of W-operators and estimate them via machine learning. We also proposed a stochastic lattice descent algorithm (SLDA) to learn the parameters of Canonical Discrete Morphological Neural Networks (CDMNN), whose architecture is composed only of operators that can be decomposed as the supremum, infimum, and complement of erosions and dilations. In this paper, we propose an algorithm to learn unrestricted sequential DMNN, whose architecture is given by the composition of general W-operators. We illustrate the algorithm in a practical example. | 翻訳日:2024-02-05 19:39:51 公開日:2024-02-02 |
# デノジング拡散ステップアウェアモデル Denoising Diffusion Step-aware Models ( http://arxiv.org/abs/2310.03337v3 ) ライセンス: Link先を確認 | Shuai Yang, Yukang Chen, Luozhou Wang, Shu Liu, Yingcong Chen | (参考訳) Denoising Diffusion Probabilistic Models (DDPM) は、さまざまな領域にわたるデータ生成で人気を集めている。
しかし、大きなボトルネックは、生成プロセスのステップ毎にネットワーク全体の計算が必要であり、計算オーバーヘッドが高くなることである。
本稿では,この課題に対処するための新しいフレームワークDDSM(Denoising Diffusion Step-Aware Models)を提案する。
従来のアプローチとは異なり、DDSMは進化探索によって決定されるように、各生成ステップの重要性に応じてサイズが適応されるニューラルネットワークのスペクトルを用いる。
このステップワイズネットワークのばらつきは、冗長な計算作業を、特に批判の少ないステップで効果的に回避し、拡散モデルの効率を向上する。
さらに、ステップアウェア設計はDDIMや潜時拡散といった他の効率ゲージ拡散モデルとシームレスに統合することができ、計算節約の範囲を広げることができる。
実験的な評価では、DDSMはCIFAR-10で49%、CelebA-HQで61%、LSUN-bedroomで59%、AFHQで71%、ImageNetで76%の計算節約を達成した。 Denoising Diffusion Probabilistic Models (DDPMs) have garnered popularity for data generation across various domains. However, a significant bottleneck is the necessity for whole-network computation during every step of the generative process, leading to high computational overheads. This paper presents a novel framework, Denoising Diffusion Step-aware Models (DDSM), to address this challenge. Unlike conventional approaches, DDSM employs a spectrum of neural networks whose sizes are adapted according to the importance of each generative step, as determined through evolutionary search. This step-wise network variation effectively circumvents redundant computational efforts, particularly in less critical steps, thereby enhancing the efficiency of the diffusion model. Furthermore, the step-aware design can be seamlessly integrated with other efficiency-geared diffusion models such as DDIMs and latent diffusion, thus broadening the scope of computational savings. Empirical evaluations demonstrate that DDSM achieves computational savings of 49% for CIFAR-10, 61% for CelebA-HQ, 59% for LSUN-bedroom, 71% for AFHQ, and 76% for ImageNet, all without compromising the generation quality. | 翻訳日:2024-02-05 19:39:30 公開日:2024-02-02 |
# 宝くじのセンシングによるニューラルネットワークのスケーリング則 A Neural Scaling Law from Lottery Ticket Ensembling ( http://arxiv.org/abs/2310.02258v2 ) ライセンス: Link先を確認 | Ziming Liu, Max Tegmark | (参考訳) 神経スケーリングの法則(neural scaling law、nsl)は、モデルのパフォーマンスがスケールによって向上する現象を指す。
Sharma & Kaplan は近似理論を用いて NSL を分析し、MSE の損失は $N^{-\alpha}$, $\alpha=4/d$ と予測した。
それらの理論はいくつかのケース(例えば ReLU ネットワーク)でうまく機能するが、単純な 1D 問題 $y=x^2$ は予想と異なるスケーリング法(\alpha=1$)を示す(\alpha=4$)。
ニューラルネットワークをオープンし、新しいスケーリング法則が宝くじのセンスリングに由来することを突き止めた: 平均的なネットワークは、アウトプットのばらつきを減らすために、より多くの「宝くじ」を持っている。
我々は,単一ニューラルネットワークを機械的に解釈し,統計的に研究することで,その理解を支援する。
我々は、$n^{-1}$のスケーリング則を抽選券の「中央極限定理」に分類する。
最後に,大きな言語モデルや統計物理学的な学習理論にその可能性について論じる。 Neural scaling laws (NSL) refer to the phenomenon where model performance improves with scale. Sharma & Kaplan analyzed NSL using approximation theory and predict that MSE losses decay as $N^{-\alpha}$, $\alpha=4/d$, where $N$ is the number of model parameters, and $d$ is the intrinsic input dimension. Although their theory works well for some cases (e.g., ReLU networks), we surprisingly find that a simple 1D problem $y=x^2$ manifests a different scaling law ($\alpha=1$) from their predictions ($\alpha=4$). We opened the neural networks and found that the new scaling law originates from lottery ticket ensembling: a wider network on average has more "lottery tickets", which are ensembled to reduce the variance of outputs. We support the ensembling mechanism by mechanistically interpreting single neural networks, as well as studying them statistically. We attribute the $N^{-1}$ scaling law to the "central limit theorem" of lottery tickets. Finally, we discuss its potential implications for large language models and statistical physics-type theories of learning. | 翻訳日:2024-02-05 19:39:07 公開日:2024-02-02 |
# 正規化識別結合型超球面特徴適応に基づく複数クラス異常検出 Multi-Class Anomaly Detection based on Regularized Discriminative Coupled hypersphere-based Feature Adaptation ( http://arxiv.org/abs/2311.14506v2 ) ライセンス: Link先を確認 | Mehdi Rafiei, Alexandros Iosifidis | (参考訳) 異常検出では、さまざまな製品カテゴリにわたる異常の識別は複雑なタスクである。
本稿では,修正正規化識別変分オートエンコーダ(RD-VAE)によって得られたクラス識別特性を結合球型特徴適応(CFA)の特徴抽出プロセスに組み込んだ新しいモデルを提案する。
提案した正規化識別型超球型特徴適応(RD-CFA)は,多クラス異常検出のための解である。
RD-VAEの識別力を利用して複雑なクラス分布をキャプチャし、CFAの堅牢な異常検出機能と組み合わせることで、提案手法は様々なクラスにまたがる異常の識別に優れる。
MVTec AD と BeanTech AD を用いたマルチクラスの異常検出と局所化に関する広範囲な評価は,従来の8つの手法と比較してRD-CFAの有効性を示した。 In anomaly detection, identification of anomalies across diverse product categories is a complex task. This paper introduces a new model by including class discriminative properties obtained by a modified Regularized Discriminative Variational Auto-Encoder (RD-VAE) in the feature extraction process of Coupled-hypersphere-based Feature Adaptation (CFA). By doing so, the proposed Regularized Discriminative Coupled-hypersphere-based Feature Adaptation (RD-CFA), forms a solution for multi-class anomaly detection. By using the discriminative power of RD-VAE to capture intricate class distributions, combined with CFA's robust anomaly detection capability, the proposed method excels in discerning anomalies across various classes. Extensive evaluations on multi-class anomaly detection and localization using the MVTec AD and BeanTech AD datasets showcase the effectiveness of RD-CFA compared to eight leading contemporary methods. | 翻訳日:2024-02-05 19:31:02 公開日:2024-02-02 |
# InstructPix2NeRF:単一画像からの3D画像編集 InstructPix2NeRF: Instructed 3D Portrait Editing from a Single Image ( http://arxiv.org/abs/2311.02826v2 ) ライセンス: Link先を確認 | Jianhui Li, Shilong Liu, Zidong Liu, Yikai Wang, Kaiwen Zheng, Jinghui Xu, Jianmin Li, Jun Zhu | (参考訳) 3D画像編集におけるNeural Radiance Field(NeRF)の成功により、品質と3D一貫性の両面で有望な成果が得られた。
しかし、これらの手法は自然言語を編集命令として扱う際に、プロンプトごとの最適化に大きく依存している。
ラベル付き人間の顔3dデータセットと効果的なアーキテクチャの欠如により、エンド・ツー・エンドのポートレートの3d対応編集領域は未開拓のままである。
そこで本研究では,人間の指示で1つのオープンワールドイメージから3次元画像編集を指示できるInstructPix2NeRFという,エンドツーエンドの拡散に基づくフレームワークを提案する。
中心となるのは条件付き3D拡散プロセスで、2D編集を3D空間に引き上げ、ペア画像の差分と3重データによる指示との相関を学習する。
提案するトークン位置ランダム化戦略の助けを借りて、ポートレートのアイデンティティを十分に保存した1回のパスでマルチセマンティクス編集を実現することさえ可能であった。
さらに,抽出された識別信号を拡散プロセスに直接変調し,マルチビューの3次元識別一貫性を増大させるid一貫性モジュールを提案する。
本手法の有効性を検証し, 強塩基性に対して定量的に, 定性的に優位性を示す。
ソースコードと事前トレーニングされたモデルは、プロジェクトページにある。 \url{https://mybabyyh.github.io/instructpix2nerf}。 With the success of Neural Radiance Field (NeRF) in 3D-aware portrait editing, a variety of works have achieved promising results regarding both quality and 3D consistency. However, these methods heavily rely on per-prompt optimization when handling natural language as editing instructions. Due to the lack of labeled human face 3D datasets and effective architectures, the area of human-instructed 3D-aware editing for open-world portraits in an end-to-end manner remains under-explored. To solve this problem, we propose an end-to-end diffusion-based framework termed InstructPix2NeRF, which enables instructed 3D-aware portrait editing from a single open-world image with human instructions. At its core lies a conditional latent 3D diffusion process that lifts 2D editing to 3D space by learning the correlation between the paired images' difference and the instructions via triplet data. With the help of our proposed token position randomization strategy, we could even achieve multi-semantic editing through one single pass with the portrait identity well-preserved. Besides, we further propose an identity consistency module that directly modulates the extracted identity signals into our diffusion process, which increases the multi-view 3D identity consistency. Extensive experiments verify the effectiveness of our method and show its superiority against strong baselines quantitatively and qualitatively. Source code and pre-trained models can be found on our project page: \url{https://mybabyyh.github.io/InstructPix2NeRF}. | 翻訳日:2024-02-05 19:30:31 公開日:2024-02-02 |
# 信号処理とSGD: モーメントからフィルタへ Signal Processing Meets SGD: From Momentum to Filter ( http://arxiv.org/abs/2311.02818v4 ) ライセンス: Link先を確認 | Zhipeng Yao, Yu Zhang, Dazhou Li | (参考訳) 深層学習において、確率勾配降下(sgd)とその運動量に基づく変種は、最適化アルゴリズムで広く使われているが、通常は緩やかに収束する問題に直面する。
一方、既存の適応学習速度最適化器は収束を加速するが、一般化能力を犠牲にすることが多い。
適応学習率特性が一般化を損なうことを示す。
そこで本研究では,sgdの収束速度を一般化の損失を伴わずに高速化する新しい最適化手法を提案する。
このアプローチは、歴史的勾配のばらつきを減らし、ウィーナーフィルタ理論を適用してSGDの1次モーメント推定を強化し、時変適応重みを導入するという考え方に基づいている。
実験の結果,sgdfは最先端オプティマイザと比較して収束と一般化のトレードオフを達成した。 In deep learning, stochastic gradient descent (SGD) and its momentum-based variants are widely used in optimization algorithms, they usually face the problem of slow convergence. Meanwhile, existing adaptive learning rate optimizers accelerate convergence but often at the expense of generalization ability. We demonstrate that the adaptive learning rate property impairs generalization. To address this contradiction, we propose a novel optimization method that aims to accelerate the convergence rate of SGD without loss of generalization. This approach is based on the idea of reducing the variance of the historical gradient, enhancing the first-order moment estimation of the SGD by applying Wiener filtering theory, and introducing a time-varying adaptive weight. Experimental results show that SGDF achieves a trade-off between convergence and generalization compared to state-of-the-art optimizers. | 翻訳日:2024-02-05 19:30:07 公開日:2024-02-02 |
# Forward $\chi^2$ Divergence based Variational Importance Smpling Forward $\chi^2$ Divergence Based Variational Importance Sampling ( http://arxiv.org/abs/2311.02516v2 ) ライセンス: Link先を確認 | Chengrui Li, Yule Wang, Weihan Li and Anqi Wu | (参考訳) ログの最大化は潜在変数モデルを学ぶ上で重要な側面であり、変分推論(VI)は一般的に採用されている手法である。
しかし、複雑な後続分布を扱う場合、VIは高いログライクな状態を達成する上で困難に直面する可能性がある。
この制限に応えて,ログ類似度を直接推定し,最大化する,新しい変動重要度サンプリング(VIS)手法を導入する。
VISは、forward $\chi^2$ divergence を最小化して達成した最適な提案分布を活用し、ログ類似度推定を強化する。
混合モデル、変分オートエンコーダ、部分観測可能な一般化線形モデルなど、様々な一般的な潜在変数モデルにvisを適用する。
その結果,本手法は,ログ類似度とモデルパラメータ推定の両面で,最先端のベースラインを一貫して上回ることを示した。 Maximizing the log-likelihood is a crucial aspect of learning latent variable models, and variational inference (VI) stands as the commonly adopted method. However, VI can encounter challenges in achieving a high log-likelihood when dealing with complicated posterior distributions. In response to this limitation, we introduce a novel variational importance sampling (VIS) approach that directly estimates and maximizes the log-likelihood. VIS leverages the optimal proposal distribution, achieved by minimizing the forward $\chi^2$ divergence, to enhance log-likelihood estimation. We apply VIS to various popular latent variable models, including mixture models, variational auto-encoders, and partially observable generalized linear models. Results demonstrate that our approach consistently outperforms state-of-the-art baselines, both in terms of log-likelihood and model parameter estimation. | 翻訳日:2024-02-05 19:29:52 公開日:2024-02-02 |
# アライメント天井:人間フィードバックからの強化学習における客観的ミスマッチ The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2311.00168v2 ) ライセンス: Link先を確認 | Nathan Lambert and Roberto Calandra | (参考訳) 人間のフィードバックからの強化学習(RLHF)は、複雑な設定で大規模言語モデル(LLM)をより有効にするための強力なテクニックとして登場した。
RLHFは、人間の嗜好データを収集し、そのデータに基づいて報酬モデルを訓練し、外生評価指標(MMLU、GSM8kなど)に対する報酬に対してベースMLモデルを最適化する。
RLHFは、人間の好みを捉えた報酬モデルや、報酬モデルから正しい信号を抽出するRLオプティマイザなど、様々な部品がどのように適合するかという多くの仮定に依存している。
RLHFプロセスは、多くの異なる設計決定を伴うため、複数のプロセスが相関しており、したがって数値的にリンクされていると仮定することは容易である。
報酬モデルは簡単に過度に最適化されるか、RLオプティマイザはデータでモデル化されていないタスクのパフォーマンスを低下させることができる。
不完全なRLHFシステムで訓練されたモデルの顕著な表現は、安全上の理由から基本的な要求を拒否する傾向にある。
チャットモデルの評価がニュアンスを増すにつれて、報酬モデルトレーニング、RLスコア、下流パフォーマンスの関連性への依存がこれらの問題を招き、客観的なミスマッチと表現する。
本稿では,この問題の原因を説明し,モデルに基づく強化学習から関連する文献をレビューし,解決を議論する。
RLHFにおける客観的ミスマッチの解決により、将来のMLモデルは、安全性と有用性の両方のために、より正確にユーザー指示に適合する。 Reinforcement learning from human feedback (RLHF) has emerged as a powerful technique to make large language models (LLMs) more capable in complex settings. RLHF proceeds as collecting human preference data, training a reward model on said data, and optimizing a base ML model with respect to said reward for extrinsic evaluation metrics (e.g. MMLU, GSM8k). RLHF relies on many assumptions about how the various pieces fit together, such as a reward model capturing human preferences and an RL optimizer extracting the right signal from a reward model. As the RLHF process involves many distinct design decisions, it is easy to assume that multiple processes are correlated and therefore numerically linked. This apparent correlation is often not true, where reward models are easily overoptimized or RL optimizers can reduce performance on tasks not modeled in the data. Notable manifestations of models trained with imperfect RLHF systems are those that are prone to refusing basic requests for safety reasons or appearing lazy in generations. As chat model evaluation becomes increasingly nuanced, the reliance on a perceived link between reward model training, RL scores, and downstream performance drives these issues, which we describe as an objective mismatch. In this paper, we illustrate the causes of this issue, reviewing relevant literature from model-based reinforcement learning, and argue for solutions. By solving objective mismatch in RLHF, the ML models of the future will be more precisely aligned to user instructions for both safety and helpfulness. | 翻訳日:2024-02-05 19:29:19 公開日:2024-02-02 |
# 暗黙制約付きブラックボックス最適化のための条件付き生成表現 Conditional Generative Representation for Black-Box Optimization with Implicit Constraints ( http://arxiv.org/abs/2310.18449v2 ) ライセンス: Link先を確認 | Wenqian Xing, Jungho Lee, Chong Liu, Shixiang Zhu | (参考訳) ブラックボックス最適化(BBO)は、特に警察の地区化のような公共政策領域において、複雑な意思決定問題に取り組むためにますます重要になっている。
しかし、公共政策におけるその広範な適用は、実現可能な地域を定義する複雑さと意思決定の高次元性によって妨げられている。
本稿では,CageBO(Conditional and Generative Black-box Optimization)と呼ばれる新しいBBOフレームワークを紹介する。
このアプローチは条件付き変分オートエンコーダを利用して実現可能な決定の分布を学習し、元の決定空間と単純で制約のない潜在空間の間の双方向マッピングを可能にする。
cageboは、パブリックポリシーアプリケーションでよく見られる暗黙の制約を効率的に処理し、元の空間の目的を評価しながら潜在空間での最適化を可能にする。
本手法は,ジョージア州アトランタにおける大規模警察地区問題に対するケーススタディを通じて検証した。
我々のCageBOは,ベースラインに比べて性能と効率が著しく向上していることがわかった。 Black-box optimization (BBO) has become increasingly relevant for tackling complex decision-making problems, especially in public policy domains such as police districting. However, its broader application in public policymaking is hindered by the complexity of defining feasible regions and the high-dimensionality of decisions. This paper introduces a novel BBO framework, termed as the Conditional And Generative Black-box Optimization (CageBO). This approach leverages a conditional variational autoencoder to learn the distribution of feasible decisions, enabling a two-way mapping between the original decision space and a simplified, constraint-free latent space. The CageBO efficiently handles the implicit constraints often found in public policy applications, allowing for optimization in the latent space while evaluating objectives in the original space. We validate our method through a case study on large-scale police districting problems in Atlanta, Georgia. Our results reveal that our CageBO offers notable improvements in performance and efficiency compared to the baselines. | 翻訳日:2024-02-05 19:28:40 公開日:2024-02-02 |
# 検出器ビンニングによるガウスボソンサンプリングの検証 Gaussian boson sampling validation via detector binning ( http://arxiv.org/abs/2310.18113v2 ) ライセンス: Link先を確認 | Gabriele Bressanini, Benoit Seron, Leonardo Novo, Nicolas J. Cerf and M.S. Kim | (参考訳) ガウス・ボソンサンプリング(gaussian boson sampling, gbs)は、古典的マシンではシミュレーションが難しいと推測される計算問題であり、近年の量子的優位性を示す実験的・理論的取り組みの最前線にある。
サンプリングタスクの古典的な難易度は、これらの実験の検証を困難かつ不可欠な作業にする。
本稿では,光子数分解検出器を用いたgbs実験を統計的に検証するための適切な量として,binned-detector確率分布を提案する。
それぞれの特性関数との接続を利用してそのような分布を計算する方法を示す。
後者は、スクワッシュ状態のような関連する古典的仮説と同様に、圧縮された入力状態に対して効率的かつ解析的に計算することができる。
本手法は限界分布と相関関数に基づく他の検証手法を包含する。
さらに、gbsフレームワーク内ではほとんど注目されていない損失や部分的識別性など、さまざまなノイズソースに対応できる。
また,全干渉型ネットワーク上で平均値が得られた場合,バイナリ検出確率分布がどのように振る舞うかを示し,fock bosonサンプリングの既知の結果を拡張した。 Gaussian boson sampling (GBS), a computational problem conjectured to be hard to simulate on a classical machine, has been at the forefront of recent years' experimental and theoretical efforts to demonstrate quantum advantage. The classical intractability of the sampling task makes validating these experiments a challenging and essential undertaking. In this paper, we propose binned-detector probability distributions as a suitable quantity to statistically validate GBS experiments employing photon-number-resolving detectors. We show how to compute such distributions by leveraging their connection with their respective characteristic function. The latter may be efficiently and analytically computed for squeezed input states as well as for relevant classical hypothesis like squashed states. Our scheme encompasses other validation methods based on marginal distributions and correlation functions. Additionally, it can accommodate various sources of noise, such as losses and partial distinguishability, a feature that have received limited attention within the GBS framework so far. We also illustrate how binned-detector probability distributions behave when Haar-averaged over all possible interferometric networks, extending known results for Fock boson sampling. | 翻訳日:2024-02-05 19:28:23 公開日:2024-02-02 |
# ベイズ最適化におけるランダム探索:順序最適回帰と計算効率 Random Exploration in Bayesian Optimization: Order-Optimal Regret and Computational Efficiency ( http://arxiv.org/abs/2310.15351v2 ) ライセンス: Link先を確認 | Sudeep Salgia, Sattar Vakili, Qing Zhao | (参考訳) ガウス過程モデルを用いたベイズ最適化をカーネルベース帯域最適化と呼ぶ。
本研究では,分布から引き出されたランダムサンプルを用いて領域を探索する手法について検討する。
このランダム探索手法が最適誤差率を達成することを示す。
我々の解析は、この研究で確立された無限次元ヒルベルト空間における新しい濃度境界に基づいている。
さらに,領域縮小を伴うランダム探索に基づくアルゴリズムを開発し,ノイズのない環境と雑音環境の両方において,そのオーダー・オプティマイト保証を確立する。
ノイズフリー環境では,既存の残響性能のギャップを解消し,COLT開放問題を解消する。
提案アルゴリズムは,反復毎にクエリポイントを選択するために,非凸取得関数の高価な最適化を回避したランダム探索により,一般的な手法よりも計算上の優位性を持つ。 We consider Bayesian optimization using Gaussian Process models, also referred to as kernel-based bandit optimization. We study the methodology of exploring the domain using random samples drawn from a distribution. We show that this random exploration approach achieves the optimal error rates. Our analysis is based on novel concentration bounds in an infinite dimensional Hilbert space established in this work, which may be of independent interest. We further develop an algorithm based on random exploration with domain shrinking and establish its order-optimal regret guarantees under both noise-free and noisy settings. In the noise-free setting, our analysis closes the existing gap in regret performance and thereby resolves a COLT open problem. The proposed algorithm also enjoys a computational advantage over prevailing methods due to the random exploration that obviates the expensive optimization of a non-convex acquisition function for choosing the query points at each iteration. | 翻訳日:2024-02-05 19:28:04 公開日:2024-02-02 |
# Brenier Optimal Transport Maps を用いた非線形フィルタ Nonlinear Filtering with Brenier Optimal Transport Maps ( http://arxiv.org/abs/2310.13886v2 ) ライセンス: Link先を確認 | Mohammad Al-Jarrah, Niyizhen Jin, Bamdad Hosseini, Amirhossein Taghvaei | (参考訳) 本稿では, 非線形フィルタリング, すなわち, 雑音のある部分的な観測履歴を与えられた確率力学系の状態の条件分布を計算する問題について述べる。
従来のシーケンシャル・シーケンシャル・シーケンシャル・リサンプリング(SIR)粒子フィルタは、重縮退の問題により、縮退確率や高次元状態を含むシナリオにおいて、基本的な制限に悩まされる。
本稿では,次の段階において,現在の状態の事前分布から後方分布へのブレニエ最適輸送(ot)マップを推定することに基づく代替手法について検討する。
SIR粒子フィルタとは異なり、OTの定式化は可能性の分析形式を必要としない。
さらに,複雑なマルチモーダル分布をモデル化するためにニューラルネットワークの近似パワーを活用し,拡張性を高めるために確率的最適化アルゴリズムを活用できる。
OT法をSIR粒子フィルタとアンサンブルカルマンフィルタと比較し, 試料効率, 高次元スケーラビリティ, 複雑・多モード分布を捉える能力の評価を行った。 This paper is concerned with the problem of nonlinear filtering, i.e., computing the conditional distribution of the state of a stochastic dynamical system given a history of noisy partial observations. Conventional sequential importance resampling (SIR) particle filters suffer from fundamental limitations, in scenarios involving degenerate likelihoods or high-dimensional states, due to the weight degeneracy issue. In this paper, we explore an alternative method, which is based on estimating the Brenier optimal transport (OT) map from the current prior distribution of the state to the posterior distribution at the next time step. Unlike SIR particle filters, the OT formulation does not require the analytical form of the likelihood. Moreover, it allows us to harness the approximation power of neural networks to model complex and multi-modal distributions and employ stochastic optimization algorithms to enhance scalability. Extensive numerical experiments are presented that compare the OT method to the SIR particle filter and the ensemble Kalman filter, evaluating the performance in terms of sample efficiency, high-dimensional scalability, and the ability to capture complex and multi-modal distributions. | 翻訳日:2024-02-05 19:27:35 公開日:2024-02-02 |
# ファウンデーションモデルの埋め込み表現は分布変化を検出できる Foundation Model's Embedded Representations May Detect Distribution Shift ( http://arxiv.org/abs/2310.13836v2 ) ライセンス: Link先を確認 | Max Vargas, Adam Tsou, Andrew Engel, Tony Chiang | (参考訳) バイアスのサンプリングは、教師付き学習タスクのためのトレインデータセットとテストデータセット間の分散シフトを引き起こし、モデルの一般化能力を理解する能力を妨げる。
これは、トランスファーラーニング(TL)タスクに事前訓練された基礎的ニューラルネットワーク(振る舞いがまだ理解されていない)が広く採用されていることを考えると、特に重要である。
本稿では,Sentiment140データセット上でTLのケーススタディを行い,Sentiment140の手作業によるテストセットの異なる表現をコード化した事前学習基礎モデルの多くを,自動ラベル付きトレーニングセットの$P$から$M$で提供する。
我々は、$P$のトレーニングと$M$のパフォーマンスの測定は一般化のバイアスのある尺度であると主張している。
事前訓練されたGPT-2の実験では、$P$から学習可能な機能は、$M$での(実際は)パフォーマンスを向上しない。
事前訓練されたGPT-2の表現に対する線形プローブは堅牢であり、全体的な微調整よりも優れており、モデル解釈のための列車/テスト分割の分布シフトを識別する上で基本的な重要性を示唆している。 Sampling biases can cause distribution shifts between train and test datasets for supervised learning tasks, obscuring our ability to understand the generalization capacity of a model. This is especially important considering the wide adoption of pre-trained foundational neural networks -- whose behavior remains poorly understood -- for transfer learning (TL) tasks. We present a case study for TL on the Sentiment140 dataset and show that many pre-trained foundation models encode different representations of Sentiment140's manually curated test set $M$ from the automatically labeled training set $P$, confirming that a distribution shift has occurred. We argue training on $P$ and measuring performance on $M$ is a biased measure of generalization. Experiments on pre-trained GPT-2 show that the features learnable from $P$ do not improve (and in fact hamper) performance on $M$. Linear probes on pre-trained GPT-2's representations are robust and may even outperform overall fine-tuning, implying a fundamental importance for discerning distribution shift in train/test splits for model interpretation. | 翻訳日:2024-02-05 19:27:18 公開日:2024-02-02 |
# オープンセット画像復元のためのテスト時間劣化適応 Test-Time Degradation Adaption for Open-Set Image Restoration ( http://arxiv.org/abs/2312.02197v3 ) ライセンス: Link先を確認 | Yuanbiao Gou and Haiyu Zhao and Boyun Li and Xinyan Xiao and Xi Peng | (参考訳) 事前定義された劣化からイメージを復元するクローズセットのシナリオとは対照的に、オープンセットのイメージ復元は、事前学習期間中に予期せぬ劣化に対処することを目的としている。
本研究では,この課題を明示的に研究し,その本質,すなわち,テストデータとトレーニングデータ間の不特定分布の変化を明らかにする。
近年、テスト時間適応は、この固有の格差に対処するための基本的な方法として現れる。
そこで本研究では,3成分を含むオープンセット画像復元のためのテスト時間劣化適応フレームワークを提案する。
一 クリーンな画像を生成するための事前訓練及び劣化診断拡散モデル
二 試験時間劣化アダプタは、試験段階での入力画像に基づいて未知の劣化を適応させ、
三 アダプタガイド画像復元は、モデルをアダプタを通して案内し、対応するクリーン画像を生成する。
訓練データに欠落した複数の劣化に関する実験を通じて,本手法はタスク固有の手法と同等の性能を達成できることを示した。 In contrast to close-set scenarios that restore images from a predefined set of degradations, open-set image restoration aims to handle the unknown degradations that were unforeseen during the pretraining phase, which is less-touched as far as we know. In this work, we explicitly study this challenging problem and reveal its essence, i.e., the unidentified distribution shifts between test and training data. In recent, test-time adaptation emerges as a fundamental method to address this inherent disparities. Inspired by this, we propose a test-time degradation adaption framework for open-set image restoration, which involves three components, i.e., i) a pre-trained and degradation-agnostic diffusion model to generate clean images, ii) a test-time degradation adapter adapts the unknown degradations based on the input image during the testing phase, and iii) the adapter-guided image restoration guides the model through the adapter to produce the corresponding clean image. Through experiments on multiple degradations absent from the training data, we show that our method achieves comparable even better performance than those task-specific methods. | 翻訳日:2024-02-05 19:19:06 公開日:2024-02-02 |
# 教師の教育におけるAIの信頼について6か国で説明できるもの What Explains Teachers' Trust of AI in Education across Six Countries? ( http://arxiv.org/abs/2312.01627v2 ) ライセンス: Link先を確認 | Olga Viberg, Mutlu Cukurova, Yael Feldman-Maggor, Giora Alexandron, Shizuka Shirai, Susumu Kanemune, Barbara Wasson, Cathrine T{\o}mte, Daniel Spikol, Marcelo Milrad, Raquel Coelho, Ren\'e F. Kizilcec | (参考訳) AIベースの教育技術(AI-EdTech)を学生の学習成果の改善や教育実践の充実に活用することへの期待が高まっており、教員は教室におけるAI-EdTechの採用において中心的な役割を果たす。
テクノロジを日々の教育プラクティスに統合することで、脆弱性を受け入れる教師の意思は、ai-edtechに対する信頼度によって決まる。
本研究では,6大陸6ヶ国508K-12の教師を対象に,AI-EdTechに対する教師の信頼をどう形作るか,AI-EdTechに対するメリットや懸念について調査した。
本研究では,人口,職業特性(年齢,性別,主観,経験年数など),文化的価値(ホフステードの文化的次元),地理的位置(ブラジル,イスラエル,日本,ノルウェー,スウェーデン,アメリカ),心理的要因(自己効力感と理解)など,包括的特徴セットについて検討した。
複数の回帰分析を用いて、より高いAI-EdTech自己効力とAI理解を持つ教師は、より多くの利益を享受し、懸念を減らし、AI-EdTechに対する信頼を報告している。
また,教師のAI-EdTechに対する信頼度には地理的・文化的差が認められたが,年齢,性別,教育水準による人口差はみられなかった。
この発見は、AI-EdTechに対する教師の信頼に関連する要因を包括的で国際的に分析するものである。
教師のAI-EdTechに対する理解を高め、その文化的価値を考慮しつつ、K-12教育への導入を支援するために努力する。 With growing expectations to use AI-based educational technology (AI-EdTech) to improve students' learning outcomes and enrich teaching practice, teachers play a central role in the adoption of AI-EdTech in classrooms. Teachers' willingness to accept vulnerability by integrating technology into their everyday teaching practice, that is, their trust in AI-EdTech, will depend on how much they expect it to benefit them versus how many concerns it raises for them. In this study, we surveyed 508 K-12 teachers across six countries on four continents to understand which teacher characteristics shape teachers' trust in AI-EdTech, and its proposed antecedents, perceived benefits and concerns about AI-EdTech. We examined a comprehensive set of characteristics including demographic and professional characteristics (age, gender, subject, years of experience, etc.), cultural values (Hofstede's cultural dimensions), geographic locations (Brazil, Israel, Japan, Norway, Sweden, USA), and psychological factors (self-efficacy and understanding). Using multiple regression analysis, we found that teachers with higher AI-EdTech self-efficacy and AI understanding perceive more benefits, fewer concerns, and report more trust in AI-EdTech. We also found geographic and cultural differences in teachers' trust in AI-EdTech, but no demographic differences emerged based on their age, gender, or level of education. The findings provide a comprehensive, international account of factors associated with teachers' trust in AI-EdTech. Efforts to raise teachers' understanding of, and trust in AI-EdTech, while considering their cultural values are encouraged to support its adoption in K-12 education. | 翻訳日:2024-02-05 19:18:49 公開日:2024-02-02 |
# 新しいオンラインコミュニティ - 匿名投票ネットワークにおけるグラフ深層学習による多元的ガバナンスの脆弱性の特定 New Online Communities: Graph Deep Learning on Anonymous Voting Networks to Identify Sybils in Polycentric Governance ( http://arxiv.org/abs/2311.17929v5 ) ライセンス: Link先を確認 | Quinn DuPont | (参考訳) 本研究では、ブロックチェーンベースの分散自律組織(DAO)におけるデジタル資産の多元的ガバナンスについて検討する。
理論的な枠組みを提供し、シビルや急激なアイデンティティを識別する手法を開発することによって、分散型ガバナンスに直面する重要な課題に対処する。
シビルはDAOや他のコモンズベースのオンラインコミュニティに重大な組織的持続可能性脅威をもたらし、脅威モデルが特定される。
実験方法は、DAOガバナンスデータセット(snapshot.org)のシビルアクティビティをグラフ深層学習技術を用いて識別する。
特に、グラフ畳み込みニューラルネットワーク(GCNN)は投票行動を学び、高速なk平均ベクトルクラスタリングアルゴリズム(FAISS)はグラフ内の類似ノードを特定するために高次元埋め込みを使用した。
その結果、ディープラーニングはシビルを効果的に識別し、投票グラフを2-5%削減できることがわかった。
この研究は、DAOにおけるシビル抵抗の重要性を浮き彫りにして、分散ガバナンス、将来の政策、規制、ガバナンスの実践について新しい視点を提供する。 This research examines the polycentric governance of digital assets in blockchain-based Decentralized Autonomous Organizations (DAOs). It offers a theoretical framework and addresses a critical challenge facing decentralized governance by developing a method to identify sybils, or spurious identities. Sybils pose significant organizational sustainability threats to DAOs and other, commons-based online communities, and threat models are identified. The experimental method uses graph deep learning techniques to identify sybil activity in a DAO governance dataset (snapshot.org). Specifically, a Graph Convolutional Neural Network (GCNN) learned voting behaviours and a fast k-means vector clustering algorithm (FAISS) used high-dimensional embeddings to identify similar nodes in a graph. The results reveal that deep learning can effectively identify sybils, reducing the voting graph by 2-5%. This research underscores the importance of sybil resistance in DAOs and offers a novel perspective on decentralized governance, informing future policy, regulation, and governance practices. | 翻訳日:2024-02-05 19:18:12 公開日:2024-02-02 |
# 辺縁ラプラシアンスコア Marginal Laplacian Score ( http://arxiv.org/abs/2311.17795v2 ) ライセンス: Link先を確認 | Guy Hay and Ohad Volk | (参考訳) 高次元の不均衡データは機械学習に挑戦する。
十分なラベルや高品質のラベルがない場合、教師なしの機能選択手法はその後のアルゴリズムの成功に不可欠である。
そこで我々は,不均衡なデータに対処するために,よく知られたラプラシアンスコア (LS) の修正であるMarginal Laplacian Score (MLS) を導入する。
マイノリティクラスや異常が特徴の限界で頻繁に現れるという仮定を導入する。
その結果、MLSはデータセットのマージンの局所的な構造を維持することを目指している。
ラプラシアンスコアを利用した現代特徴選択手法への統合を提案する。
我々は、MLSアルゴリズムを微分不可能な特徴選択(DUFS)に統合し、DUFS-MLSを生成する。
提案手法は,合成および公開データセットにおけるロバストで改良された性能を示す。 High-dimensional imbalanced data poses a machine learning challenge. In the absence of sufficient or high-quality labels, unsupervised feature selection methods are crucial for the success of subsequent algorithms. Therefore, we introduce a Marginal Laplacian Score (MLS), a modification of the well known Laplacian Score (LS) tailored to better address imbalanced data. We introduce an assumption that the minority class or anomalous appear more frequently in the margin of the features. Consequently, MLS aims to preserve the local structure of the dataset's margin. We propose its integration into modern feature selection methods that utilize the Laplacian score. We integrate the MLS algorithm into the Differentiable Unsupervised Feature Selection (DUFS), resulting in DUFS-MLS. The proposed methods demonstrate robust and improved performance on synthetic and public datasets. | 翻訳日:2024-02-05 19:17:52 公開日:2024-02-02 |
# InstaStyle:スタイリングされた画像の逆ノイズは秘かにスタイルアドバイス InstaStyle: Inversion Noise of a Stylized Image is Secretly a Style Adviser ( http://arxiv.org/abs/2311.15040v2 ) ライセンス: Link先を確認 | Xing Cui, Zekun Li, Pei Pei Li, Huaibo Huang, Zhaofeng He | (参考訳) スティル化されたテキスト画像生成は、いくつかの参照画像で指定されたスタイルに固執しながら、テキスト記述から画像を作成することに焦点を当てる。
しかし、異なる参照画像内の微妙なスタイルの変化は、モデルがターゲットのスタイルを正確に学習することを妨げる。
本稿では,単一の参照画像のみを用いた高忠実度スタイリッシュ画像の生成に優れた新しい手法であるinstastyleを提案する。
提案手法は,非ゼロ信号対雑音比で示されるように,スタイリングされた参照画像からの逆ノイズが本質的にスタイル信号を運ぶことに基づく。
ddimインバージョンを用いて基準画像からこの雑音を抽出し,拡散モデルを用いて「スタイル」ノイズから新たなスタイライゼーション画像を生成する。
さらに、テキストプロンプトの本来の曖昧さと偏見は、スタイルの正確な伝達を妨げる。
そこで本研究では,参照画像のスタイル記述の精度を高めるために,即時改善による学習可能なスタイルトークンを提案する。
質的かつ定量的な実験結果は、instastyleが現在のベンチマークよりも優れた性能を達成していることを示している。
さらに,本手法は,混合反転雑音と組み合わせたスタイルの創造的タスクにおいて,その能力を示す。 Stylized text-to-image generation focuses on creating images from textual descriptions while adhering to a style specified by a few reference images. However, subtle style variations within different reference images can hinder the model from accurately learning the target style. In this paper, we propose InstaStyle, a novel approach that excels in generating high-fidelity stylized images with only a single reference image. Our approach is based on the finding that the inversion noise from a stylized reference image inherently carries the style signal, as evidenced by their non-zero signal-to-noise ratio. We employ DDIM inversion to extract this noise from the reference image and leverage a diffusion model to generate new stylized images from the "style" noise. Additionally, the inherent ambiguity and bias of textual prompts impede the precise conveying of style. To address this, we introduce a learnable style token via prompt refinement, which enhances the accuracy of the style description for the reference image. Qualitative and quantitative experimental results demonstrate that InstaStyle achieves superior performance compared to current benchmarks. Furthermore, our approach also showcases its capability in the creative task of style combination with mixed inversion noise. | 翻訳日:2024-02-05 19:17:24 公開日:2024-02-02 |
# 解釈可能な行動表現のためのマルチインテンション逆q学習 Multi-intention Inverse Q-learning for Interpretable Behavior Representation ( http://arxiv.org/abs/2311.13870v2 ) ライセンス: Link先を確認 | Hao Zhu, Brice De La Crompe, Gabriel Kalweit, Artur Schneider, Maria Kalweit, Ilka Diester, Joschka Boedecker | (参考訳) 意思決定プロセスの理解を深める過程で、逆強化学習(IRL)は複雑な行動の中で動物の複数の意図を再構築するのに役立つことが証明されている。
近年、連続的マルチインテンションIRLフレームワークが開発されていることから、IRLによる個別の時間変化報酬を推測する調査が続けられている。
この課題に対処するために、離散固有報酬関数の調整に適したIRLアルゴリズムの新たなクラスであるL(M)V-IQLを提案する。
期待最大化アプローチを活用し,観察した専門家の軌跡を異なる意図に分類し,それぞれのirl問題を独立に解く。
シミュレーション実験によるL(M)V-IQLの有効性の実証と実際のマウス行動データセットへの応用により,動物行動予測における現在のベンチマークを超え,解釈可能な報酬関数を生成する。
この進歩は神経科学と認知科学の約束を守り、意思決定の深い理解と基礎となる脳機構の解明に寄与する。 In advancing the understanding of decision-making processes, Inverse Reinforcement Learning (IRL) have proven instrumental in reconstructing animal's multiple intentions amidst complex behaviors. Given the recent development of a continuous-time multi-intention IRL framework, there has been persistent inquiry into inferring discrete time-varying rewards with IRL. To tackle the challenge, we introduce Latent (Markov) Variable Inverse Q-learning (L(M)V-IQL), a novel class of IRL algorthms tailored for accommodating discrete intrinsic reward functions. Leveraging an Expectation-Maximization approach, we cluster observed expert trajectories into distinct intentions and independently solve the IRL problem for each. Demonstrating the efficacy of L(M)V-IQL through simulated experiments and its application to different real mouse behavior datasets, our approach surpasses current benchmarks in animal behavior prediction, producing interpretable reward functions. This advancement holds promise for neuroscience and cognitive science, contributing to a deeper understanding of decision-making and uncovering underlying brain mechanisms. | 翻訳日:2024-02-05 19:17:06 公開日:2024-02-02 |
# MagicPose: アイデンティティを意識した拡散によるリアルな人間の可能性と表情のリターゲティング MagicPose: Realistic Human Poses and Facial Expressions Retargeting with Identity-aware Diffusion ( http://arxiv.org/abs/2311.12052v2 ) ライセンス: Link先を確認 | Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian Song, Qing Yan, Yizhe Zhu, Xiao Yang, Mohammad Soleymani | (参考訳) 本研究では,2次元ポーズと表情再ターゲティングのための拡散モデルであるMagicPoseを提案する。
具体的には、参照画像から、ポーズや表情を制御し、同一性を保ちながら人物の新たなイメージを生成することを目的とする。
そこで本研究では,(1)外見制御ブロックの事前学習と(2)外見制御を学習することからなる,人間の動作と外観(表情,肌の色,着衣など)を両立させる2段階のトレーニング戦略を提案する。
我々の新しいデザインは、人体、顔の特徴、背景など、生成した人間の画像に対して堅牢な外観制御を可能にする。
画像拡散モデルの事前知識を活用することで、magicposeは、追加の微調整を必要とせずに、目に見えない人間のアイデンティティや複雑なポーズにうまく一般化する。
さらに,提案モデルの利用は容易であり,安定拡散に対するプラグインモジュール/拡張と考えられる。 In this work, we propose MagicPose, a diffusion-based model for 2D human pose and facial expression retargeting. Specifically, given a reference image, we aim to generate a person's new images by controlling the poses and facial expressions while keeping the identity unchanged. To this end, we propose a two-stage training strategy to disentangle human motions and appearance (e.g., facial expressions, skin tone and dressing), consisting of (1) the pre-training of an appearance-control block and (2) learning appearance-disentangled pose control. Our novel design enables robust appearance control over generated human images, including body, facial attributes, and even background. By leveraging the prior knowledge of image diffusion models, MagicPose generalizes well to unseen human identities and complex poses without the need for additional fine-tuning. Moreover, the proposed model is easy to use and can be considered as a plug-in module/extension to Stable Diffusion. | 翻訳日:2024-02-05 19:16:46 公開日:2024-02-02 |
# 悪の天才: llmベースのエージェントの安全性を掘り下げる Evil Geniuses: Delving into the Safety of LLM-based Agents ( http://arxiv.org/abs/2311.11855v2 ) ライセンス: Link先を確認 | Yu Tian, Xiao Yang, Jingyuan Zhang, Yinpeng Dong, Hang Su | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、LLMベースのエージェントで再活性化され、印象的な人間的な振る舞いと様々なシナリオにおける協調機能を示す。
しかし、これらのエージェントは、相互作用環境の複雑さとツールの使いやすさから、いくつかの排他的リスクをもたらす。
本稿では, LLMをベースとしたエージェントの安全性をエージェント量, 役割定義, 攻撃レベルという3つの観点から考察する。
具体的には,まず,テンプレートベースの攻撃戦略をllmベースのエージェントに適用し,エージェント数の影響について検討する。
さらに,インタラクション環境と役割特異性問題に対処するために,役割定義や攻撃レベルにまたがる影響を調べるために,本来の役割に関連するプロンプトを自律的に生成する効果的な攻撃手法である「悪の天才」を導入する。
EGはレッドブルーのエクササイズを活用し、生成したアクティベート性と元の役割との類似性を大幅に改善する。
GPT-3.5 と GPT-4 に基づく CAMEL, Metagpt, ChatDev の評価は高い成功率を示した。
広範な評価と議論により、これらのエージェントは堅牢性が低く、より有害な行動を起こしやすく、llmよりもステルスなコンテンツを生成することができ、重大な安全性上の課題と将来の研究の指針となっている。
私たちのコードはhttps://github.com/T1aNS1R/Evil-Geniusesで利用可能です。 Rapid advancements in large language models (LLMs) have revitalized in LLM-based agents, exhibiting impressive human-like behaviors and cooperative capabilities in various scenarios. However, these agents also bring some exclusive risks, stemming from the complexity of interaction environments and the usability of tools. This paper delves into the safety of LLM-based agents from three perspectives: agent quantity, role definition, and attack level. Specifically, we initially propose to employ a template-based attack strategy on LLM-based agents to find the influence of agent quantity. In addition, to address interaction environment and role specificity issues, we introduce Evil Geniuses (EG), an effective attack method that autonomously generates prompts related to the original role to examine the impact across various role definitions and attack levels. EG leverages Red-Blue exercises, significantly improving the generated prompt aggressiveness and similarity to original roles. Our evaluations on CAMEL, Metagpt and ChatDev based on GPT-3.5 and GPT-4, demonstrate high success rates. Extensive evaluation and discussion reveal that these agents are less robust, prone to more harmful behaviors, and capable of generating stealthier content than LLMs, highlighting significant safety challenges and guiding future research. Our code is available at https://github.com/T1aNS1R/Evil-Geniuses. | 翻訳日:2024-02-05 19:16:32 公開日:2024-02-02 |
# フローの正規化が指数関数メカニズムの解錠の鍵か?
差動プライベートmlを制約する精度・プライバシー天井を通り抜ける経路 Are Normalizing Flows the Key to Unlocking the Exponential Mechanism? A Path through the Accuracy-Privacy Ceiling Constraining Differentially Private ML ( http://arxiv.org/abs/2311.09200v3 ) ライセンス: Link先を確認 | Robert A. Bridges, Vandy J. Tombs, Christopher B. Stanley | (参考訳) 差分プライベート機械学習(ML)における技術とデファクト標準の状態は、差分プライベート確率勾配勾配(DPSGD)である。
しかし、その方法は本質的に無駄である。
すべての勾配にノイズを加えることで、すべての勾配ステップで全体のプライバシーが低下する。
合成定理、サブサンプリング法、実装技法を進歩させる15年間の研究にもかかわらず、適切な精度とプライバシは現在のプライベートMLメソッドでは達成できないことが多い。
一方、プライベート最適化のために設計された指数関数型機構(expm)は、歴史的に難解な密度からのサンプリングを必要とするため、現代のmlアルゴリズムのプライベートなトレーニングから遠ざかっている。
最近の正規化フローモデル(NF)や、難解分布を近似する表現的なディープネットワークの発見にもかかわらず、ExpMは背景に残っている。
我々の立場では、ExpMの歴史的障害を回避するためにNFを活用することは、微分プライベートMLにとって価値のある変革的な解決策である。
DPSGDの代替として、新しいトレーニング手法ExpM+NFを導入し、ロジスティック回帰と現代のディープラーニングモデルを用いて、ExpM+NFによるトレーニングが「よい」プライバシパラメータで実行可能であるかどうかをテストする。
NF出力分布がExpM分布であると仮定すると、$\varepsilon$1\mathrm{e}{-3}$ -- ほぼ同じ精度で3桁強力なプライバシーを達成できる。
この研究は、微分プライベートMLの進歩、すなわちNF近似の保証を発見するための新たな道筋を概説する。
レビュー後に提供されるコード。 The state of the art and de facto standard for differentially private machine learning (ML) is differentially private stochastic gradient descent (DPSGD). Yet, the method is inherently wasteful. By adding noise to every gradient, it diminishes the overall privacy with every gradient step. Despite 15 years of fruitful research advancing the composition theorems, sub-sampling methods, and implementation techniques, adequate accuracy and privacy is often unattainable with current private ML methods. Meanwhile, the Exponential Mechanism (ExpM), designed for private optimization, has been historically sidelined from privately training modern ML algorithms primarily because ExpM requires sampling from a historically intractable density. Despite the recent discovery of Normalizing Flow models (NFs), expressive deep networks for approximating intractable distributions, ExpM remains in the background. Our position is that leveraging NFs to circumvent historic obstructions of ExpM is a potentially transformational solution for differentially private ML worth attention. We introduce a new training method, ExpM+NF, as a potential alternative to DPSGD, and we provide experiment with logistic regression and a modern deep learning model to test whether training via ExpM+NF is viable with "good" privacy parameters. Under the assumption that the NF output distribution is the ExpM distribution, we are able to achieve $\varepsilon$ a low as $1\mathrm{e}{-3}$ -- three orders of magnitude stronger privacy with similar accuracy. This work outlines a new avenue for advancing differentially private ML, namely discovering NF approximation guarantees. Code to be provided after review. | 翻訳日:2024-02-05 19:15:40 公開日:2024-02-02 |
# ロバスト性の観点からのグロッキングの理解 Understanding Grokking Through A Robustness Viewpoint ( http://arxiv.org/abs/2311.06597v2 ) ライセンス: Link先を確認 | Zhiquan Tan, Weiran Huang | (参考訳) 近年、グラッキングと呼ばれる興味深い現象が注目されており、モデルのトレーニングデータが過度に適合してからは、一般化が長く続く。
この一見奇妙な現象を、ニューラルネットワークの堅牢性を通じて理解しようと試みている。
ロバスト性の観点からは、ニューラルネットワークの一般的な$l_2$ weight norm(メトリック)が、実際にはグロッキングに十分な条件であることを示す。
先程の観測に基づいて,一般化過程を高速化する摂動に基づく手法を提案する。
さらに、modulo加算データセットの標準トレーニングプロセスを調べ、グロッキング(例えば可換則)の前に他の基本的なグループ操作を学習することがほとんどないことを見いだす。
興味深いことに,提案手法を用いた一般化の高速化は,モデルがテストデータセットに群がる必要条件である可換法則を学習することによって説明できる。
また,試験データに標準の$l_2は時間的相関がなく,ロバスト性や情報理論に基づく新しい指標を提案し,新しい指標がグルーキング現象とよく相関し,グルーキングの予測に使用される可能性があることを実証的に見出した。 Recently, an interesting phenomenon called grokking has gained much attention, where generalization occurs long after the models have initially overfitted the training data. We try to understand this seemingly strange phenomenon through the robustness of the neural network. From a robustness perspective, we show that the popular $l_2$ weight norm (metric) of the neural network is actually a sufficient condition for grokking. Based on the previous observations, we propose perturbation-based methods to speed up the generalization process. In addition, we examine the standard training process on the modulo addition dataset and find that it hardly learns other basic group operations before grokking, for example, the commutative law. Interestingly, the speed-up of generalization when using our proposed method can be explained by learning the commutative law, a necessary condition when the model groks on the test dataset. We also empirically find that $l_2$ norm correlates with grokking on the test data not in a timely way, we propose new metrics based on robustness and information theory and find that our new metrics correlate well with the grokking phenomenon and may be used to predict grokking. | 翻訳日:2024-02-05 19:15:10 公開日:2024-02-02 |
# 高次元混合分類ガウス過程とグリーン航空機の多分野設計最適化への応用 High-dimensional mixed-categorical Gaussian processes with application to multidisciplinary design optimization for a green aircraft ( http://arxiv.org/abs/2311.06130v2 ) ライセンス: Link先を確認 | Paul Saves, Youssef Diouane, Nathalie Bartoli, Thierry Lefebvre, Joseph Morlier | (参考訳) 近年,ベイズ最適化のためのガウス過程(GP)に基づく混合カテゴリーメタモデルへの関心が高まっている。
この文脈では、異なるアプローチを使って混合圏gpを構築することができる。
これらのアプローチの多くは、多くのハイパーパラメータを含んでいる。実際、gpを構築するのに使用される戦略がより一般的で正確であるほど、見積もるべきハイパーパラメータの数は大きくなる。
本稿では, 部分最小二乗回帰に頼り, 混合可変GPを構築するために用いられるハイパーパラメータの数を削減した, 革新的次元削減アルゴリズムを提案する。
我々のゴールは、混合カテゴリー入力を扱うためにGP(連続入力)でよく使われる古典次元還元技法を一般化することである。
提案手法の有効性は, 構造的および多分野の応用場面において実証される。
対象とする用途としては、カンチレバービームの解析とグリーン航空機の最適化があり、1回のミッションで燃料消費量が439キロ削減された。 Recently, there has been a growing interest in mixed-categorical metamodels based on Gaussian Process (GP) for Bayesian optimization. In this context, different approaches can be used to build the mixed-categorical GP. Many of these approaches involve a high number of hyperparameters; in fact, the more general and precise the strategy used to build the GP, the greater the number of hyperparameters to estimate. This paper introduces an innovative dimension reduction algorithm that relies on partial least squares regression to reduce the number of hyperparameters used to build a mixed-variable GP. Our goal is to generalize classical dimension reduction techniques commonly used within GP (for continuous inputs) to handle mixed-categorical inputs. The good potential of the proposed method is demonstrated in both structural and multidisciplinary application contexts. The targeted applications include the analysis of a cantilever beam as well as the optimization of a green aircraft, resulting in a significant 439-kilogram reduction in fuel consumption during a single mission. | 翻訳日:2024-02-05 19:14:51 公開日:2024-02-02 |
# 医学における大規模言語モデルの実態調査 : 原則,応用,課題 A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges ( http://arxiv.org/abs/2311.05112v3 ) ライセンス: Link先を確認 | Hongjian Zhou, Fenglin Liu, Boyang Gu, Xinyu Zou, Jinfa Huang, Jinge Wu, Yiru Li, Sam S. Chen, Peilin Zhou, Junling Liu, Yining Hua, Chengfeng Mao, Chenyu You, Xian Wu, Yefeng Zheng, Lei Clifton, Zheng Li, Jiebo Luo, David A. Clifton | (参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間の言語を理解して生成する能力のために、かなりの注目を集めている。
患者ケアのための医師を支援する医学におけるllmsは、人工知能と臨床医学の両方において有望な研究の方向性として浮上している。
このレビューでは、医学におけるLSMが直面する原則、応用、課題について概観する。
我々は以下の質問に対処する。
1)医療用LLMの作り方
2)医療用llmのダウンストリームパフォーマンスに対する対策はどのようなものか?
3) 医療用LCMを実地臨床にどのように活用するか
4) 医療用LSMの使用による課題は何か。
そして
5)医療用LLMの構築と活用について
本総説は、医学におけるLLMの機会と課題に関する洞察を提供することを目標とし、効果的なLLMを構築するための実践的資源として機能することを目的とする。
また、医療用LCMの実践的ガイドをhttps://github.com/AI-in-Health/MedLLMsPracticalGuideで定期的に更新している。 Large language models (LLMs), such as ChatGPT, have received substantial attention due to their capabilities for understanding and generating human language. LLMs in medicine to assist physicians for patient care are emerging as a promising research direction in both artificial intelligence and clinical medicine. This review provides a comprehensive overview of the principles, applications, and challenges faced by LLMs in medicine. We address the following specific questions: 1) How should medical LLMs be built? 2) What are the measures for the downstream performance of medical LLMs? 3) How should medical LLMs be utilized in real-world clinical practice? 4) What challenges arise from the use of medical LLMs? and 5) How should we better construct and utilize medical LLMs? This review aims to provide insights into the opportunities and challenges of LLMs in medicine, and serve as a practical resource for constructing effective medical LLMs. We also maintain and regularly updated list of practical guides on medical LLMs at https://github.com/AI-in-Health/MedLLMsPracticalGuide. | 翻訳日:2024-02-05 19:14:35 公開日:2024-02-02 |
# Fix-Con: 自動フォールトローカライゼーションとディープラーニングモデル変換の修復 Fix-Con: Automatic Fault Localization and Repair of Deep Learning Model Conversions ( http://arxiv.org/abs/2312.15101v2 ) ライセンス: Link先を確認 | Nikolaos Louloudakis, Perry Gibson, Jos\'e Cano, and Ajitha Rajan | (参考訳) ディープラーニングモデルをフレームワーク間で変換することは、デバイス間のモデル互換性を最大化し、ひとつのディープラーニングフレームワークでのみ提供される最適化機能を活用するための一般的なステップである。
しかし、この変換プロセスはバグによって取り除かれ、変換されたモデルはデプロイ不能または問題なく、予測の正確性を著しく低下させる。
本稿では,ディープラーニングフレームワーク間のモデル変換におけるフォールトローカライズと修復のための自動アプローチであるfix-conを提案する。
Fix-Conは、変換中にモデル入力、パラメータ、ハイパーパラメータ、モデルグラフに導入された障害を検出し、修正することができる。
Fix-Conでは、変換問題から抽出した一連のフォールトタイプを使用して、変換対象モデルの潜在的な変換障害をローカライズし、例えばターゲットモデルのパラメータをソースモデルに置き換えるなど、適切な修正を行う。
これは、すべての差が解決されるまで、ソースモデルと変換対象モデルの間に出力ラベルの差があるデータセットのすべての画像に対して反復的に行われる。
4つの異なるディープラーニングフレームワークで変換された3つの画像認識モデルのモデル変換バグの修正におけるfix-conの有効性を評価した。
全体として、Fix-Conは完全に修復できたか、15の誤変換ケースのうち14が大幅に改善された。 Converting deep learning models between frameworks is a common step to maximize model compatibility across devices and leverage optimization features that may be exclusively provided in one deep learning framework. However, this conversion process may be riddled with bugs, making the converted models either undeployable or problematic, considerably degrading their prediction correctness. We propose an automated approach for fault localization and repair, Fix-Con, during model conversion between deep learning frameworks. Fix-Con is capable of detecting and fixing faults introduced in model input, parameters, hyperparameters, and the model graph during conversion. Fix-Con uses a set of fault types mined from surveying conversion issues raised to localize potential conversion faults in the converted target model, and then repairs them appropriately, e.g. replacing the parameters of the target model with those from the source model. This is done iteratively for every image in the dataset with output label differences between the source model and the converted target model until all differences are resolved. We evaluate the effectiveness of Fix-Con in fixing model conversion bugs of three widely used image recognition models converted across four different deep learning frameworks. Overall, Fix-Con was able to either completely repair, or significantly improve the performance of 14 out of the 15 erroneous conversion cases. | 翻訳日:2024-02-05 19:07:43 公開日:2024-02-02 |
# DSPy Assertions:自己精製言語モデルパイプラインの計算制約 DSPy Assertions: Computational Constraints for Self-Refining Language Model Pipelines ( http://arxiv.org/abs/2312.13382v2 ) ライセンス: Link先を確認 | Arnav Singhvi, Manish Shetty, Shangyin Tan, Christopher Potts, Koushik Sen, Matei Zaharia, Omar Khattab | (参考訳) 言語モデル (LM) は構成可能なモジュールと呼ばれ、新しいプログラミング方法の原動力となっているが、LMが重要な制約に従うためにはヒューリスティックな「プロンプトエンジニアリング」が必要である。
本稿では,LM が満たすべき計算制約を表現するプログラム構造である LM Assertions を紹介する。
我々は、最近のDSPyプログラミングモデルと統合し、DSPyがLM Assertionsでプログラムをより信頼性が高く正確なシステムにコンパイルできる新しい戦略を提案する。
また,LMを用いた自動自己精製のための推論時にアサーションを利用する手法を提案する。
テキスト生成のための4つの多様なケーススタディを報告し、lmアサーションが課せられたルールの遵守だけでなく、下流のタスクパフォーマンスも改善し、制約を最大164%頻繁に通過させ、最高37%の高品質なレスポンスを生成することを見出した。
LM Assertionsのリファレンス実装は、https://github.com/stanfordnlp/dspyでDSPyに統合されます。 Chaining language model (LM) calls as composable modules is fueling a new way of programming, but ensuring LMs adhere to important constraints requires heuristic "prompt engineering". We introduce LM Assertions, a programming construct for expressing computational constraints that LMs should satisfy. We integrate our constructs into the recent DSPy programming model for LMs, and present new strategies that allow DSPy to compile programs with LM Assertions into more reliable and accurate systems. We also propose strategies to use assertions at inference time for automatic self-refinement with LMs. We report on four diverse case studies for text generation and find that LM Assertions improve not only compliance with imposed rules but also downstream task performance, passing constraints up to 164% more often and generating up to 37% more higher-quality responses. Our reference implementation of LM Assertions is integrated into DSPy at https://github.com/stanfordnlp/dspy | 翻訳日:2024-02-05 19:07:22 公開日:2024-02-02 |
# オンライン変分逐次モンテカルロ Online Variational Sequential Monte Carlo ( http://arxiv.org/abs/2312.12616v2 ) ライセンス: Link先を確認 | Alessandro Mastrototaro and Jimmy Olsson | (参考訳) シリアルデータの最も古典的な生成モデルであるステートスペースモデル(ssm)は、aiと統計機械学習において基本である。
SSMでは、パラメータ学習や潜在状態推論のあらゆる形態は、一般に複雑な潜在状態の後部の計算を伴う。
本研究では, 粒子法と変分推論を組み合わせることで, 計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する, 変分連続モンテカルロ法(VSMC)を構築した。
標準VSMCはオフラインモードで動作するが、与えられたデータの繰り返し処理により、確率的近似を用いて、VSMCシュロゲートELBOの勾配の近似を時間内に分散し、データのストリームの存在下でオンライン学習を可能にする。
これにより、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することが可能な、オンラインVSMCアルゴリズムが実現される。
さらに,このアルゴリズムの収束特性を,データの個数が無限大になりがちであることを示す厳密な理論結果と,その収束特性とバッチ処理環境における有用性に関する数値イラストを提供する。 Being the most classical generative model for serial data, state-space models (SSM) are fundamental in AI and statistical machine learning. In SSM, any form of parameter learning or latent state inference typically involves the computation of complex latent-state posteriors. In this work, we build upon the variational sequential Monte Carlo (VSMC) method, which provides computationally efficient and accurate model parameter estimation and Bayesian latent-state inference by combining particle methods and variational inference. While standard VSMC operates in the offline mode, by re-processing repeatedly a given batch of data, we distribute the approximation of the gradient of the VSMC surrogate ELBO in time using stochastic approximation, allowing for online learning in the presence of streams of data. This results in an algorithm, online VSMC, that is capable of performing efficiently, entirely on-the-fly, both parameter estimation and particle proposal adaptation. In addition, we provide rigorous theoretical results describing the algorithm's convergence properties as the number of data tends to infinity as well as numerical illustrations of its excellent convergence properties and usefulness also in batch-processing settings. | 翻訳日:2024-02-05 19:07:02 公開日:2024-02-02 |
# Enlighten-Your-Voice:マルチモーダルがゼロショット低照度画像強調と出会うとき Enlighten-Your-Voice: When Multimodal Meets Zero-shot Low-light Image Enhancement ( http://arxiv.org/abs/2312.10109v2 ) ライセンス: Link先を確認 | Xiaofeng Zhang, Zishan Xu, Hao Tang, Chaochen Gu, Wei Chen, Shanying Zhu, Xinping Guan | (参考訳) 低光度画像エンハンスメントは重要な課題であり、多くの教師なし手法は低光シーンにおける可視情報の劣化を見逃しがちであり、補完的情報の融合に悪影響を与え、良好な結果の生成を妨げている。
そこで本研究では,音声およびテキストコマンドによるユーザインタラクションを革新的に強化するマルチモーダル拡張フレームワークであるEnlighten-Your-Voiceを紹介した。
このアプローチは技術的な飛躍を示すだけでなく、ユーザエンゲージメントのパラダイムシフトをも表している。
本モデルでは,Dual Collaborative Attention Module (DCAM) を具備し,異なる内容や色差に注意して対応し,微妙な拡張を容易にする。
補完的に,低照度強調操作と意味的文脈を融合し,アルゴリズムの有効性を高めるセマンティック・フィーチャー・フュージョン(sfm)プラグ・アンド・プレイモジュールを提案する。
重要なことに、"Enlighten-Your-Voice" は教師なしゼロショットのシナリオにおいて顕著な一般化を示す。
ソースコードはhttps://github.com/zhangbaijin/enlighten-your-voiceからアクセスできる。 Low-light image enhancement is a crucial visual task, and many unsupervised methods tend to overlook the degradation of visible information in low-light scenes, which adversely affects the fusion of complementary information and hinders the generation of satisfactory results. To address this, our study introduces "Enlighten-Your-Voice", a multimodal enhancement framework that innovatively enriches user interaction through voice and textual commands. This approach does not merely signify a technical leap but also represents a paradigm shift in user engagement. Our model is equipped with a Dual Collaborative Attention Module (DCAM) that meticulously caters to distinct content and color discrepancies, thereby facilitating nuanced enhancements. Complementarily, we introduce a Semantic Feature Fusion (SFM) plug-and-play module that synergizes semantic context with low-light enhancement operations, sharpening the algorithm's efficacy. Crucially, "Enlighten-Your-Voice" showcases remarkable generalization in unsupervised zero-shot scenarios. The source code can be accessed from https://github.com/zhangbaijin/Enlighten-Your-Voice | 翻訳日:2024-02-05 19:06:32 公開日:2024-02-02 |
# 感情分類におけるトピックバイアス Topic Bias in Emotion Classification ( http://arxiv.org/abs/2312.09043v3 ) ライセンス: Link先を確認 | Maximilian Wegge and Roman Klinger | (参考訳) 感情コーパスは通常、キーワード/ハッシュタグ検索や研究参加者にテキストインスタンスの生成を依頼することでサンプル化される。
いずれにしても、これらのコーパスはドメイン全体を表す一様なサンプルではない。
私たちは、このデータ取得のプラクティスが、モデルの一般化可能性に影響を与えるコーパスの過剰なトピック間の非現実的な相関をもたらすと仮定する。
このような話題のバイアスは、"i organized the service for my aunt's funeral"(おばさんの葬儀のサービスを組織した)のような例の誤った予測につながる可能性がある。
本稿では,このトピックのバイアスについて,データとモデリングの観点から検討する。
まず、トピックモデリングを通して感情コーパスを自動的にラベル付けし、実際に感情が特定のトピックと相関していることを示す。
さらに,感情分類器は,そのような話題が組み合わさっている。
最後に,勾配反転による逆補正の確立したデバイアス手法がこの問題を緩和することを示す。
本研究は、既存の感情コーパスの問題と、感情概念をテキストから予測するモデルの公平な評価により多くの代表的リソースが必要であることを指摘する。 Emotion corpora are typically sampled based on keyword/hashtag search or by asking study participants to generate textual instances. In any case, these corpora are not uniform samples representing the entirety of a domain. We hypothesize that this practice of data acquisition leads to unrealistic correlations between overrepresented topics in these corpora that harm the generalizability of models. Such topic bias could lead to wrong predictions for instances like "I organized the service for my aunt's funeral." when funeral events are over-represented for instances labeled with sadness, despite the emotion of pride being more appropriate here. In this paper, we study this topic bias both from the data and the modeling perspective. We first label a set of emotion corpora automatically via topic modeling and show that emotions in fact correlate with specific topics. Further, we see that emotion classifiers are confounded by such topics. Finally, we show that the established debiasing method of adversarial correction via gradient reversal mitigates the issue. Our work points out issues with existing emotion corpora and that more representative resources are required for fair evaluation of models predicting affective concepts from text. | 翻訳日:2024-02-05 19:05:50 公開日:2024-02-02 |
# CT-MVSNet:クロススケールトランスを用いた効率的なマルチビューステレオ CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer ( http://arxiv.org/abs/2312.08594v2 ) ライセンス: Link先を確認 | Sicheng Wang, Hao Jiang, Lei Xiang | (参考訳) 近年の深層多視点ステレオ(MVS)法は,高分解能深度推定のためにトランスフォーマーをカスケードネットワークに広く組み込んで,優れた結果を得た。
しかし、既存の変換器ベースの手法は計算コストに制約されるため、より細かい段階にまで拡張できない。
本稿では,異なる段階における特徴表現を付加計算なしで処理する新しいクロススケールトランス (CT) を提案する。
具体的には,複数のスケールで異なる対話型アテンションの組み合わせを用いた適応マッチングアウェアトランスフォーマ(amt)を提案する。
この組み合わせ戦略により,ネットワークは画像内コンテキスト情報をキャプチャし,画像間特徴関係を強化することができる。
さらに,粗大なグローバル意味情報を細かなコストボリューム構築に組み込むことにより,グローバルかつ局所的な特徴認識をさらに強化する,デュアルフィーチャーガイドアグリゲーション(dfga)を提案する。
一方,特徴量的損失(fm損失)は,特徴的ミスマッチが深さ推定に与える影響を減少させるために,変換前後の特徴バイアスを評価する。
DTUデータセットとタンク・アンド・テンプル (T\&T) ベンチマークの大規模な実験により,本手法が最先端の成果を得られることが示された。
コードはhttps://github.com/wscstrive/CT-MVSNetで入手できる。 Recent deep multi-view stereo (MVS) methods have widely incorporated transformers into cascade network for high-resolution depth estimation, achieving impressive results. However, existing transformer-based methods are constrained by their computational costs, preventing their extension to finer stages. In this paper, we propose a novel cross-scale transformer (CT) that processes feature representations at different stages without additional computation. Specifically, we introduce an adaptive matching-aware transformer (AMT) that employs different interactive attention combinations at multiple scales. This combined strategy enables our network to capture intra-image context information and enhance inter-image feature relationships. Besides, we present a dual-feature guided aggregation (DFGA) that embeds the coarse global semantic information into the finer cost volume construction to further strengthen global and local feature awareness. Meanwhile, we design a feature metric loss (FM Loss) that evaluates the feature bias before and after transformation to reduce the impact of feature mismatch on depth estimation. Extensive experiments on DTU dataset and Tanks and Temples (T\&T) benchmark demonstrate that our method achieves state-of-the-art results. Code is available at https://github.com/wscstrive/CT-MVSNet. | 翻訳日:2024-02-05 19:05:31 公開日:2024-02-02 |
# CBQ:大規模言語モデルのためのクロスブロック量子化 CBQ: Cross-Block Quantization for Large Language Models ( http://arxiv.org/abs/2312.07950v2 ) ライセンス: Link先を確認 | Xin Ding, Xiaoyu Liu, Zhijun Tu, Yun Zhang, Wei Li, Jie Hu, Hanting Chen, Yehui Tang, Zhiwei Xiong, Baoqun Yin, Yunhe Wang | (参考訳) ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
しかし、既存のPTQメソッドは、ブロックの依存性を無視し、低ビット設定でパフォーマンスが著しく低下する1つの層または1つのブロック内でのアウトレイラの処理にのみフォーカスする。
本稿では,LLMのためのブロック間再構成に基づくPTQ手法CBQを提案する。
CBQは、複数のブロックにまたがる長距離依存関係を確立し、エラーの蓄積を最小限に抑える。
さらに、cbqは、重量と活性化の異常値を抑制するための粗粒度前処理(cfp)戦略と、正確な重量量子化のための適応的ローララウンド法を組み込んでいる。
これらの革新によりCBQは極端な外れ値の処理を効果的に行うだけでなく、全体的な量子化精度を向上させることができる。
広範な実験により、CBQは優れた低ビット量子化(W4A4、W4A8、W2A16)を達成し、様々なLCMやデータセットで既存の最先端の手法より優れていることが示された。
CBQは4ビットのLAMA1-65Bモデルを1つのGPUでわずか4.3時間で量子化し、性能と量子化効率の相違点を達成する。 Post-training quantization (PTQ) has played a key role in compressing large language models (LLMs) with ultra-low costs. However, existing PTQ methods only focus on handling the outliers within one layer or one block, which ignores the dependency of blocks and leads to severe performance degradation in low-bit settings. In this paper, we propose CBQ, a cross-block reconstruction-based PTQ method for LLMs. CBQ employs a cross-block dependency using a homologous reconstruction scheme, establishing long-range dependencies across multiple blocks to minimize error accumulation. Furthermore, CBQ incorporates a coarse-to-fine preprocessing (CFP) strategy for suppressing weight and activation outliers, coupled with an adaptive LoRA-Rounding technique for precise weight quantization. These innovations enable CBQ to not only handle extreme outliers effectively but also improve overall quantization accuracy. Extensive experiments show that CBQ achieves superior low-bit quantization (W4A4, W4A8, W2A16) and outperforms existing state-of-the-art methods across various LLMs and datasets. Notably, CBQ quantizes the 4-bit LLAMA1-65B model within only 4.3 hours on a single GPU, achieving a commendable tradeoff between performance and quantization efficiency. | 翻訳日:2024-02-05 19:05:07 公開日:2024-02-02 |
# DTL:視覚認識のための遠方移動学習 DTL: Disentangled Transfer Learning for Visual Recognition ( http://arxiv.org/abs/2312.07856v2 ) ライセンス: Link先を確認 | Minghao Fu, Ke Zhu, Jianxin Wu | (参考訳) 事前トレーニングされたモデルが急速に大きくなると、下流タスクの微調整コストも着実に増加する。
これらのモデルを経済的に微調整するために、パラメータ効率変換学習(PETL)を提案し、トレーニング可能なパラメータの小さなサブセットをチューニングするだけで品質表現を効率的に学習する。
しかし、現在のpetlメソッドは、トレーニング中にgpuメモリフットプリントがトレーニング可能なパラメータとして効果的に削減されないというジレンマに直面している。
PETLも、GPUのメモリ外問題に遭遇すれば、失敗するだろう。
この現象は、これらのメソッドからのトレーニング可能なパラメータが一般的にバックボーンと絡み合っているため、多くの中間状態が勾配伝播のためにGPUメモリに格納される必要があるためである。
この問題を軽減するために、軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。
タスク固有の情報を少数の低ランク線形マッピングで段階的に抽出し、情報をバックボーンに適切に付加することにより、CSNは様々な下流タスクにおける知識伝達を効果的に実現する。
本手法の有効性を検証するために広範な実験を行った。
提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL手法よりも高い精度で性能を向上し,いくつかの標準ベンチマークで新たな最先端性を実現する。
コードはhttps://github.com/heekhero/dtlで入手できる。 When pre-trained models become rapidly larger, the cost of fine-tuning on downstream tasks steadily increases, too. To economically fine-tune these models, parameter-efficient transfer learning (PETL) is proposed, which only tunes a tiny subset of trainable parameters to efficiently learn quality representations. However, current PETL methods are facing the dilemma that during training the GPU memory footprint is not effectively reduced as trainable parameters. PETL will likely fail, too, if the full fine-tuning encounters the out-of-GPU-memory issue. This phenomenon happens because trainable parameters from these methods are generally entangled with the backbone, such that a lot of intermediate states have to be stored in GPU memory for gradient propagation. To alleviate this problem, we introduce Disentangled Transfer Learning (DTL), which disentangles the trainable parameters from the backbone using a lightweight Compact Side Network (CSN). By progressively extracting task-specific information with a few low-rank linear mappings and appropriately adding the information back to the backbone, CSN effectively realizes knowledge transfer in various downstream tasks. We conducted extensive experiments to validate the effectiveness of our method. The proposed method not only reduces a large amount of GPU memory usage and trainable parameters, but also outperforms existing PETL methods by a significant margin in accuracy, achieving new state-of-the-art on several standard benchmarks. The code is available at https://github.com/heekhero/DTL. | 翻訳日:2024-02-05 19:04:41 公開日:2024-02-02 |
# 特徴ガイダンス:大規模誘導スケールでの拡散モデルに対する非線形補正 Characteristic Guidance: Non-linear Correction for Diffusion Model at Large Guidance Scale ( http://arxiv.org/abs/2312.07586v4 ) ライセンス: Link先を確認 | Candi Zheng, Yuan Lan | (参考訳) 拡散確率モデル(ddpm, denoising diffusion probabilistic model)は、異なる条件モデルを線形に組み合わせ、サンプルに対する制御を強化する。
しかし,本手法は誘導スケールが大きいと重要になる非線形効果を無視する。
この問題に対処するために,第一原理の非線形補正を行う誘導法である特徴ガイダンスを提案する。
このような補正により、DDPMはFokker-Planck(FP)の拡散過程の方程式を、訓練なしで既存のサンプリング法と互換性のある方法で尊重せざるを得なくなる。
実験により、特性誘導は画像生成におけるプロンプトのセマンティックな特性を高め、マグネット相転移のシミュレーションから潜時空間サンプリングまで様々な用途に有効であることが示された。 Popular guidance for denoising diffusion probabilistic model (DDPM) linearly combines distinct conditional models together to provide enhanced control over samples. However, this approach overlooks nonlinear effects that become significant when guidance scale is large. To address this issue, we propose characteristic guidance, a guidance method that provides first-principle non-linear correction for classifier-free guidance. Such correction forces the guided DDPMs to respect the Fokker-Planck (FP) equation of diffusion process, in a way that is training-free and compatible with existing sampling methods. Experiments show that characteristic guidance enhances semantic characteristics of prompts and mitigate irregularities in image generation, proving effective in diverse applications ranging from simulating magnet phase transitions to latent space sampling. | 翻訳日:2024-02-05 19:04:18 公開日:2024-02-02 |
# なぜ「古典的な」トランスフォーマーは浅いのか? Why "classic" Transformers are shallow and how to make them go deep ( http://arxiv.org/abs/2312.06182v2 ) ライセンス: Link先を確認 | Yueyao Yu, Yin Zhang | (参考訳) 2017年の導入以来、Transformerは主要なニューラルネットワークアーキテクチャとして登場し、多くのAI分野における革命的な進歩を触媒している。
Transformerの重要なイノベーションは、コンテキスト情報をキャプチャするセルフアテンション(SA)メカニズムである。
しかし、オリジナルのトランスフォーマーの設計をより深いモデルに拡張することは、不可能ではないにせよ、非常に困難であることが証明されている。
より深いモデルにSA機構の層を積み上げるために様々な修正が提案されているが、この深さ問題の完全な理解はいまだに欠けている。
本稿では,SA機構の繰り返し適用後,トークンが増加傾向にあること,すなわち,深度問題は 'emph{token similarity escalation}' によって引き起こされるという主張を理論的にも実証的にも包括的に検証する。
分析の結果,非変分先行固有空間と注目行列のスペクトルギャップが大きいことにより,トークンの類似性が線形速度で増大することが判明した。
得られた知見に基づいて,従来のSA機構を明示的にあるいは暗黙的に低下させるアプローチ(プレノームトランスフォーマーなど)とは対照的に,外科的に過剰な類似性を除去する新たな戦略を提案する。
小型後ノルム変圧器モデルにおける提案手法の有効性を予備実験により確認した。 Since its introduction in 2017, Transformer has emerged as the leading neural network architecture, catalyzing revolutionary advancements in many AI disciplines. The key innovation in Transformer is a Self-Attention (SA) mechanism designed to capture contextual information. However, extending the original Transformer design to models of greater depth has proven exceedingly challenging, if not impossible. Even though various modifications have been proposed in order to stack more layers of SA mechanism into deeper models, a full understanding of this depth problem remains lacking. In this paper, we conduct a comprehensive investigation, both theoretically and empirically, to substantiate the claim that the depth problem is caused by \emph{token similarity escalation}; that is, tokens grow increasingly alike after repeated applications of the SA mechanism. Our analysis reveals that, driven by the invariant leading eigenspace and large spectral gaps of attention matrices, token similarity provably escalates at a linear rate. Based on the gained insight, we propose a new strategy of surgically removing excessive similarity in contrast to the existing approach of diminishing the SA mechanism explicitly or implicitly (such as in pre-norm transformers). Preliminary experimental results confirm the effectiveness of the proposed strategy in small-scale post-norm Transformer models. | 翻訳日:2024-02-05 19:04:03 公開日:2024-02-02 |
# ニューロンパッチング:コード生成とLLMによるニューロンレベルのモデル編集 Neuron Patching: Neuron-level Model Editing on Code Generation and LLMs ( http://arxiv.org/abs/2312.05356v2 ) ライセンス: Link先を確認 | Jian Gu, Chunyang Chen, Aldeida Aleti | (参考訳) 大規模言語モデルはソフトウェア工学、特にコード生成においてうまく採用されている。
これらのモデルを新しい知識で更新することは、非常に高価であり、しばしばその価値を完全に実現するために必要となる。
本稿では,LLMをコーディングタスクに当てはめる新しい,効果的なモデル編集手法である「textsc{MENT}」を提案する。
生成LDMのメカニズムに基づいて、次のトーケン予測におけるモデル編集を可能にし、共通のコーディングタスクをさらにサポートする。
\textsc{ment} は効率的、効率的、信頼性がある。
1または2つのニューロンをパッチすることで神経モデルを修正することができる。
生成モデルのニューロンレベルモデル編集の先駆的研究として,編集過程を定式化し,関連する概念を紹介する。
また,その一般化能力を評価するための新しい尺度を導入し,さらなる研究のためのベンチマークを構築した。
提案手法は,API-seqレコメンデーション,行レベルのコード生成,擬似コード間トランザクションなど,3つのコーディングタスクで評価される。
効率性と効率性の両方において、最先端を著しく上回っている。
さらに,ソフトウェア工学における LLM 推論における \textsc{MENT} の使用例を示す。
LLMの知識をtextsc{MENT}で編集することで、直接的または間接的に依存する行動は、自動的に変化する。 Large Language Models are successfully adopted in software engineering, especially in code generation. Updating these models with new knowledge is very expensive, and is often required to fully realize their value. In this paper, we propose a novel and effective model editing approach, \textsc{MENT}, to patch LLMs in coding tasks. Based on the mechanism of generative LLMs, \textsc{MENT} enables model editing in next-token predictions, and further supports common coding tasks. \textsc{MENT} is effective, efficient, and reliable. It can correct a neural model by patching 1 or 2 neurons. As the pioneer work on neuron-level model editing of generative models, we formalize the editing process and introduce the involved concepts. Besides, we also introduce new measures to evaluate its generalization ability, and build a benchmark for further study. Our approach is evaluated on three coding tasks, including API-seq recommendation, line-level code generation, and pseudocode-to-code transaction. It outperforms the state-of-the-art by a significant margin on both effectiveness and efficiency measures. In addition, we demonstrate the usages of \textsc{MENT} for LLM reasoning in software engineering. By editing the LLM knowledge with \textsc{MENT}, the directly or indirectly dependent behaviors in the chain-of-thought change accordingly and automatically. | 翻訳日:2024-02-05 19:03:09 公開日:2024-02-02 |
# コントラスト優先最適化:機械翻訳におけるLLM性能の境界を押し上げる Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation ( http://arxiv.org/abs/2401.08417v3 ) ライセンス: Link先を確認 | Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim | (参考訳) 7Bまたは13Bパラメータを持つモデレートサイズの大規模言語モデル(LLM)は、有望な機械翻訳(MT)性能を示す。
しかし、ALMAのようなトップパフォーマンスの13B LLMベースの翻訳モデルでさえ、最先端のエンコーダ・デコーダ翻訳モデルや、GPT-4のような大規模LLMの性能とは一致しない。
本研究では,この性能ギャップを橋渡しする。
MTタスクにおけるLLMの教師付き微調整の欠点をまず評価し,人為的に生成されているにもかかわらず,参照データに存在する品質問題を強調した。
そして、参照翻訳を模倣するsftとは対照的に、適切なが完全ではない翻訳を生成するのを避けるためにモデルを訓練する新しいアプローチであるコントラスト優先最適化(cpo)を導入する。
22Kパラレル文と12Mパラメータしか持たないALMAモデルへのCPOの適用は、大幅な改善をもたらす。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者と、WMT'21、WMT'22、WMT'23テストデータセットのGPT-4のパフォーマンスを一致または超過することができる。 Moderate-sized large language models (LLMs) -- those with 7B or 13B parameters -- exhibit promising machine translation (MT) performance. However, even the top-performing 13B LLM-based translation models, like ALMA, does not match the performance of state-of-the-art conventional encoder-decoder translation models or larger-scale LLMs such as GPT-4. In this study, we bridge this performance gap. We first assess the shortcomings of supervised fine-tuning for LLMs in the MT task, emphasizing the quality issues present in the reference data, despite being human-generated. Then, in contrast to SFT which mimics reference translations, we introduce Contrastive Preference Optimization (CPO), a novel approach that trains models to avoid generating adequate but not perfect translations. Applying CPO to ALMA models with only 22K parallel sentences and 12M parameters yields significant improvements. The resulting model, called ALMA-R, can match or exceed the performance of the WMT competition winners and GPT-4 on WMT'21, WMT'22 and WMT'23 test datasets. | 翻訳日:2024-02-05 18:54:29 公開日:2024-02-02 |
# instantid:ゼロショットid保存生成を数秒で実現する InstantID: Zero-shot Identity-Preserving Generation in Seconds ( http://arxiv.org/abs/2401.07519v2 ) ライセンス: Link先を確認 | Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen, Huaxia Li, Xu Tang, and Yao Hu | (参考訳) Textual Inversion、DreamBooth、LoRAといった手法でパーソナライズされた画像合成が大幅に進歩した。
しかし、実際の適用性は、高いストレージ要求、長い微調整プロセス、複数の参照画像の必要性によって妨げられている。
逆に、既存のID埋め込みベースのメソッドは、1つのフォワード推論しか必要とせず、多くのモデルパラメータにわたる広範囲な微調整を必要とするか、コミュニティで事前訓練されたモデルとの互換性の欠如、あるいは高い顔の忠実さの維持に失敗する、といった問題に直面している。
これらの制限に対処するため、我々は強力な拡散モデルに基づくソリューションであるInstantIDを導入する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
そこで本稿では,表情とランドマークの画像をテクストプロンプトと統合して画像生成を制御し,強い意味と弱い空間条件を付与し,新たなアイデンティティネットをデザインする。
InstantIDは優れた性能と効率を示し、アイデンティティ保護が最重要となる現実世界のアプリケーションで非常に有益である。
さらに,本研究は,sd1.5やsdxlなどのテキストから画像への拡散モデルとシームレスに統合し,適応可能なプラグインとして機能する。
私たちのコードと事前訓練されたチェックポイントはhttps://github.com/InstantID/InstantIDで利用可能です。 There has been significant progress in personalized image synthesis with methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world applicability is hindered by high storage demands, lengthy fine-tuning processes, and the need for multiple reference images. Conversely, existing ID embedding-based methods, while requiring only a single forward inference, face challenges: they either necessitate extensive fine-tuning across numerous model parameters, lack compatibility with community pre-trained models, or fail to maintain high face fidelity. Addressing these limitations, we introduce InstantID, a powerful diffusion model-based solution. Our plug-and-play module adeptly handles image personalization in various styles using just a single facial image, while ensuring high fidelity. To achieve this, we design a novel IdentityNet by imposing strong semantic and weak spatial conditions, integrating facial and landmark images with textual prompts to steer the image generation. InstantID demonstrates exceptional performance and efficiency, proving highly beneficial in real-world applications where identity preservation is paramount. Moreover, our work seamlessly integrates with popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving as an adaptable plugin. Our codes and pre-trained checkpoints will be available at https://github.com/InstantID/InstantID. | 翻訳日:2024-02-05 18:54:05 公開日:2024-02-02 |
# dqnc2s: dqnベースのクロスストリーム危機イベント要約 DQNC2S: DQN-based Cross-stream Crisis event Summarizer ( http://arxiv.org/abs/2401.06683v2 ) ライセンス: Link先を確認 | Daniele Rege Cambrin, Luca Cagliero, Paolo Garza | (参考訳) 複数の災害関連データストリームを同時に要約することは、既存の検索/リランキング戦略が、マルチストリームデータの固有の冗長性と、マルチクエリ設定でのスケーラビリティの制限に苦しむため、特に難しい。
本研究は,ディープqネットワークを用いた弱いアノテーションに基づく危機タイムライン生成手法を提案する。
人間のアノテーションやコンテンツの再ランキングを必要とせずに、関連するテキストをオンザフライで選択する。
これにより、推論時間は入力クエリの数に依存しない。
提案手法では,報酬関数に冗長フィルタを組み込んで,ストリーム間の重複を効果的に処理する。
ROUGEとBERTScoreの結果は、CrisisFACTS 2022ベンチマークの最高の性能のモデルよりも優れている。 Summarizing multiple disaster-relevant data streams simultaneously is particularly challenging as existing Retrieve&Re-ranking strategies suffer from the inherent redundancy of multi-stream data and limited scalability in a multi-query setting. This work proposes an online approach to crisis timeline generation based on weak annotation with Deep Q-Networks. It selects on-the-fly the relevant pieces of text without requiring neither human annotations nor content re-ranking. This makes the inference time independent of the number of input queries. The proposed approach also incorporates a redundancy filter into the reward function to effectively handle cross-stream content overlaps. The achieved ROUGE and BERTScore results are superior to those of best-performing models on the CrisisFACTS 2022 benchmark. | 翻訳日:2024-02-05 18:53:40 公開日:2024-02-02 |
# 推薦学習のためのエンドツーエンド学習型クラスタリング End-to-end Learnable Clustering for Intent Learning in Recommendation ( http://arxiv.org/abs/2401.05975v3 ) ライセンス: Link先を確認 | Yue Liu, Shihao Zhu, Jun Xia, Yingwei Ma, Jian Ma, Wenliang Zhong, Xinwang Liu, Guannan Zhang, Kejun Zhang | (参考訳) ユーザの理解とアイテムレコメンデーションの意図を学習することを目的としたインテント学習は,近年ではホットな研究スポットとなっている。
しかし、既存のメソッドは複雑で面倒な最適化に悩まされ、パフォーマンスとスケーラビリティが制限されます。
そこで本研究では, 行動表現学習を, 効果的かつ効率的に行うために, 行動表現学習を 'underline{E}nd-to-end \underline{L}earnable \underline{C}lustering framework に統一することで, 意図学習法である \underline{ELCRec} を提案する。
具体的には、ユーザの行動シーケンスをエンコードし、クラスタセンター(相対的意図)を学習可能なニューロンとして初期化する。
次に、異なるクラスタセンタを分離する新しい学習可能なクラスタリングモジュールを設計し、ユーザの複雑なインテントを分離する。
一方、ネットワークはクラスタ中心に近い振る舞いの埋め込みを強制することで、行動から意図を学習する。
これにより、ミニバッチデータによるレコメンデーションとクラスタリングの同時最適化が可能になる。
さらに,クラスタセンターを自己超越信号として利用し,相互促進の促進を図ることで,意図支援型コントラスト学習を提案する。
実験結果と理論的解析は6つの視点からelcrecの優越性を示している。
ランナーアップと比較して、ELCRecはNDCG@5を8.9\%改善し、Beautyデータセットの計算コストを22.5\%削減する。
さらに, 拡張性と汎用性のため, 1億3000万ページビューの産業レコメンデーションシステムに本手法をデプロイし, 有望な結果を得る。 Intent learning, which aims to learn users' intents for user understanding and item recommendation, has become a hot research spot in recent years. However, the existing methods suffer from complex and cumbersome alternating optimization, limiting the performance and scalability. To this end, we propose a novel intent learning method termed \underline{ELCRec}, by unifying behavior representation learning into an \underline{E}nd-to-end \underline{L}earnable \underline{C}lustering framework, for effective and efficient \underline{Rec}ommendation. Concretely, we encode users' behavior sequences and initialize the cluster centers (latent intents) as learnable neurons. Then, we design a novel learnable clustering module to separate different cluster centers, thus decoupling users' complex intents. Meanwhile, it guides the network to learn intents from behaviors by forcing behavior embeddings close to cluster centers. This allows simultaneous optimization of recommendation and clustering via mini-batch data. Moreover, we propose intent-assisted contrastive learning by using cluster centers as self-supervision signals, further enhancing mutual promotion. Both experimental results and theoretical analyses demonstrate the superiority of ELCRec from six perspectives. Compared to the runner-up, ELCRec improves NDCG@5 by 8.9\% and reduces computational costs by 22.5\% on Beauty dataset. Furthermore, due to the scalability and universal applicability, we deploy this method on the industrial recommendation system with 130 million page views and achieve promising results. | 翻訳日:2024-02-05 18:53:25 公開日:2024-02-02 |
# インタラクション学習における情報理論のアプローチ An Information Theoretic Approach to Interaction-Grounded Learning ( http://arxiv.org/abs/2401.05015v2 ) ライセンス: Link先を確認 | Xiaoyan Hu, Farzan Farnia, Ho-fung Leung | (参考訳) 学習者がフィードバック変数から観察されていない報酬を推測しようとする強化学習(rl)問題は、最近のいくつかの論文で研究されている。
インタラクション・グラウンドド・ラーニング(Interaction-Grounded Learning, IGL)の設定は、学習者が環境とのインタラクションから潜在バイナリ報酬を推論することで、リターンを最適化するフィードバックベースのRLタスクの例である。
IGL設定において、RL文献で使われる関連する仮定は、フィードバック変数$Y$は、潜在報酬$R$を与えられた文脈作用$(X,A)$と条件的に独立であるということである。
本稿では,iglに基づくrl問題における条件付き独立性仮定を強制するための情報理論的手法として,変分情報ベースigl(vi-igl)を提案する。
VI-IGLフレームワークは、条件付き相互情報(MI)に基づいて、$(X,A)$と$Y$の情報をベースとした報酬デコーダを学習する。
RL問題における連続確率変数の情報ベース項を推定し、最適化するために、VI-IGLは相互情報の変動表現を活用し、min-max最適化問題を得る。
また、VI-IGL フレームワークを一般の$f$-Information 尺度に拡張し、IGL ベースの RL 問題に対する一般化 $f$-VI-IGL フレームワークを作成する。
既存の IGL ベースの RL アルゴリズムと比較して,改良された性能を示す強化学習設定について数値的な結果を示す。 Reinforcement learning (RL) problems where the learner attempts to infer an unobserved reward from some feedback variables have been studied in several recent papers. The setting of Interaction-Grounded Learning (IGL) is an example of such feedback-based RL tasks where the learner optimizes the return by inferring latent binary rewards from the interaction with the environment. In the IGL setting, a relevant assumption used in the RL literature is that the feedback variable $Y$ is conditionally independent of the context-action $(X,A)$ given the latent reward $R$. In this work, we propose Variational Information-based IGL (VI-IGL) as an information-theoretic method to enforce the conditional independence assumption in the IGL-based RL problem. The VI-IGL framework learns a reward decoder using an information-based objective based on the conditional mutual information (MI) between $(X,A)$ and $Y$. To estimate and optimize the information-based terms for the continuous random variables in the RL problem, VI-IGL leverages the variational representation of mutual information to obtain a min-max optimization problem. Also, we extend the VI-IGL framework to general $f$-Information measures leading to the generalized $f$-VI-IGL framework for the IGL-based RL problems. We present numerical results on several reinforcement learning settings indicating an improved performance compared to the existing IGL-based RL algorithm. | 翻訳日:2024-02-05 18:52:55 公開日:2024-02-02 |
# 大規模言語モデルによる精神保健の相補的評価 An Assessment on Comprehending Mental Health through Large Language Models ( http://arxiv.org/abs/2401.04592v2 ) ライセンス: Link先を確認 | Mihael Arcan, David-Paul Niland and Fionn Delahunty | (参考訳) メンタルヘルスの課題は、個人やコミュニティにかなりの世界的な負担をもたらす。
最近のデータによると、成人の20%以上が生涯に少なくとも1つの精神疾患に遭遇する可能性がある。
一方、大規模言語モデルの進歩は多様な応用を促進する一方で、メンタルヘルス分野における大規模言語モデルの潜在能力の理解と向上に重大な研究ギャップが持続している。
一方、様々な応用において、人間のメンタルヘルス状態の表現を自然言語で理解するための大きな言語モデルの能力が問題視されている。
本研究では,このギャップに対処するために,大規模言語モデルの初期評価を行う。
これにより,llama-2 と chatgpt の性能を古典的マシンやディープラーニングモデルと比較した。
DAIC-WOZデータセットの結果から、BERTやXLNetのようなトランスフォーマーベースのモデルは、大きな言語モデルよりも優れています。 Mental health challenges pose considerable global burdens on individuals and communities. Recent data indicates that more than 20% of adults may encounter at least one mental disorder in their lifetime. On the one hand, the advancements in large language models have facilitated diverse applications, yet a significant research gap persists in understanding and enhancing the potential of large language models within the domain of mental health. On the other hand, across various applications, an outstanding question involves the capacity of large language models to comprehend expressions of human mental health conditions in natural language. This study presents an initial evaluation of large language models in addressing this gap. Due to this, we compare the performance of Llama-2 and ChatGPT with classical Machine as well as Deep learning models. Our results on the DAIC-WOZ dataset show that transformer-based models, like BERT or XLNet, outperform the large language models. | 翻訳日:2024-02-05 18:52:32 公開日:2024-02-02 |
# 4kから400kへ:アクティベーションビーコンでllmのコンテキストを拡張する Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon ( http://arxiv.org/abs/2401.03462v2 ) ライセンス: Link先を確認 | Peitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng Dou | (参考訳) 長いコンテキストの利用は、コンテキストウィンドウのサイズが限られているため、LLMにとって大きな課題となる。
コンテキストウィンドウは微調整で拡張できるが、トレーニングと推論の時間の両方でかなりのコストがかかり、LLMの本来の能力に好ましくない影響を及ぼすことになる。
本研究では, LLMの生の活性化をコンパクトな形式に凝縮し, LLMが限られたコンテキストウィンドウでより長いコンテキストを知覚できるようにする Activation Beacon という手法を提案する。
Activation Beaconは、LLMの本来の機能を短いコンテキストで完全に保存するプラグインモジュールとして導入された。
長いコンテキストをストリーミング処理するためにスライディングウィンドウで動作するため、トレーニングと推論の両方において、競合するメモリと時間の効率が向上します。
活性化ビーコンは多様な凝縮比の短系列データを用いて訓練される。
このような治療のおかげで、少ないトレーニングコストで異なるコンテキスト長をサポートすることが効果的に学べる。
私たちの実験では、アクティベーションビーコンがコンテキスト拡張の有効性を検証する。llama-2-7bのコンテキストの高品質な拡張を(4kから400kまで)$\times100$で驚くほど達成することができる一方で、さまざまな長文言語モデリングとタスク理解において優れたパフォーマンスを達成できる。
ソースコードとモデルチェックポイントは \url{https://github.com/FlagOpen/FlagEmbedding} で入手できる。 The utilization of long contexts poses a big challenge for LLMs due to their limited context window size. Although the context window can be extended through fine-tuning, it will result in a considerable cost at both training and inference time, and exert an unfavorable impact to the LLM's original capabilities. In this work, we propose a new method called Activation Beacon, which condenses LLM's raw activations into compact forms such that the LLM can perceive a longer context with a limited context window. Activation Beacon is introduced as a plug-in module, which fully preserves the LLM's original capability in short contexts. It works with the sliding window to streamingly process the long context, which leads to a competitive memory and time efficiency in both training and inference. Activation Beacon is trained with short-sequence data of diversified condensing ratios. Thanks to such a treatment, it can be effectively learned to support different context lengths with a small training cost. Our experiment verifies Activation Beacon's effectiveness of context extension: it can remarkably accomplish high-quality extension of Llama-2-7B's context by $\times100$ times (from 4K to 400K); meanwhile, it can also achieve superior performances across a variety of long-context language modeling and understanding tasks. The source code and model checkpoint are available at \url{https://github.com/FlagOpen/FlagEmbedding}. | 翻訳日:2024-02-05 18:52:18 公開日:2024-02-02 |
# 結晶材料研究における深いハミルトン回帰の共分散と表現性:ハイブリッドカスケード回帰フレームワーク Harmonizing Covariance and Expressiveness for Deep Hamiltonian Regression in Crystalline Material Research: a Hybrid Cascaded Regression Framework ( http://arxiv.org/abs/2401.00744v6 ) ライセンス: Link先を確認 | Shi Yin, Xinyang Pan, Xudong Zhu, Tianyu Gao, Haochong Zhang, Feng Wu, Lixin He | (参考訳) 物質研究における量子系のハミルトン回帰の深層学習は、共分散法則を満たす必要があるが、そのうちの1つは、理論的同値性を保証するための非線形写像の制限により、ネットワークの表現性を犠牲にすることなくSO(3)-等分散を達成することである。
共分散表現性ジレンマを軽減するために,2つの回帰段階からなるハイブリッドフレームワークを用いて非線形共変深層学習を探索する。
第一段階、すなわち3次元原子系の対称性特性をモデル化する理論的に保証された共変ニューラルネットワークは、理論的に共変な特徴を抽出したベースラインハミルトニアンを予測する。
一方,第2段階は非線形3次元グラフトランスフォーマーネットワークを用いて,原子系の構造モデリングを提案し,表現性の向上を図ったハミルトンの詳細な予測として,第1段階の出力を洗練する。
理論的に共変だが、必然的に表現力の低い非線型ネットワークとの新しい組み合わせは、座標変換の下でロバスト共変性を維持しながら、正確で一般化可能な予測を可能にする。
6つの結晶性材料データベースの実験により,ハミルトン予測の最先端性能が確認された。 Deep learning for Hamiltonian regression of quantum systems in material research necessitates satisfying the covariance laws, among which achieving SO(3)-equivariance without sacrificing the expressiveness capability of networks remains unsolved due to the restriction on non-linear mappings in assuring theoretical equivariance. To alleviate the covariance-expressiveness dilemma, we make an exploration on non-linear covariant deep learning with a hybrid framework consisting of two cascaded regression stages. The first stage, i.e., a theoretically-guaranteed covariant neural network modeling symmetry properties of 3D atom systems, predicts baseline Hamiltonians with theoretically covariant features extracted, assisting the second stage in learning covariance. Meanwhile, the second stage, powered by a non-linear 3D graph Transformer network we propose for structural modeling of atomic systems, refines the first stage's output as a fine-grained prediction of Hamiltonians with better expressiveness capability. The novel combination of a theoretically covariant yet inevitably less expressive model with a highly expressive non-linear network enables precise, generalizable predictions while maintaining robust covariance under coordinate transformations. We achieve state-of-the-art performance in Hamiltonian prediction, confirmed through experiments on six crystalline material databases. | 翻訳日:2024-02-05 18:51:35 公開日:2024-02-02 |
# spike no more: 大きな言語モデルの事前学習の安定化 Spike No More: Stabilizing the Pre-training of Large Language Models ( http://arxiv.org/abs/2312.16903v2 ) ライセンス: Link先を確認 | Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki | (参考訳) 損失スパイクは、大規模な言語モデルの事前学習中に発生することが多い。
スパイクは大きな言語モデルの性能を低下させ、時には事前訓練を台無しにする。
事前トレーニングには膨大な計算予算が必要ですから,そのようなスパイクは避けるべきです。
損失スパイクの原因を明らかにするため,内部層の勾配に着目した。
理論的解析により爆発勾配の2つの原因を明らかにし,爆発を防止するための要件を提供する。
さらに,初期化法と埋め込みへの簡単な修正を組み合わせることで,要求を満たす手法を提案する。
我々は理論解析を実証的に検証するために様々な実験を行う。
実験の結果,前訓練時のスパイク防止に有効であった。 Loss spikes often occur during pre-training of large language models. The spikes degrade the performance of large language models and sometimes ruin the pre-training. Since the pre-training needs a vast computational budget, we should avoid such spikes. To investigate the cause of loss spikes, we focus on gradients of internal layers. Through theoretical analyses, we reveal two causes of the exploding gradients, and provide requirements to prevent the explosion. In addition, we propose a method to satisfy the requirements by combining the initialization method and a simple modification to embeddings. We conduct various experiments to verify our theoretical analyses empirically. Experimental results indicate that the combination is effective in preventing spikes during pre-training. | 翻訳日:2024-02-05 18:50:43 公開日:2024-02-02 |
# 一様加速原子の絡み合いの動的理論 A dynamic theory of entanglement for uniformly accelerated atoms ( http://arxiv.org/abs/2312.16342v3 ) ライセンス: Link先を確認 | M. S. Soares, N. F. Svaiter and G. Menezes | (参考訳) 開量子系の理論を用いて加速原子の絡み合いのダイナミクスを研究する。
異なる周期の双曲軌道に沿って進行する2つの原子を考える。
一般化マスター方程式を用いて電磁場と相互作用する双極子対のダイナミクスについて論じる。
エンタングルメント収穫と突然死現象における適切な加速による基礎的役割について論じる。
最後に、原子の偏光が結果にどう影響するかについて議論する。
偏光配置のいくつかの選択のために、我々はもはや絡み合い収穫現象を観察しない。 We study the entanglement dynamics of accelerated atoms using the theory of open quantum systems. We consider two atoms travelling along different hyperbolic trajectories with different proper times. We use the generalized master equation to discuss the dynamics of a pair of dipoles interacting with the electromagnetic field. The fundamental role played by proper acceleration in the entanglement harvesting and sudden death phenomenon is discussed. Finally, we discuss how the polarization of the atoms affects our results. For some choices of the polarization's configuration, we no longer observe the entanglement harvesting phenomenon. | 翻訳日:2024-02-05 18:50:35 公開日:2024-02-02 |
# アウトオブディストリビューション一般化を保証しないトレーニングにおけるデータ混合 Data Mixture in Training Un-assures Out-of-Distribution Generalization ( http://arxiv.org/abs/2312.16243v3 ) ライセンス: Link先を確認 | Songming Zhang, Yuxiao Luo, Qizhou Wang, Haoang Chi, Weikai Li, Bo Han, Jinyan Li | (参考訳) ディープニューラルネットワークは分布内サンプルで優れた性能を発揮するが、その一般化能力は未知のテストシフトで著しく低下する。
一般化誤差とトレーニングセットサイズとの関係を探索し, モデル外分布(OOD)一般化能力の問題について検討する。
以前の実証的な証拠は、エラーがトレーニングセットのサイズのパワーとして外れ、低いエラーはより優れたモデル一般化を示すことを示唆している。
しかし、OODサンプルの場合、これは我々の観測では正しくない。
対照的に、トレーニングデータサイズの増加は、必ずしもテスト一般化エラーの減少につながるとは限らない。
このような非減少現象は、様々な視覚的ベンチマークにまたがる経験的検証を伴う線形条件下で公式に研究される。
以上の結果を調べるため,データ混合物の凸殻外にあるデータとしてOODデータを再定義し,新たな一般化誤差を証明した。
以上より, 訓練混合物の凸殻内のデータに対して, 十分に訓練されたモデルの有効性を保証できることを示した。
このカバレッジを超えたOODデータでは、モデルの能力は保証されない可能性がある。
対象環境を知らずにより良い一般化を実現するために,データ拡張や事前学習を含む複数の戦略を実証する。
また、ベースラインを上回る新しいデータ選択アルゴリズムも採用している。 While deep neural networks can achieve good performance on in-distribution samples, their generalization ability significantly degrades under unknown test shifts. We study the problem of out-of-distribution (OOD) generalization capability of models by exploring the relationship between generalization error and training set size. Previous empirical evidence suggests that error falls off as a power of training set size and that lower errors indicate better model generalization. However, in the case of OOD samples, this is not true from our observations. Counterintuitively, increasing training data size does not always lead to a decrease in test generalization error. Such a non-decreasing phenomenon is formally investigated under a linear setting with empirical verification across varying visual benchmarks. To investigate the above results, we redefine OOD data as data located outside the convex hull of the data mixture in training and prove a new generalization error bound. Together our observations highlight that the effectiveness of well-trained models can be guaranteed on data within the convex hull of the training mixture. For OOD data beyond this coverage, the capability of models may be unassured. To achieve better generalization without knowledge of target environments, we demonstrate multiple strategies including data augmentation and pre-training. We also employ a novel data selection algorithm that outperforms baselines. | 翻訳日:2024-02-05 18:50:28 公開日:2024-02-02 |
# スパースファインチューニングの大規模言語モデルへの拡張 Scaling Sparse Fine-Tuning to Large Language Models ( http://arxiv.org/abs/2401.16405v2 ) ライセンス: Link先を確認 | Alan Ansell and Ivan Vuli\'c and Hannah Sterz and Anna Korhonen and Edoardo M. Ponti | (参考訳) 大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整(命令や人間のフィードバックなど)が難しい。
パラメータ効率の高いスパースファインチューニング手法のファミリーは性能面で有望であることが証明されているが、そのメモリ要求はLLMのサイズに比例して増加する。
本研究では, LLaMA 2 7B や 13B などの最先端 LLM に細粒度調整を施す。
本研究では,任意の密度レベルに対して,パラメータインデックスの配列とそれらのパラメータの差分を予め学習した値に対して保持する,新しいスパース微調整法であるspielを提案する。
繰り返します。
(a)アクティブデルタの更新。
(b)刈り込み指数(そのデルタの大きさの変化に基づく)と
(c)指標の再成長
再成長のために,数個の候補パラメータの累積勾配と,効率的なsm3オプティマイザを用いて推定した近似モーメントの2つの基準を検討した。
標準データセット混合物上でのLCMの命令チューニングを実験した結果、SpIELはLoRA(低ランク適応)のようなパラメータ効率のよい微調整法よりも性能が良く、実行時間も同等であることがわかった。
さらに,より大規模なモデルサイズへのスケーリングを容易にするため,SpIELは量子化と効率的なオプティマイザの両方と互換性があることも示す。
https://github.com/AlanAnsell/peftでSpIELのコードをリリースし、https://github.com/ducdauge/sft-llm.comで命令チューニングの実験を行います。 Large Language Models (LLMs) are difficult to fully fine-tune (e.g., with instructions or human feedback) due to their sheer number of parameters. A family of parameter-efficient sparse fine-tuning methods have proven promising in terms of performance but their memory requirements increase proportionally to the size of the LLMs. In this work, we scale sparse fine-tuning to state-of-the-art LLMs like LLaMA 2 7B and 13B. We propose SpIEL, a novel sparse fine-tuning method which, for a desired density level, maintains an array of parameter indices and the deltas of these parameters relative to their pretrained values. It iterates over: (a) updating the active deltas, (b) pruning indices (based on the change of magnitude of their deltas) and (c) regrowth of indices. For regrowth, we explore two criteria based on either the accumulated gradients of a few candidate parameters or their approximate momenta estimated using the efficient SM3 optimizer. We experiment with instruction-tuning of LLMs on standard dataset mixtures, finding that SpIEL is often superior to popular parameter-efficient fine-tuning methods like LoRA (low-rank adaptation) in terms of performance and comparable in terms of run time. We additionally show that SpIEL is compatible with both quantization and efficient optimizers, to facilitate scaling to ever-larger model sizes. We release the code for SpIEL at https://github.com/AlanAnsell/peft and for the instruction-tuning experiments at https://github.com/ducdauge/sft-llm. | 翻訳日:2024-02-05 18:43:51 公開日:2024-02-02 |
# LM潜在空間のセマンティックス--語彙定義によるアプローチ On the Semantics of LM Latent Space: A Vocabulary-defined Approach ( http://arxiv.org/abs/2401.16184v2 ) ライセンス: Link先を確認 | Jian Gu, Chunyang Chen, Aldeida Aleti | (参考訳) 言語モデル(lm)の潜在空間を理解することは、その性能と解釈可能性を高めるために不可欠である。
既存の分析は、LMセマンティクスに不整合(モデル中心)な洞察を与え、LM適応の本質的な側面を無視している。
この手法は,LMの潜在空間内で参照フレームを確立し,LMの語彙を基盤とした非絡み合った意味解析を確実にする。
我々のアプローチは、モデル中心の洞察にLM語彙を活用する、事前の絡み合った分析を超越する。
さらに,微分性と局所等方性を重視したロジット計算手法を提案し,lm適応時のデータ表現を意味的に校正するニューラルネットワークモジュールを提案する。
多様なテキスト理解データセットにわたる広範な実験を通じて,本手法は検索強化生成とパラメータ効率の微調整の最先端手法より優れ,その有効性と適用性を示している。
本研究は, LM力学に光を当てるだけでなく, LM性能と解釈可能性を高めるための実用的ソリューションも提供する。 Understanding the latent space of language models (LM) is crucial to refining their performance and interpretability. Existing analyses often fall short in providing disentangled (model-centric) insights into LM semantics, and neglect essential aspects of LM adaption. In response, we introduce a pioneering method called vocabulary-defined semantics, which establishes a reference frame within the LM latent space, ensuring disentangled semantic analysis grounded in LM vocabulary. Our approach transcends prior entangled analysis, leveraging LM vocabulary for model-centric insights. Furthermore, we propose a novel technique to compute logits, emphasising differentiability and local isotropy, and introduce a neural clustering module for semantically calibrating data representations during LM adaptation. Through extensive experiments across diverse text understanding datasets, our approach outperforms state-of-the-art methods of retrieval-augmented generation and parameter-efficient finetuning, showcasing its efficacy and broad applicability. Our findings not only shed light on LM mechanics, but also offer practical solutions to enhance LM performance and interpretability. | 翻訳日:2024-02-05 18:43:22 公開日:2024-02-02 |
# NoFunEval: 機能的正確性以外の要件について,コード LM がどう対処するか NoFunEval: Funny How Code LMs Falter on Requirements Beyond Functional Correctness ( http://arxiv.org/abs/2401.15963v2 ) ライセンス: Link先を確認 | Manav Singhal, Tushar Aggarwal, Abhijeet Awasthi, Nagarajan Natarajan, Aditya Kanade | (参考訳) 既存のコード言語モデルの評価ベンチマーク(コードLM)は、LMが機能的に正しいコードを生成することができるかどうかにのみ焦点を絞っている。
現実世界のソフトウェアエンジニアリングでは、開発者は機能的正確性を超えて考える。
効率性、セキュリティ、保守性といったシステム設計全体の目標を満たすために、機能を実装するべき"方法"に関する要件がある。
LMが要求とコードセマンティクスの堅牢な理解を示すなら、彼らはLMをもっと信頼するだろう。
非機能要件と非機能要件の両方に対する単純な分類インスタンスのコードLMを評価するために,新しいベンチマークNoFunEvalを提案する。
我々は、開発者がドメイン知識をlmsに伝達する方法として、プロンプト手法であるコーディング概念(coco)を提案する。
我々は22コードlmsを広範囲に評価する。
私たちの発見では、ベンチマークでテストすると一般的にフェールし、トレーニングセットアップの基本的な盲点をほのめかしています。
驚いたことに、一般的なhumanevalベンチマークから派生した機能的訂正インスタンスの分類精度は低く、その理解の深さと、そもそも機能的修正コードの生成に成功している原因を問うものだ。
私たちはベンチマークと評価スクリプトをhttps://aka.ms/NoFunEval.comで公開します。 Existing evaluation benchmarks of language models of code (code LMs) focus almost exclusively on whether the LMs can generate functionally-correct code. In real-world software engineering, developers think beyond functional correctness. They have requirements on "how" a functionality should be implemented to meet overall system design objectives like efficiency, security, and maintainability. They would also trust the code LMs more if the LMs demonstrate robust understanding of requirements and code semantics. We propose a new benchmark NoFunEval to evaluate code LMs on non-functional requirements and simple classification instances for both functional and non-functional requirements. We propose a prompting method, Coding Concepts (CoCo), as a way for a developer to communicate the domain knowledge to the LMs. We conduct an extensive evaluation of twenty-two code LMs. Our finding is that they generally falter when tested on our benchmark, hinting at fundamental blindspots in their training setups. Surprisingly, even the classification accuracy on functional-correctness instances derived from the popular HumanEval benchmark is low, calling in question the depth of their comprehension and the source of their success in generating functionally-correct code in the first place. We will release our benchmark and evaluation scripts publicly at https://aka.ms/NoFunEval. | 翻訳日:2024-02-05 18:43:01 公開日:2024-02-02 |
# 3DPFIX:人間とAIのコラボレーションによるリモート初心者の3Dプリンティング問題の改善 3DPFIX: Improving Remote Novices' 3D Printing Troubleshooting through Human-AI Collaboration ( http://arxiv.org/abs/2401.15877v2 ) ライセンス: Link先を確認 | Nahyun Kwon, Tong Sun, Yuyang Gao, Liang Zhao, Xu Wang, Jeeeun Kim, Sungsoo Ray Hong | (参考訳) 一般消費者向けの3Dプリンタとオンライン学習リソースは、初心者が遠隔操作で自己学習できる。
トラブルシューティングは3dプリンティングの重要な役割を担っているが、オンライントラブルシューティングアーカイブやオンラインコミュニティヘルプなど、十分に開発されているオンラインソースの助けを借りても、多くのリモート初心者にとってこのプロセスは難しい。
我々は,76人のアクティブ3Dプリンティングユーザを対象に,リモート初心者がトラブルシューティングや課題にオンラインリソースをどのように活用するかを学習するためのフォーマティブな研究を行った。
リモート初心者はオンラインリソースを十分に活用できないことがわかった。
例えば、オンラインアーカイブは静的に一般的な情報を提供しており、それらのユニークなケースを既存の記述と関連付けることは困難である。
オンラインコミュニティは、よりターゲティングな提案を提供することで、彼らの苦労を和らげる可能性があるが、カスタムヘルパーを提供するヘルパーは、かなり不足しており、タイムリーな支援を得ることが難しい。
本稿では,初心者の3Dプリンティング体験を改善し,ドメイン知識の蓄積を容易にするために,パイプラインを利用した対話型3Dトラブルシューティングシステムである3DPFIXを提案する。
自動診断と解探索をサポートする3DPFIXを開発した。
3DPFIXは、オンラインコミュニティに蓄積されたQ&A談話から、障害事例に関する共通対話に基づいて構築された。
ソーシャルアノテーション(コメント)を活用して、AI分類器用の注釈付き失敗画像データセットを構築し、ソリューションプールを抽出します。
総説では,3DPFIXを使用すれば,失敗の診断や,一般的な実践よりも正確な解決策を見つけるのに,参加者の労力を大幅に削減できることがわかった。
また,3DPFIXユーザがドメイン固有の知識を3Dプリンティングすることも確認した。
我々は,今後のHuman-AIコラボレーション設計において,コミュニティ主導のデータを活用することの意味について論じる。 The widespread consumer-grade 3D printers and learning resources online enable novices to self-train in remote settings. While troubleshooting plays an essential part of 3D printing, the process remains challenging for many remote novices even with the help of well-developed online sources, such as online troubleshooting archives and online community help. We conducted a formative study with 76 active 3D printing users to learn how remote novices leverage online resources in troubleshooting and their challenges. We found that remote novices cannot fully utilize online resources. For example, the online archives statically provide general information, making it hard to search and relate their unique cases with existing descriptions. Online communities can potentially ease their struggles by providing more targeted suggestions, but a helper who can provide custom help is rather scarce, making it hard to obtain timely assistance. We propose 3DPFIX, an interactive 3D troubleshooting system powered by the pipeline to facilitate Human-AI Collaboration, designed to improve novices' 3D printing experiences and thus help them easily accumulate their domain knowledge. We built 3DPFIX that supports automated diagnosis and solution-seeking. 3DPFIX was built upon shared dialogues about failure cases from Q&A discourses accumulated in online communities. We leverage social annotations (i.e., comments) to build an annotated failure image dataset for AI classifiers and extract a solution pool. Our summative study revealed that using 3DPFIX helped participants spend significantly less effort in diagnosing failures and finding a more accurate solution than relying on their common practice. We also found that 3DPFIX users learn about 3D printing domain-specific knowledge. We discuss the implications of leveraging community-driven data in developing future Human-AI Collaboration designs. | 翻訳日:2024-02-05 18:42:40 公開日:2024-02-02 |
# 合成器としての大規模言語モデル:自動脆弱性修復のための拡散入力 Large Language Model as Synthesizer: Fusing Diverse Inputs for Better Automatic Vulnerability Repair ( http://arxiv.org/abs/2401.15459v2 ) ライセンス: Link先を確認 | Xin Zhou, Kisub Kim, Bowen Xu, DongGyun Han, David Lo | (参考訳) ディープラーニング(dl)の進歩は、脆弱なコードから固定されたコードへのマッピングを効果的に学習する自動ソフトウェア脆弱性修復アプローチへの道を開いた。
それでも、既存のdlベースの脆弱性修復メソッドには、注目すべき制限がある。
1) 長い脆弱性のあるコードを扱うのに苦労する。
2)コードを自然言語テキストとして扱い、その固有の構造を無視し、
3) 専門家システムに存在する貴重な専門家の知識を活用しない。
これに対処するために,vulmasterを提案する。vulmasterは,その長さに関係なく,脆弱なコード全体を包括的に理解することにより,脆弱性の修復に優れた,トランスフォーマーベースのニューラルネットワークモデルである。
このモデルはまた、脆弱性のあるコード構造とCWEシステムからのエキスパート知識を含む多様な情報を統合する。
VulMasterを実世界のC/C++脆弱性修復データセットで評価した。
実験の結果,vulmasterは,学習に基づく脆弱性修復アプローチに比べて大幅に改善が見られた。
具体的には、em、bleu、codebleuのスコアを10.2\%から20.0\%、21.3\%から29.3\%、そして32.5\%から40.9\%に改善する。 The advances of deep learning (DL) have paved the way for automatic software vulnerability repair approaches, which effectively learn the mapping from the vulnerable code to the fixed code. Nevertheless, existing DL-based vulnerability repair methods face notable limitations: 1) they struggle to handle lengthy vulnerable code, 2) they treat code as natural language texts, neglecting its inherent structure, and 3) they do not tap into the valuable expert knowledge present in the expert system. To address this, we propose VulMaster, a Transformer-based neural network model that excels at generating vulnerability repairs by comprehensively understanding the entire vulnerable code, irrespective of its length. This model also integrates diverse information, encompassing vulnerable code structures and expert knowledge from the CWE system. We evaluated VulMaster on a real-world C/C++ vulnerability repair dataset comprising 1,754 projects with 5,800 vulnerable functions. The experimental results demonstrated that VulMaster exhibits substantial improvements compared to the learning-based state-of-the-art vulnerability repair approach. Specifically, VulMaster improves the EM, BLEU, and CodeBLEU scores from 10.2\% to 20.0\%, 21.3\% to 29.3\%, and 32.5\% to 40.9\%, respectively. | 翻訳日:2024-02-05 18:42:07 公開日:2024-02-02 |
# 量子系のマクロ可逆性:自由フェルミオン鎖におけるETHと平衡 Macroscopic Irreversibility in Quantum Systems: ETH and Equilibration in a Free Fermion Chain ( http://arxiv.org/abs/2401.15263v2 ) ライセンス: Link先を確認 | Hal Tasaki | (参考訳) 均一な近傍ホッピングとマクロな粒子数を有する自由フェルミオン鎖を考える。
チェーンの任意のサブセット$S$を固定する。
任意の初期状態において、十分に大きく典型的な時間に、$s$の粒子数(測定結果)がほぼ確実に平衡値(一様粒子分布に対応する)に等しいことを証明する。
これにより、量子力学的ユニタリ時間進化によって支配されるシステムにおける不可逆的な振る舞いの出現が確立される。
概念上、非可逆性は初期状態やハミルトニアンにランダム性を導入することなくここで証明されるが、古典系における可逆性の導出は特定のランダム性に依存する。
証明に不可欠な新しい要素は、大きな偏りの形の強いETH(エネルギー固有状態熱化仮説)の正当性である。 We consider a free fermion chain with a uniform nearest-neighbor hopping and a macroscopic number of particles. Fix any subset $S$ of the chain. For any initial state, we prove that, at a sufficiently large and typical time, the (measurement result of the) number of particles in $S$ almost certainly equals its equilibrium value (corresponding to the uniform particle distribution). This establishes the emergence of irreversible behavior in a system governed by the quantum mechanical unitary time evolution. It is conceptually important that irreversibility is proved here without introducing any randomness to the initial state or the Hamiltonian, while the derivation of irreversibility in classical systems relies on certain randomness. The essential new ingredient in the proof is the justification of the strong ETH (energy eigenstate thermalization hypothesis) in the large-deviation form. | 翻訳日:2024-02-05 18:41:46 公開日:2024-02-02 |
# 量子型: 量子ビットと量子ゲートを越えて Quantum types: going beyond qubits and quantum gates ( http://arxiv.org/abs/2401.15073v3 ) ライセンス: Link先を確認 | Tam\'as Varga, Yaiza Aragon\'es-Soria, Manuel Oriol | (参考訳) 量子コンピューティングは、大きな応用可能性を持つ成長分野である。
量子プログラムのプログラミングの仕方を学ぶことは、量子ビットの動作の理解と量子ゲートの使い方の学習を意味する。
これは論理ゲートとビットを使って古典的なアルゴリズムを作成するのに似ている。
すべての概念を学習した後でも、ほとんどの開発者が量子プログラミングを受け入れるのを妨げる新しいアルゴリズムを作成するのは難しい。
この記事では、高レベルの抽象化の必要性を概説し、Rhymeという開発者フレンドリーなプログラミング言語でそれらをいくつか提案する。
新しい量子型は、ビット、整数、フロート、文字、配列、文字列を含む古典的な型の拡張である。
このような型をコードスニペットで使う方法を示します。 Quantum computing is a growing field with significant potential applications. Learning how to code quantum programs means understanding how qubits work and learning to use quantum gates. This is analogous to creating classical algorithms using logic gates and bits. Even after learning all concepts, it is difficult to create new algorithms, which hinders the acceptance of quantum programming by most developers. This article outlines the need for higher-level abstractions and proposes some of them in a developer-friendly programming language called Rhyme. The new quantum types are extensions of classical types, including bits, integers, floats, characters, arrays, and strings. We show how to use such types with code snippets. | 翻訳日:2024-02-05 18:41:31 公開日:2024-02-02 |
# グローバル構造誘導拡散モデルによるテキスト画像の描画 Text Image Inpainting via Global Structure-Guided Diffusion Models ( http://arxiv.org/abs/2401.14832v2 ) ライセンス: Link先を確認 | Shipeng Zhu, Pengfei Fang, Chenjie Zhu, Zuoyan Zhao, Qiang Xu, Hui Xue | (参考訳) 現実世界のテキストは、環境や人為的な要因による腐食問題によって損傷を受け、テクスチャや構造などの完全なスタイルの保存を妨げる可能性がある。
これらの腐食問題、例えば落書き標識や不完全な署名は、テキストを理解するのに困難をもたらし、例えばシーンテキスト認識や署名識別といった下流のアプリケーションに重大な課題をもたらす。
特に、現在の塗装技術は、この問題に適切に対処できず、合理的で一貫したスタイルとともに正確なテキストイメージの復元が困難であることが多い。
本論文は,テキスト画像インペインティングのオープン問題として,その研究を容易にするベンチマークを構築することを目的としている。
そこで我々は,シーンテキスト画像と手書きテキスト画像を含む2つの特定のテキストインペイントデータセットを構築した。
それぞれの画像には、実生活と合成のデータセットで改良された画像が含まれており、オリジナル画像のペア、腐敗した画像、その他のアシスタント情報が含まれている。
データセットの上に、新たなニューラルネットワークフレームワークであるGlobal Structure-Guided Diffusion Model(GSDM)を潜在的ソリューションとして開発する。
提案するgsdmは,先行するテキストのグローバル構造を利用して,クリーンテキストを復元する効率的な拡散モデルを構築した。
本手法の有効性は,認識精度と画質が大幅に向上するなど,徹底的な実験によって実証された。
これらの知見は,提案手法の有効性を浮き彫りにするだけでなく,テキスト画像理解と処理の幅広い分野を強化する可能性を強調している。
コードとデータセットはhttps://github.com/blackprotoss/gsdm。 Real-world text can be damaged by corrosion issues caused by environmental or human factors, which hinder the preservation of the complete styles of texts, e.g., texture and structure. These corrosion issues, such as graffiti signs and incomplete signatures, bring difficulties in understanding the texts, thereby posing significant challenges to downstream applications, e.g., scene text recognition and signature identification. Notably, current inpainting techniques often fail to adequately address this problem and have difficulties restoring accurate text images along with reasonable and consistent styles. Formulating this as an open problem of text image inpainting, this paper aims to build a benchmark to facilitate its study. In doing so, we establish two specific text inpainting datasets which contain scene text images and handwritten text images, respectively. Each of them includes images revamped by real-life and synthetic datasets, featuring pairs of original images, corrupted images, and other assistant information. On top of the datasets, we further develop a novel neural framework, Global Structure-guided Diffusion Model (GSDM), as a potential solution. Leveraging the global structure of the text as a prior, the proposed GSDM develops an efficient diffusion model to recover clean texts. The efficacy of our approach is demonstrated by thorough empirical study, including a substantial boost in both recognition accuracy and image quality. These findings not only highlight the effectiveness of our method but also underscore its potential to enhance the broader field of text image understanding and processing. Code and datasets are available at: https://github.com/blackprotoss/GSDM. | 翻訳日:2024-02-05 18:41:21 公開日:2024-02-02 |
# UMBRELLA:実験室から現実のIoT実験にギャップを埋めるワンストップショップ UMBRELLA: A One-stop Shop Bridging the Gap from Lab to Real-World IoT Experimentation ( http://arxiv.org/abs/2401.14829v2 ) ライセンス: Link先を確認 | Ioannis Mavromatis and Yichao Jin and Aleksandar Stanoev and Anthony Portelli and Ingram Weeks and Ben Holden and Eliot Glasspole and Tim Farnham and Aftab Khan and Usman Raza and Adnan Aijaz and Thomas Bierton and Ichiro Seto and Nita Patel and Mahesh Sooriyabandara | (参考訳) UMBRELLAは、イギリスのサウスグロスターシャーに展開されている、オープンで大規模なIoTエコシステムである。
これは、複数の技術領域にわたるイノベーションを加速することを目的としている。
umbrellaは、既存の特殊なテストベッド間のギャップを橋渡しし、system-of-systems(sos)方式で現実世界の技術的課題に対処するために構築されている。
UMBRELLAは、現実世界のデバイスやインフラへのオープンアクセスを提供し、研究者や業界がスマートシティ、ロボティクス、ワイヤレス通信、エッジインテリジェンスなどのソリューションを評価することを可能にする。
主な機能は、パブリックインフラストラクチャにインストールされた200以上のマルチセンサーノード、20のモバイルロボットを備えたロボティクスアリーナ、5gのネットワーク・イン・ア・ボックスソリューション、管理、制御、セキュアなユーザアクセスのための統合バックエンドプラットフォームなどだ。
多様なセンサー、通信インターフェース、gpu対応エッジデバイスを含むハードウェアコンポーネントの多様性は、デジタルツインのようなツールと相まって、ラボ環境では実現できない革新的なソリューションの包括的な実験とベンチマークを可能にする。
本稿では、UMBRELLAのマルチドメインアーキテクチャと機能の概要を概観し、IoT(Internet of Things)とIoT(Industrial IoT)のイノベーションのための理想的な遊び場となる。
UMBRELLAをオープンで持続可能なテストベッドとして設計、開発、運用する上での課題について論じ、同様の将来のイニシアチブをガイドするために学んだ教訓を共有する。
UMBRELLAはその独特なオープン性、異質性、リアリズム、ツールによって、最先端の技術研究、開発、そして現実世界の進歩への翻訳を加速し続けようとしている。 UMBRELLA is an open, large-scale IoT ecosystem deployed across South Gloucestershire, UK. It is intended to accelerate innovation across multiple technology domains. UMBRELLA is built to bridge the gap between existing specialised testbeds and address holistically real-world technological challenges in a System-of-Systems (SoS) fashion. UMBRELLA provides open access to real-world devices and infrastructure, enabling researchers and the industry to evaluate solutions for Smart Cities, Robotics, Wireless Communications, Edge Intelligence, and more. Key features include over 200 multi-sensor nodes installed on public infrastructure, a robotics arena with 20 mobile robots, a 5G network-in-a-box solution, and a unified backend platform for management, control and secure user access. The heterogeneity of hardware components, including diverse sensors, communication interfaces, and GPU-enabled edge devices, coupled with tools like digital twins, allows for comprehensive experimentation and benchmarking of innovative solutions not viable in lab environments. This paper provides a comprehensive overview of UMBRELLA's multi-domain architecture and capabilities, making it an ideal playground for Internet of Things (IoT) and Industrial IoT (IIoT) innovation. It discusses the challenges in designing, developing and operating UMBRELLA as an open, sustainable testbed and shares lessons learned to guide similar future initiatives. With its unique openness, heterogeneity, realism and tools, UMBRELLA aims to continue accelerating cutting-edge technology research, development and translation into real-world progress. | 翻訳日:2024-02-05 18:40:54 公開日:2024-02-02 |
# 自己監督型学習による適応型クラウドソーシング Adaptive Crowdsourcing Via Self-Supervised Learning ( http://arxiv.org/abs/2401.13239v2 ) ライセンス: Link先を確認 | Anmol Kagrecha, Henrik Marklund, Benjamin Van Roy, Hong Jun Jeon, Richard Zeckhauser | (参考訳) 一般的なクラウドソーシングシステムでは、多くのクラウドワーカーがグループ見積もりを作成するために提供した潜在量の推定値が平均される。
我々は,自己教師付き学習と新しいアグリゲーションスキームを活用する新しいアプローチ,予測学習者を開発した。
このアプローチは、以前の量に対する見積もりに基づいて、クラウドワーカーに割り当てられた重みに適応する。
クラウドワーカー間でスキルが変化したり、見積が相関する場合、重み付けされた合計は平均よりも正確なグループ推定を提供する。
期待最大化のような既存のアルゴリズムは、少なくとも原則として、同様に正確なグループ推定を生成することができる。
しかし、ニューラルネットワークのような複雑なモデルが群集同士の関係を表現するために必要となると、計算の要求は面倒になる。
予測型労働者はそのような複雑さと他の多くの実践的な課題に対応できる。
予測作業者の効果を理論的および計算論的研究を通して分析する。
中でも,クラウドワーカー当たりのエンゲージメント数の増加に伴い,漸近的最適性を確立する。 Common crowdsourcing systems average estimates of a latent quantity of interest provided by many crowdworkers to produce a group estimate. We develop a new approach -- predict-each-worker -- that leverages self-supervised learning and a novel aggregation scheme. This approach adapts weights assigned to crowdworkers based on estimates they provided for previous quantities. When skills vary across crowdworkers or their estimates correlate, the weighted sum offers a more accurate group estimate than the average. Existing algorithms such as expectation maximization can, at least in principle, produce similarly accurate group estimates. However, their computational requirements become onerous when complex models, such as neural networks, are required to express relationships among crowdworkers. Predict-each-worker accommodates such complexity as well as many other practical challenges. We analyze the efficacy of predict-each-worker through theoretical and computational studies. Among other things, we establish asymptotic optimality as the number of engagements per crowdworker grows. | 翻訳日:2024-02-05 18:40:25 公開日:2024-02-02 |
# 視覚言語モデルの無視された尾 The Neglected Tails of Vision-Language Models ( http://arxiv.org/abs/2401.12425v2 ) ライセンス: Link先を確認 | Shubham Parashar, Zhiqiu Lin, Tian Liu, Xiangjue Dong, Yanan Li, Deva Ramanan, James Caverlee, Shu Kong | (参考訳) 視覚言語モデル(VLM)はゼロショット認識では優れるが、その性能は異なる視覚概念によって大きく異なる。
たとえば、CLIPはImageNet(60-80%)で印象的な精度を実現しているが、そのパフォーマンスは、おそらく事前トレーニングデータに限られているため、ナイトヘビのような10以上のコンセプトで10%以下に低下している。
しかしながら、VLMの大規模データセットにおける概念の頻度を測定することは困難である。
これらの概念の同義語を含む事前学習テキストの数をカウントするために,大規模言語モデル (LLM) を用いてこの問題に対処する。
分析の結果,laionなどの一般的なデータセットは長文のコンセプト分布を示し,vlmsの性能に偏りがあることが確認された。
また、視覚チャットボット(gpt-4vなど)やテキストから画像へのモデル(安定拡散など)を含むvlmの下流アプリケーションでは、この手法によって識別される稀な概念の認識や生成に失敗することがしばしばあります。
ゼロショットVLMの不均衡性能を軽減するため,Retrieval-Augmented Learning (REAL)を提案する。
まず、オリジナルのクラス名を使ってVLMをプロンプトする代わりに、REALはトレーニング前のテキストで最も頻繁に見られる同義語を使用する。
この単純な変更は、コストのかかるヒューマンエンジニアリングとLLM強化プロンプトを9つのベンチマークデータセットで上回っている。
第二に、概念同義語を用いて得られた、小さくてバランスの取れた事前学習データの線形分類器を訓練する。
REALは以前のゼロショットSOTAを超え、400倍のストレージと1万分の1のトレーニング時間を使っています! Vision-language models (VLMs) excel in zero-shot recognition but their performance varies greatly across different visual concepts. For example, although CLIP achieves impressive accuracy on ImageNet (60-80%), its performance drops below 10% for more than ten concepts like night snake, presumably due to their limited presence in the pretraining data. However, measuring the frequency of concepts in VLMs' large-scale datasets is challenging. We address this by using large language models (LLMs) to count the number of pretraining texts that contain synonyms of these concepts. Our analysis confirms that popular datasets, such as LAION, exhibit a long-tailed concept distribution, yielding biased performance in VLMs. We also find that downstream applications of VLMs, including visual chatbots (e.g., GPT-4V) and text-to-image models (e.g., Stable Diffusion), often fail to recognize or generate images of rare concepts identified by our method. To mitigate the imbalanced performance of zero-shot VLMs, we propose REtrieval-Augmented Learning (REAL). First, instead of prompting VLMs using the original class names, REAL uses their most frequent synonyms found in pretraining texts. This simple change already outperforms costly human-engineered and LLM-enriched prompts over nine benchmark datasets. Second, REAL trains a linear classifier on a small yet balanced set of pretraining data retrieved using concept synonyms. REAL surpasses the previous zero-shot SOTA, using 400x less storage and 10,000x less training time! | 翻訳日:2024-02-05 18:39:50 公開日:2024-02-02 |
# SuperCLUE-Math6: 中国語におけるLLMのグレード付きマルチステップ数学推論ベンチマーク SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese ( http://arxiv.org/abs/2401.11819v2 ) ライセンス: Link先を確認 | Liang Xu, Hang Xue, Lei Zhu, Kangkang Zhao | (参考訳) 中国語モデルの数学的推論能力を評価するためのベンチマークデータセットであるSuperCLUE-Math6(SC-Math6)を紹介する。
SC-Math6はGSM8Kデータセットの中国語版として設計されており、難易度、多様性、アプリケーションスコープが向上している。
複数ステップの推論と自然言語ソリューションの提供を必要とする2000以上の数学的単語問題で構成されている。
本研究では,異なる推論ステップを持つ問題に対する性能に基づく大規模モデルの推論能力の定量化手法を提案する。
13の代表的な中国のモデルに対する実験では、GPT-4のような上位モデルの優れた性能が示され、推論レベルの明確な成層化が示されている。
sc-math6は中国の数学的推論ベンチマークのギャップを埋め、中国語モデルの知能を前進させるための包括的なテストベッドを提供する。 We introduce SuperCLUE-Math6(SC-Math6), a new benchmark dataset to evaluate the mathematical reasoning abilities of Chinese language models. SC-Math6 is designed as an upgraded Chinese version of the GSM8K dataset with enhanced difficulty, diversity, and application scope. It consists of over 2000 mathematical word problems requiring multi-step reasoning and providing natural language solutions. We propose an innovative scheme to quantify the reasoning capability of large models based on performance over problems with different reasoning steps. Experiments on 13 representative Chinese models demonstrate a clear stratification of reasoning levels, with top models like GPT-4 showing superior performance. SC-Math6 fills the gap in Chinese mathematical reasoning benchmarks and provides a comprehensive testbed to advance the intelligence of Chinese language models. | 翻訳日:2024-02-05 18:39:22 公開日:2024-02-02 |
# ライブストリーミングプラットフォームTwitchのコミュニティ管理のためのサードパーティ開発者とツール開発 Third-Party Developers and Tool Development For Community Management on Live Streaming Platform Twitch ( http://arxiv.org/abs/2401.11317v2 ) ライセンス: Link先を確認 | Jie Cai, Ya-Fang Lin, He Zhang, John M. Carroll | (参考訳) コミュニティマネジメントは、利害関係者が社会技術的支援のあるコミュニティを共同で構築し、維持するために重要である。
しかし、既存の研究の大部分は、主にコミュニティメンバーとプラットフォームに焦点を当てており、プラットフォームとコミュニティメンバーの仲介やコミュニティマネジメントを支援するツールの開発を行う開発者にはほとんど注目されていない。
本研究は、ライブストリーミングプラットフォームTwitchのサードパーティ開発者(TPD)に焦点を当て、ツール開発プラクティスを探求する。
詳細な質的分析を伴う混合手法を用いて,tpdは異なる利害関係者(ストリーマー,ビューア,プラットフォーム,プロの開発者)との複雑な関係を維持し,多層政策はアイデアの革新とツール開発に関する機関を制限することを見出した。
我々は、HCI研究は、ツールユーザから、コミュニティ管理に関してツール開発者へと焦点を移すべきだと論じている。
我々は、TPDSとプラットフォームとプロの開発者との緊密なコラボレーションをサポートし、統合されたツールキットとポリシー文書でPDの開発プロセスを効率化する設計を提案する。 Community management is critical for stakeholders to collaboratively build and sustain communities with socio-technical support. However, most of the existing research has mainly focused on the community members and the platform, with little attention given to the developers who act as intermediaries between the platform and community members and develop tools to support community management. This study focuses on third-party developers (TPDs) for the live streaming platform Twitch and explores their tool development practices. Using a mixed method with in-depth qualitative analysis, we found that TPDs maintain complex relationships with different stakeholders (streamers, viewers, platform, professional developers), and the multi-layered policy restricts their agency regarding idea innovation and tool development. We argue that HCI research should shift its focus from tool users to tool developers with regard to community management. We propose designs to support closer collaboration between TPDS and the platform and professional developers and streamline TPDs' development process with unified toolkits and policy documentation. | 翻訳日:2024-02-05 18:39:08 公開日:2024-02-02 |
# 文化価値調査による対話エージェントの文化的栄養 Bridging Cultural Nuances in Dialogue Agents through Cultural Value Surveys ( http://arxiv.org/abs/2401.10352v2 ) ライセンス: Link先を確認 | Yong Cao, Min Chen, Daniel Hershcovich | (参考訳) 対話エージェントとの交流の文化的景観は説得力があり、比較的未開拓な領域である。
コミュニケーションのスタイルや信念からメタファーや知識の共有に至るまで、様々な社会文化的側面がこれらの相互作用に大きな影響を与えていることは明らかです。
このダイナミクスを深く掘り下げるために,文化レンズを用いた対話生成のための初歩的なベンチマークであるcudialogを紹介する。
また,対話エージェントの予測精度と品質を向上させることを目的として,対話交換から文化的属性を抽出できるベースラインモデルを開発した。
文化的理解と多面的対話予測を効果的に学習するために,文化次元を対話符号化機能に組み込むことを提案する。
実験の結果,文化価値調査を取り入れることで,文献や文化指標との整合性が向上し,パーソナライゼーションや対話品質にかなりの影響を与えていることが明らかとなった。
このエキサイティングなドメインのさらなる調査を容易にするために、ベンチマークをhttps://github.com/yongcaoplus/cudialog.comで公開しています。 The cultural landscape of interactions with dialogue agents is a compelling yet relatively unexplored territory. It's clear that various sociocultural aspects -- from communication styles and beliefs to shared metaphors and knowledge -- profoundly impact these interactions. To delve deeper into this dynamic, we introduce cuDialog, a first-of-its-kind benchmark for dialogue generation with a cultural lens. We also develop baseline models capable of extracting cultural attributes from dialogue exchanges, with the goal of enhancing the predictive accuracy and quality of dialogue agents. To effectively co-learn cultural understanding and multi-turn dialogue predictions, we propose to incorporate cultural dimensions with dialogue encoding features. Our experimental findings highlight that incorporating cultural value surveys boosts alignment with references and cultural markers, demonstrating its considerable influence on personalization and dialogue quality. To facilitate further exploration in this exciting domain, we publish our benchmark publicly accessible at https://github.com/yongcaoplus/cuDialog. | 翻訳日:2024-02-05 18:38:49 公開日:2024-02-02 |
# 大規模aiモデルによるマルチメディアの検出:調査 Detecting Multimedia Generated by Large AI Models: A Survey ( http://arxiv.org/abs/2402.00045v2 ) ライセンス: Link先を確認 | Li Lin, Neeraj Gupta, Yue Zhang, Hainan Ren, Chun-Hao Liu, Feng Ding, Xin Wang, Xin Li, Luisa Verdoliva, Shu Hu | (参考訳) 大規模AIモデル(LAIM)の急速な進歩、特に拡散モデルと大規模言語モデルは、AI生成マルチメディアが日々のさまざまな側面にますます統合される新しい時代を象徴している。
多くの分野において有益であるが、この内容は潜在的な誤用、社会的破壊、倫理的懸念などの重大なリスクをもたらす。
その結果、LAIMによるマルチメディアの検出が重要となり、関連する研究が顕著に増加した。
それにもかかわらず、LAIM生成マルチメディアの検出に特に焦点をあてる体系的な調査には、注目すべきギャップが残っている。
そこで本研究では,laimsが作成したマルチメディア(テキスト,画像,ビデオ,オーディオ,マルチモーダルコンテンツなど)の検出に関する既存の研究を包括的にカバーする最初の調査を行う。
具体的には, メディアモダリティによって分類され, 純粋な検出(検出性能を高めるための試み)と検出(一般化性, 堅牢性, 検出器の解釈性など)という2つの視点に合致する, 検出方法の新しい分類法を提案する。
さらに,この分野の研究者や実践者にとって有用なリソースを提供するために,生成メカニズム,公開データセット,オンライン検出ツールの概要を提示した。
さらに,laimsが生成するマルチメディア検出における未探索,進行中,新興の課題に対処する今後の研究の課題を特定し,今後の方向性を提案する。
この調査の目的は、学術的なギャップを埋め、グローバルなAIセキュリティ努力に貢献することであり、デジタル領域における情報の整合性の確保を支援することです。
プロジェクトリンクはhttps://github.com/Purdue-M2/Detect-LAIM- generated-Multimedia-Survey。 The rapid advancement of Large AI Models (LAIMs), particularly diffusion models and large language models, has marked a new era where AI-generated multimedia is increasingly integrated into various aspects of daily life. Although beneficial in numerous fields, this content presents significant risks, including potential misuse, societal disruptions, and ethical concerns. Consequently, detecting multimedia generated by LAIMs has become crucial, with a marked rise in related research. Despite this, there remains a notable gap in systematic surveys that focus specifically on detecting LAIM-generated multimedia. Addressing this, we provide the first survey to comprehensively cover existing research on detecting multimedia (such as text, images, videos, audio, and multimodal content) created by LAIMs. Specifically, we introduce a novel taxonomy for detection methods, categorized by media modality, and aligned with two perspectives: pure detection (aiming to enhance detection performance) and beyond detection (adding attributes like generalizability, robustness, and interpretability to detectors). Additionally, we have presented a brief overview of generation mechanisms, public datasets, and online detection tools to provide a valuable resource for researchers and practitioners in this field. Furthermore, we identify current challenges in detection and propose directions for future research that address unexplored, ongoing, and emerging issues in detecting multimedia generated by LAIMs. Our aim for this survey is to fill an academic gap and contribute to global AI security efforts, helping to ensure the integrity of information in the digital realm. The project link is https://github.com/Purdue-M2/Detect-LAIM-generated-Multimedia-Survey. | 翻訳日:2024-02-05 18:29:36 公開日:2024-02-02 |
# 擬エルミート・ランダウ・ツェナー・シュタッケルベルク・マヨラナ効果の量子シミュレーション Quantum simulation of the pseudo-Hermitian Landau-Zener-St\"uckelberg-Majorana effect ( http://arxiv.org/abs/2401.17438v2 ) ライセンス: Link先を確認 | Feliks Kivel\"a, Shruti Dogra, Gheorghe Sorin Paraoanu | (参考訳) 標準量子力学で使われるハミルトニアンはエルミート型であるが、非ヘルミート型ハミルトニアンに理論を拡張することもできる。
特に興味深いのは、非エルミートハミルトニアンがパリティ時間(PT)対称性を満たすこと、あるいはより一般に擬ハーモニティ性である。
本研究では,Landau-Zener-St\"uckelberg-Majorana (LZSM) モデルの擬エルミート拡張に使用される時間依存非エルミート対称ハミルトンの量子シミュレーションを提案する。
このシミュレーションは、ナイマーク拡張を用いて、非エルミートハミルトニアンを1キュービットとアンシラに対してエルミートハミルトニアンに変換し、アンシラ状態におけるポストセレクションにより、元の非エルミートハミルトニアンに対応する非ユニタリ時間発展を保証している。
擬エルミート型LZSMシステムの理論的処理に基づいて,時間的遷移速度の依存性や,他の動的不変量による全確率の保存の置き換えなどの特性を予測した。 While the Hamiltonians used in standard quantum mechanics are Hermitian, it is also possible to extend the theory to non-Hermitian Hamiltonians. Particularly interesting are non-Hermitian Hamiltonians satisfying parity-time (PT) symmetry, or more generally pseudo-Hermiticity, since such non-Hermitian Hamiltonians can still exhibit real eigenvalues. In this work, we present a quantum simulation of the time-dependent non-Hermitian non-PT-symmetric Hamiltonian used in a pseudo-Hermitian extension of the Landau-Zener-St\"uckelberg-Majorana (LZSM) model. The simulation is implemented on a superconducting processor by using Naimark dilation to transform a non-Hermitian Hamiltonian for one qubit into a Hermitian Hamiltonian for a qubit and an ancilla; postselection on the ancilla state ensures that the qubit undergoes nonunitary time-evolution corresponding to the original non-Hermitian Hamiltonian. We observe properties such as the dependence of transition rates on time and the replacement of conservation of total probability by other dynamical invariants in agreement with predictions based on a theoretical treatment of the pseudo-Hermitian LZSM system. | 翻訳日:2024-02-05 18:28:44 公開日:2024-02-02 |
# YOLO-World: リアルタイムオープン語彙オブジェクト検出 YOLO-World: Real-Time Open-Vocabulary Object Detection ( http://arxiv.org/abs/2401.17270v2 ) ライセンス: Link先を確認 | Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan | (参考訳) You Only Look Once (YOLO)シリーズは、効率的で実用的なツールとして確立されている。
しかしながら、事前定義された、および訓練されたオブジェクトカテゴリへの依存は、オープンシナリオにおける適用性を制限している。
この制限に対処するため、大規模なデータセット上での視覚言語モデリングと事前学習を通じて、オープン語彙検出機能によりYOLOを強化する革新的なアプローチであるYOLO-Worldを導入する。
具体的には、視覚情報と言語情報の相互作用を容易にするために、新たにRe-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) とリージョンテキストコントラスト損失を提案する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
挑戦的なLVISデータセットでは、YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
さらに、細調整されたYOLO-Worldは、オブジェクト検出やオープン語彙のインスタンスセグメンテーションなど、いくつかの下流タスクで顕著なパフォーマンスを実現している。 The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation. | 翻訳日:2024-02-05 18:27:59 公開日:2024-02-02 |
# 大規模フェーディング, チャネル統計, ノイズばらつき, 活動確率が未知のセルフリーネットワークにおける大規模接続性の検出:ベイズ的アプローチ Activity Detection for Massive Connectivity in Cell-free Networks with Unknown Large-scale Fading, Channel Statistics, Noise Variance, and Activity Probability: A Bayesian Approach ( http://arxiv.org/abs/2401.16775v2 ) ライセンス: Link先を確認 | Hao Zhang, Qingfeng Lin, Yang Li, Lei Cheng, Yik-Chung Wu | (参考訳) アクティビティ検出は、次世代のグラントフリーマルチアクセスにおいて重要なタスクである。
この目的のために設計された既存のアルゴリズムは数多く存在するが、それらは主に大規模フェージング係数、小規模フェディングチャネル統計、アクセスポイントにおけるノイズ分散、ユーザアクティビティ確率といったネットワークに関する正確な情報を必要とする。
これらの情報を取得するにはかなりのオーバーヘッドがかかり、その推定値は正確ではないかもしれない。
この問題は、セルフリーネットワークでは、取得すべきパラメータが多数存在するため、さらに深刻である。
そこで本稿では,上記の情報を用いずに活動検出問題を検討する。
多くの未知パラメータを扱うために、この論文はベイズ的手法を用いており、未知変数には正規化として効果的に作用する事前分布が与えられる。
確率関数とともに、最大後部推定器(MAP)と変分推論アルゴリズムを導出する。
広範なシミュレーションにより,提案手法は,システムパラメータの知識がなくても,共分散法や近似メッセージパッシング法といった既存の最先端手法よりも優れた性能を示す。 Activity detection is an important task in the next generation grant-free multiple access. While there are a number of existing algorithms designed for this purpose, they mostly require precise information about the network, such as large-scale fading coefficients, small-scale fading channel statistics, noise variance at the access points, and user activity probability. Acquiring these information would take a significant overhead and their estimated values might not be accurate. This problem is even more severe in cell-free networks as there are many of these parameters to be acquired. Therefore, this paper sets out to investigate the activity detection problem without the above-mentioned information. In order to handle so many unknown parameters, this paper employs the Bayesian approach, where the unknown variables are endowed with prior distributions which effectively act as regularizations. Together with the likelihood function, a maximum a posteriori (MAP) estimator and a variational inference algorithm are derived. Extensive simulations demonstrate that the proposed methods, even without the knowledge of these system parameters, perform better than existing state-of-the-art methods, such as covariance-based and approximate message passing methods. | 翻訳日:2024-02-05 18:27:38 公開日:2024-02-02 |
# ヘイトスピーチモデレーションの最近の進歩:マルチモーダリティと大規模モデルの役割 Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models ( http://arxiv.org/abs/2401.16727v2 ) ライセンス: Link先を確認 | Ming Shan Hee, Shivam Sharma, Rui Cao, Palash Nandi, Tanmoy Chakraborty, Roy Ka-Wei Lee | (参考訳) オンラインコミュニケーションの進化する状況において、モデレーションヘイトスピーチ(HS)は、デジタルコンテンツのマルチモーダルな性質によって、複雑な課題を提示する。
この包括的調査は、HSモデレーションの最近の進歩を掘り下げ、大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を浮き彫りにした。
我々の調査は、現在の文献の徹底的な分析から始まり、HSの伝播におけるテキスト、視覚、聴覚要素間の微妙な相互作用を明らかにする。
HSが普及する複雑さと微妙さから,これらのモダリティの統合に向けた顕著な傾向が明らかとなった。
LLMとLMMは、検出とモデレーションの限界を再定義し始めている。
既存の研究のギャップ、特に低表現言語や文化の文脈、低リソース設定を扱うためのソリューションの必要性を特定します。
この調査は、新しいAI方法論の探索、モデレーションにおけるAIの倫理的ガバナンス、よりニュアンスでコンテキスト対応のシステムの開発など、将来の研究への潜在的な道筋を概観して、先見的な視点で締めくくっている。
この包括的概要は、デジタル時代のHSモデレーションに対するより洗練され、責任があり、人間中心のアプローチに向けた協力的な取り組みを促進することを目的としている。
警告: 本論文は攻撃的な例を含む。 In the evolving landscape of online communication, moderating hate speech (HS) presents an intricate challenge, compounded by the multimodal nature of digital content. This comprehensive survey delves into the recent strides in HS moderation, spotlighting the burgeoning role of large language models (LLMs) and large multimodal models (LMMs). Our exploration begins with a thorough analysis of current literature, revealing the nuanced interplay between textual, visual, and auditory elements in propagating HS. We uncover a notable trend towards integrating these modalities, primarily due to the complexity and subtlety with which HS is disseminated. A significant emphasis is placed on the advances facilitated by LLMs and LMMs, which have begun to redefine the boundaries of detection and moderation capabilities. We identify existing gaps in research, particularly in the context of underrepresented languages and cultures, and the need for solutions to handle low-resource settings. The survey concludes with a forward-looking perspective, outlining potential avenues for future research, including the exploration of novel AI methodologies, the ethical governance of AI in moderation, and the development of more nuanced, context-aware systems. This comprehensive overview aims to catalyze further research and foster a collaborative effort towards more sophisticated, responsible, and human-centric approaches to HS moderation in the digital era. WARNING: This paper contains offensive examples. | 翻訳日:2024-02-05 18:27:15 公開日:2024-02-02 |
# 人間とチャットGPT生成会話の言語学的比較 A Linguistic Comparison between Human and ChatGPT-Generated Conversations ( http://arxiv.org/abs/2401.16587v2 ) ライセンス: Link先を確認 | Morgan Sandler, Hyesun Choung, Arun Ross, Prabu David | (参考訳) 本研究は,chatgpt-3.5が生成する19.5k対話をempathicdialoguesデータセットのコンパニオンとして用いた,人間とllm生成対話の言語的差異を検討する。
この研究は言語問合せと単語数(LIWC)分析を採用し、118の言語カテゴリーでChatGPTが生成した会話と人間の会話を比較した。
しかしchatgptは社会的プロセス、分析スタイル、認知、注意的焦点、ポジティブな感情的トーンといったカテゴリーに優れており、最近のllmは「人間よりも人間である」という発見を補強している。
しかし,ChatGPTとヒトの対話には有意な差は認められなかった。
ダイアログ埋め込みの分類器解析は、会話における影響の明示的な言及にもかかわらず、感情の価の暗黙的な符号化を示す。
この研究はまた、2つの独立したチャットボット間の会話の、新しい、コンパニオンチャットgptが生成したデータセットにも貢献している。
以上の結果から,ChatGPTの言語能力の理解を深め,AI生成偽造や誤情報,偽情報の検出に重要な人間とLLM生成テキストを区別するための継続的な取り組みを報告した。 This study explores linguistic differences between human and LLM-generated dialogues, using 19.5K dialogues generated by ChatGPT-3.5 as a companion to the EmpathicDialogues dataset. The research employs Linguistic Inquiry and Word Count (LIWC) analysis, comparing ChatGPT-generated conversations with human conversations across 118 linguistic categories. Results show greater variability and authenticity in human dialogues, but ChatGPT excels in categories such as social processes, analytical style, cognition, attentional focus, and positive emotional tone, reinforcing recent findings of LLMs being "more human than human." However, no significant difference was found in positive or negative affect between ChatGPT and human dialogues. Classifier analysis of dialogue embeddings indicates implicit coding of the valence of affect despite no explicit mention of affect in the conversations. The research also contributes a novel, companion ChatGPT-generated dataset of conversations between two independent chatbots, which were designed to replicate a corpus of human conversations available for open access and used widely in AI research on language modeling. Our findings increase understanding of ChatGPT's linguistic capabilities and inform ongoing efforts to distinguish between human and LLM-generated text, which is critical in detecting AI-generated fakes, misinformation, and disinformation. | 翻訳日:2024-02-05 18:26:49 公開日:2024-02-02 |
# 放射線科専門医の専門知識を活かしてLLMの評価を高める Leveraging Professional Radiologists' Expertise to Enhance LLMs' Evaluation for Radiology Reports ( http://arxiv.org/abs/2401.16578v2 ) ライセンス: Link先を確認 | Qingqing Zhu, Xiuying Chen, Qiao Jin, Benjamin Hou, Tejas Sudharshan Mathai, Pritam Mukherjee, Xin Gao, Ronald M Summers, Zhiyong Lu | (参考訳) 放射線学では、人工知能(AI)はレポート生成を大幅に進歩させたが、これらのAIによって生成されたレポートの自動評価は依然として困難である。
従来の自然言語生成(NLG)や臨床効力感(CE)といった現在の指標は、臨床コンテキストの意味的な複雑さを捉えたり、臨床の詳細を過度に強調したり、報告の明確さを損なうことがしばしばある。
これらの問題を解決するため,提案手法は,GPT-3.5 や GPT-4 1 のような大規模言語モデル (LLM) の専門医の専門知識を相乗化したものである。
In-Context Instruction Learning (ICIL) とChain of Thought (CoT) の推論を活用することで,LLMの評価を放射線学の標準と整合させ,人間とAIが生成したレポートの詳細な比較を可能にする。
これは、文評価スコアを集約する回帰モデルによってさらに強化される。
実験結果から、我々の「詳細 GPT-4 (5-shot) モデル」は、METEOR を 0.19 で上回り、METEOR を 0.48 で上回り、我々の「回帰 GPT-4 モデル」は専門家による評価とさらに整合性を示し、既存の指標を 0.35 で上回る結果となった。
さらに, 説明の堅牢性は, 徹底的な反復戦略によって検証されている。
我々は,放射線学の専門家からアノテーションを公開し,今後の評価における精度の基準を策定する。
このことは、AI駆動型医療報告の品質評価を強化するアプローチの可能性を示している。 In radiology, Artificial Intelligence (AI) has significantly advanced report generation, but automatic evaluation of these AI-produced reports remains challenging. Current metrics, such as Conventional Natural Language Generation (NLG) and Clinical Efficacy (CE), often fall short in capturing the semantic intricacies of clinical contexts or overemphasize clinical details, undermining report clarity. To overcome these issues, our proposed method synergizes the expertise of professional radiologists with Large Language Models (LLMs), like GPT-3.5 and GPT-4 1. Utilizing In-Context Instruction Learning (ICIL) and Chain of Thought (CoT) reasoning, our approach aligns LLM evaluations with radiologist standards, enabling detailed comparisons between human and AI generated reports. This is further enhanced by a Regression model that aggregates sentence evaluation scores. Experimental results show that our "Detailed GPT-4 (5-shot)" model achieves a 0.48 score, outperforming the METEOR metric by 0.19, while our "Regressed GPT-4" model shows even greater alignment with expert evaluations, exceeding the best existing metric by a 0.35 margin. Moreover, the robustness of our explanations has been validated through a thorough iterative strategy. We plan to publicly release annotations from radiology experts, setting a new standard for accuracy in future assessments. This underscores the potential of our approach in enhancing the quality assessment of AI-driven medical reports. | 翻訳日:2024-02-05 18:26:25 公開日:2024-02-02 |
# 信頼できる分散aiシステム:堅牢性、プライバシ、ガバナンス Trustworthy Distributed AI Systems: Robustness, Privacy, and Governance ( http://arxiv.org/abs/2402.01096v1 ) ライセンス: Link先を確認 | Wenqi Wei and Ling Liu | (参考訳) 新興の分散aiシステムは、経済と社会への影響を増大させ、ビッグデータコンピューティングとデータ処理能力に革命をもたらしている。
しかし、最近の研究では、AIシステムのセキュリティ、プライバシー、公平性の問題に起因する新たな攻撃面とリスクが特定されている。
本稿では,分散学習における堅牢性保証,プライバシ保護,公正性認識を通じて,信頼性の高い分散AIのための代表的技術,アルゴリズム,理論的基礎についてレビューする。
まず、分散学習のための代替アーキテクチャの概要を説明し、分散学習におけるAIアルゴリズムのセキュリティ、プライバシ、公正性の固有の脆弱性について議論し、特定のアーキテクチャに関係なく、これらの問題が分散学習に存在する理由を分析する。
次に,信頼性の高い分散ai対策のユニークな分類法を提案する。(1)回避攻撃に対する堅牢性,推論時の不規則なクエリ,および毒殺攻撃,ビザンチン攻撃,トレーニング中の不規則なデータ分散に対する堅牢性,(2)分散学習とデプロイメントにおけるモデル推論におけるプライバシ保護,(3)データとモデルに関するaiフェアネスとガバナンス。
我々は、信頼できるAIポリシーガイドライン、AI責任ユーティリティの共同設計、インセンティブとコンプライアンスの必要性など、オープンな課題と、信頼できる分散AIに向けた将来の研究方向性に関する議論で締めくくります。 Emerging Distributed AI systems are revolutionizing big data computing and data processing capabilities with growing economic and societal impact. However, recent studies have identified new attack surfaces and risks caused by security, privacy, and fairness issues in AI systems. In this paper, we review representative techniques, algorithms, and theoretical foundations for trustworthy distributed AI through robustness guarantee, privacy protection, and fairness awareness in distributed learning. We first provide a brief overview of alternative architectures for distributed learning, discuss inherent vulnerabilities for security, privacy, and fairness of AI algorithms in distributed learning, and analyze why these problems are present in distributed learning regardless of specific architectures. Then we provide a unique taxonomy of countermeasures for trustworthy distributed AI, covering (1) robustness to evasion attacks and irregular queries at inference, and robustness to poisoning attacks, Byzantine attacks, and irregular data distribution during training; (2) privacy protection during distributed learning and model inference at deployment; and (3) AI fairness and governance with respect to both data and models. We conclude with a discussion on open challenges and future research directions toward trustworthy distributed AI, such as the need for trustworthy AI policy guidelines, the AI responsibility-utility co-design, and incentives and compliance. | 翻訳日:2024-02-05 17:30:40 公開日:2024-02-02 |
# Chameleon: フェアネスを意識したマルチモーダルデータ拡張のための基盤モデル Chameleon: Foundation Models for Fairness-aware Multi-modal Data Augmentation to Enhance Coverage of Minorities ( http://arxiv.org/abs/2402.01071v1 ) ライセンス: Link先を確認 | Mahdi Erfanian and H. V. Jagadish and Abolfazl Asudeh | (参考訳) 訓練データ、特にマルチモーダル設定におけるマイノリティの不足による潜在的な害は、よく認識されている懸念である。
このような過度な表現の検出には多大な努力が払われてきたが、解決は依然として課題である。
ジェネレーティブAIの最近の進歩により、様々な領域にまたがる汎用ツールとして、大きな言語モデルと基礎モデルが出現した。
本稿では,これらのツールを用いて,合成生成タプルの最小付加によるデータセットの拡張を行い,非表現群のカバレッジを向上させるシステムchameleonを提案する。
提案システムは,生成したタプルが高品質で,基礎となる分布に従うことを保証するために,拒絶サンプリング手法に従う。
生成したタプルの拒絶確率を最小限に抑えるため,基礎モデルのガイドを提供するための複数の戦略を提案する。
実験の結果,提案アルゴリズムの有効性の確認に加えて,ダウンストリームタスクにおけるモデルの不公平性がchameleonを用いたデータ修復の後に著しく低下するため,提案手法の有効性を示す。 The potential harms of the under-representation of minorities in training data, particularly in multi-modal settings, is a well-recognized concern. While there has been extensive effort in detecting such under-representation, resolution has remained a challenge. With recent advancements in generative AI, large language models and foundation models have emerged as versatile tools across various domains. In this paper, we propose Chameleon, a system that efficiently utilizes these tools to augment a data set with a minimal addition of synthetically generated tuples, in order to enhance the coverage of the under-represented groups. Our system follows a rejection sampling approach to ensure the generated tuples have a high quality and follow the underlying distribution. In order to minimize the rejection chance of the generated tuples, we propose multiple strategies for providing a guide for the foundation model. Our experiment results, in addition to confirming the efficiency of our proposed algorithms, illustrate the effectiveness of our approach, as the unfairness of the model in a downstream task significantly dropped after data repair using Chameleon. | 翻訳日:2024-02-05 17:30:15 公開日:2024-02-02 |
# FedShift: 重み付け集約によるフェデレーション学習の二重不均一性問題に対処する FedShift: Tackling Dual Heterogeneity Problem of Federated Learning via Weight Shift Aggregation ( http://arxiv.org/abs/2402.01070v1 ) ライセンス: Link先を確認 | Jungwon Seo, Chunming Rong, Minhoe Kim | (参考訳) Federated Learning (FL)は、データプライバシの保護に重点を置いた機械学習モデルをトレーニングするための魅力的な方法を提供する。
FLにおいて認識された課題であるシステム不均一性と統計的不均一性の存在は、クライアントハードウェア、ネットワーク、データセット分布の多様性から生じる。
この多様性は、モデルのトレーニングペースとパフォーマンスに重大な影響を与えます。
多くの研究は、通信効率または安定収束アルゴリズムを導入することによって、システムまたは統計的不均一性に対処するが、これらの課題を分離することで、不規則な不均一性による妥協につながることが多い。
そこで本研究では,2つの異種性シナリオにおけるトレーニング速度とモデルの精度を両立させる新しいアルゴリズムであるFedShiftを紹介する。
このソリューションは、量子化によってクライアントのエンゲージメントを向上させることができ、シフト技術を用いることで、量子化に伴うパフォーマンスの悪影響を軽減できる。
この手法は様々な異種環境において平均3.9%の精度で精度を高めることが証明されている。 Federated Learning (FL) offers a compelling method for training machine learning models with a focus on preserving data privacy. The presence of system heterogeneity and statistical heterogeneity, recognized challenges in FL, arises from the diversity of client hardware, network, and dataset distribution. This diversity can critically affect the training pace and the performance of models. While many studies address either system or statistical heterogeneity by introducing communication-efficient or stable convergence algorithms, addressing these challenges in isolation often leads to compromises due to unaddressed heterogeneity. In response, this paper introduces FedShift, a novel algorithm designed to enhance both the training speed and the models' accuracy in a dual heterogeneity scenario. Our solution can improve client engagement through quantization and mitigate the adverse effects on performance typically associated with quantization by employing a shifting technique. This technique has proven to enhance accuracy by an average of 3.9% in diverse heterogeneity environments. | 翻訳日:2024-02-05 17:29:55 公開日:2024-02-02 |
# 双対性に基づくインタラクション予測によるスケーラブルなマルチモーダルモデル予測制御 Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions ( http://arxiv.org/abs/2402.01116v1 ) ライセンス: Link先を確認 | Hansung Kim, Siddharth H. Nair, Francesco Borrelli | (参考訳) 複雑なマルチモーダルトラフィックシナリオにおいて,スケーラブルなリアルタイムモデル予測制御(MPC)を実現する階層型アーキテクチャを提案する。
このアーキテクチャは2つの重要なコンポーネントから構成される。
1) RAID-Net - ラグランジアン双対性を用いた自律走行車と周辺車両間のMPC予測地平線に沿った関連する相互作用を予測する新しい注意型リカレントニューラルネットワーク
2) 衝突回避制約を排除し, 計算効率を向上する確率的MPC問題を削減する。
本手法は,移動計画問題の解法において,12倍のスピードアップを示す,対話型周囲車両との交通交差点のシミュレーションで実証された。
複数の複雑なトラフィックシナリオで提案されたアーキテクチャを示すビデオは、以下のとおりである。 We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-TcMeolCLWc | 翻訳日:2024-02-05 17:18:33 公開日:2024-02-02 |
# 非エルゴード量子状態の絡み合いエントロピーの分布 Distribution of the entanglement entropy of a non-ergodic quantum state ( http://arxiv.org/abs/2402.01102v1 ) ライセンス: Link先を確認 | Devanshu Shekhar and Pragya Shukla | (参考訳) 理論上、二成分積基底で表される純粋な非エルゴード多体状態の絡み合い測度の確率密度を、単位トレースを持つ一般化されたマルチパラメトリックウィッシュアートアンサンブルによって記述された密度行列で導出する。
以上の結果から,平均行動(特に分離可能性や最大絡み合い限界から離れた状態)に関する尺度の変動が示唆された。
この情報は、絡み合った状態の階層的配置(例えば、平均的な振る舞いに基づく特性の欠陥を明らかにする)だけでなく、多くの身体系の相転移研究にも関係している。 We theoretically derive the probability densities of the entanglement measures of a pure non-ergodic many-body state, represented in a bipartite product basis and with its reduced density matrix described by a generalized, multi-parametric Wishart ensemble with unit trace. Our results indicate significant fluctuations of the measures around their average behavior (specifically for the states away from separability and maximum entanglement limits). The information is relevant not only for hierarchical arrangement of entangled states (e.g., revealing the flaws in their characterization based on average behavior) but also for phase transition studies of many body systems. | 翻訳日:2024-02-05 17:18:19 公開日:2024-02-02 |
# 定常変分勾配Descenceを用いたベイズ深層学習による有用寿命推定 Bayesian Deep Learning for Remaining Useful Life Estimation via Stein Variational Gradient Descent ( http://arxiv.org/abs/2402.01098v1 ) ライセンス: Link先を確認 | Luca Della Libera, Jacopo Andreoli, Davide Dalle Pezze, Mirco Ravanelli, Gian Antonio Susto | (参考訳) 予測メンテナンスにおける重要なタスクは、物理システムの残りの有用な寿命を推定することである。
過去10年間で、ディープラーニングは予測性能の点で従来のモデルベースおよび統計的アプローチで大幅に改善された。
しかし,保守作業の最適計画には,予測に固有の不確実性を定量化することも重要である。
この問題は、標準の常習的ニューラルネットワークをベイズ型ニューラルネットワークに転換することで解決することができる。
これらのモデルのトレーニングにはいくつかの方法が存在する。
研究者は主にパラメトリックな変分推論とサンプリングに基づく手法に焦点を合わせており、それぞれが限定的な近似力と大きな計算負荷に悩まされている。
本研究では,先述の手法の欠点を克服する難解な分布を近似するアルゴリズムであるstein variational gradient descentを用いた。
特に,スタイン変分勾配で学習したベイジアン深層学習モデルが収束速度と予測性能に関して一貫して優れており,パラメトリック変分推論で訓練されたモデルとバックプロパゲーションで訓練された頻繁なモデルの両方がシミュレーションされたターボファンエンジン劣化データについて実験的に検討した。
さらに,ベイズモデルが提供する不確実性情報に基づいて,性能を向上させる手法を提案する。
ソースコードはhttps://github.com/lucadellalib/bdl-rul-svgdで公開しています。 A crucial task in predictive maintenance is estimating the remaining useful life of physical systems. In the last decade, deep learning has improved considerably upon traditional model-based and statistical approaches in terms of predictive performance. However, in order to optimally plan maintenance operations, it is also important to quantify the uncertainty inherent to the predictions. This issue can be addressed by turning standard frequentist neural networks into Bayesian neural networks, which are naturally capable of providing confidence intervals around the estimates. Several methods exist for training those models. Researchers have focused mostly on parametric variational inference and sampling-based techniques, which notoriously suffer from limited approximation power and large computational burden, respectively. In this work, we use Stein variational gradient descent, a recently proposed algorithm for approximating intractable distributions that overcomes the drawbacks of the aforementioned techniques. In particular, we show through experimental studies on simulated run-to-failure turbofan engine degradation data that Bayesian deep learning models trained via Stein variational gradient descent consistently outperform with respect to convergence speed and predictive performance both the same models trained via parametric variational inference and their frequentist counterparts trained via backpropagation. Furthermore, we propose a method to enhance performance based on the uncertainty information provided by the Bayesian models. We release the source code at https://github.com/lucadellalib/bdl-rul-svgd. | 翻訳日:2024-02-05 17:18:07 公開日:2024-02-02 |
# 交渉しよう!
交渉対話システムに関する調査研究 Let's Negotiate! A Survey of Negotiation Dialogue Systems ( http://arxiv.org/abs/2402.01097v1 ) ライセンス: Link先を確認 | Haolan Zhan, Yufei Wang, Tao Feng, Yuncheng Hua, Suraj Sharma, Zhuang Li, Lizhen Qu, Zhaleh Semnani Azad, Ingrid Zukerman, Gholamreza Haffari | (参考訳) 交渉は人間のコミュニケーションにおいて重要な能力である。
近年,紛争解決や合意達成を支援する知的エージェントの創出を目標とする交渉対話システムに対する研究が活発化している。
交渉対話システムの研究は数多く行われているが、この課題の体系的な見直しは行われていない。
このギャップを埋めるために,交渉対話システムの分野における最近の研究や,文献内のベンチマーク,評価,方法論を取り上げている。
また,マルチモーダル,マルチパーティ,異文化間の交渉シナリオを含む今後の方向性についても論じる。
我々の目標は,交渉対話システムの体系的な概要をコミュニティに提供し,今後の研究を刺激することである。 Negotiation is a crucial ability in human communication. Recently, there has been a resurgent research interest in negotiation dialogue systems, whose goal is to create intelligent agents that can assist people in resolving conflicts or reaching agreements. Although there have been many explorations into negotiation dialogue systems, a systematic review of this task has not been performed to date. We aim to fill this gap by investigating recent studies in the field of negotiation dialogue systems, and covering benchmarks, evaluations and methodologies within the literature. We also discuss potential future directions, including multi-modal, multi-party and cross-cultural negotiation scenarios. Our goal is to provide the community with a systematic overview of negotiation dialogue systems and to inspire future research. | 翻訳日:2024-02-05 17:17:42 公開日:2024-02-02 |
# ディープニューラルネットワークが予測に使用するビューはいくつですか? How many views does your deep neural network use for prediction? ( http://arxiv.org/abs/2402.01095v1 ) ライセンス: Link先を確認 | Keisuke Kawano and Takuro Kutsuna and Keisuke Sano | (参考訳) ディープニューラルネットワーク(dnn)の一般化能力は、多くの理論と経験的分析にもかかわらず、まだ完全には理解されていない。
近年、Allen-Zhu & Li (2023) はDNNの一般化能力を説明するためにマルチビューの概念を導入したが、主なターゲットはアンサンブルまたは蒸留モデルであり、特定の入力の予測に使用されるマルチビューを推定する方法は議論されていない。
本稿では,マルチビューに類似するが,実画像に対して効率的に計算できるMSV(Minimal Sufficient Views)を提案する。
MSVは入力の最小限の特徴の集合であり、それぞれが入力に対するモデルの予測を保存する。
コンボリューションモデルやトランスフォーマモデルなど,モデル間のmvs数と予測精度の間には明確な関係があることを実証的に示し,多視点的視点が(非蒸留または非蒸留)dnnの一般化能力を理解する上で重要であることを示唆する。 The generalization ability of Deep Neural Networks (DNNs) is still not fully understood, despite numerous theoretical and empirical analyses. Recently, Allen-Zhu & Li (2023) introduced the concept of multi-views to explain the generalization ability of DNNs, but their main target is ensemble or distilled models, and no method for estimating multi-views used in a prediction of a specific input is discussed. In this paper, we propose Minimal Sufficient Views (MSVs), which is similar to multi-views but can be efficiently computed for real images. MSVs is a set of minimal and distinct features in an input, each of which preserves a model's prediction for the input. We empirically show that there is a clear relationship between the number of MSVs and prediction accuracy across models, including convolutional and transformer models, suggesting that a multi-view like perspective is also important for understanding the generalization ability of (non-ensemble or non-distilled) DNNs. | 翻訳日:2024-02-05 17:17:32 公開日:2024-02-02 |
# 限定領域データからのチープ推論を持つ特殊言語モデル Specialized Language Models with Cheap Inference from Limited Domain Data ( http://arxiv.org/abs/2402.01093v1 ) ライセンス: Link先を確認 | David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun | (参考訳) 大規模言語モデルは汎用ツールとして登場したが、大きな推論予算と大きなドメイン内トレーニングセットを持たないタスクに適用することは困難である。
この研究はこれらの制約を定式化し、4つの重要な変数を区別する:事前訓練予算(対象ドメインが知られる前のトレーニング)、特殊化予算(対象ドメインが知られる前のトレーニング)、推論予算、ドメイン内のトレーニングセットサイズ。
これらの設定で、機械学習の文献と異なるアプローチを比較します。
推論コストの制限により、非常に大きなバニラ変圧器モデルを訓練する標準的な方法よりも優れた選択肢が見つかる。
特に、ハイパーネットワークと専門家の混合は、大きな事前訓練予算においてより複雑であり、サンプルデータセットの重要性に基づいて訓練された小さなモデルは、大規模な特殊化予算にとって魅力的であることを示している。 Large language models have emerged as a versatile tool but are challenging to apply to tasks lacking large inference budgets and large in-domain training sets. This work formalizes these constraints and distinguishes four important variables: the pretraining budget (for training before the target domain is known), the specialization budget (for training after the target domain is known), the inference budget, and the in-domain training set size. Across these settings, we compare different approaches from the machine learning literature. Limited by inference cost, we find better alternatives to the standard practice of training very large vanilla transformer models. In particular, we show that hyper-networks and mixture of experts have better perplexity for large pretraining budgets, while small models trained on importance sampled datasets are attractive for large specialization budgets. | 翻訳日:2024-02-05 17:17:11 公開日:2024-02-02 |
# ニューラルスケーリング法則の動的モデル A Dynamical Model of Neural Scaling Laws ( http://arxiv.org/abs/2402.01092v1 ) ライセンス: Link先を確認 | Blake Bordelon, Alexander Atanasov, Cengiz Pehlevan | (参考訳) さまざまなタスクにおいて、ニューラルネットワークのパフォーマンスは、トレーニング時間、データセットサイズ、モデルサイズをさまざまな桁にわたって予測的に改善する。
この現象は神経スケーリング法則として知られている。
基本的重要性は計算最適スケーリング法であり、モデルサイズを最適に選択する際に計算単位の関数として性能を報告する。
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダム特徴モデルを分析する。
これは、ニューラルスケーリング法則に関する多くの観察を再現する。
まず,本モデルでは,トレーニング時間とモデルサイズの違いによるパフォーマンスのスケーリングが,異なる法則指数を持つ理由を予測した。
その結果、この理論は、最近の経験的観測と一致して、トレーニングステップの数がモデルパラメータよりも速く増加する非対称な計算-最適スケーリングルールを予測する。
第2に、トレーニングの早い段階で、ネットワークは無限幅のダイナミクスに収束し、1/\textit{width}$となるが、後期には$\textit{width}^{-c}$というレートが示され、ここでは$c$はアーキテクチャとタスクの構造に依存する。
私たちはこの行動を示すモデルを示します。
最後に、我々の理論は、データの繰り返し再利用によって、トレーニングとテストの損失のギャップが徐々に増大することを示している。 On a variety of tasks, the performance of neural networks predictably improves with training time, dataset size and model size across many orders of magnitude. This phenomenon is known as a neural scaling law. Of fundamental importance is the compute-optimal scaling law, which reports the performance as a function of units of compute when choosing model sizes optimally. We analyze a random feature model trained with gradient descent as a solvable model of network training and generalization. This reproduces many observations about neural scaling laws. First, our model makes a prediction about why the scaling of performance with training time and with model size have different power law exponents. Consequently, the theory predicts an asymmetric compute-optimal scaling rule where the number of training steps are increased faster than model parameters, consistent with recent empirical observations. Second, it has been observed that early in training, networks converge to their infinite-width dynamics at a rate $1/\textit{width}$ but at late time exhibit a rate $\textit{width}^{-c}$, where $c$ depends on the structure of the architecture and task. We show that our model exhibits this behavior. Lastly, our theory shows how the gap between training and test loss can gradually build up over time due to repeated reuse of data. | 翻訳日:2024-02-05 17:16:55 公開日:2024-02-02 |
# つぶやきの読み方:連結混合イデオロギーコミュニティのイデオロギースタンスを解読する Reading Between the Tweets: Deciphering Ideological Stances of Interconnected Mixed-Ideology Communities ( http://arxiv.org/abs/2402.01091v1 ) ライセンス: Link先を確認 | Zihao He, Ashwin Rao, Siyi Guo, Negar Mokhberian, Kristina Lerman | (参考訳) NLPの最近の進歩により、オンラインコミュニティの微妙な世界観を理解する能力が向上した。
既存の研究は、リベラル派と保守派を別個のグループとして扱うイデオロギー的立場の探究に焦点を当てている。
しかし、これは有機的に形成されたオンラインコミュニティの微妙な見方とそれらの間のつながりを説明できない。
本稿では,2020年アメリカ合衆国大統領選挙のTwitter上での議論から,複雑な交流コミュニティを特定する。
この相互接続性に乗じて,これらのコミュニティのニュアンス的イデオロギーを調査するために,言語モデル(lms)の微調整時のメッセージパッシングを利用する新しい手法を提案する。
実世界調査結果とLMの応答を比較した結果,既存のベースラインよりも高いアライメントを示し,複合イデオロギーコミュニティ内の複雑なイデオロギーを明らかにする上でのLMの利用の可能性を強調した。 Recent advances in NLP have improved our ability to understand the nuanced worldviews of online communities. Existing research focused on probing ideological stances treats liberals and conservatives as separate groups. However, this fails to account for the nuanced views of the organically formed online communities and the connections between them. In this paper, we study discussions of the 2020 U.S. election on Twitter to identify complex interacting communities. Capitalizing on this interconnectedness, we introduce a novel approach that harnesses message passing when finetuning language models (LMs) to probe the nuanced ideologies of these communities. By comparing the responses generated by LMs and real-world survey results, our method shows higher alignment than existing baselines, highlighting the potential of using LMs in revealing complex ideologies within and across interconnected mixed-ideology communities. | 翻訳日:2024-02-05 17:16:34 公開日:2024-02-02 |
# スケーラブルな高次テンソル製品スプラインモデル Scalable Higher-Order Tensor Product Spline Models ( http://arxiv.org/abs/2402.01090v1 ) ライセンス: Link先を確認 | David R\"ugamer | (参考訳) 膨大なデータと透過的な機械学習の時代には、その手法の内部動作を数学的に理解しつつ、大規模に運用する技術が不可欠である。
データの非線形性を考慮した大規模アプリケーションには、既に解釈可能な半パラメトリック回帰法が存在するが、モデルの複雑さは依然として限られている。
主な課題の1つは、これらのモデルに相互作用がないことである。
この限界を克服するために,高度にスケーラブルな高次テンソル積スプラインモデルを導出する因子化手法を用いた新しい手法を提案する。
本手法では,非線形特徴効果のすべての(高次)相互作用を,相互作用のないモデルに比例した計算コストで組み込むことができる。
さらに,有意義なペナライゼーション手法を開発し,誘導最適化問題を検討する。
提案手法の予測性能と推定性能を評価することで結論を導いた。 In the current era of vast data and transparent machine learning, it is essential for techniques to operate at a large scale while providing a clear mathematical comprehension of the internal workings of the method. Although there already exist interpretable semi-parametric regression methods for large-scale applications that take into account non-linearity in the data, the complexity of the models is still often limited. One of the main challenges is the absence of interactions in these models, which are left out for the sake of better interpretability but also due to impractical computational costs. To overcome this limitation, we propose a new approach using a factorization method to derive a highly scalable higher-order tensor product spline model. Our method allows for the incorporation of all (higher-order) interactions of non-linear feature effects while having computational costs proportional to a model without interactions. We further develop a meaningful penalization scheme and examine the induced optimization problem. We conclude by evaluating the predictive and estimation performance of our method. | 翻訳日:2024-02-05 17:16:15 公開日:2024-02-02 |
# no free prune: 初期化時の刈り取りに対する情報理論的障壁 No Free Prune: Information-Theoretic Barriers to Pruning at Initialization ( http://arxiv.org/abs/2402.01089v1 ) ライセンス: Link先を確認 | Tanishq Kumar, Kevin Luo, Mark Sellke | (参考訳) ロータリーチケット"arxiv:1803.03635の初期化または近辺に存在することは、ディープラーニングにおいて大規模モデルが必要かどうか、あるいはスパースネットワークを、それらを含む密集したモデルを訓練することなく迅速に識別し、訓練できるのかという疑問を生じさせる。
しかし、密度モデル ("pruning at initialization") を訓練することなく、これらのスパースサブネットワークを見つける試みは、広く失敗に終わった。
そこで我々は, モデルの有効性パラメータカウントである$p_\text{eff}$に基づいて, 最終ネットワークにおける非ゼロ重み数と空間マスクとデータ間の相互情報との和から, 理論的に説明を行った。
我々は、arXiv:2105.12806のロバスト性法則を、通常のパラメータカウントを$p_\text{eff}$に置き換えたスパースネットワークに拡張する。
トレーニング前後のプルーニングは初期化時にプルーニングしたマスクよりも高い相互情報を有するマスクを出力する。
したがって、2つのネットワークは同じスパーシティを持つが、トレーニング方法によってパラメータ数が異なる。
これは、初期化に近いプルーニングは実現不可能であり、なぜ宝くじがあるのかを説明するが、高速に見つけることができない(すなわち、完全なネットワークを訓練せずに)。
ニューラルネットワークの実験では、トレーニング中に得られた情報がモデル能力に影響を与える可能性があることが確認されている。 The existence of "lottery tickets" arXiv:1803.03635 at or near initialization raises the tantalizing question of whether large models are necessary in deep learning, or whether sparse networks can be quickly identified and trained without ever training the dense models that contain them. However, efforts to find these sparse subnetworks without training the dense model ("pruning at initialization") have been broadly unsuccessful arXiv:2009.08576. We put forward a theoretical explanation for this, based on the model's effective parameter count, $p_\text{eff}$, given by the sum of the number of non-zero weights in the final network and the mutual information between the sparsity mask and the data. We show the Law of Robustness of arXiv:2105.12806 extends to sparse networks with the usual parameter count replaced by $p_\text{eff}$, meaning a sparse neural network which robustly interpolates noisy data requires a heavily data-dependent mask. We posit that pruning during and after training outputs masks with higher mutual information than those produced by pruning at initialization. Thus two networks may have the same sparsities, but differ in effective parameter count based on how they were trained. This suggests that pruning near initialization may be infeasible and explains why lottery tickets exist, but cannot be found fast (i.e. without training the full network). Experiments on neural networks confirm that information gained during training may indeed affect model capacity. | 翻訳日:2024-02-05 17:15:59 公開日:2024-02-02 |
# Salsa Fresca: エラーによる学習に対するML攻撃のAngular埋め込みと事前トレーニング Salsa Fresca: Angular Embeddings and Pre-Training for ML Attacks on Learning With Errors ( http://arxiv.org/abs/2402.01082v1 ) ライセンス: Link先を確認 | Samuel Stevens, Emily Wenger, Cathy Li, Niklas Nolte, Eshika Saxena, Fran\c{c}ois Charton, Kristin Lauter | (参考訳) Learning with Errors (LWE)は、鍵交換とデジタル署名のための最近標準化されたポスト量子暗号(PQC)システムの基礎となる難解な数学問題である。
以前の研究では、小さな秘密を持つLWE問題に対する機械学習(ML)ベースの新たな攻撃を提案したが、これらの攻撃には秘密をトレーニングし、回復するのに数日を要する数百万のLWEサンプルが必要である。
これらの攻撃を改善し、25\times$で前処理を高速化し、モデルのサンプル効率を10\times$で改善するために、3つの重要な方法を提案しました。
プレトレーニングがLWEに対するML攻撃のコストを向上し、削減できることを初めて実証する。
この研究は、疎二項秘密が提案されるLWEの同型暗号化アプリケーションで実際に使用される最小の次元である次元$n=1024$の疎二項秘密を復元するMLアタックの最初の例である。 Learning with Errors (LWE) is a hard math problem underlying recently standardized post-quantum cryptography (PQC) systems for key exchange and digital signatures. Prior work proposed new machine learning (ML)-based attacks on LWE problems with small, sparse secrets, but these attacks require millions of LWE samples to train on and take days to recover secrets. We propose three key methods -- better preprocessing, angular embeddings and model pre-training -- to improve these attacks, speeding up preprocessing by $25\times$ and improving model sample efficiency by $10\times$. We demonstrate for the first time that pre-training improves and reduces the cost of ML attacks on LWE. Our architecture improvements enable scaling to larger-dimension LWE problems: this work is the first instance of ML attacks recovering sparse binary secrets in dimension $n=1024$, the smallest dimension used in practice for homomorphic encryption applications of LWE where sparse binary secrets are proposed. | 翻訳日:2024-02-05 17:15:30 公開日:2024-02-02 |
# データ駆動エビデンスに基づくシュガーデザイン Data-Driven Evidence-Based Syntactic Sugar Design ( http://arxiv.org/abs/2402.01079v1 ) ライセンス: Link先を確認 | David OBrien, Robert Dyer, Tien N. Nguyen, Hridesh Rajan | (参考訳) プログラミング言語は開発者にとって必須のツールであり、その進化は開発者の活動をサポートする上で重要な役割を果たす。
プログラミング言語の進化の1つの例は、代替で読みやすいコード構造を提供する追加の構文要素である構文シュガーの導入である。
しかしながら、プログラミング言語の設計と進化のプロセスは、伝統的に逸話的な経験と直観によって導かれてきた。
オープンソースリポジトリをマイニングするツールや方法論の最近の進歩により、開発者はデータ駆動型ソフトウェアエンジニアリングの意思決定が可能になった。
そこで本研究では,166,827,154個のオープンソースJavaメソッドの大規模データセットに頻繁なサブグラフマイニング手法を適用することで,データ駆動プログラミングの進化を促す手法を提案する。
このデータセットは、Javaの制御フローグラフを一般化して、幅広いプログラミング言語の使用状況と重複のインスタンスをキャプチャする。
頻繁なサブグラフが抽出され、新しい構文シュガーの潜在的影響のある機会が特定される。
多様な結果から,Javaで実装可能な様々なプログラミング構造を含む新しい構文シュガーを同定し,頻繁なコードイディオムを簡素化することで,提案手法の利点を実証した。
このアプローチは、Java言語のデザイナに貴重な洞察を与え、データ駆動型プログラミング言語の設計と進化の実証となる可能性がある。 Programming languages are essential tools for developers, and their evolution plays a crucial role in supporting the activities of developers. One instance of programming language evolution is the introduction of syntactic sugars, which are additional syntax elements that provide alternative, more readable code constructs. However, the process of designing and evolving a programming language has traditionally been guided by anecdotal experiences and intuition. Recent advances in tools and methodologies for mining open-source repositories have enabled developers to make data-driven software engineering decisions. In light of this, this paper proposes an approach for motivating data-driven programming evolution by applying frequent subgraph mining techniques to a large dataset of 166,827,154 open-source Java methods. The dataset is mined by generalizing Java control-flow graphs to capture broad programming language usages and instances of duplication. Frequent subgraphs are then extracted to identify potentially impactful opportunities for new syntactic sugars. Our diverse results demonstrate the benefits of the proposed technique by identifying new syntactic sugars involving a variety of programming constructs that could be implemented in Java, thus simplifying frequent code idioms. This approach can potentially provide valuable insights for Java language designers, and serve as a proof-of-concept for data-driven programming language design and evolution. | 翻訳日:2024-02-05 17:15:09 公開日:2024-02-02 |
# 電子健康記録を用いた予測モデリングの最近の進歩 Recent Advances in Predictive Modeling with Electronic Health Records ( http://arxiv.org/abs/2402.01077v1 ) ライセンス: Link先を確認 | Jiaqi Wang, Junyu Luo, Muchao Ye, Xiaochen Wang, Yuan Zhong, Aofei Chang, Guanjie Huang, Ziyi Yin, Cao Xiao, Jimeng Sun, Fenglong Ma | (参考訳) 電子健康記録(EHR)システムの開発により、膨大な量の患者データを収集できるようになった。
しかし, 予測モデルにおけるEHRデータの利用は, その特徴からいくつかの課題を提起している。
機械学習技術の進歩により、深層学習は医療を含む様々な応用においてその優位性を示している。
EHRデータを用いたディープラーニングに基づく予測モデルの最近の進歩を体系的にレビューする。
具体的には、EHRデータの背景を導入し、予測モデリングタスクの数学的定義を提供することから始める。
そして,複数の視点から予測的深層モデルを分類し,要約する。
さらに,医療における予測モデリングに関連するベンチマークやツールキットも提示する。
最後に,オープン課題を議論し,今後の研究に期待できる方向性を提案することで,この調査を結論付ける。 The development of electronic health records (EHR) systems has enabled the collection of a vast amount of digitized patient data. However, utilizing EHR data for predictive modeling presents several challenges due to its unique characteristics. With the advancements in machine learning techniques, deep learning has demonstrated its superiority in various applications, including healthcare. This survey systematically reviews recent advances in deep learning-based predictive models using EHR data. Specifically, we begin by introducing the background of EHR data and providing a mathematical definition of the predictive modeling task. We then categorize and summarize predictive deep models from multiple perspectives. Furthermore, we present benchmarks and toolkits relevant to predictive modeling in healthcare. Finally, we conclude this survey by discussing open challenges and suggesting promising directions for future research. | 翻訳日:2024-02-05 17:14:49 公開日:2024-02-02 |
# DoseGNN:グラフニューラルネットワークによる適応的線量ヒストグラム予測におけるディープラーニングモデルの性能向上 DoseGNN: Improving the Performance of Deep Learning Models in Adaptive Dose-Volume Histogram Prediction through Graph Neural Networks ( http://arxiv.org/abs/2402.01076v1 ) ライセンス: Link先を確認 | Zehao Dong, Yixin Chen, Tianyu Zhao | (参考訳) DVH(Dose-Volume Histogram)予測は、治療計画、線量評価、計画比較などを容易にする放射線治療において基礎となる。
合併症のリスクを減らすために必要な健康な組織に対する潜在的な毒性を管理しながら、正確で効果的な放射線治療を提供する能力を高めるのに役立つ。
本稿では,AAPM (AAPM 65th Annual Meeting $\&$ Exhibition) で発表された研究成果を拡張し,必要な技術の詳細を紹介する。
本研究の目的は、ct画像と目標線量画像の入力が起源、間隔、サイズが異なる可能性のある、高性能なcbctシステムを備えた一般放射線治療プラットフォーム上でのdvh予測のための効率的なディープラーニングモデルを設計することである。
DVH予測タスクで広く採用されているディープラーニングモデルを,新しい放射線治療プラットフォーム上で評価し,グラフニューラルネットワーク(GNN)が適応環境におけるベースディープラーニングモデルの予測性能を向上させるためのプラグアンドプレイフレームワークを構築する上で理想的なアーキテクチャであることを示した。 Dose-Volume Histogram (DVH) prediction is fundamental in radiation therapy that facilitate treatment planning, dose evaluation, plan comparison and etc. It helps to increase the ability to deliver precise and effective radiation treatments while managing potential toxicities to healthy tissues as needed to reduce the risk of complications. This paper extends recently disclosed research findings presented on AAPM (AAPM 65th Annual Meeting $\&$ Exhibition) and includes necessary technique details. The objective is to design efficient deep learning models for DVH prediction on general radiotherapy platform equipped with high performance CBCT system, where input CT images and target dose images to predict may have different origins, spacing and sizes. Deep learning models widely-adopted in DVH prediction task are evaluated on the novel radiotherapy platform, and graph neural networks (GNNs) are shown to be the ideal architecture to construct a plug-and-play framework to improve predictive performance of base deep learning models in the adaptive setting. | 翻訳日:2024-02-05 17:14:38 公開日:2024-02-02 |
# DeepAAT: 高速UAVマッピングのための深部自動空中三角測量 DeepAAT: Deep Automated Aerial Triangulation for Fast UAV-based Mapping ( http://arxiv.org/abs/2402.01134v1 ) ライセンス: Link先を確認 | Zequan Chen, Jianping Li, Qusheng Li, Bisheng Yang, Zhen Dong | (参考訳) 画像のポーズを復元し、スパースポイントを同時に再構築することを目的とした自動空中三角測量(AAT)は、地球観測において重要な役割を果たす。
数十年にわたる光度測定の豊富な研究遺産により、AATは大規模無人航空機(UAV)のマッピングに広く応用された基本的なプロセスへと発展してきた。
その進歩にもかかわらず、古典的なAAT手法は、低効率と限られた堅牢性といった課題に直面している。
本稿では,UAV画像のAATに特化したディープラーニングネットワークであるDeepAATを紹介する。
DeepAATは画像の空間的特徴とスペクトル的特徴の両方を考慮し、誤マッチングペアの解決能力を高め、画像のポーズを正確に予測する。
DeepAATはAATの効率を大幅に向上させ、徹底的なシーンカバレッジと精度を確保している。
その処理速度は、インクリメンタルAATメソッドを数百倍上回り、グローバルAATメソッドを数倍上回り、再現精度は同等である。
さらに、DeepAATのシーンクラスタリングとマージ戦略は、制約されたコンピューティングリソースの下でも、迅速なローカライズと大規模なUAV画像のポーズ決定を促進する。
実験結果は,従来のAAT法よりも大幅に改善され,UAVベースの3D再構成作業の効率性と精度が向上したことを示している。
フォトグラム化社会の利益を得るために、DeepAATのコードはhttps://github.com/WHU-USI3DV/DeepAATで公開される。 Automated Aerial Triangulation (AAT), aiming to restore image pose and reconstruct sparse points simultaneously, plays a pivotal role in earth observation. With its rich research heritage spanning several decades in photogrammetry, AAT has evolved into a fundamental process widely applied in large-scale Unmanned Aerial Vehicle (UAV) based mapping. Despite its advancements, classic AAT methods still face challenges like low efficiency and limited robustness. This paper introduces DeepAAT, a deep learning network designed specifically for AAT of UAV imagery. DeepAAT considers both spatial and spectral characteristics of imagery, enhancing its capability to resolve erroneous matching pairs and accurately predict image poses. DeepAAT marks a significant leap in AAT's efficiency, ensuring thorough scene coverage and precision. Its processing speed outpaces incremental AAT methods by hundreds of times and global AAT methods by tens of times while maintaining a comparable level of reconstruction accuracy. Additionally, DeepAAT's scene clustering and merging strategy facilitate rapid localization and pose determination for large-scale UAV images, even under constrained computing resources. The experimental results demonstrate DeepAAT's substantial improvements over conventional AAT methods, highlighting its potential in the efficiency and accuracy of UAV-based 3D reconstruction tasks. To benefit the photogrammetry society, the code of DeepAAT will be released at: https://github.com/WHU-USI3DV/DeepAAT. | 翻訳日:2024-02-05 17:05:47 公開日:2024-02-02 |
# 乱雑な世界の物体を見る:ビデオ中の動きから計算対象性 Seeing Objects in a Cluttered World: Computational Objectness from Motion in Video ( http://arxiv.org/abs/2402.01126v1 ) ライセンス: Link先を確認 | Douglas Poland and Amar Saini | (参考訳) 物体全体を物理的に重なり合うものと区別する、乱雑な世界の視覚的な面の知覚は、視覚の知覚の基礎となる物体性と呼ばれる認知現象である。
すべての脊椎動物が共有し、人間の誕生時に存在し、視覚世界についてのオブジェクト中心の表現と推論を可能にする。
本稿では,教師付き時空間r(2+1)u-netsを用いた運動キューと時空間注意を利用する対象性計算手法を提案する。
第1のネットワークは、動き境界を検出し、それらの境界の画素を、そのローカルフォアグラウンド・バックグラウンド感覚で分類する。
この動き境界感覚(mbs)情報は、時空間的物体の注目の手がかりと共に、フレームのシーケンス上で出席した物体の形状を推定し、その「画素」を可視または曖昧に分類する注意面知覚(asp)モジュールに伝達される。
注意キューの空間的形状は柔軟であるが、見る必要のない被写体を緩やかに追跡する必要がある。
対象モデルのない表現学から客観性を推定するこの単純だが斬新なアプローチの能力を実証し,ぼやけやカメラの揺らぎを伴っても,個々の被写体を頑健に認識できることを示す。
データの多様性と拡張がバイアスを最小化し、実際のビデオへの転送を促進することを示す。
最後に,この計算対象度能力が高度化して,堅牢なモジュール型ビデオオブジェクト認識フレームワークを定着させる方法について述べる。 Perception of the visually disjoint surfaces of our cluttered world as whole objects, physically distinct from those overlapping them, is a cognitive phenomenon called objectness that forms the basis of our visual perception. Shared by all vertebrates and present at birth in humans, it enables object-centric representation and reasoning about the visual world. We present a computational approach to objectness that leverages motion cues and spatio-temporal attention using a pair of supervised spatio-temporal R(2+1)U-Nets. The first network detects motion boundaries and classifies the pixels at those boundaries in terms of their local foreground-background sense. This motion boundary sense (MBS) information is passed, along with a spatio-temporal object attention cue, to an attentional surface perception (ASP) module which infers the form of the attended object over a sequence of frames and classifies its 'pixels' as visible or obscured. The spatial form of the attention cue is flexible, but it must loosely track the attended object which need not be visible. We demonstrate the ability of this simple but novel approach to infer objectness from phenomenology without object models, and show that it delivers robust perception of individual attended objects in cluttered scenes, even with blur and camera shake. We show that our data diversity and augmentation minimizes bias and facilitates transfer to real video. Finally, we describe how this computational objectness capability can grow in sophistication and anchor a robust modular video object perception framework. | 翻訳日:2024-02-05 17:05:23 公開日:2024-02-02 |
# AI生成画像検出に必要なのは1つのシンプルなパッチ A Single Simple Patch is All You Need for AI-generated Image Detection ( http://arxiv.org/abs/2402.01123v1 ) ライセンス: Link先を確認 | Jiaxuan Chen, Jieteng Yao, Li Niu | (参考訳) 最近の生成モデルの開発は、超現実的フェイク画像を生成する可能性を解き放ちます。
偽画像の悪意的な使用を防ぐため、AI生成画像検出は、偽画像と実際の画像とを区別することを目的としている。
それでも、既存の方法は通常、異なるジェネレータ間での一般化性に乏しい。
本稿では,SSP(Single Simple Patch, SSP)のノイズパターンをバイナリ分類器に供給し,GenImageデータセットの最近の手法に比べて14.6%の相対的な改善を実現するという,恥ずかしいほど単純なアプローチを提案する。
我々のSSP法は非常に堅牢で一般化可能であり、将来の手法の単純かつ競争的なベースラインとして機能する可能性がある。 The recent development of generative models unleashes the potential of generating hyper-realistic fake images. To prevent the malicious usage of fake images, AI-generated image detection aims to distinguish fake images from real images. Nevertheless, existing methods usually suffer from poor generalizability across different generators. In this work, we propose an embarrassingly simple approach named SSP, i.e., feeding the noise pattern of a Single Simple Patch (SSP) to a binary classifier, which could achieve 14.6% relative improvement over the recent method on GenImage dataset. Our SSP method is very robust and generalizable, which could serve as a simple and competitive baseline for the future methods. | 翻訳日:2024-02-05 17:04:55 公開日:2024-02-02 |
# pok\'ellmon:pok\'emonのためのヒューマンパリティエージェントと大規模言語モデル Pok\'eLLMon: A Human-Parity Agent for Pok\'emon Battles with Large Language Models ( http://arxiv.org/abs/2402.01118v1 ) ライセンス: Link先を確認 | Sihao Hu, Tiansheng Huang, Ling Liu | (参考訳) Pok\'eLLMon} は,Pok\'emon の戦闘で実証されたように,戦術戦闘ゲームにおいて,人間のパリティパフォーマンスを達成する最初の LLM 型エージェントである。
textsc{Pok\'eLLMon} の設計には3つの重要な戦略がある。
(i)戦闘から派生したテキストベースのフィードバックを瞬時に消費し、政策を反復的に洗練する文脈内強化学習
2 幻覚を予防するために外部知識を回収し、エージェントが適時かつ適切に行動できるようにする知識増強世代
(iii)エージェントが強力な敵と向き合い、戦闘を防ぎたいとき、 \textit{panic switching}現象を緩和するための一貫したアクション生成。
オンライン対人戦では,「textsc{Pok\'eLLMon}'s human-like battle Strategy and just-in-time decision making」が示され,ラダー戦では49 %,招待戦では56 %の勝利率を達成した。
実装とプレイ可能なバトルログは、 \url{https://github.com/git-disl/pokellmon} で利用可能です。 We introduce \textsc{Pok\'eLLMon}, the first LLM-embodied agent that achieves human-parity performance in tactical battle games, as demonstrated in Pok\'emon battles. The design of \textsc{Pok\'eLLMon} incorporates three key strategies: (i) In-context reinforcement learning that instantly consumes text-based feedback derived from battles to iteratively refine the policy; (ii) Knowledge-augmented generation that retrieves external knowledge to counteract hallucination and enables the agent to act timely and properly; (iii) Consistent action generation to mitigate the \textit{panic switching} phenomenon when the agent faces a powerful opponent and wants to elude the battle. We show that online battles against human demonstrates \textsc{Pok\'eLLMon}'s human-like battle strategies and just-in-time decision making, achieving 49\% of win rate in the Ladder competitions and 56\% of win rate in the invited battles. Our implementation and playable battle logs are available at: \url{https://github.com/git-disl/PokeLLMon}. | 翻訳日:2024-02-05 17:04:43 公開日:2024-02-02 |
# DTS-SQL: 小規模言語モデルによるテキストからSQLへの分解 DTS-SQL: Decomposed Text-to-SQL with Small Large Language Models ( http://arxiv.org/abs/2402.01117v1 ) ライセンス: Link先を確認 | Mohammadreza Pourreza and Davood Rafiei | (参考訳) テキストからSQLへのタスクのリードモデルは、データプライバシに関する懸念を提起する、プロプライエタリなLarge Language Models(LLM)に大きく依存している。
小さなオープンソースモデルと大規模なプロプライエタリモデルのパフォーマンスギャップを埋めることは、この依存を緩和するために不可欠である。
そこで本研究では,タスクを2つの単純なタスクに分解する2段階微調整手法を提案する。
2つの大きなクロスドメインデータセットと2つの小さなLCMの包括的な評価により、このアプローチは実行精度を3~7%向上し、オープンソースモデルとプロプライエタリなモデルの性能を効果的に整合させることを示した。 Leading models for the text-to-SQL task heavily rely on proprietary Large Language Models (LLMs), posing concerns over data privacy. Closing the performance gap between small open-source models and large proprietary models is crucial to mitigate this reliance. To this end, we introduce a novel two-stage fine-tuning approach that decomposes the task into two simpler tasks. Through comprehensive evaluation on two large cross-domain datasets and two small LLMs, we show that this approach improves execution accuracy by 3 to 7 percent, effectively aligning the performance of open-source models with their proprietary counterparts. | 翻訳日:2024-02-05 17:04:19 公開日:2024-02-02 |
# テキスト表現による心内電図の解釈 Interpretation of Intracardiac Electrograms Through Textual Representations ( http://arxiv.org/abs/2402.01115v1 ) ライセンス: Link先を確認 | William Jongwon Han, Diana Gomez, Avi Alok, Chaojing Duan, Michael A. Rosenberg, Douglas Weber, Emerson Liu, Ding Zhao | (参考訳) 心房細動(AFib)の不規則な電気活動を理解することは心電図における重要な課題である。
重篤なAFib症例に対しては、心内電図(EGM)の収集のためにカテーテルアブレーションを行う。
EGMは、心臓の複雑な詳細で局所的な電気活動を提供し、解釈可能な心臓研究に理想的なモダリティである。
人工知能(AI)の最近の進歩は、深層学習フレームワークを使用して、AFib中にEGMを解釈する作業を可能にしている。
さらに、言語モデル(LM)は、特に医療において、目に見えない領域に一般化できるという、例外的な性能を示している。
本研究では,マスク付き言語モデリングによるEMG補間とAFib分類の微調整に事前学習したLMを初めて活用する。
テキストシーケンスとしてEGMを定式化し、他の表現と比較してAFib分類における競合性能を示す。
最後に, モデル行動の多視点的直観を提供するための総合的解釈可能性研究を行い, 臨床応用に大きな恩恵をもたらす可能性がある。 Understanding the irregular electrical activity of atrial fibrillation (AFib) has been a key challenge in electrocardiography. For serious cases of AFib, catheter ablations are performed to collect intracardiac electrograms (EGMs). EGMs offer intricately detailed and localized electrical activity of the heart and are an ideal modality for interpretable cardiac studies. Recent advancements in artificial intelligence (AI) has allowed some works to utilize deep learning frameworks to interpret EGMs during AFib. Additionally, language models (LMs) have shown exceptional performance in being able to generalize to unseen domains, especially in healthcare. In this study, we are the first to leverage pretrained LMs for finetuning of EGM interpolation and AFib classification via masked language modeling. We formulate the EGM as a textual sequence and present competitive performances on AFib classification compared against other representations. Lastly, we provide a comprehensive interpretability study to provide a multi-perspective intuition of the model's behavior, which could greatly benefit the clinical use. | 翻訳日:2024-02-05 17:04:05 公開日:2024-02-02 |
# double-dip: 転送学習とランダム化によるラベルのみのメンバーシップ推論攻撃 Double-Dip: Thwarting Label-Only Membership Inference Attacks with Transfer Learning and Randomization ( http://arxiv.org/abs/2402.01114v1 ) ライセンス: Link先を確認 | Arezoo Rajabi, Reeya Pimple, Aiswarya Janardhanan, Surudhi Asokraj, Bhaskar Ramasubramanian, Radha Poovendran | (参考訳) トランスファーラーニング(TL)は、トレーニングサンプルの不足に直面した場合、DNNモデルの性能を向上させることが実証されている。
しかし、プライバシー攻撃に対する過度に適合したDNNの脆弱性を軽減するソリューションとしてのTLの適合性は未解明である。
メンバーシップ推論攻撃(MIA)と呼ばれるプライバシー攻撃のクラスは、与えられたサンプルがトレーニングデータセット(メンバー)に属しているかどうか(メンバーではない)を決定することを目的としている。
TL (Stage-1) とランダム化 (Stage-2) を併用して, 分類精度を低下させることなく, 過度に適合したDNN上でMIAを阻止するシステム実験であるDouble-Dipを導入する。
本研究では,共有特徴空間の役割と,ソースモデルとターゲットモデル間のパラメータ値,凍結層数,事前学習モデルの複雑さについて検討する。
3つの(ターゲット、ソース)データセットのダブルディップを評価する。
(i)(CIFAR-10、ImageNet)
(II)(GTSRB、ImageNet)
(iii) (CelebA, VGGFace2)。
公開されている4つのDNNについて検討する。
(a)VGG-19
(b)ResNet-18
(c)Swin-T,
(d)FaceNet。
実験の結果,Stage-1は敵に対する非メンバーの分類精度を著しく向上させるとともに,White-box または Black-box DNN モデルアクセスを用いて,SOTA ラベルのみの MIA の実行を試みた。
ステージ2の後、ラベルのみのMIAを実行する敵の成功はさらに50%近く減少し、ランダムな推測に近づき、ダブルディップの有効性を示す。
ダブルディップのステージ2はまた、正規化や差分プライバシーに基づく手法よりも低いASRと高い分類精度を達成する。 Transfer learning (TL) has been demonstrated to improve DNN model performance when faced with a scarcity of training samples. However, the suitability of TL as a solution to reduce vulnerability of overfitted DNNs to privacy attacks is unexplored. A class of privacy attacks called membership inference attacks (MIAs) aim to determine whether a given sample belongs to the training dataset (member) or not (nonmember). We introduce Double-Dip, a systematic empirical study investigating the use of TL (Stage-1) combined with randomization (Stage-2) to thwart MIAs on overfitted DNNs without degrading classification accuracy. Our study examines the roles of shared feature space and parameter values between source and target models, number of frozen layers, and complexity of pretrained models. We evaluate Double-Dip on three (Target, Source) dataset paris: (i) (CIFAR-10, ImageNet), (ii) (GTSRB, ImageNet), (iii) (CelebA, VGGFace2). We consider four publicly available pretrained DNNs: (a) VGG-19, (b) ResNet-18, (c) Swin-T, and (d) FaceNet. Our experiments demonstrate that Stage-1 reduces adversary success while also significantly increasing classification accuracy of nonmembers against an adversary with either white-box or black-box DNN model access, attempting to carry out SOTA label-only MIAs. After Stage-2, success of an adversary carrying out a label-only MIA is further reduced to near 50%, bringing it closer to a random guess and showing the effectiveness of Double-Dip. Stage-2 of Double-Dip also achieves lower ASR and higher classification accuracy than regularization and differential privacy-based methods. | 翻訳日:2024-02-05 17:03:48 公開日:2024-02-02 |
# 非環状幾何制御を持つリドベルク原子の単一変調パルス2量子ゲート Single-modulated-pulse two-qubit gates for Rydberg atoms with noncyclic geometric control ( http://arxiv.org/abs/2402.01113v1 ) ライセンス: Link先を確認 | Zi-Yuan Chen, Jia-Hao Liang, Zhao-Xin Fu, Hong-Zhi Liu, Ze-Rui He,1 Meng Wang, Zhi-Wei Han, Jia-Yi Huang, Qing-Xian Lv, and Yan-Xiong Du | (参考訳) 中性原子の配列は量子コンピューティングの有望なプラットフォームとして登場してきた。
頑健な2量子ビットゲートの実現は、現在、大規模操作において重要なタスクである。
本稿では,Rydbergブロックを用いた2ビット制御相ゲートの実装に便利な手法を提案する。
単一変調パルスによる非循環的幾何制御を実現する。
動的パラメータによって決定される循環的進化による制御スキームと比較して, 体系的誤差に対する提案の堅牢性は, 幾何学的特性により著しく向上する。
重要なことに、非環状幾何制御は小さな回転角のゲート時間を短縮し、デコヒーレンス効果に敏感になる。
我々は, 手術時間を短縮するために, 短絡による断熱制御を高速化する。
我々は,実際の加速度を示すために,量子フーリエ変換のアルゴリズムに適用する。
そのため,提案手法は任意の2ビットゲートに対して解析波形を提供し,原子配列実験において重要な応用が期待できる。 Arrays of neutral atoms have emerged as promising platforms for quantum computing. Realization of high-fidelity two-qubit gates with robustness is currently a significant important task for large-scale operations. In this paper, we present a convenient approach for implementing a two-qubit controlled-phase gate using Rydberg blockade. We achieve the noncyclic geometric control with a single modulated pulse. As compared with the control scheme by cyclic evolution that determined by dynamical parameters, the robustness of the proposal against systematic errors will be remarkably improved due to the geometric characteristic. Importantly, the noncyclic geometric control reduces the gate time for small rotation angles and will be more insensitive to the decoherence effect. We accelerate the adiabatic control with the aid of shortcuts to adiabaticity to further shorten the operation time. We apply our protocol to the algorithm of quantum Fourier transformation to show the actual acceleration. Therefore, the proposed scheme will provide an analytical waveforms for arbitrary two-qubit gates and may have important use in the experiments of atomic arrays. | 翻訳日:2024-02-05 17:03:17 公開日:2024-02-02 |
# 適応性制約下でのセルフプレイによる準最適強化学習 Near-Optimal Reinforcement Learning with Self-Play under Adaptivity Constraints ( http://arxiv.org/abs/2402.01111v1 ) ライセンス: Link先を確認 | Dan Qiao, Yu-Xiang Wang | (参考訳) 我々は,マルチエージェント強化学習(marl)の問題に適応性制約 -- 新たなポリシの展開にコストがかかり,ポリシー更新回数を最小化しなければならない現実のアプリケーションによって動機付けられた新たな問題 -- について検討する。
2人のプレイヤーのゼロサムマルコフゲームに対しては、$\widetilde{O}(\sqrt{H^3 S^2 ABK})$を後悔する(政治)排除に基づくアルゴリズムを設計するが、バッチの複雑さは$O(H+\log\log K)$のみである。
上記では、$S$は状態の数を表し、$A,B$は2人のプレイヤーのアクションの数、$H$は地平線、$K$はエピソード数を表す。
さらに、すべてのアルゴリズムに対して$\widetilde{o}(\sqrt{k})$ regretboundを持つバッチ複雑性が$\omega(\frac{h}{\log_{a}k}+\log\log k)$であることを証明する。
副産物として,我々の手法はバンディットゲームや報酬のないマールを最適なバッチ複雑性で学習することにも拡張できる。
我々の知る限りでは、これらはMARLを低い適応性で理解するための第一行の結果である。 We study the problem of multi-agent reinforcement learning (MARL) with adaptivity constraints -- a new problem motivated by real-world applications where deployments of new policies are costly and the number of policy updates must be minimized. For two-player zero-sum Markov Games, we design a (policy) elimination based algorithm that achieves a regret of $\widetilde{O}(\sqrt{H^3 S^2 ABK})$, while the batch complexity is only $O(H+\log\log K)$. In the above, $S$ denotes the number of states, $A,B$ are the number of actions for the two players respectively, $H$ is the horizon and $K$ is the number of episodes. Furthermore, we prove a batch complexity lower bound $\Omega(\frac{H}{\log_{A}K}+\log\log K)$ for all algorithms with $\widetilde{O}(\sqrt{K})$ regret bound, which matches our upper bound up to logarithmic factors. As a byproduct, our techniques naturally extend to learning bandit games and reward-free MARL within near optimal batch complexity. To the best of our knowledge, these are the first line of results towards understanding MARL with low adaptivity. | 翻訳日:2024-02-05 17:03:00 公開日:2024-02-02 |
# Vaccine: 大規模言語モデルのための摂動認識アライメント Vaccine: Perturbation-aware Alignment for Large Language Model ( http://arxiv.org/abs/2402.01109v1 ) ライセンス: Link先を確認 | Tiansheng Huang, Sihao Hu, Ling Liu | (参考訳) ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントブロッキングモデルを生成することができる。
我々は経験的解析を行い,アライメント・ブロッケン効果の帰結を示唆する現象である \textit{harmful embedded drift} を解明する。
本稿では,ユーザのセキュリティリスクを軽減するために,摂動認識アライメント技術であるVaccineを提案する。
Vaccineの中核となる考え方は、アライメントフェーズにおいて、職人的な摂動を徐々に加えることで、不変な隠れ埋め込みを作り出すことである。
これにより、埋め込みは、微調整フェーズにおける不衛生なユーザデータからの有害な摂動に耐えることができる。
オープンソース主流のllm(例えばllama2, opt, vicuna)における結果から,ワクチンは有害なプロンプトによる埋没ドリフトに対するアライメントの頑健性を高めつつ,良性プロンプトに対する推論能力を維持することができることが示されている。
私たちのコードは \url{https://github.com/git-disl/Vaccine} で利用可能です。 The new paradigm of finetuning-as-a-service introduces a new attack surface for Large Language Models (LLMs): a few harmful data uploaded by users can easily trick the finetuning to produce an alignment-broken model. We conduct an empirical analysis and uncover a \textit{harmful embedding drift} phenomenon, showing a probable cause of the alignment-broken effect. Inspired by our findings, we propose Vaccine, a perturbation-aware alignment technique to mitigate the security risk of users finetuning. The core idea of Vaccine is to produce invariant hidden embeddings by progressively adding crafted perturbation to them in the alignment phase. This enables the embeddings to withstand harmful perturbation from un-sanitized user data in the finetuning phase. Our results on open source mainstream LLMs (e.g., Llama2, Opt, Vicuna) demonstrate that Vaccine can boost the robustness of alignment against harmful prompts induced embedding drift while reserving reasoning ability towards benign prompts. Our code is available at \url{https://github.com/git-disl/Vaccine}. | 翻訳日:2024-02-05 17:02:31 公開日:2024-02-02 |
# マルチエージェントシステムにおける推論能力:限界,課題,ヒューマンセンタードソリューション Reasoning Capacity in Multi-Agent Systems: Limitations, Challenges and Human-Centered Solutions ( http://arxiv.org/abs/2402.01108v1 ) ライセンス: Link先を確認 | Pouya Pezeshkpour, Eser Kandogan, Nikita Bhutani, Sajjadur Rahman, Tom Mitchell, Estevam Hruschka | (参考訳) 様々なタスクにおける大きな言語モデル(llm)のパフォーマンスは、多くの機会をもたらし、本番環境でそれらを活用することの難しさをもたらします。
LLMの実践的な採用に向けて、マルチエージェントシステムは、複雑な現実世界のタスクに対処するために既存のプロプライエタリなデータとモデルを使用するエンタープライズプラットフォームにおいて、LLMを拡張、統合、およびオーケストレーションするという大きな約束を持っています。
これらのシステムの成功にもかかわらず、現在のアプローチは最適化と評価のために狭く単焦点の目標に依存しており、予算、リソース、時間制限を含む現実世界のシナリオにおける潜在的な制約をしばしば見落としている。
さらに、これらのシステムの解釈、解析、デバッグには、異なるコンポーネントを相互に評価する必要がある。
この要求は、既存の方法論では実現できない。
本稿では,最適化中の制約の統合を可能にするための統一的基準として推論能力の概念を導入し,システム内のさまざまなコンポーネント間の接続を確立することにより,より包括的かつ包括的な評価手法を実現する。
推論能力の形式的定義を提示し,システムの各コンポーネントの制約を特定する上での有用性を示す。
次に、これらの制限が、人間のフィードバックが推論の欠点を緩和し、システムの全体的な一貫性を高めるために使用される自己回帰的なプロセスにどのように対処できるかについて議論する。 Remarkable performance of large language models (LLMs) in a variety of tasks brings forth many opportunities as well as challenges of utilizing them in production settings. Towards practical adoption of LLMs, multi-agent systems hold great promise to augment, integrate, and orchestrate LLMs in the larger context of enterprise platforms that use existing proprietary data and models to tackle complex real-world tasks. Despite the tremendous success of these systems, current approaches rely on narrow, single-focus objectives for optimization and evaluation, often overlooking potential constraints in real-world scenarios, including restricted budgets, resources and time. Furthermore, interpreting, analyzing, and debugging these systems requires different components to be evaluated in relation to one another. This demand is currently not feasible with existing methodologies. In this postion paper, we introduce the concept of reasoning capacity as a unifying criterion to enable integration of constraints during optimization and establish connections among different components within the system, which also enable a more holistic and comprehensive approach to evaluation. We present a formal definition of reasoning capacity and illustrate its utility in identifying limitations within each component of the system. We then argue how these limitations can be addressed with a self-reflective process wherein human-feedback is used to alleviate shortcomings in reasoning and enhance overall consistency of the system. | 翻訳日:2024-02-05 17:02:08 公開日:2024-02-02 |
# ループトランスを用いたグラフアルゴリズムのシミュレーション Simulation of Graph Algorithms with Looped Transformers ( http://arxiv.org/abs/2402.01107v1 ) ライセンス: Link先を確認 | Artur Back de Luca and Kimon Fountoulakis | (参考訳) ニューラルネットワークを用いたグラフアルゴリズムの実行は、有望な経験的進歩のために、最近大きな関心を集めている。
これにより、ニューラルネットワークがリレーショナルデータによる推論ステップを再現する方法のさらなる理解が促進される。
本研究では,トランスフォーマーネットワークがグラフ上のアルゴリズムをシミュレートする能力について理論的に検討する。
我々が利用するアーキテクチャは、グラフと相互作用する余分な注意を向けたループトランスフォーマである。
我々は,このアーキテクチャがDijkstraの最短経路アルゴリズム,Breadthand Depth-First Search,Kosarajuの強結合成分アルゴリズムなどのアルゴリズムをシミュレートできることを示す。
ネットワークの幅は入力グラフのサイズによって増大しないため、ネットワークは任意のグラフに対して上記のアルゴリズムをシミュレートすることができる。
この性質にもかかわらず、我々の解には有限精度によるシミュレーションに限界があることが示されている。
最後に,付加的なアテンションヘッドを利用する場合のチューリング完全度を一定幅で示す。 The execution of graph algorithms using neural networks has recently attracted significant interest due to promising empirical progress. This motivates further understanding of how neural networks can replicate reasoning steps with relational data. In this work, we study the ability of transformer networks to simulate algorithms on graphs from a theoretical perspective. The architecture that we utilize is a looped transformer with extra attention heads that interact with the graph. We prove by construction that this architecture can simulate algorithms such as Dijkstra's shortest path algorithm, Breadth- and Depth-First Search, and Kosaraju's strongly connected components algorithm. The width of the network does not increase with the size of the input graph, which implies that the network can simulate the above algorithms for any graph. Despite this property, we show that there is a limit to simulation in our solution due to finite precision. Finally, we show a Turing Completeness result with constant width when the extra attention heads are utilized. | 翻訳日:2024-02-05 17:01:47 公開日:2024-02-02 |
# 自動運転の基礎モデルに関する調査 A Survey for Foundation Models in Autonomous Driving ( http://arxiv.org/abs/2402.01105v1 ) ライセンス: Link先を確認 | Haoxiang Gao and Yaqian Li and Kaiwen Long and Ming Yang and Yiqing Shen | (参考訳) 基礎モデルの出現は、自然言語処理とコンピュータビジョンの分野に革命をもたらし、自動運転(ad)への応用の道を開いた。
本調査は40以上の研究論文を総合的にレビューし,ADの強化における基礎モデルの役割を実証する。
大規模言語モデルは、特に推論、コード生成、翻訳の熟練を通して、ADにおける計画とシミュレーションに寄与する。
並行して、ビジョンファウンデーションモデルは、3Dオブジェクトの検出やトラッキングといった重要なタスクに適応し、シミュレーションやテストのための現実的な駆動シナリオを作成している。
多様な入力を統合するマルチモーダル基礎モデルでは、視覚的理解と空間的推論が極めて重要である。
本調査は,ADドメイン内のモダリティと機能に基づいて基礎モデルを分類する構造的分類法を提供するだけでなく,現在の研究で採用されている手法も検討する。
既存の基盤モデルと最先端のADアプローチのギャップを特定し、将来の研究方向性をチャート化し、これらのギャップを埋めるためのロードマップを提案します。 The advent of foundation models has revolutionized the fields of natural language processing and computer vision, paving the way for their application in autonomous driving (AD). This survey presents a comprehensive review of more than 40 research papers, demonstrating the role of foundation models in enhancing AD. Large language models contribute to planning and simulation in AD, particularly through their proficiency in reasoning, code generation and translation. In parallel, vision foundation models are increasingly adapted for critical tasks such as 3D object detection and tracking, as well as creating realistic driving scenarios for simulation and testing. Multi-modal foundation models, integrating diverse inputs, exhibit exceptional visual understanding and spatial reasoning, crucial for end-to-end AD. This survey not only provides a structured taxonomy, categorizing foundation models based on their modalities and functionalities within the AD domain but also delves into the methods employed in current research. It identifies the gaps between existing foundation models and cutting-edge AD approaches, thereby charting future research directions and proposing a roadmap for bridging these gaps. | 翻訳日:2024-02-05 17:01:31 公開日:2024-02-02 |
# 合成生成モデリング: 単一のモデルだけでは十分ではない Compositional Generative Modeling: A Single Model is Not All You Need ( http://arxiv.org/abs/2402.01103v1 ) ライセンス: Link先を確認 | Yilun Du, Leslie Kaelbling | (参考訳) 大量のデータに基づいてトレーニングされた巨大なモノリシックな生成モデルは、AI研究においてますます支配的なアプローチになりつつある。
本稿では,より小さな生成モデルを構成することによって,より大規模な生成システムを構築するべきであると論じる。
このような構成的生成アプローチによって、よりデータ効率の良い方法で分布を学習し、トレーニング時に見つからないデータ分布の一部に一般化できることを示す。
さらに,学習時のタスクに対する新たな生成モデルをプログラムし構築する方法についても紹介する。
最後に、多くの場合、データから別々の合成コンポーネントを発見できることを示します。 Large monolithic generative models trained on massive amounts of data have become an increasingly dominant approach in AI research. In this paper, we argue that we should instead construct large generative systems by composing smaller generative models together. We show how such a compositional generative approach enables us to learn distributions in a more data-efficient manner, enabling generalization to parts of the data distribution unseen at training time. We further show how this enables us to program and construct new generative models for tasks completely unseen at training. Finally, we show that in many cases, we can discover separate compositional components from data. | 翻訳日:2024-02-05 17:01:13 公開日:2024-02-02 |
# 予測規則の仮説統合による非教師なし領域適応 Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation of Prediction Rationale ( http://arxiv.org/abs/2402.01157v1 ) ライセンス: Link先を確認 | Yangyang Shu, Xiaofeng Cao, Qi Chen, Bowen Zhang, Ziqin Zhou, Anton van den Hengel, and Lingqiao Liu | (参考訳) Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
このタスクの主な困難は、モデルの予測が不正確である可能性があり、これらの不正確な予測をモデル適応に使用すると、誤った結果をもたらす可能性があることである。
そこで本研究では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠を考察する手法を提案する。
これらの仮説の合理化により、最も可能性の高い仮説を特定し、擬似ラベル集合としてモデル適応のための半教師付き学習手順をサポートする。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階適応プロセスを提案する。
実験結果から,本手法はSFUDAタスクの最先端性能を実現し,既存の手法と容易に統合して性能を向上させることができることが示された。
コードは \url{https://github.com/ganperf/hcpr} で入手できる。 Source-Free Unsupervised Domain Adaptation (SFUDA) is a challenging task where a model needs to be adapted to a new domain without access to target domain labels or source domain data. The primary difficulty in this task is that the model's predictions may be inaccurate, and using these inaccurate predictions for model adaptation can lead to misleading results. To address this issue, this paper proposes a novel approach that considers multiple prediction hypotheses for each sample and investigates the rationale behind each hypothesis. By consolidating these hypothesis rationales, we identify the most likely correct hypotheses, which we then use as a pseudo-labeled set to support a semi-supervised learning procedure for model adaptation. To achieve the optimal performance, we propose a three-step adaptation process: model pre-adaptation, hypothesis consolidation, and semi-supervised learning. Extensive experimental results demonstrate that our approach achieves state-of-the-art performance in the SFUDA task and can be easily integrated into existing approaches to improve their performance. The codes are available at \url{https://github.com/GANPerf/HCPR}. | 翻訳日:2024-02-05 16:54:19 公開日:2024-02-02 |
# 伝統的なvs大言語モデルサポートを用いたローコードプログラミングに関する実証的研究 An Empirical Study on Low Code Programming using Traditional vs Large Language Model Support ( http://arxiv.org/abs/2402.01156v1 ) ライセンス: Link先を確認 | Yongkun Liu, Jiachi Chen, Tingting Bi, John Grundy, Yanlin Wang, Ting Chen, Yutian Tang, Zibin Zheng | (参考訳) 低コードプログラミング(LCP)は、より抽象度の高いモデルを用いたプログラミングであり、結果として、手作業の少ない、より効率的なプログラミングが可能となり、アマチュア開発者にとっての学習の労力を減らした。
多くのLCPツールは急速に進化し、ビジュアルプログラミング言語(VPL)やデモによるプログラミング(PBD)の概念の恩恵を受けている。
ソフトウェア工学における大規模言語モデル(LLM)の使用に対する関心が大幅に高まり、LLMベースのLCPがますます重要になってきています。
しかし、LCPとLCMベースのLCPに対する従来のアプローチの技術的な原則と応用シナリオは大きく異なる。
ユーザによるLCPへの2つのアプローチの適用におけるこれらの重要な違いと特徴を理解することは、LCPプロバイダにとって、既存のLCPツールの改善と新しいLCPツールの開発、適切なLCP技術の選択におけるユーザ支援において不可欠である。
従来のLCPとLCMを併用したLCPの実証的研究を行った。
我々は,過去3年間のstack overflow (so) に関する開発者の議論を分析し,従来の lcp と llm ベースの lcp 機能と開発者のフィードバックの類似性と相違について検討した。
従来の LCP と LLM ベースの LCP では,開発ライフサイクル全体,特に実装フェーズにおいて,適用範囲,制限,使用状況が大きく異なることが判明した。
また,LLMがLCPにどのように影響し,LLMをベースとしたLCPの最近の技術発展,例えばVPLとの統合やソフトウェア工学へのLLMエージェントの適用について議論する。 Low-code programming (LCP) refers to programming using models at higher levels of abstraction, resulting in less manual and more efficient programming, and reduced learning effort for amateur developers. Many LCP tools have rapidly evolved and have benefited from the concepts of visual programming languages (VPLs) and programming by demonstration (PBD). With huge increase in interest in using large language models (LLMs) in software engineering, LLM-based LCP has began to become increasingly important. However, the technical principles and application scenarios of traditional approaches to LCP and LLM-based LCP are significantly different. Understanding these key differences and characteristics in the application of the two approaches to LCP by users is crucial for LCP providers in improving existing and developing new LCP tools, and in better assisting users in choosing the appropriate LCP technology. We conducted an empirical study of both traditional LCP and LLM-based LCP. We analyzed developers' discussions on Stack Overflow (SO) over the past three years and then explored the similarities and differences between traditional LCP and LLM-based LCP features and developer feedback. Our findings reveal that while traditional LCP and LLM-based LCP share common primary usage scenarios, they significantly differ in scope, limitations and usage throughout the software development lifecycle, particularly during the implementation phase. We also examine how LLMs impact and integrate with LCP, discussing the latest technological developments in LLM-based LCP, such as its integration with VPLs and the application of LLM Agents in software engineering. | 翻訳日:2024-02-05 16:53:59 公開日:2024-02-02 |
# CABINET:テーブル質問応答のためのコンテンツ関連に基づくノイズ低減 CABINET: Content Relevance based Noise Reduction for Table Question Answering ( http://arxiv.org/abs/2402.01155v1 ) ライセンス: Link先を確認 | Sohan Patnaik, Heril Changwal, Milan Aggarwal, Sumita Bhatia, Yaman Kumar, Balaji Krishnamurthy | (参考訳) 大規模言語モデル(LLM)の表理解能力は,質問応答(QA)をテーブル上で行うことで,広範囲に研究されている。
通常、テーブル全体の小さな部分だけが、与えられた質問に対する答えを導出するのに関係している。
無関係な部品はノイズとして機能し、ノイズに対するLSMの脆弱性のため、情報の邪魔となる。
そこで,本研究では,llmが表データに焦点を合わせることを可能にする枠組みであるキャビネット(表質問応答のためのコンテント関連に基づくノイズ低減)を提案する。
CABINETは、QA LLMと差分訓練されたUnsupervised Relevance Scorer(URS)と、QA LLM(QA LLM)に応答する前に入力された質問に対する関連性に基づいてテーブル内容を測定する。
関連スコアラをさらに支援するために、CABINETは、質問に関連する行と列の基準を記述した解析文を生成し、対応するテーブルセルの内容を強調する弱教師付きモジュールを使用している。
CABINET は様々な表形式の LLM ベースラインと GPT3 ベースのインコンテキスト学習手法を著しく上回り、ノイズに対して堅牢であり、様々なサイズのテーブル上でパフォーマンスを維持し、WikiTQ、FeTaQA、WikiSQL データセット上で新たな SoTA パフォーマンスを確立する。
コードとデータセットはhttps://github.com/Sohanpatnaik106/CABINET_QAで公開しています。 Table understanding capability of Large Language Models (LLMs) has been extensively studied through the task of question-answering (QA) over tables. Typically, only a small part of the whole table is relevant to derive the answer for a given question. The irrelevant parts act as noise and are distracting information, resulting in sub-optimal performance due to the vulnerability of LLMs to noise. To mitigate this, we propose CABINET (Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering) - a framework to enable LLMs to focus on relevant tabular data by suppressing extraneous information. CABINET comprises an Unsupervised Relevance Scorer (URS), trained differentially with the QA LLM, that weighs the table content based on its relevance to the input question before feeding it to the question-answering LLM (QA LLM). To further aid the relevance scorer, CABINET employs a weakly supervised module that generates a parsing statement describing the criteria of rows and columns relevant to the question and highlights the content of corresponding table cells. CABINET significantly outperforms various tabular LLM baselines, as well as GPT3-based in-context learning methods, is more robust to noise, maintains outperformance on tables of varying sizes, and establishes new SoTA performance on WikiTQ, FeTaQA, and WikiSQL datasets. We release our code and datasets at https://github.com/Sohanpatnaik106/CABINET_QA. | 翻訳日:2024-02-05 16:53:31 公開日:2024-02-02 |
# AccentFold: アフリカのアクセントを通したアセットをターゲットとするゼロショットASR適応 AccentFold: A Journey through African Accents for Zero-Shot ASR Adaptation to Target Accents ( http://arxiv.org/abs/2402.01152v1 ) ライセンス: Link先を確認 | Abraham Toluwase Owodunni, Aditya Yadavalli, Chris Chinenye Emezue, Tobi Olatunji, Clinton C Mbataku | (参考訳) 音声認識の進歩にもかかわらず、アクセント付き音声は依然として困難である。
これまでのアプローチでは、モデリング技術やアクセント付き音声データセットの作成に重点を置いてきたが、多くのアクセント、特にアフリカの文脈で十分なデータを集めることは、その多様性と関連する予算上の制約のために実用的ではない。
これらの課題に対処するために,学習されたアクセント埋め込み間の空間的関係を利用して下流自動音声認識(asr)を改善する方法である \textit{accentfold} を提案する。
100以上のアフリカのアクセントを表す音声埋め込みの探索分析により,地理的・系学的類似性を強調する興味深い空間的アクセント関係が明らかになった。
さらに,エトノローグによるアクセント関係も発見する。
経験的評価を通じて,アクセントフォールド情報に基づく学習用アクセントサブセットのサンプリングが,相対的なwr改善率4.6%を上回っていることを示すことにより,アクセントフォールドの有効性を実証する。
AccentFoldは、アクセント付き音声、特にデータ不足と予算制約が大きな課題をもたらすアフリカのアクセントの文脈で、ASRのパフォーマンスを改善するための有望なアプローチを提示している。
本研究は,言語的関係を利用して,ターゲットアクセントに対するゼロショットASR適応を改善する可能性を強調した。 Despite advancements in speech recognition, accented speech remains challenging. While previous approaches have focused on modeling techniques or creating accented speech datasets, gathering sufficient data for the multitude of accents, particularly in the African context, remains impractical due to their sheer diversity and associated budget constraints. To address these challenges, we propose \textit{AccentFold}, a method that exploits spatial relationships between learned accent embeddings to improve downstream Automatic Speech Recognition (ASR). Our exploratory analysis of speech embeddings representing 100+ African accents reveals interesting spatial accent relationships highlighting geographic and genealogical similarities, capturing consistent phonological, and morphological regularities, all learned empirically from speech. Furthermore, we discover accent relationships previously uncharacterized by the Ethnologue. Through empirical evaluation, we demonstrate the effectiveness of AccentFold by showing that, for out-of-distribution (OOD) accents, sampling accent subsets for training based on AccentFold information outperforms strong baselines a relative WER improvement of 4.6%. AccentFold presents a promising approach for improving ASR performance on accented speech, particularly in the context of African accents, where data scarcity and budget constraints pose significant challenges. Our findings emphasize the potential of leveraging linguistic relationships to improve zero-shot ASR adaptation to target accents. | 翻訳日:2024-02-05 16:53:03 公開日:2024-02-02 |
# キャビティマグノメカニクスにおける非線形効果による2つの異なるマグノンモードの絡み合い強化 Entanglement enhancement of two different magnon modes via nonlinear effect in cavity magnomechanics ( http://arxiv.org/abs/2402.01150v1 ) ライセンス: Link先を確認 | Ke Di, Xi Wang, Shuai Tan, Yinxue Zhao, Yu Liu, Anyu Cheng and Jiajia Du | (参考訳) 非線形効果によるキャビティマグノメカニクスにおける2つの異なるマグノンモードの絡み合いを増大させる手法を提案する。
このスキームは、2つのマグノンモードの絡み合いを高める非線形効果を示した。
さらに、2つのマグノンモードの絡み合いは、マイクロ波パラメトリック増幅(PA)とマグノン自己Kerr非線形性によって著しく向上する。
線量非線形効果は、エンタングルメントの強度を高めるだけでなく、温度に対するエンタングルメントのロバスト性を高める。
提案手法は,量子物理学と量子情報処理理論の基礎理論の研究において重要な役割を果たす。 We present a scheme to enhance two different magnon modes entanglement in cavity magnomechanics via nonlinear effect. The scheme demonstrated that nonlinear effects enhance entanglement of the two magnon modes. Moreover, the entanglement of the two magnon modes is also significantly enhanced by microwave parametric amplification (PA) and magnon self-Kerr nonlinearity. Not only dose nonlinear effect enhances the strength of entanglement, but it also increases the robustness of entanglement against temperature. Our proposed scheme plays an important role in the research of fundamental theories of quantum physics and quantum information processing theory. | 翻訳日:2024-02-05 16:52:36 公開日:2024-02-02 |
# マルチレベル特徴融合のためのスケール等化 Scale Equalization for Multi-Level Feature Fusion ( http://arxiv.org/abs/2402.01149v1 ) ライセンス: Link先を確認 | Bum Jun Kim, Sang Woo Kim | (参考訳) ディープニューラルネットワークは、様々なコンピュータビジョン分野、特にセマンティックセグメンテーションタスクにおいて顕著な性能を示した。
彼らの成功は、イメージからグローバル情報とローカル情報の両方を理解できるマルチレベル機能融合に起因することが多い。
しかし、並列ブランチのマルチレベル機能は異なるスケールにあることがわかった。
スケール不均衡は普遍的かつ望ましくない欠陥であり、有害な勾配降下を引き起こし、セマンティックセグメンテーションにおける性能を低下させる。
スケール不均衡は、理論的および実証的な証拠の両方によって支持される双線形アップサンプリングによって引き起こされる。
この観察に基づいて,双線形アップサンプリング後の多レベル特徴のスケール平衡を達成するために,スケールイコライザの注入を提案する。
提案するスケール等化器は実装が容易で,任意のアーキテクチャに適用可能で,ハイパーパラメータフリーで,余分な計算コストを要さず実装可能であり,データセットのスケール平衡を保証する。
UPerHead、PSPHead、ASPPHead、SepASPPHead、FCNHeadを含む様々なデコーダ選択と同様に、ADE20K、PASCAL VOC 2012、Cityscapesを含む様々なターゲットデータセットのmIoUインデックスを一貫して改善した。 Deep neural networks have exhibited remarkable performance in a variety of computer vision fields, especially in semantic segmentation tasks. Their success is often attributed to multi-level feature fusion, which enables them to understand both global and local information from an image. However, we found that multi-level features from parallel branches are on different scales. The scale disequilibrium is a universal and unwanted flaw that leads to detrimental gradient descent, thereby degrading performance in semantic segmentation. We discover that scale disequilibrium is caused by bilinear upsampling, which is supported by both theoretical and empirical evidence. Based on this observation, we propose injecting scale equalizers to achieve scale equilibrium across multi-level features after bilinear upsampling. Our proposed scale equalizers are easy to implement, applicable to any architecture, hyperparameter-free, implementable without requiring extra computational cost, and guarantee scale equilibrium for any dataset. Experiments showed that adopting scale equalizers consistently improved the mIoU index across various target datasets, including ADE20K, PASCAL VOC 2012, and Cityscapes, as well as various decoder choices, including UPerHead, PSPHead, ASPPHead, SepASPPHead, and FCNHead. | 翻訳日:2024-02-05 16:52:26 公開日:2024-02-02 |
# ソボレフ空間におけるカーネル分類器の最適性 The Optimality of Kernel Classifiers in Sobolev Space ( http://arxiv.org/abs/2402.01148v1 ) ライセンス: Link先を確認 | Jianfa Lai, Zhifan Li, Dongming Huang, Qian Lin | (参考訳) カーネル法は機械学習、特に分類問題に広く用いられている。
しかし、カーネル分類の理論解析はまだ限られている。
本稿では,カーネル分類器の統計性能について検討する。
条件付き確率 $\eta(x)=\mathbb{p}(y=1\mid x=x)$ に関する穏やかな仮定により、カーネル回帰理論の最近の進歩を用いて、カーネル分類器の分類過剰リスクの上限を導出する。
また、提案された分類器の最適性を示すソボレフ空間に対するミニマックス下界を得る。
我々の理論的結果は、過パラメータ化ニューラルネットワーク分類器の一般化誤差にまで拡張できる。
また,理論結果をより現実的な設定に適用するために,2. eta(x)-1$の補間滑らか度を推定し,本手法を実データセットに適用する簡単な手法を提案する。 Kernel methods are widely used in machine learning, especially for classification problems. However, the theoretical analysis of kernel classification is still limited. This paper investigates the statistical performances of kernel classifiers. With some mild assumptions on the conditional probability $\eta(x)=\mathbb{P}(Y=1\mid X=x)$, we derive an upper bound on the classification excess risk of a kernel classifier using recent advances in the theory of kernel regression. We also obtain a minimax lower bound for Sobolev spaces, which shows the optimality of the proposed classifier. Our theoretical results can be extended to the generalization error of overparameterized neural network classifiers. To make our theoretical results more applicable in realistic settings, we also propose a simple method to estimate the interpolation smoothness of $2\eta(x)-1$ and apply the method to real datasets. | 翻訳日:2024-02-05 16:52:02 公開日:2024-02-02 |
# 不均一なキューシステムにおけるルーティングジョブの効率的な強化学習 Efficient Reinforcement Learning for Routing Jobs in Heterogeneous Queueing Systems ( http://arxiv.org/abs/2402.01147v1 ) ライセンス: Link先を確認 | Neharika Jali, Guannan Qu, Weina Wang, Gauri Joshi | (参考訳) 我々は、中央キューに到着するジョブを異種サーバシステムに効率的にルーティングする問題を考察する。
均質なシステムとは異なり、キューの長さが一定のしきい値を超えると遅いサーバにジョブをルーティングするしきい値ポリシーは、1つの高速な2つのサーバシステムにとって最適であることが知られている。
しかし、マルチサーバシステムに最適なポリシーは未知であり、見つからない。
強化学習(Reinforcement Learning, RL)はそのような場合, 学習方針に大きな可能性があることが認識されているが, この問題は指数関数的に大きな状態空間サイズを持ち, 標準のRLを非効率にする。
本研究では,待ち行列構造を利用した低次元ソフトしきい値ポリシパラメータ化を用いた,効率的なポリシー勾配に基づくアルゴリズムである achq を提案する。
一般の場合に対して定常点収束保証を提供し、低次元パラメータ化にもかかわらず、ACHQは2つのサーバの特別の場合の近似大域最適化に収束することを示す。
シミュレーションは、最も速く利用可能なサーバにルーティングされる欲望ポリシーよりも、最大30%程度の期待応答時間の改善を示している。 We consider the problem of efficiently routing jobs that arrive into a central queue to a system of heterogeneous servers. Unlike homogeneous systems, a threshold policy, that routes jobs to the slow server(s) when the queue length exceeds a certain threshold, is known to be optimal for the one-fast-one-slow two-server system. But an optimal policy for the multi-server system is unknown and non-trivial to find. While Reinforcement Learning (RL) has been recognized to have great potential for learning policies in such cases, our problem has an exponentially large state space size, rendering standard RL inefficient. In this work, we propose ACHQ, an efficient policy gradient based algorithm with a low dimensional soft threshold policy parameterization that leverages the underlying queueing structure. We provide stationary-point convergence guarantees for the general case and despite the low-dimensional parameterization prove that ACHQ converges to an approximate global optimum for the special case of two servers. Simulations demonstrate an improvement in expected response time of up to ~30% over the greedy policy that routes to the fastest available server. | 翻訳日:2024-02-05 16:51:49 公開日:2024-02-02 |
# 動的平均化によるカーネル化ペアワイズ学習のための限定記憶オンライングラディエントDescent Limited Memory Online Gradient Descent for Kernelized Pairwise Learning with Dynamic Averaging ( http://arxiv.org/abs/2402.01146v1 ) ライセンス: Link先を確認 | Hilal AlQuabeh, William de Vazelhes, Bin Gu | (参考訳) ペアワイズ学習は、機械学習における重要なドメインであり、メトリック学習やauc最大化を含む、トレーニング例のペアで定義された損失関数に対処する。
サンプルサイズが大きくなるにつれて、計算複雑性の二次的な成長がペアワイズ損失を伴うことを認め、研究者は拡張性を高めるためのオンライン勾配降下法(OGD)に目を向けた。
近年、OGDアルゴリズムが登場し、前例と最近の例を含む勾配計算を取り入れ、アルゴリズムの複雑さを効果的に$O(T)$に減らし、$T$は受信したサンプルの数である。
しかしこのアプローチは、サンプル到着の独立性を仮定しながら、線形モデルに限定する。
実例の独立性を必要としない軽量なOGDアルゴリズムを導入し、カーネル対学習に一般化する。
提案アルゴリズムは,ランダムな例と過去のデータを表す移動平均に基づいて勾配を構築し,その結果,O(T)$の複雑さに縛られたサブ線形後悔が生じる。
さらに、$O(\sqrt{T}{\log{T}})$ random Fourier機能を統合することで、カーネル計算の複雑さを効果的に最小化する。
実世界のデータセットによるいくつかの実験は、提案手法がオフラインおよびオンラインシナリオでカーネルと線形アルゴリズムより優れていることを示している。 Pairwise learning, an important domain within machine learning, addresses loss functions defined on pairs of training examples, including those in metric learning and AUC maximization. Acknowledging the quadratic growth in computation complexity accompanying pairwise loss as the sample size grows, researchers have turned to online gradient descent (OGD) methods for enhanced scalability. Recently, an OGD algorithm emerged, employing gradient computation involving prior and most recent examples, a step that effectively reduces algorithmic complexity to $O(T)$, with $T$ being the number of received examples. This approach, however, confines itself to linear models while assuming the independence of example arrivals. We introduce a lightweight OGD algorithm that does not require the independence of examples and generalizes to kernel pairwise learning. Our algorithm builds the gradient based on a random example and a moving average representing the past data, which results in a sub-linear regret bound with a complexity of $O(T)$. Furthermore, through the integration of $O(\sqrt{T}{\log{T}})$ random Fourier features, the complexity of kernel calculations is effectively minimized. Several experiments with real-world datasets show that the proposed technique outperforms kernel and linear algorithms in offline and online scenarios. | 翻訳日:2024-02-05 16:51:29 公開日:2024-02-02 |
# reevo: 反射的進化を伴う超ヒューリスティックな大規模言語モデル ReEvo: Large Language Models as Hyper-Heuristics with Reflective Evolution ( http://arxiv.org/abs/2402.01145v1 ) ライセンス: Link先を確認 | Haoran Ye, Jiarui Wang, Zhiguang Cao, Guojie Song | (参考訳) NP-hard combinatorial optimization problem (COP) の完全解釈は、ドメインの専門家をトライアル・アンド・エラー・ヒューリスティックな設計プロセスに参加させる。
設計自動化の長年の取り組みは、大きな言語モデル(LLM)の台頭とともに、新たな勢いを増している。
本稿では,LHH(Language Hyper-Heuristics)を提案する。LHH(Language Hyper-Heuristics)は,LLMをヒューリスティック生成に活用し,最小限の手動介入とオープンエンドヒューリスティック空間を特徴とする。
スケーラブルなllm推論、インターネットスケールのドメイン知識、強力な進化的検索によって人間の能力をはるかに超えつつ、人間の専門家の反射的設計アプローチを模倣する汎用的な検索フレームワークであるreflectionive evolution (reevo)を提案する。
12個のCOP設定で評価すると
1) 進化のための言語反射は、よりスムーズなフィットネスランドスケープ、ブラックボックスCOP設定の明示的な推測、検索結果の改善につながる。
2) ReEvo が数分で生成したヒューリスティックスは,最先端の人間設計やニューラルソルバより優れる。
3) LHHはブラックボックスCOPに挑戦しても効率的なアルゴリズム設計自動化を実現し, 複雑で斬新な実世界の応用の可能性を示した。
コードはhttps://github.com/ai4co/llm-as-hh。 The omnipresence of NP-hard combinatorial optimization problems (COPs) compels domain experts to engage in trial-and-error heuristic design process. The long-standing endeavor of design automation has gained new momentum with the rise of large language models (LLMs). This paper introduces Language Hyper-Heuristics (LHHs), an emerging variant of Hyper-Heuristics that leverages LLMs for heuristic generation, featuring minimal manual intervention and open-ended heuristic spaces. To empower LHHs, we present Reflective Evolution (ReEvo), a generic searching framework that emulates the reflective design approach of human experts while far surpassing human capabilities with its scalable LLM inference, Internet-scale domain knowledge, and powerful evolutionary search. Evaluations across 12 COP settings show that 1) verbal reflections for evolution lead to smoother fitness landscapes, explicit inference of black-box COP settings, and better search results; 2) heuristics generated by ReEvo in minutes can outperform state-of-the-art human designs and neural solvers; 3) LHHs enable efficient algorithm design automation even when challenged with black-box COPs, demonstrating its potential for complex and novel real-world applications. Our code is available: https://github.com/ai4co/LLM-as-HH. | 翻訳日:2024-02-05 16:51:04 公開日:2024-02-02 |
# グラフオートエンコーダを用いたネットワーク表現の学習 Learning Network Representations with Disentangled Graph Auto-Encoder ( http://arxiv.org/abs/2402.01143v1 ) ライセンス: Link先を確認 | Di Fan, Chuanhou Gao | (参考訳) 変分グラフオートエンコーダは、グラフ構造化データの表現の学習に広く用いられている。
しかし、実世界のグラフの形成は、潜在因子の影響を受け、複雑で不均一な過程である。
既存のエンコーダは基本的に全体論的であり、潜在因子の絡み合いを無視している。
これにより、グラフ分析タスクの効率が低下するだけでなく、表現の理解や説明が難しくなる。
グラフの自動エンコーダによる不連続グラフ表現の学習には大きな課題があり、既存の文献ではほとんど研究されていない。
本稿では,生成モデルを利用した不等角グラフ自動エンコーダ(dga)と不等角グラフ自動エンコーダ(dvga)について述べる。
具体的には,まず,マルチチャネルメッセージパッシング層を有する不等角グラフ畳み込みネットワークを,各不等角化潜在要因に関連する情報を集約するエンコーダとして設計する。
その後、各チャネルに成分流を印加し、非交叉変分グラフオートエンコーダの表現能力を向上する。
さらに,不整合表現の特性を考慮した因子的デコーダを設計する。
表現間の独立性をさらに高めるために,異なる潜伏要因のマッピングチャネルに独立性制約を導入する。
人工と実世界の両方のデータセットに関する実証実験は、いくつかの最先端ベースラインと比較して提案手法の優位性を示している。 The (variational) graph auto-encoder is extensively employed for learning representations of graph-structured data. However, the formation of real-world graphs is a complex and heterogeneous process influenced by latent factors. Existing encoders are fundamentally holistic, neglecting the entanglement of latent factors. This not only makes graph analysis tasks less effective but also makes it harder to understand and explain the representations. Learning disentangled graph representations with (variational) graph auto-encoder poses significant challenges, and remains largely unexplored in the existing literature. In this article, we introduce the Disentangled Graph Auto-Encoder (DGA) and Disentangled Variational Graph Auto-Encoder (DVGA), approaches that leverage generative models to learn disentangled representations. Specifically, we first design a disentangled graph convolutional network with multi-channel message-passing layers, as the encoder aggregating information related to each disentangled latent factor. Subsequently, a component-wise flow is applied to each channel to enhance the expressive capabilities of disentangled variational graph auto-encoder. Additionally, we design a factor-wise decoder, considering the characteristics of disentangled representations. In order to further enhance the independence among representations, we introduce independence constraints on mapping channels for different latent factors. Empirical experiments on both synthetic and real-world datasets show the superiority of our proposed method compared to several state-of-the-art baselines. | 翻訳日:2024-02-05 16:50:36 公開日:2024-02-02 |
# ニューラルグランガー因果発見を用いたマイクロサービスの根本原因解析 Root Cause Analysis In Microservice Using Neural Granger Causal Discovery ( http://arxiv.org/abs/2402.01140v1 ) ライセンス: Link先を確認 | Cheng-Ming Lin, Ching Chang, Wei-Yao Wang, Kuang-Da Wang, Wen-Chih Peng | (参考訳) 近年、マイクロサービスは、スケーラビリティ、メンテナンス、柔軟性のために、ITオペレーションに広く採用されている。
しかしながら、システム障害に直面しているマイクロサービスの複雑な関係によって、サイト信頼性エンジニア(SRE)が根本原因を特定することは難しくなる。
これまでの研究では、因果関係を確立し、因果グラフから根本原因を導出するために構造化学習法(pc-algorithmなど)を用いた。
それでも、時系列データの時間順を無視し、時間関係に固有の豊富な情報を活用できなかった。
例えば、CPU使用率が急上昇するケースでは、他のマイクロサービスのレイテンシが増加する可能性がある。
しかし、このシナリオでは、同時にではなく、レイテンシが増加する前にCPU利用の異常が発生する。
その結果、PCアルゴリズムはそのような特性を捉えることができない。
これらの課題に対処するため,ニューラルグラガー因果探索と対比学習を用いた根本原因解析の新しい手法であるRUNを提案する。
RUNは時系列からコンテキスト情報を統合することでバックボーンエンコーダを強化し、時系列予測モデルを利用して神経グランガー因果発見を行う。
さらに、RUNはPagerankをパーソナライズベクトルに組み込んで、トップkのルート原因を効率的に推奨する。
合成および実世界のマイクロサービスベースのデータセットで実施された大規模な実験は、RUNが最先端の根本原因分析方法よりも顕著に優れていることを示した。
さらに、マイクロサービスベースのアプリケーションにおけるRUNの実用性と有効性を示すために、ソックショップケースの分析シナリオを提供する。
私たちのコードはhttps://github.com/zmlin1998/RUNで公開されています。 In recent years, microservices have gained widespread adoption in IT operations due to their scalability, maintenance, and flexibility. However, it becomes challenging for site reliability engineers (SREs) to pinpoint the root cause due to the complex relationships in microservices when facing system malfunctions. Previous research employed structured learning methods (e.g., PC-algorithm) to establish causal relationships and derive root causes from causal graphs. Nevertheless, they ignored the temporal order of time series data and failed to leverage the rich information inherent in the temporal relationships. For instance, in cases where there is a sudden spike in CPU utilization, it can lead to an increase in latency for other microservices. However, in this scenario, the anomaly in CPU utilization occurs before the latency increase, rather than simultaneously. As a result, the PC-algorithm fails to capture such characteristics. To address these challenges, we propose RUN, a novel approach for root cause analysis using neural Granger causal discovery with contrastive learning. RUN enhances the backbone encoder by integrating contextual information from time series, and leverages a time series forecasting model to conduct neural Granger causal discovery. In addition, RUN incorporates Pagerank with a personalization vector to efficiently recommend the top-k root causes. Extensive experiments conducted on the synthetic and real-world microservice-based datasets demonstrate that RUN noticeably outperforms the state-of-the-art root cause analysis methods. Moreover, we provide an analysis scenario for the sock-shop case to showcase the practicality and efficacy of RUN in microservice-based applications. Our code is publicly available at https://github.com/zmlin1998/RUN. | 翻訳日:2024-02-05 16:50:15 公開日:2024-02-02 |
# 減衰ステップサイズによるオンライン共形予測 Online conformal prediction with decaying step sizes ( http://arxiv.org/abs/2402.01139v1 ) ライセンス: Link先を確認 | Anastasios N. Angelopoulos and Rina Foygel Barber and Stephen Bates | (参考訳) 本稿では,ステップサイズの減衰を伴うオンラインコンフォメーション予測手法を提案する。
従来の方法と同様に、任意のシーケンスに対するカバレッジのレトロスペクティブが保証されています。
しかし、従来の方法と異なり、同時に人口の量子化を推定できる。
我々の理論と実験は、特に、分布が安定な場合、その範囲は観測されたシーケンスの平均だけでなく、各時点の所望のレベルに近づいたことを示す。 We introduce a method for online conformal prediction with decaying step sizes. Like previous methods, ours possesses a retrospective guarantee of coverage for arbitrary sequences. However, unlike previous methods, we can simultaneously estimate a population quantile when it exists. Our theory and experiments indicate substantially improved practical properties: in particular, when the distribution is stable, the coverage is close to the desired level for every time point, not just on average over the observed sequence. | 翻訳日:2024-02-05 16:49:49 公開日:2024-02-02 |
# 脳波を用いた感情認識におけるグラフニューラルネットワーク Graph Neural Networks in EEG-based Emotion Recognition: A Survey ( http://arxiv.org/abs/2402.01138v1 ) ライセンス: Link先を確認 | Chenyu Liu, Xinliang Zhou, Yihao Wu, Ruizhi Yang, Liming Zhai, Ziyu Jia and Yang Liu | (参考訳) 他のモダリティと比較すると、脳波に基づく感情認識は人間の脳の感情パターンに直感的に反応し、脳とコンピュータのインターフェイスの分野で最も関係のあるタスクの1つになっている。
脳領域内の依存関係は感情と密接に関連しているため、脳波に基づく感情認識のためのグラフニューラルネットワーク(GNN)を開発することが大きなトレンドである。
しかし、感情脳波の脳領域依存性は、この領域のGNNと他の時系列領域のGNNを区別する生理的基盤を持つ。
さらに、脳波に基づく感情認識において、GNNを構築するための包括的なレビューやガイダンスは存在しない。
本調査では,グラフ構築の統一的枠組みの下での既存手法の共通点と相違点を明らかにする。
脳波に基づく感情認識におけるGNN構築のための明確なガイダンスを提供するために,フレームワークの3段階から手法を分析し,分類する。
さらに,時間的全連結グラフやグラフ凝縮など,オープンな課題や今後の方向性についても論じる。 Compared to other modalities, EEG-based emotion recognition can intuitively respond to the emotional patterns in the human brain and, therefore, has become one of the most concerning tasks in the brain-computer interfaces field. Since dependencies within brain regions are closely related to emotion, a significant trend is to develop Graph Neural Networks (GNNs) for EEG-based emotion recognition. However, brain region dependencies in emotional EEG have physiological bases that distinguish GNNs in this field from those in other time series fields. Besides, there is neither a comprehensive review nor guidance for constructing GNNs in EEG-based emotion recognition. In the survey, our categorization reveals the commonalities and differences of existing approaches under a unified framework of graph construction. We analyze and categorize methods from three stages in the framework to provide clear guidance on constructing GNNs in EEG-based emotion recognition. In addition, we discuss several open challenges and future directions, such as Temporal full-connected graph and Graph condensation. | 翻訳日:2024-02-05 16:49:43 公開日:2024-02-02 |
# マルチエージェント対話型推薦システム A Multi-Agent Conversational Recommender System ( http://arxiv.org/abs/2402.01135v1 ) ライセンス: Link先を確認 | Jiabao Fang, Shen Gao, Pengjie Ren, Xiuying Chen, Suzan Verberne, Zhaochun Ren | (参考訳) ユーザとのフルーエントでマルチターンな会話を行う能力があるため、大規模な言語モデル(llm)は、会話レコメンデーションシステム(crs)のパフォーマンスをさらに向上させる可能性がある。
LLMが出力する目的のないチップチャットとは異なり、CRSは明確なターゲットを持つ。
そのため、LLM内の対話フローを制御し、適切な項目をユーザに推薦することが不可欠である。
さらに、CRSのユーザフィードバックは、既存の研究で無視されているユーザの好みをモデル化するのに役立つ。
しかし、LLMに会話レコメンデーションの実施を促すだけでは、上記の2つの課題に対処できない。
本稿では,2つの必須モジュールを含むマルチエージェント対話型推薦システム(macrs)を提案する。
まず,4つのLCMエージェントをベースとした対話フローを制御可能なマルチエージェント行動計画フレームワークを設計する。
この協調型マルチエージェントフレームワークは、異なる対話行動に基づいて様々な候補応答を生成し、次にシステム応答として最も適切な応答を選択し、MACRSが適切な対話行動を計画するのに役立つ。
第2に,ユーザのフィードバックを生かして,前の順番の誤りを推論し,対話行為計画の調整を行い,暗黙の意味から高レベルなユーザ情報を得る,ユーザフィードバック認識リフレクション機構を提案する。
本研究では,ユーザシミュレータに基づく大規模な実験を行い,MACRSのレコメンデーションおよびユーザ嗜好収集における有効性を示す。
実験結果から,MACRS は LLM を直接使用するよりもユーザインタラクションエクスペリエンスが向上していることが示された。 Due to strong capabilities in conducting fluent, multi-turn conversations with users, Large Language Models (LLMs) have the potential to further improve the performance of Conversational Recommender System (CRS). Unlike the aimless chit-chat that LLM excels at, CRS has a clear target. So it is imperative to control the dialogue flow in the LLM to successfully recommend appropriate items to the users. Furthermore, user feedback in CRS can assist the system in better modeling user preferences, which has been ignored by existing studies. However, simply prompting LLM to conduct conversational recommendation cannot address the above two key challenges. In this paper, we propose Multi-Agent Conversational Recommender System (MACRS) which contains two essential modules. First, we design a multi-agent act planning framework, which can control the dialogue flow based on four LLM-based agents. This cooperative multi-agent framework will generate various candidate responses based on different dialogue acts and then choose the most appropriate response as the system response, which can help MACRS plan suitable dialogue acts. Second, we propose a user feedback-aware reflection mechanism which leverages user feedback to reason errors made in previous turns to adjust the dialogue act planning, and higher-level user information from implicit semantics. We conduct extensive experiments based on user simulator to demonstrate the effectiveness of MACRS in recommendation and user preferences collection. Experimental results illustrate that MACRS demonstrates an improvement in user interaction experience compared to directly using LLMs. | 翻訳日:2024-02-05 16:49:28 公開日:2024-02-02 |
# deepbranchtracer:多機能学習を用いた線形構造再構成への汎用的アプローチ DeepBranchTracer: A Generally-Applicable Approach to Curvilinear Structure Reconstruction Using Multi-Feature Learning ( http://arxiv.org/abs/2402.01187v1 ) ライセンス: Link先を確認 | Chao Liu, Ting Zhao, Nenggan Zheng | (参考訳) 線状連続物体を含む曲線構造は、画像ベースアプリケーションにおける基本的な幾何学的要素である。
画像からこれらの構造を再構築することは、コンピュータビジョンにおいて重要な研究領域である。
しかし、複雑なトポロジーと曖昧な画像証拠は、この過程を困難な課題にしている。
本稿では,外部画像の特徴と内部幾何学的特徴の両方を学習し,曲線構造を再構築するDeepBranchTracerを紹介する。
まず,幾何学的属性推定問題として,曲線構造抽出を定式化する。
そして、中心線と境界のイメージ特徴と方向と半径の幾何学的特徴を含む必須分岐属性を抽出するように、曲線構造特徴学習ネットワークを設計する。
最後に,多機能融合追跡手法を用いて,抽出した画像と幾何学的特徴を統合することにより,枝全体を反復的にトレースする。
2dデータセットと3dデータセットの両方でモデルを広範囲に評価し、精度と連続性の観点から既存のセグメンテーションおよび再構成法よりも優れた性能を示した。 Curvilinear structures, which include line-like continuous objects, are fundamental geometrical elements in image-based applications. Reconstructing these structures from images constitutes a pivotal research area in computer vision. However, the complex topology and ambiguous image evidence render this process a challenging task. In this paper, we introduce DeepBranchTracer, a novel method that learns both external image features and internal geometric characteristics to reconstruct curvilinear structures. Firstly, we formulate the curvilinear structures extraction as a geometric attribute estimation problem. Then, a curvilinear structure feature learning network is designed to extract essential branch attributes, including the image features of centerline and boundary, and the geometric features of direction and radius. Finally, utilizing a multi-feature fusion tracing strategy, our model iteratively traces the entire branch by integrating the extracted image and geometric features. We extensively evaluated our model on both 2D and 3D datasets, demonstrating its superior performance over existing segmentation and reconstruction methods in terms of accuracy and continuity. | 翻訳日:2024-02-05 16:42:38 公開日:2024-02-02 |
# 雑音データからの医用画像翻訳のためのアンビエントPix2PixGAN Ambient-Pix2PixGAN for Translating Medical Images from Noisy Data ( http://arxiv.org/abs/2402.01186v1 ) ライセンス: Link先を確認 | Wentao Chen, Xichen Xu, Jie Luo, Weimin Zhou | (参考訳) 画像から画像への翻訳はコンピュータビジョンにおいて一般的な作業であり、医療画像の分野へのインパクトは急速に増大している。
Pix2PixGANのような条件付き生成逆数ネットワーク(cGAN)を用いるディープラーニングベースの手法は、画像から画像への変換タスクを実行するために広く研究されている。
しかし、ノイズの多い医用画像データを考えると、このような手法を直接適用することはできない。
近年,高画質クリーンな医用画像の合成のためにノイズ測定データに基づいてトレーニング可能なAmbientGANという拡張型GANアーキテクチャが提案されている。
本研究では,Ambient-Pix2PixGANを用いて,ノイズ測定データを用いて医用画像から画像への変換処理を行う新しいcGANアーキテクチャであるAmbient-Pix2PixGANを提案する。
MRIからPETへの翻訳を検討する数値的研究を行った。
従来の画像品質指標とタスクベースの画像品質指標の両方を用いて、提案されたAmbient-Pix2PixGANを評価する。
提案したAmbient-Pix2PixGANはノイズ測定データに基づいて,高画質の変換画像を生成することができることを示す。 Image-to-image translation is a common task in computer vision and has been rapidly increasing the impact on the field of medical imaging. Deep learning-based methods that employ conditional generative adversarial networks (cGANs), such as Pix2PixGAN, have been extensively explored to perform image-to-image translation tasks. However, when noisy medical image data are considered, such methods cannot be directly applied to produce clean images. Recently, an augmented GAN architecture named AmbientGAN has been proposed that can be trained on noisy measurement data to synthesize high-quality clean medical images. Inspired by AmbientGAN, in this work, we propose a new cGAN architecture, Ambient-Pix2PixGAN, for performing medical image-to-image translation tasks by use of noisy measurement data. Numerical studies that consider MRI-to-PET translation are conducted. Both traditional image quality metrics and task-based image quality metrics are employed to assess the proposed Ambient-Pix2PixGAN. It is demonstrated that our proposed Ambient-Pix2PixGAN can be successfully trained on noisy measurement data to produce high-quality translated images in target imaging modality. | 翻訳日:2024-02-05 16:42:14 公開日:2024-02-02 |
# 少数ショットNested Named Entity Recognitionのための文脈学習 In-Context Learning for Few-Shot Nested Named Entity Recognition ( http://arxiv.org/abs/2402.01182v1 ) ライセンス: Link先を確認 | Meishan Zhang, Bin Wang, Hao Fei, Min Zhang | (参考訳) ネストされた名前付きエンティティ認識(ner)では、エンティティは互いにネストされ、より多くのデータアノテーションが要求される。
これは、インコンテキスト学習(icl)を伴う事前学習された言語モデルの普及が有望なソリューションを提供する、少数ショットのネスト型nerの開発に繋がる。
本研究では,数発のネストNERの設定に有効なICLフレームワークを提案する。
我々は,新しいサンプルデモ選択機構であるエンデレトリーバを考案し,iclプロンプトを改善する。
エンデレトリーバでは,コントラスト学習を用いて意味的類似性,境界的類似性,ラベル的類似性という3種類の表現学習を行い,高品質な実演例を生成する。
3つのネストnerと4つのフラットnerデータセットに関する広範囲な実験を行い,システムの有効性を実証した。 In nested Named entity recognition (NER), entities are nested with each other, and thus requiring more data annotations to address. This leads to the development of few-shot nested NER, where the prevalence of pretrained language models with in-context learning (ICL) offers promising solutions. In this work, we introduce an effective and innovative ICL framework for the setting of few-shot nested NER. We improve the ICL prompt by devising a novel example demonstration selection mechanism, EnDe retriever. In EnDe retriever, we employ contrastive learning to perform three types of representation learning, in terms of semantic similarity, boundary similarity, and label similarity, to generate high-quality demonstration examples. Extensive experiments over three nested NER and four flat NER datasets demonstrate the efficacy of our system. | 翻訳日:2024-02-05 16:40:57 公開日:2024-02-02 |
# 外部コーパスを活用した知識集約型タスクのための統一言語モデルの構築 Towards a Unified Language Model for Knowledge-Intensive Tasks Utilizing External Corpus ( http://arxiv.org/abs/2402.01176v1 ) ライセンス: Link先を確認 | Xiaoxi Li, Zhicheng Dou, Yujia Zhou, Fangchao Liu | (参考訳) 大規模言語モデル(LLM)の出現は、様々な領域で有効性を示すが、特に外部の知識源を必要とする知識集約的なタスクにおいて、幻覚を呈することが多い。
言語モデルの現実的精度を向上させるために,検索拡張生成(RAG)が一般的なソリューションとして登場した。
しかし、従来の検索モジュールは、しばしば大規模なドキュメントインデックスに依存しており、生成タスクから切り離すことができる。
生成検索(GR)アプローチにより,関連する文書識別子(DocID)を直接生成することにより,言語モデルによる検索性能が向上する。
しかし、GR と下流タスクの関係は、GR における LLM の可能性と同様に未解明のままである。
本稿では,外部コーパスを用いて生成検索,クローズドブック生成,RAGをシームレスに統合することにより,様々な知識集約タスクを処理する統一言語モデルを提案する。
統合された連続復号処理により効果的な検索・生成を実現するため,(1)DocIDランキングリストから直接学習することでランキング能力を向上させるランキング指向DocIDデコーディング戦略,(2)効率的かつ効率的なRAGを促進する継続的生成戦略,(3)DocIDのモデル理解と下流タスクとの関連性を高めるためのよく設計された補助DocID理解タスクを紹介する。
提案手法は,エンコーダデコーダT5モデルとデコーダのみのLLMであるLlama2の2種類のバックボーンモデルを用いて,KILTベンチマークを用いて評価した。
実験結果は,検索とダウンストリームの知識集約タスクにおいて,モデルが優れた性能を示す。 The advent of large language models (LLMs) has showcased their efficacy across various domains, yet they often hallucinate, especially in knowledge-intensive tasks that require external knowledge sources. To improve factual accuracy of language models, retrieval-augmented generation (RAG) has emerged as a popular solution. However, traditional retrieval modules often rely on large-scale document indexes, which can be disconnected from generative tasks. Through generative retrieval (GR) approach, language models can achieve superior retrieval performance by directly generating relevant document identifiers (DocIDs). However, the relationship between GR and downstream tasks, as well as the potential of LLMs in GR, remains unexplored. In this paper, we present a unified language model that utilizes external corpus to handle various knowledge-intensive tasks by seamlessly integrating generative retrieval, closed-book generation, and RAG. In order to achieve effective retrieval and generation through a unified continuous decoding process, we introduce the following mechanisms: (1) a ranking-oriented DocID decoding strategy, which improves ranking ability by directly learning from a DocID ranking list; (2) a continuous generation strategy to facilitate effective and efficient RAG; (3) well-designed auxiliary DocID understanding tasks to enhance the model's comprehension of DocIDs and their relevance to downstream tasks. Our approach is evaluated on the widely used KILT benchmark using two variants of backbone models: an encoder-decoder T5 model and a decoder-only LLM, Llama2. Experimental results showcase the superior performance of our models in both retrieval and downstream knowledge-intensive tasks. | 翻訳日:2024-02-05 16:40:29 公開日:2024-02-02 |
# 埋め込み類似性を利用した効率的なプロンプトキャッシング Efficient Prompt Caching via Embedding Similarity ( http://arxiv.org/abs/2402.01173v1 ) ライセンス: Link先を確認 | Hanlin Zhu, Banghua Zhu, Jiantao Jiao | (参考訳) 大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクで大きな成功を収めた。
しかし、推論中にかなりのリソース消費の課題に直面している。
本稿では,従来のプロンプトと同じ応答で現在のプロンプトが応答できる場合,LCMを呼ばずに,その前の応答を直接利用できるようにすることで,LCMの推論効率を向上させることを目的とする。
具体的には,組込み類似性による単ラウンド質問応答タスクに対するプロンプトキャッシングの予測精度に着目した。
既存のプロンプトの埋め込みは主に、2つのプロンプトが意味的に類似しているかどうかに焦点を当てている。
そこで本研究では,既存の埋蔵量を微調整してキャッシング予測を改善する蒸留法を提案する。
理論的には、異なるタイプの損失関数の下での収束に対する有限サンプル保証を提供する。
経験的に、Kwiatkowski et al. (2019)に基づくハードデータセットを慎重に構築し、既存の埋め込みモデル(Wang et al., 2022)は0.51のAUCしか達成しない。
次に、上記の埋め込みモデルを微調整し、キャッシュ予測のAUCを0.51から0.81に大幅に改善する。
また、トレーニングしたモデルが以前の埋め込みモデルよりもキャッシュ効率が良いことを実証するシミュレーションも行います。 Large language models (LLMs) have achieved huge success in numerous natural language process (NLP) tasks. However, it faces the challenge of significant resource consumption during inference. In this paper, we aim to improve the inference efficiency of LLMs by prompt caching, i.e., if the current prompt can be answered by the same response of a previous prompt, one can directly utilize that previous response without calling the LLM. Specifically, we focus on the prediction accuracy of prompt caching for single-round question-answering tasks via embedding similarity. The existing embeddings of prompts mostly focus on whether two prompts are semantically similar, which is not necessarily equivalent to whether the same response can answer them. Therefore, we propose a distillation-based method to fine-tune the existing embeddings for better caching prediction. Theoretically, we provide finite-sample guarantees for the convergence of our method under different types of loss functions. Empirically, we carefully construct a hard dataset based on Kwiatkowski et al. (2019) where the existing embedding model (Wang et al., 2022) only achieves an AUC of 0.51. We then fine-tune the above embedding model, which significantly improves the AUC of caching prediction from 0.51 to 0.81. We also conduct simulations demonstrating that our trained models achieve better caching efficiency than the previous embedding model. | 翻訳日:2024-02-05 16:39:57 公開日:2024-02-02 |
# 動的圧縮によるストリーミングシーケンス変換 Streaming Sequence Transduction through Dynamic Compression ( http://arxiv.org/abs/2402.01172v1 ) ライセンス: Link先を確認 | Weiting Tan, Yunmo Chen, Tongfei Chen, Guanghui Qin, Haoran Xu, Heidi C. Zhang, Benjamin Van Durme, Philipp Koehn | (参考訳) 本稿では,ストリーム上の効率のよいシーケンス・ツー・シーケンス・トランスダクションを設計した新しいトランスフォーマーモデルであるSTAR(Stream Transduction with Anchor Representations)を紹介する。
starは入力ストリームを動的にセグメント化し、圧縮アンカー表現を生成し、自動音声認識 (asr) においてほぼ無損失圧縮 (12x) を達成する。
さらにSTARは、音声とテキストの同時タスクにおいて、より優れたセグメンテーションとレイテンシ品質のトレードオフを示し、レイテンシ、メモリフットプリント、品質を最適化する。 We introduce STAR (Stream Transduction with Anchor Representations), a novel Transformer-based model designed for efficient sequence-to-sequence transduction over streams. STAR dynamically segments input streams to create compressed anchor representations, achieving nearly lossless compression (12x) in Automatic Speech Recognition (ASR) and outperforming existing methods. Moreover, STAR demonstrates superior segmentation and latency-quality trade-offs in simultaneous speech-to-text tasks, optimizing latency, memory footprint, and quality. | 翻訳日:2024-02-05 16:39:33 公開日:2024-02-02 |
# 数学ファントムに基づく解釈確率的物体モデルの構築のためのアンビエントCycleGANと医用画像計測 AmbientCycleGAN for Establishing Interpretable Stochastic Object Models Based on Mathematical Phantoms and Medical Imaging Measurements ( http://arxiv.org/abs/2402.01171v1 ) ライセンス: Link先を確認 | Xichen Xu, Wentao Chen, Weimin Zhou | (参考訳) 診断的情報的画像を生成するために設計された医用画像システムは,課題ベースの画像品質測定(IQ)によって客観的に評価されるべきである。
理想的には、IQのタスクベースの測定の計算は、画像化対象のアンサンブルの変動を含む、測定データ中のランダム性のすべての源を考慮する必要がある。
このニーズに対処するために、合成されたオブジェクトやファントムのアンサンブルを生成する確率的オブジェクトモデル(SOM)を用いることができる。
様々な数学的SOMやファントムが開発され、ラムピーオブジェクトモデルやパラメータ化された胴体ファントムなどのオブジェクトを解釈可能に合成できる。
しかし、純粋に数学的に定義されたそのようなSOMは、現実的な物体のバリエーションを包括的に捉えることができないかもしれない。
現実的なSOMを確立するためには,実験データを使うことが望ましい。
医用画像計測によるSOMの確立のために, GAN (AmbientGAN) が最近提案されている。
しかし、アンビエントガンが生成する物体がどの程度制御可能かは、まだ不明である。
この研究はAmbientCycleGANと呼ばれる新しい手法を導入し、ノイズ測定データを用いて数学的SOMを現実的なSOMに変換する。
塊状背景(clb)モデルと実際のマンモグラムを考慮した数値的研究を行った。
提案手法は,数理モデルと雑音測定データに基づいて安定にSOMを確立できることを実証した。
さらに,提案したAmbientCycleGANの合成対象画像の特徴を解釈可能な制御能力について検討した。 Medical imaging systems that are designed for producing diagnostically informative images should be objectively assessed via task-based measures of image quality (IQ). Ideally, computation of task-based measures of IQ needs to account for all sources of randomness in the measurement data, including the variability in the ensemble of objects to be imaged. To address this need, stochastic object models (SOMs) that can generate an ensemble of synthesized objects or phantoms can be employed. Various mathematical SOMs or phantoms were developed that can interpretably synthesize objects, such as lumpy object models and parameterized torso phantoms. However, such SOMs that are purely mathematically defined may not be able to comprehensively capture realistic object variations. To establish realistic SOMs, it is desirable to use experimental data. An augmented generative adversarial network (GAN), AmbientGAN, was recently proposed for establishing SOMs from medical imaging measurements. However, it remains unclear to which extent the AmbientGAN-produced objects can be interpretably controlled. This work introduces a novel approach called AmbientCycleGAN that translates mathematical SOMs to realistic SOMs by use of noisy measurement data. Numerical studies that consider clustered lumpy background (CLB) models and real mammograms are conducted. It is demonstrated that our proposed method can stably establish SOMs based on mathematical models and noisy measurement data. Moreover, the ability of the proposed AmbientCycleGAN to interpretably control image features in the synthesized objects is investigated. | 翻訳日:2024-02-05 16:39:22 公開日:2024-02-02 |
# アンチデコヒーレンスを持つマックスウェルデーモン Maxwell demon with anti-decoherence ( http://arxiv.org/abs/2402.01170v1 ) ライセンス: Link先を確認 | Zi-Yan Zhang and Jian-Ying Du and Fu-Lin Zhang | (参考訳) 純粋な状態における複合システムのサブシステムは一般に混合状態にあり、全体の状態とともに変化する。
この現象は系全体のコヒーレンスから生じ、量子系と古典系の決定的な区別を表している。
このような量子特性は、2つの結合量子ビットが動作物質として働くオットー熱エンジンの働きを増強することができ、当初は負のワークアウトプットが発生して正の作業が得られる。
我々は,このオットーサイクルにおける正の働きの理由を説明するために,マクスウェル・デーモンの画像を活用し,二つのサブシステムの相互測定後のコヒーレンスの増加に寄与した。
逆に、量子計測-eraseサイクルは通常、測定過程における測定器の非一貫性に起因する負の作業を出力する。 Subsystems of a composite system in a pure state generally exist in mixed states and undergo changes with the overall state. This phenomenon arises from the coherence of the entire system and represents a crucial distinction between quantum and classical systems. Such a quantum property can enhance the work of an Otto heat engine, where two coupled qubits serve as the working substance, allowing situations in which negative work output initially occurred to now yield positive work. We utilize the imagery of Maxwell's demon to explain the reason for positive work in this Otto cycle, attributing it to the increased coherence after the mutual measurement of the two subsystems. Conversely, the quantum measurement-erase cycle typically outputs negative work, attributed to the decoherence of the instrument during the measurement process. | 翻訳日:2024-02-05 16:38:59 公開日:2024-02-02 |
# GELU活性化除去による整数SWIN変換器の高速化 Faster Inference of Integer SWIN Transformer by Removing the GELU Activation ( http://arxiv.org/abs/2402.01169v1 ) ライセンス: Link先を確認 | Mohammadreza Tayaranian, Seyyed Hasan Mozafari, James J. Clark, Brett Meyer, Warren Gross | (参考訳) swin transformerは、画像分類タスクにおいて最先端の精度を持つ目視トランスフォーマーモデルである。
この成功にもかかわらず、そのユニークなアーキテクチャは、同様のディープニューラルネットワークと比較して推論が遅くなる。
モデルの整数量子化は、推論遅延を改善するために使用される方法の1つである。
しかし、最先端技術ではモデルを完全に定量化することはできない。
本研究では,Swin TransformerのGELUアクティベーションに関連する浮動小数点演算を除去することにより,最先端手法の推論遅延を改善する。
従来,非整数演算を線形近似関数に置き換える提案がなされていたが,GELUをReLUアクティベーションに置き換える提案を行った。
reluの利点は、メモリと計算の複雑さが低いことである。
GELU を ReLU に置き換えることで, 精度の低下を補うため, 反復的知識蒸留を用いる。
我々はGELUのないSWIN変換器を定量化し、RTX 4090 NVIDIA GPUでは、画像Net評価データセット上で0.5 %以下の精度低下を維持しながら、少なくとも11 %の価格で量子化されたSWIN変換器の推論遅延を改善することができることを示す。 SWIN transformer is a prominent vision transformer model that has state-of-the-art accuracy in image classification tasks. Despite this success, its unique architecture causes slower inference compared with similar deep neural networks. Integer quantization of the model is one of the methods used to improve its inference latency. However, state-of-the-art has not been able to fully quantize the model. In this work, we improve upon the inference latency of the state-of-the-art methods by removing the floating-point operations, which are associated with the GELU activation in Swin Transformer. While previous work proposed to replace the non-integer operations with linear approximation functions, we propose to replace GELU with ReLU activation. The advantage of ReLU over previous methods is its low memory and computation complexity. We use iterative knowledge distillation to compensate for the lost accuracy due to replacing GELU with ReLU. We quantize our GELU-less SWIN transformer and show that on an RTX 4090 NVIDIA GPU we can improve the inference latency of the quantized SWIN transformer by at least $11\%$ while maintaining an accuracy drop of under $0.5\%$ on the ImageNet evaluation dataset. | 翻訳日:2024-02-05 16:38:45 公開日:2024-02-02 |
# チャーン絶縁体の細粒度分類におけるエッジ状態,バンドトポロジー,時間境界効果 Edge State, Band Topology, and Time Boundary Effect in the Fine-Grained Categorization of Chern Insulators ( http://arxiv.org/abs/2402.01167v1 ) ライセンス: Link先を確認 | H. C. Wu, H. S. Xu, L. C. Xie, and L. Jin | (参考訳) 我々は, フォトニックスピンハル, バレーハル, 高次トポロジカル位相と根本的に異なる, 反対のキラルエッジ状態の共存を支持する, 時間反転対称性の破れた新しい位相を予測した。
同一のチャーン数で特徴づけられるバンドトポロジーは全く異なるチャーン絶縁体の細粒度分類を見出した。
さらに、異なる位相がブロッホ波関数の重なりをゼロにし、バンドギャップを閉じて位相相転移の縮退点に現れることを証明した。
ブロッホ波動関数の重なりは、位相的時間境界における反射と屈折を予測し、重なりゼロは、時間境界前後の異なる位相が同じチャーン数を持つにもかかわらず、臨界時に再生振幅が消滅することを保証する。
以上の知見は, トポロジーのプローブとしての時間境界効果に隠されたトポロジー的特徴を明らかにし, 長距離カップリングに由来するリッチ物理の探求の場を開く, トポロジー的メタマテリアルの新しい機会を生み出している。 We predict novel topological phases with broken time-reversal symmetry supporting the coexistence of opposite chiral edge states, which are fundamentally different from the photonic spin-Hall, valley-Hall, and higher-order topological phases. We find a fine-grained categorization of Chern insulators, their band topologies characterized by identical Chern number are completely different. Furthermore, we prove that different topologies cause zeros in their Bloch wavefunction overlaps, which imprint the band gap closing and appear at the degenerate points of topological phase transition. The Bloch wavefunction overlaps predict the reflection and refraction at a topological time boundary, and the overlap zeros ensure the existence of vanishing revival amplitude at critical times even though different topologies before and after the time boundary have identical Chern number. Our findings create new opportunities for topological metamaterials, uncover the topological feature hidden in the time boundary effect as a probe of topology, and open a venue for the exploration of the rich physics originating from the long-range couplings. | 翻訳日:2024-02-05 16:38:22 公開日:2024-02-02 |
# 3次元コンテンツ生成に関する総合調査 A Comprehensive Survey on 3D Content Generation ( http://arxiv.org/abs/2402.01166v1 ) ライセンス: Link先を確認 | Jian Liu, Xiaoshui Huang, Tianyu Huang, Lu Chen, Yuenan Hou, Shixiang Tang, Ziwei Liu, Wanli Ouyang, Wangmeng Zuo, Junjun Jiang, Xianming Liu | (参考訳) 近年、人工知能生成コンテンツ(AIGC)の顕著な進歩が見られ、テキスト、画像、ビデオ、オーディオ、3Dなどの様々な入力モダリティがある。
3Dは現実世界の3D環境に最も近い視覚的モダリティであり、膨大な知識を持っている。
3Dコンテンツ生成は、学術的価値と実践的価値の両方を示しながら、重大な技術的課題も提示する。
本レビューは,3Dコンテンツ生成の急成長する領域内での開発を統合することを目的としている。
具体的には,既存のアプローチを3Dネイティブ生成法,2D先行3D生成法,ハイブリッド3D生成法という3つのタイプに分類する新たな分類法を提案する。
調査は主要な技術にまたがる約60の論文をカバーしている。
さらに,現在の3Dコンテンツ生成技術の限界についても論じ,オープンな課題と将来的な方向性を指摘する。
本調査と合わせて,3次元コンテンツ生成研究のリソースを提供するプロジェクトウェブサイトを開設した。
プロジェクトページはhttps://github.com/hitcslj/awesome-aigc-3dで入手できる。 Recent years have witnessed remarkable advances in artificial intelligence generated content(AIGC), with diverse input modalities, e.g., text, image, video, audio and 3D. The 3D is the most close visual modality to real-world 3D environment and carries enormous knowledge. The 3D content generation shows both academic and practical values while also presenting formidable technical challenges. This review aims to consolidate developments within the burgeoning domain of 3D content generation. Specifically, a new taxonomy is proposed that categorizes existing approaches into three types: 3D native generative methods, 2D prior-based 3D generative methods, and hybrid 3D generative methods. The survey covers approximately 60 papers spanning the major techniques. Besides, we discuss limitations of current 3D content generation techniques, and point out open challenges as well as promising directions for future work. Accompanied with this survey, we have established a project website where the resources on 3D content generation research are provided. The project page is available at https://github.com/hitcslj/Awesome-AIGC-3D. | 翻訳日:2024-02-05 16:37:59 公開日:2024-02-02 |
# 対立型自己監督学習を用いた都市域プロファイリング Enhanced Urban Region Profiling with Adversarial Self-Supervised Learning ( http://arxiv.org/abs/2402.01163v1 ) ライセンス: Link先を確認 | Weiliang Chan, Qianqian Ren, Jinbao Li | (参考訳) 都市域のプロファイリングはスマートシティにとって重要であるが、ノイズや不完全な都市データからきめ細かなセマンティクスをマイニングするのは難しい。
そこで本研究では,EUPASと呼ばれる都市域埋め込みのためのグラフ協調フィルタリングモデルを提案する。
具体的には、ヒトの移動データ、関心点(POI)情報、および各領域の地理的近傍の詳細を含む領域不均一グラフをモデルに入力し、GCNとマルチヘッドによる領域内および領域間依存関係を保存する領域埋め込みを生成する。
一方, 空間摂動増強は, 意味的に類似し, 空間的にアンカーに近接する正のサンプルを生成し, 後続のコントラスト学習に備える。
さらに, 強正の対を生成し, 強負の対を領域埋め込みにマイニングすることにより, 効果的なプレテキストタスクを構築するために, 対角訓練を用いる。
最後に、教師付き学習と自己教師付き学習を共同で最適化し、ノイズや重要でない詳細を無視しながら、領域埋め込みの高レベルな意味を捉えるようモデルに促す。
実世界のデータセットに関する広範囲な実験は、最先端の手法よりもモデルが優れていることを示している。 Urban region profiling is pivotal for smart cities, but mining fine-grained semantics from noisy and incomplete urban data remains challenging. In response, we propose a novel self-supervised graph collaborative filtering model for urban region embedding called EUPAS. Specifically, region heterogeneous graphs containing human mobility data, point of interests (POIs) information, and geographic neighborhood details for each region are fed into the model, which generates region embeddings that preserve intra-region and inter-region dependencies through GCNs and multi-head attention. Meanwhile, we introduce spatial perturbation augmentation to generate positive samples that are semantically similar and spatially close to the anchor, preparing for subsequent contrastive learning. Furthermore, adversarial training is employed to construct an effective pretext task by generating strong positive pairs and mining hard negative pairs for the region embeddings. Finally, we jointly optimize supervised and self-supervised learning to encourage the model to capture the high-level semantics of region embeddings while ignoring the noisy and unimportant details. Extensive experiments on real-world datasets demonstrate the superiority of our model over state-of-the-art methods. | 翻訳日:2024-02-05 16:37:43 公開日:2024-02-02 |
# 2afc 画質評価のための大規模マルチモーダルモデルの提案 2AFC Prompting of Large Multimodal Models for Image Quality Assessment ( http://arxiv.org/abs/2402.01162v1 ) ライセンス: Link先を確認 | Hanwei Zhu, Xiangjie Sui, Baoliang Chen, Xuelin Liu, Peilin Chen, Yuming Fang, and Shiqi Wang | (参考訳) 大規模マルチモーダルモデル(lmms)の高レベルな視覚理解と推論能力の改善に関する研究が盛んに行われているが、その視覚品質評価(iqa)能力は比較的過小評価されている。
ここでは,2AFCが視覚的品質の人的意見を集める最も信頼性の高い方法として広く見なされていることから,この目標に向かって第一歩を踏み出した。
その後、特定のLMMで推定される各画像のグローバルな品質スコアを、最大後部推定を用いて効率的に集計することができる。
一方,我々は,一貫性,正確性,相関性という3つの評価基準を導入して,5つのlmmのica能力に関する総合的な定量化と深い洞察を提供する。
大規模実験により, 既存のLMMは粗粒度比較に優れたIQA能力を示すことが示されたが, 微粒度判別には改善の余地がある。
提案したデータセットは,LMMに基づくIQAモデルの開発に光を当てている。
コードはhttps://github.com/h4nwei/2AFC-LMMsで公開される。 While abundant research has been conducted on improving high-level visual understanding and reasoning capabilities of large multimodal models~(LMMs), their visual quality assessment~(IQA) ability has been relatively under-explored. Here we take initial steps towards this goal by employing the two-alternative forced choice~(2AFC) prompting, as 2AFC is widely regarded as the most reliable way of collecting human opinions of visual quality. Subsequently, the global quality score of each image estimated by a particular LMM can be efficiently aggregated using the maximum a posterior estimation. Meanwhile, we introduce three evaluation criteria: consistency, accuracy, and correlation, to provide comprehensive quantifications and deeper insights into the IQA capability of five LMMs. Extensive experiments show that existing LMMs exhibit remarkable IQA ability on coarse-grained quality comparison, but there is room for improvement on fine-grained quality discrimination. The proposed dataset sheds light on the future development of IQA models based on LMMs. The codes will be made publicly available at https://github.com/h4nwei/2AFC-LMMs. | 翻訳日:2024-02-05 16:37:21 公開日:2024-02-02 |
# 分散sgdのための切断非一様量子化 Truncated Non-Uniform Quantization for Distributed SGD ( http://arxiv.org/abs/2402.01160v1 ) ライセンス: Link先を確認 | Guangfeng Yan, Tan Li, Yuanzhang Xiao, Congduan Li and Linqi Song | (参考訳) 分散学習におけるコミュニケーションボトルネックに対処するために,分散確率勾配 Descent (SGD) の通信効率を高めるために,本研究は,新しい2段階量子化戦略を導入する。
提案手法は当初, 長絡音の影響を緩和するためにトランザクションを用い, 次いで, 統計特性に基づく後絡勾配の非一様量子化を行った。
我々は,量子化分散sgdの包括的収束解析を行い,その性能に関する理論的保証を確立する。
さらに、収束誤差を最小化することにより、与えられた通信制約下での切断閾値と非一様量子化レベルに対する最適閉形式解を導出する。
理論的知見と広範な実験的評価は,提案アルゴリズムが既存の量子化方式よりも優れており,通信効率と収束性能のバランスが優れていることを示している。 To address the communication bottleneck challenge in distributed learning, our work introduces a novel two-stage quantization strategy designed to enhance the communication efficiency of distributed Stochastic Gradient Descent (SGD). The proposed method initially employs truncation to mitigate the impact of long-tail noise, followed by a non-uniform quantization of the post-truncation gradients based on their statistical characteristics. We provide a comprehensive convergence analysis of the quantized distributed SGD, establishing theoretical guarantees for its performance. Furthermore, by minimizing the convergence error, we derive optimal closed-form solutions for the truncation threshold and non-uniform quantization levels under given communication constraints. Both theoretical insights and extensive experimental evaluations demonstrate that our proposed algorithm outperforms existing quantization schemes, striking a superior balance between communication efficiency and convergence performance. | 翻訳日:2024-02-05 16:37:03 公開日:2024-02-02 |
# LLM-detector: オープンソースのLLM命令チューニングによるAI生成中国語テキスト検出の改善 LLM-Detector: Improving AI-Generated Chinese Text Detection with Open-Source LLM Instruction Tuning ( http://arxiv.org/abs/2402.01158v1 ) ライセンス: Link先を確認 | Rongsheng Wang and Haoming Chen and Ruizhe Zhou and Han Ma and Yaofei Duan and Yanlan Kang and Songhua Yang and Baoyu Fan and Tao Tan | (参考訳) ChatGPTや他の一般的な大規模言語モデル(LLM)は目覚ましい成功を収めているが、AI生成テキストの誤用も懸念されている。
BERTやRoBERTaなど、既存のAI生成テキスト検出モデルでは、ドメイン内のオーバーフィットが難しくなり、ドメイン外検出(OOD)のパフォーマンスが低下する。
そこで本研究では,まず,人文専門家が生成した中国語のテキスト応答を,複数のドメインに質問する9種類のLLMを用いて収集し,さらに,LLMによる文章と文を混合したデータセットを作成した。
LLMのインストラクションチューニングによる文書レベルと文レベルのテキスト検出のための新しい手法であるLLM-Detectorを提案する。
本手法は,事前学習中に獲得した知識llmを活用し,生成したテキストを検出する。
インストラクションチューニングは、モデルの応答とユーザの期待するテキスト検出タスクを調整します。
実験の結果,従来手法は文レベルのAI生成テキスト検出とOOD検出に苦慮していた。
対照的に,提案手法は文レベルおよび文書レベルのテキスト検出において,ベースライン法を著しく上回るだけでなく,強力な一般化能力を示す。
さらに、LLM-DetectorはオープンソースのLLMに基づいてトレーニングされているため、デプロイメント用にカスタマイズが容易である。 ChatGPT and other general large language models (LLMs) have achieved remarkable success, but they have also raised concerns about the misuse of AI-generated texts. Existing AI-generated text detection models, such as based on BERT and RoBERTa, are prone to in-domain over-fitting, leading to poor out-of-domain (OOD) detection performance. In this paper, we first collected Chinese text responses generated by human experts and 9 types of LLMs, for which to multiple domains questions, and further created a dataset that mixed human-written sentences and sentences polished by LLMs. We then proposed LLM-Detector, a novel method for both document-level and sentence-level text detection through Instruction Tuning of LLMs. Our method leverages the wealth of knowledge LLMs acquire during pre-training, enabling them to detect the text they generate. Instruction tuning aligns the model's responses with the user's expected text detection tasks. Experimental results show that previous methods struggle with sentence-level AI-generated text detection and OOD detection. In contrast, our proposed method not only significantly outperforms baseline methods in both sentence-level and document-level text detection but also demonstrates strong generalization capabilities. Furthermore, since LLM-Detector is trained based on open-source LLMs, it is easy to customize for deployment. | 翻訳日:2024-02-05 16:36:48 公開日:2024-02-02 |
# Transmon qudit相互作用に基づくFermi-Hubbardモデルの量子シミュレーション Quantum simulation of Fermi-Hubbard model based on transmon qudit interaction ( http://arxiv.org/abs/2402.01243v1 ) ライセンス: Link先を確認 | Arian Vezvaee, Nathan Earnest-Noble, Khadijeh Najafi | (参考訳) 強い相関現象を研究するための基本的な枠組みであるフェルミ・ハバードモデルは、非自明な設定を探索するときに量子シミュレーションの恩恵を受けることができる。
しかし、この問題をシミュレートするには、物理的相互作用をシミュレートするために必要な複雑なオンチップ接続性やスワップゲートに加えて、物理サイトの2倍の量子ビットを必要とする。
本研究では,そのような複雑さを克服するための量子量子シミュレーション手法を提案する。
フェルミ・ハバードモデルの対称性とクリフォード代数との固有の関係を利用して、まず、量子ビットベースのアプローチに関連する符号化コストを低減させるQudit Fermionic Mapping (QFM)を実証する。
次に、マッピングされたハミルトニアンのユニタリ進化を、マヨラナ作用素を物理的に 1 と 2 つのキュートゲートで解釈することで記述する。
QFMは4つのアクセス可能なエネルギーレベルを持つ任意の量子ハードウェアに使用することができるが、固定周波数のクォートトランスモンにネイティブ制御SUMゲート(qubit CNOTと等価)を使用することによるオーバーヘッドの具体的な低減を実証する。
我々はさらに、制御SUMゲートを用いてキューディット演算子のシュミット分解を実証することにより、2つのトランスモン量子ゲートをトランスパイルする。
最後に,様々なトロッターステップに対する充填係数やグリーン関数などの局所観測量の数値シミュレーションにより,提案手法の有効性を実証する。
我々のアプローチと異なるquditプラットフォームとの互換性は、非自明な量子多体系をシミュレートする量子優位を達成するための道を開く。 The Fermi-Hubbard model, a fundamental framework for studying strongly correlated phenomena could significantly benefit from quantum simulations when exploring non-trivial settings. However, simulating this problem requires twice as many qubits as the physical sites, in addition to complicated on-chip connectivities and swap gates required to simulate the physical interactions. In this work, we introduce a novel quantum simulation approach utilizing qudits to overcome such complexities. Leveraging on the symmetries of the Fermi-Hubbard model and their intrinsic relation to Clifford algebras, we first demonstrate a Qudit Fermionic Mapping (QFM) that reduces the encoding cost associated with the qubit-based approach. We then describe the unitary evolution of the mapped Hamiltonian by interpreting the resulting Majorana operators in terms of physical single- and two-qudit gates. While the QFM can be used for any quantum hardware with four accessible energy levels, we demonstrate the specific reduction in overhead resulting from utilizing the native Controlled-SUM gate (equivalent to qubit CNOT) for a fixed-frequency ququart transmon. We further transpile the resulting two transmon-qudit gates by demonstrating a qudit operator Schmidt decomposition using the Controlled-SUM gate. Finally, we demonstrate the efficacy of our proposal by numerical simulation of local observables such as the filling factor and Green's function for various Trotter steps. The compatibility of our approach with different qudit platforms paves the path for achieving quantum advantage in simulating non-trivial quantum many-body systems. | 翻訳日:2024-02-05 16:29:36 公開日:2024-02-02 |
# セキュリティのためのaiコードジェネレータ:friendかfoeか? AI Code Generators for Security: Friend or Foe? ( http://arxiv.org/abs/2402.01219v1 ) ライセンス: Link先を確認 | Roberto Natella, Pietro Liguori, Cristina Improta, Bojan Cukic, Domenico Cotroneo | (参考訳) 人工知能(AI)コードジェネレータの最近の進歩は、悪意あるアクターによる誤用を含むソフトウェアセキュリティ研究の新たな機会を開きつつある。
セキュリティのためのAIコードジェネレータのユースケースをレビューし、評価ベンチマークを導入する。 Recent advances of artificial intelligence (AI) code generators are opening new opportunities in software security research, including misuse by malicious actors. We review use cases for AI code generators for security and introduce an evaluation benchmark. | 翻訳日:2024-02-05 16:29:06 公開日:2024-02-02 |
# 二重か無か: 量子力学における多時間(双)確率に対するコルモゴロフ拡張定理 Double or nothing: a Kolmogorov extension theorem for multitime (bi)probabilities in quantum mechanics ( http://arxiv.org/abs/2402.01218v1 ) ライセンス: Link先を確認 | Davide Lonigro, Fattah Sakuldee, {\L}ukasz Cywi\'nski, Dariusz Chru\'sci\'nski, Piotr Sza\'nkowski | (参考訳) 観測可能な測定によって量子系を反復的に検出した多重時間確率分布は、一般的にコルモゴロフの一貫性を損なう。
したがって、そのような分布を単一の軌道のサンプリングの結果として解釈することはできない。
それにもかかわらず、それらは軌道の 1 つの \emph{pair} のサンプリングから得られる。
この意味では、軌道を諦める代わりに、量子力学は軌道を2倍に減らさなければならない。
この目的のために、複素数値双確率分布の族(つまり、元のサンプル空間の要素のペアで定義される)に適用可能なコルモゴロフ拡大定理の一般化を証明し、量子力学的シナリオでこの結果を利用する。
また、この結果と量子コム形式との関係についても論じる。 The multitime probability distributions obtained by repeatedly probing a quantum system via the measurement of an observable generally violate Kolmogorov's consistency property. Therefore, one cannot interpret such distributions as the result of the sampling of a single trajectory. We show that, nonetheless, they do result from the sampling of one \emph{pair} of trajectories. In this sense, rather than give up on trajectories, quantum mechanics requires to double down on them. To this purpose, we prove a generalization of the Kolmogorov extension theorem that applies to families of complex-valued bi-probability distributions (that is, defined on pairs of elements of the original sample spaces), and we employ this result in the quantum mechanical scenario. We also discuss the relation of our results with the quantum comb formalism. | 翻訳日:2024-02-05 16:29:01 公開日:2024-02-02 |
# 間接拡散誘導によるスパースビュー一般化可能なNeRFの処理不確かさ Taming Uncertainty in Sparse-view Generalizable NeRF via Indirect Diffusion Guidance ( http://arxiv.org/abs/2402.01217v1 ) ライセンス: Link先を確認 | Yaokun Li, Chao Gou, Guang Tan | (参考訳) ニューラルラジアンス場(NeRF)は,新規な視点の合成に有効であることを示す。
しかし、その濃密な入力とシーン固有の最適化への依存は、その広い適用範囲を制限している。
一般化可能なNeRF(Gen-NeRF)は、この問題に対処することを目的としているが、しばしば不確実性に満ちたスパース入力を持つ未観測領域でぼやけたアーティファクトを生成する。
本稿では,Gen-NeRFの不確実性を低減することを目的としている。
我々は、この不確実性を効果的に緩和できないNeRFは、生成能力の欠如に起因すると仮定する。
そこで我々は, 間接拡散誘導型NeRFフレームワークであるID-NeRFを革新的に提案し, 誘導に先立って蒸留拡散を利用することにより, 生成的視点からこの不確実性に対処する。
具体的には, 先行手法のように不整合サンプリングと直接的に規則化することで生じるモデルの混乱を避けるために, 拡散誘導潜在空間を通して学習された暗黙的関数に本質的に欠けている想像力を間接的に注入する手法を導入する。
各種ベンチマークによる実証評価は,スパース入力による不確実性処理において,提案手法の優れた性能を示す。 Neural Radiance Fields (NeRF) have demonstrated effectiveness in synthesizing novel views. However, their reliance on dense inputs and scene-specific optimization has limited their broader applicability. Generalizable NeRFs (Gen-NeRF), while intended to address this, often produce blurring artifacts in unobserved regions with sparse inputs, which are full of uncertainty. In this paper, we aim to diminish the uncertainty in Gen-NeRF for plausible renderings. We assume that NeRF's inability to effectively mitigate this uncertainty stems from its inherent lack of generative capacity. Therefore, we innovatively propose an Indirect Diffusion-guided NeRF framework, termed ID-NeRF, to address this uncertainty from a generative perspective by leveraging a distilled diffusion prior as guidance. Specifically, to avoid model confusion caused by directly regularizing with inconsistent samplings as in previous methods, our approach introduces a strategy to indirectly inject the inherently missing imagination into the learned implicit function through a diffusion-guided latent space. Empirical evaluation across various benchmarks demonstrates the superior performance of our approach in handling uncertainty with sparse inputs. | 翻訳日:2024-02-05 16:28:48 公開日:2024-02-02 |
# TSJNet:マルチモーダルターゲットとセマンティックアウェアネスを併用した画像融合ネットワーク TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven Image Fusion Network ( http://arxiv.org/abs/2402.01212v1 ) ライセンス: Link先を確認 | Yuchan Jie, Yushen Xu, Xiaosong Li, Haishu Tan | (参考訳) マルチモダリティ画像融合は、異なるモダリティからの補完情報を単一の画像に統合する。
現在の手法は主に、画像融合プロセスにセマンティックやオブジェクト関連の情報を組み込むような、単一の高度なタスクで画像融合を強化することに重点を置いている。
この方法は複数の目標を同時に達成する上での課題を生み出す。
我々はTSJNetと呼ばれる目標と意味意識の融合ネットワークを導入する。
TSJNetは、シリーズ構造に配置された融合、検出、セグメンテーションサブネットワークを含む。
2つのハイレベルなタスクから派生したオブジェクトとセマンティックな関連情報を活用して、融合ネットワークを誘導する。
さらに,クロスモーダル画像のきめ細かい特徴を完全に把握し,モダリティ,ターゲット,セグメンテーション情報間のインタラクションを促進するために,二重並列分岐構造を持つ局所的な特徴抽出モジュールを提案する。
4つの公開データセット(MSRS,M3FD,RoadScene,LLVIP)について広範な実験を行った。
その結果、TSJNetは、最先端の手法と比較して、オブジェクト検出とセグメンテーションのmAP @0.5とmIoUの平均2.84%と7.47%の増加を達成できる、視覚的に快く融合した結果を生成できることを示した。 Multi-modality image fusion involves integrating complementary information from different modalities into a single image. Current methods primarily focus on enhancing image fusion with a single advanced task such as incorporating semantic or object-related information into the fusion process. This method creates challenges in achieving multiple objectives simultaneously. We introduce a target and semantic awareness joint-driven fusion network called TSJNet. TSJNet comprises fusion, detection, and segmentation subnetworks arranged in a series structure. It leverages object and semantically relevant information derived from dual high-level tasks to guide the fusion network. Additionally, We propose a local significant feature extraction module with a double parallel branch structure to fully capture the fine-grained features of cross-modal images and foster interaction among modalities, targets, and segmentation information. We conducted extensive experiments on four publicly available datasets (MSRS, M3FD, RoadScene, and LLVIP). The results demonstrate that TSJNet can generate visually pleasing fused results, achieving an average increase of 2.84% and 7.47% in object detection and segmentation mAP @0.5 and mIoU, respectively, compared to the state-of-the-art methods. | 翻訳日:2024-02-05 16:28:27 公開日:2024-02-02 |
# 深層学習を用いた位置非依存適応降雨予測 Location Agnostic Adaptive Rain Precipitation Prediction using Deep Learning ( http://arxiv.org/abs/2402.01208v1 ) ライセンス: Link先を確認 | Md Shazid Islam, Md Saydur Rahman, Md Saad Ul Haque, Farhana Akter Tumpa, Md Sanzid Bin Hossain, Abul Al Arabi | (参考訳) 降雨予測は、場所によって異なる気象や気象特性に依存するため、困難な課題である。
その結果、分布シフトにより、ある場所において良好に動作する予測モデルは、他の場所ではうまく動作しない。
また、地球温暖化により、気候パターンは年々急速に変化しており、時が経つにつれて同じ場所でもモデルが非効率になる可能性がある。
本研究では,上記の課題に対する解決策を提供するために,適応的なディープラーニングベースのフレームワークを提案する。
本手法は,適応しない手法が失敗する場所の降水予測モデルを一般化することができる。
本手法は,深層ニューラルネットワークを用いた適応後の43.51%,5.9%,38.62%の改善を示し,それぞれパリ,ロサンゼルス,東京の降水を予測する。 Rain precipitation prediction is a challenging task as it depends on weather and meteorological features which vary from location to location. As a result, a prediction model that performs well at one location does not perform well at other locations due to the distribution shifts. In addition, due to global warming, the weather patterns are changing very rapidly year by year which creates the possibility of ineffectiveness of those models even at the same location as time passes. In our work, we have proposed an adaptive deep learning-based framework in order to provide a solution to the aforementioned challenges. Our method can generalize the model for the prediction of precipitation for any location where the methods without adaptation fail. Our method has shown 43.51%, 5.09%, and 38.62% improvement after adaptation using a deep neural network for predicting the precipitation of Paris, Los Angeles, and Tokyo, respectively. | 翻訳日:2024-02-05 16:28:08 公開日:2024-02-02 |
# 大規模言語モデルを用いた効率的な因果グラフ発見 Efficient Causal Graph Discovery Using Large Language Models ( http://arxiv.org/abs/2402.01207v1 ) ライセンス: Link先を確認 | Thomas Jiralerspong, Xiaoyin Chen, Yash More, Vedant Shah, Yoshua Bengio | (参考訳) 完全な因果グラフ発見にLLMを利用する新しいフレームワークを提案する。
従来のLCMベースの手法ではペアワイズクエリ方式が用いられてきたが、より大規模な因果グラフではすぐに非現実的になるようなクエリの二次的な数を必要とする。
対照的に、提案フレームワークは、線形数のクエリしか使用できないような、幅優先探索(BFS)アプローチを採用している。
また,提案手法は観測データを容易に組み込むことができ,性能を向上できることを示す。
提案フレームワークは,時間とデータ効率の向上に加えて,様々なサイズの実世界の因果グラフに対して,最先端の結果が得られる。
その結果,提案手法の因果関係の発見における有効性と有効性を示し,各領域にまたがる因果グラフ発見タスクに適用可能性を示した。 We propose a novel framework that leverages LLMs for full causal graph discovery. While previous LLM-based methods have used a pairwise query approach, this requires a quadratic number of queries which quickly becomes impractical for larger causal graphs. In contrast, the proposed framework uses a breadth-first search (BFS) approach which allows it to use only a linear number of queries. We also show that the proposed method can easily incorporate observational data when available, to improve performance. In addition to being more time and data-efficient, the proposed framework achieves state-of-the-art results on real-world causal graphs of varying sizes. The results demonstrate the effectiveness and efficiency of the proposed method in discovering causal relationships, showcasing its potential for broad applicability in causal graph discovery tasks across different domains. | 翻訳日:2024-02-05 16:27:54 公開日:2024-02-02 |
# 機械学習モデルを用いた天気予報の比較評価 Comparative Evaluation of Weather Forecasting using Machine Learning Models ( http://arxiv.org/abs/2402.01206v1 ) ライセンス: Link先を確認 | Md Saydur Rahman, Farhana Akter Tumpa, Md Shazid Islam, Abul Al Arabi, Md Sanzid Bin Hossain, Md Saad Ul Haque | (参考訳) 天候の理解を深め、将来の行動を予測することは、常に我々の社会の成長にとって重要な取り組みとみなされてきた。
本研究では,特に天気予報の文脈における自然行動の理解と予測の進歩について,機械学習アルゴリズムの適用を通して検討する。
機械学習、データマイニング、データ分析技術を活用することで、この分野では大きな進歩を遂げている。
本研究は,ダッカ市の1つの気象観測所から20年間のデータセットを用いて,降水と気温の予測における各種機械学習アルゴリズムの貢献度を分析することを目的とする。
勾配ブースティング,adaboosting,artificial neural network, stacking random forest, stacking neural network, stacking knnなどのアルゴリズムを,混乱行列測定を含むそれらのパフォーマンス指標に基づいて評価比較する。
この発見は、顕著な成果を強調し、パフォーマンスと特徴相関に関する貴重な洞察を提供する。 Gaining a deeper understanding of weather and being able to predict its future conduct have always been considered important endeavors for the growth of our society. This research paper explores the advancements in understanding and predicting nature's behavior, particularly in the context of weather forecasting, through the application of machine learning algorithms. By leveraging the power of machine learning, data mining, and data analysis techniques, significant progress has been made in this field. This study focuses on analyzing the contributions of various machine learning algorithms in predicting precipitation and temperature patterns using a 20-year dataset from a single weather station in Dhaka city. Algorithms such as Gradient Boosting, AdaBoosting, Artificial Neural Network, Stacking Random Forest, Stacking Neural Network, and Stacking KNN are evaluated and compared based on their performance metrics, including Confusion matrix measurements. The findings highlight remarkable achievements and provide valuable insights into their performances and features correlation. | 翻訳日:2024-02-05 16:27:41 公開日:2024-02-02 |
# 非逐次的タブラリデータの自己教師付き学習に関する調査 A Survey on Self-Supervised Learning for Non-Sequential Tabular Data ( http://arxiv.org/abs/2402.01204v1 ) ライセンス: Link先を確認 | Wei-Yao Wang, Wei-Wei Du, Derek Xu, Wei Wang, Wen-Chih Peng | (参考訳) 自己教師付き学習(SSL)は、さまざまなドメインの最先端モデルに組み込まれており、SSLはコンテキスト化された堅牢な表現を学ぶためのラベルなしデータセットに基づいて、プレテキストタスクを定義している。
近年、SSLは表形式のデータ領域における表現学習能力を探究する新たなトレンドとなっている。
本調査は,非シーケンス表データ(SSL4NS-TD)におけるSSLの最近の進歩と課題を体系的にレビューし,要約することを目的としている。
まず,ns-tdの形式的定義と関連する研究との関係を明らかにする。
次に、これらのアプローチは予測学習、コントラスト学習、ハイブリッド学習の3つのグループに分類され、それぞれの方向における代表的手法のモチベーションと強みがある。
これに加えて、SSL4NS-TDのアプリケーション問題として、自動データエンジニアリング、クロステーブル転送可能性、ドメイン知識の統合などが紹介されている。
さらに、ns-tdアプリケーションの既存のベンチマークとデータセットを詳述し、既存の表モデルの性能について論じる。
最後に,SSL4NS-TDの課題について論じ,今後の研究の方向性を示す。
私たちは、表型ドメインのsslへの参入障壁を下げ、暗黙の表型データの基礎を改善するためのさらなる研究を促すという点で、我々の研究が役立つと期待しています。 Self-supervised learning (SSL) has been incorporated into many state-of-the-art models in various domains, where SSL defines pretext tasks based on unlabeled datasets to learn contextualized and robust representations. Recently, SSL has been a new trend in exploring the representation learning capability in the realm of tabular data, which is more challenging due to not having explicit relations for learning descriptive representations. This survey aims to systematically review and summarize the recent progress and challenges of SSL for non-sequential tabular data (SSL4NS-TD). We first present a formal definition of NS-TD and clarify its correlation to related studies. Then, these approaches are categorized into three groups -- predictive learning, contrastive learning, and hybrid learning, with their motivations and strengths of representative methods within each direction. On top of this, application issues of SSL4NS-TD are presented, including automatic data engineering, cross-table transferability, and domain knowledge integration. In addition, we elaborate on existing benchmarks and datasets for NS-TD applications to discuss the performance of existing tabular models. Finally, we discuss the challenges of SSL4NS-TD and provide potential directions for future research. We expect our work to be useful in terms of encouraging more research on lowering the barrier to entry SSL for the tabular domain and improving the foundations for implicit tabular data. | 翻訳日:2024-02-05 16:27:25 公開日:2024-02-02 |
# セマンティックベクトル量子化による構造的世界モデリング Structured World Modeling via Semantic Vector Quantization ( http://arxiv.org/abs/2402.01203v1 ) ライセンス: Link先を確認 | Yi-Fu Wu, Minseung Lee, Sungjin Ahn | (参考訳) ニューラル離散表現は現代のニューラルネットワークの重要な構成要素である。
しかし、その主な制限は、VQ-VAEのような主要な戦略がパッチレベルでしか表現できないことである。
したがって、表現学習、構造的、意味的、構成的抽象概念(例えば物体の色や形状)の主目的の一つは、いまだ解明されていない。
本稿では,セマンティックニューラル離散表現学習への第1のアプローチを提案する。
提案手法はsvq(semantic vector-quantized variational autoencoder)と呼ばれ、教師なしオブジェクト中心学習の最近の進歩を活用している。
具体的には、オブジェクトレベルで定量化する単純なアプローチが大きな課題となり、低レベルの離散概念スキーマからオブジェクト表現まで、階層的にシーン表現を構築することを提案する。
さらに,これらの表現に対して事前学習を行い,シーン内のオブジェクトの意味的特性をサンプリングして画像を生成することが可能な構造的意味世界モデリング手法を提案する。
VQ-VAEやそれ以前のオブジェクト中心生成モデルのような非意味なベクトル量子化手法と比較して,本モデルでは生成性能が優れていることがわかった。
さらに,シーン内の異なるオブジェクトの特性の推論を必要とする下流のシーン理解タスクを,セマンティックな離散表現で解決できることがわかった。 Neural discrete representations are crucial components of modern neural networks. However, their main limitation is that the primary strategies such as VQ-VAE can only provide representations at the patch level. Therefore, one of the main goals of representation learning, acquiring structured, semantic, and compositional abstractions such as the color and shape of an object, remains elusive. In this paper, we present the first approach to semantic neural discrete representation learning. The proposed model, called Semantic Vector-Quantized Variational Autoencoder (SVQ), leverages recent advances in unsupervised object-centric learning to address this limitation. Specifically, we observe that a simple approach quantizing at the object level poses a significant challenge and propose constructing scene representations hierarchically, from low-level discrete concept schemas to object representations. Additionally, we suggest a novel method for structured semantic world modeling by training a prior over these representations, enabling the ability to generate images by sampling the semantic properties of the objects in the scene. In experiments on various 2D and 3D object-centric datasets, we find that our model achieves superior generation performance compared to non-semantic vector quantization methods such as VQ-VAE and previous object-centric generative models. Furthermore, we find that the semantic discrete representations can solve downstream scene understanding tasks that require reasoning about the properties of different objects in the scene. | 翻訳日:2024-02-05 16:27:03 公開日:2024-02-02 |
# 先行知識を用いたクラスインクリメンタル学習 Few-Shot Class-Incremental Learning with Prior Knowledge ( http://arxiv.org/abs/2402.01201v1 ) ライセンス: Link先を確認 | Wenhao Jiang, Duo Li, Menghan Hu, Guangtao Zhai, Xiaokang Yang, Xiao-Ping Zhang | (参考訳) 数ショットのクラスインクリメンタルラーニング(FSCIL)における破滅的な忘れと過度な適合の問題に対処するために、これまでの研究は主に、段階的な段階における古い知識の記憶の保存に集中してきた。
インクリメンタル学習の有効性形成における事前学習モデルの役割は,これらの研究でしばしば過小評価される。
そこで本論文では,事前学習モデルの一般化能力を高めるために,後続のインクリメンタルクラスのラベルなしデータからほぼ自由事前知識を導入することにより,事前知識を用いた学習を提案する。
ラベルなしのインクリメンタルなクラスサンプルをクラスタして擬似ラベルを生成し、ラベル付きベースクラスサンプルと共同でトレーニングし、古いクラスデータと新しいクラスデータの両方の埋め込みスペースを効果的に割り当てます。
実験結果から,lwpkは,実証的リスク最小化とクラス距離測定に基づく理論的解析により,破滅的忘れることに対するモデルの弾力性が効果的に向上することが示唆された。
LwPKのソースコードは: \url{https://github.com/StevenJ308/LwPK} で公開されている。 To tackle the issues of catastrophic forgetting and overfitting in few-shot class-incremental learning (FSCIL), previous work has primarily concentrated on preserving the memory of old knowledge during the incremental phase. The role of pre-trained model in shaping the effectiveness of incremental learning is frequently underestimated in these studies. Therefore, to enhance the generalization ability of the pre-trained model, we propose Learning with Prior Knowledge (LwPK) by introducing nearly free prior knowledge from a few unlabeled data of subsequent incremental classes. We cluster unlabeled incremental class samples to produce pseudo-labels, then jointly train these with labeled base class samples, effectively allocating embedding space for both old and new class data. Experimental results indicate that LwPK effectively enhances the model resilience against catastrophic forgetting, with theoretical analysis based on empirical risk minimization and class distance measurement corroborating its operational principles. The source code of LwPK is publicly available at: \url{https://github.com/StevenJ308/LwPK}. | 翻訳日:2024-02-05 16:26:39 公開日:2024-02-02 |
# MIQCQPによるReLUニューラルネットワークのリプシッツ定数推定問題の改善 MIQCQP reformulation of the ReLU neural networks Lipschitz constant estimation problem ( http://arxiv.org/abs/2402.01199v1 ) ライセンス: Link先を確認 | Mohammed Sbihi (ENAC), Sophie Jan (IMT), Nicolas Couellan (IMT, ENAC) | (参考訳) ニューラルネットワークのロバスト性を保証するか、証明するために、そのリプシッツ定数が顕著な役割を果たすことはよく確立されている。
しかし、その計算はNPハードである。
本稿では,各層における活性化領域を新たな制約として考慮し,ニューラルネットワークのリプシッツ推定問題に対する2次拘束型MIP定式化を提案する。
これらの問題の解はリプシッツ定数の下限と上限を与え、それらが正確なリプシッツ定数と一致するときの条件を詳述する。 It is well established that to ensure or certify the robustness of a neural network, its Lipschitz constant plays a prominent role. However, its calculation is NP-hard. In this note, by taking into account activation regions at each layer as new constraints, we propose new quadratically constrained MIP formulations for the neural network Lipschitz estimation problem. The solutions of these problems give lower bounds and upper bounds of the Lipschitz constant and we detail conditions when they coincide with the exact Lipschitz constant. | 翻訳日:2024-02-05 16:26:19 公開日:2024-02-02 |
# 粗粒分子表現の能動学習のための条件正規化フロー Conditional Normalizing Flows for Active Learning of Coarse-Grained Molecular Representations ( http://arxiv.org/abs/2402.01195v1 ) ライセンス: Link先を確認 | Henrik Schopmans, Pascal Friederich | (参考訳) 分子系のボルツマン分布の効率的なサンプリングは長年の課題である。
近年,長い分子動力学シミュレーションを生成する代わりに,フローの正規化などの生成機械学習手法を用いてボルツマン分布を直接学習している。
しかし、このアプローチはモード崩壊の影響を受けやすいため、完全な構成空間を探索しないことが多い。
本研究では,この問題を細粒度と粗粒度という2つのレベルに分けることで,この問題に対処する。
粗粒空間上に条件付けられた正規化流れは、2つのレベルの間の確率的接続をもたらす。
構成空間を探索するため,我々は,フローを更新できるアクティブラーニングを用いた粗粒シミュレーションを実施し,必要な場合にのみ全原子ポテンシャルエネルギー評価を行う。
アラニンジペプチドを例として,現在の最先端機械学習手法の4.5倍の高速化と比較して,分子動力学シミュレーションの約15.9~216.2の高速化が得られることを示す。 Efficient sampling of the Boltzmann distribution of molecular systems is a long-standing challenge. Recently, instead of generating long molecular dynamics simulations, generative machine learning methods such as normalizing flows have been used to learn the Boltzmann distribution directly, without samples. However, this approach is susceptible to mode collapse and thus often does not explore the full configurational space. In this work, we address this challenge by separating the problem into two levels, the fine-grained and coarse-grained degrees of freedom. A normalizing flow conditioned on the coarse-grained space yields a probabilistic connection between the two levels. To explore the configurational space, we employ coarse-grained simulations with active learning which allows us to update the flow and make all-atom potential energy evaluations only when necessary. Using alanine dipeptide as an example, we show that our methods obtain a speedup to molecular dynamics simulations of approximately 15.9 to 216.2 compared to the speedup of 4.5 of the current state-of-the-art machine learning approach. | 翻訳日:2024-02-05 16:26:08 公開日:2024-02-02 |
# てんかん性焦点定位のための拡散モデルを用いたMRIからの偽正常PETの無監督生成 Unsupervised Generation of Pseudo Normal PET from MRI with Diffusion Model for Epileptic Focus Localization ( http://arxiv.org/abs/2402.01191v1 ) ライセンス: Link先を確認 | Wentao Chen, Jiwei Li, Xichen Xu, Hui Huang, Siyu Yuan, Miao Zhang, Tianming Xu, Jie Luo, Weimin Zhou | (参考訳) 磁気共鳴画像(MRI)の診断が不確定な結果をもたらす場合において,[$^{18}$F]フルオロデオキシグルコース(FDG)ポジトロン断層撮影(PET)はてんかんの焦点を特定する重要なツールとして出現している。
FDG PETはグルコースの代謝情報を提供し、MRIで見つからない異常な領域を特定するのに役立つ。
しかし, FDG PETによる評価と診断の有効性は, 健常群の選択に依存する。
健康管理群は典型的には、年齢、性別、その他の面でててんかん患者に似た健康な個人から成り、正常なFDG PETデータを提供し、てんかん診断の正確性と信頼性を高める基準として使用される。
しかし、健康なPETコントロールグループが達成不可能な場合、重大な課題が生じる。
Yaakub \emph{et al.
Pix2PixGANベースのMRI法をPET翻訳に導入したことがある。
この方法は、健常人のMRIとFDG PETスキャンを併用し、その後、病変検出に使用される患者MRIから偽の正常なFDG PET画像を生成する。
しかし、このアプローチには健常者からの大量の高品質のMRIとPET画像が必要であるため、常に利用できるとは限らない。
本研究では, てんかん焦点定位のための偽正常FDG PETを生成するために, 無障害MRIからPET翻訳への教師なし学習法を検討した。
二つの深層学習手法であるCycleGANとSynDiffを用い,拡散法によりててててんかん焦点を正確に定位することに成功した。 [$^{18}$F]fluorodeoxyglucose (FDG) positron emission tomography (PET) has emerged as a crucial tool in identifying the epileptic focus, especially in cases where magnetic resonance imaging (MRI) diagnosis yields indeterminate results. FDG PET can provide the metabolic information of glucose and help identify abnormal areas that are not easily found through MRI. However, the effectiveness of FDG PET-based assessment and diagnosis depends on the selection of a healthy control group. The healthy control group typically consists of healthy individuals similar to epilepsy patients in terms of age, gender, and other aspects for providing normal FDG PET data, which will be used as a reference for enhancing the accuracy and reliability of the epilepsy diagnosis. However, significant challenges arise when a healthy PET control group is unattainable. Yaakub \emph{et al.} have previously introduced a Pix2PixGAN-based method for MRI to PET translation. This method used paired MRI and FDG PET scans from healthy individuals for training, and produced pseudo normal FDG PET images from patient MRIs that are subsequently used for lesion detection. However, this approach requires a large amount of high-quality, paired MRI and PET images from healthy control subjects, which may not always be available. In this study, we investigated unsupervised learning methods for unpaired MRI to PET translation for generating pseudo normal FDG PET for epileptic focus localization. Two deep learning methods, CycleGAN and SynDiff, were employed, and we found that diffusion-based method achieved improved performance in accurately localizing the epileptic focus. | 翻訳日:2024-02-05 16:25:37 公開日:2024-02-02 |
# どんな変化でも Segment Any Change ( http://arxiv.org/abs/2402.01188v1 ) ライセンス: Link先を確認 | Zhuo Zheng, Yanfei Zhong, Liangpei Zhang, Stefano Ermon | (参考訳) 視覚基礎モデルはゼロショット画像分類とセグメンテーションにおいて顕著な結果を得たが、ゼロショット変化検出は依然として未解決の問題である。
本稿では,ゼロショット予測と無意味な変更タイプとデータ分布の一般化をサポートする,新しいタイプの変更検出モデルであるsegment any change model (anychange)を提案する。
AnyChangeは、トレーニング不要適応法、バイテンポラルラテントマッチングを通じてSAM(Se segment Any Model)上に構築されます。
SAMの潜伏空間における画像内および画像間のセマンティックな類似性を明らかにすることによって、バイテンポラルラテントマッチングはSAMにゼロショット変化検出機能を持たせる。
また,anychangeのゼロショットオブジェクト中心の変更検出機能を実現する点問合せ機構を提案する。
ゼロショット変化検出におけるanychangeの有効性を確認するために,広範な実験を行った。
AnyChangeは、教師なしの変更検出のためのSECONDベンチマークに新しいレコードをセットし、以前のSOTAを4.4% F$_1$スコアで上回り、教師付き変更検出のための無視可能な手動アノテーション(画像毎の1ピクセル)で同等の精度を達成する。 Visual foundation models have achieved remarkable results in zero-shot image classification and segmentation, but zero-shot change detection remains an open problem. In this paper, we propose the segment any change models (AnyChange), a new type of change detection model that supports zero-shot prediction and generalization on unseen change types and data distributions. AnyChange is built on the segment anything model (SAM) via our training-free adaptation method, bitemporal latent matching. By revealing and exploiting intra-image and inter-image semantic similarities in SAM's latent space, bitemporal latent matching endows SAM with zero-shot change detection capabilities in a training-free way. We also propose a point query mechanism to enable AnyChange's zero-shot object-centric change detection capability. We perform extensive experiments to confirm the effectiveness of AnyChange for zero-shot change detection. AnyChange sets a new record on the SECOND benchmark for unsupervised change detection, exceeding the previous SOTA by up to 4.4% F$_1$ score, and achieving comparable accuracy with negligible manual annotations (1 pixel per image) for supervised change detection. | 翻訳日:2024-02-05 16:25:05 公開日:2024-02-02 |
# フェデレート・アンラーニング:安定性と公正性の観点から Federated Unlearning: a Perspective of Stability and Fairness ( http://arxiv.org/abs/2402.01276v1 ) ライセンス: Link先を確認 | Jiaqi Shao, Tao Lin, Xuanyu Cao, Bing Luo | (参考訳) 本稿では,フェデレートアンラーニング(FU)とデータ不均一性の多面的結果について検討する。
我々は,FU評価の重要な指標を紹介し,検証,グローバル安定性,局所公正性に着目し,固有のトレードオフについて検討する。
さらに,最適化フレームワークを用いて,データ不均質性を用いた学習プロセスを定式化する。
我々の重要な貢献は、FUにおけるトレードオフに関する包括的な理論的分析であり、FUに対するデータ不均一性の影響に関する洞察を提供する。
これらの知見を生かして,これらのトレードオフを管理するためのFU機構を提案する。
我々は、我々のFUメカニズムがトレードオフを効果的にバランスし、理論解析から得られた洞察を実証する。 This paper explores the multifaceted consequences of federated unlearning (FU) with data heterogeneity. We introduce key metrics for FU assessment, concentrating on verification, global stability, and local fairness, and investigate the inherent trade-offs. Furthermore, we formulate the unlearning process with data heterogeneity through an optimization framework. Our key contribution lies in a comprehensive theoretical analysis of the trade-offs in FU and provides insights into data heterogeneity's impacts on FU. Leveraging these insights, we propose FU mechanisms to manage the trade-offs, guiding further development for FU mechanisms. We empirically validate that our FU mechanisms effectively balance trade-offs, confirming insights derived from our theoretical analysis. | 翻訳日:2024-02-05 16:20:10 公開日:2024-02-02 |
# 深層学習を利用したV2V通信のための60GHzミリ波ビームフォーミング Position Aware 60 GHz mmWave Beamforming for V2V Communications Utilizing Deep Learning ( http://arxiv.org/abs/2402.01259v1 ) ライセンス: Link先を確認 | Muhammad Baqer Mollah, Honggang Wang, and Hua Fang | (参考訳) ビームフォーミング技術は、大きなアンテナアレイを採用し、狭いビームを定式化することにより、ミリ波(mmWave)通信における深刻な経路損失を補うために不可欠であると考えられている。
しかし、従来のビーム選択手法で効率的なリンク構成のために、このような狭いビーム上で正確なビームアライメントを行うことは、主にチャネル状態情報に依存しており、典型的にはかなりのレイテンシと計算オーバーヘッドを課す。
対照的に、車載位置情報などの帯域外コンテキスト情報を活用することは、そのようなオーバーヘッドを減らすための潜在的な代替手段である。
本稿では,十分なmm波受信パワーを有する最適ビームを予測し,最適なv2vラインオブアイリンクを積極的に確保するために,車両位置情報を用いた深層学習による解法を提案する。
実世界のmWave計測および通信データセットに対する提案手法を実験的に評価した結果,60GHz帯で受信したリンク状態の84.58%の電力を平均で達成でき,60GHz帯で伝送可能なV2V通信において,mWaveのビームフォーミングに期待できる解であることを確認した。 Beamforming techniques are considered as essential parts to compensate the severe path loss in millimeter-wave (mmWave) communications by adopting large antenna arrays and formulating narrow beams to obtain satisfactory received powers. However, performing accurate beam alignment over such narrow beams for efficient link configuration by traditional beam selection approaches, mainly relied on channel state information, typically impose significant latency and computing overheads, which is often infeasible in vehicle-to-vehicle (V2V) communications like highly dynamic scenarios. In contrast, utilizing out-of-band contextual information, such as vehicular position information, is a potential alternative to reduce such overheads. In this context, this paper presents a deep learning-based solution on utilizing the vehicular position information for predicting the optimal beams having sufficient mmWave received powers so that the best V2V line-of-sight links can be ensured proactively. After experimental evaluation of the proposed solution on real-world measured mmWave sensing and communications datasets, the results show that the solution can achieve up to 84.58% of received power of link status on average, which confirm a promising solution for beamforming in mmWave at 60 GHz enabled V2V communications. | 翻訳日:2024-02-05 16:19:58 公開日:2024-02-02 |
# 変圧器は文脈で非線形特徴を学習する:注意景観における非凸平均場ダイナミクス Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape ( http://arxiv.org/abs/2402.01258v1 ) ライセンス: Link先を確認 | Juno Kim and Taiji Suzuki | (参考訳) Transformerアーキテクチャに基づいた大規模言語モデルは、コンテキストで学習できる印象的な能力を示している。
しかし、この現象の発生に関する既存の理論的研究は、線形回帰タスクで訓練された単一の注意層の力学に限られている。
本稿では,完全連結層と線形注意層からなる変圧器の最適化について検討する。
MLPは共通の非線形表現や特徴マップとして機能し、文脈内学習の能力を大幅に向上させる。
平均場と2時間スケールの極限において、パラメータの分布に対する無限次元のロスランドスケープは非常に非凸であるが、かなり良質であることが証明される。
また,平均場力学の2次安定性を解析し,ワッサーシュタイン勾配流が概ね鞍点を避けていることを示した。
さらに,重要点と近点の両方から具体的な改善率を得るための新しい手法を確立する。
これは平均場力学における最初のサドル点解析であり、その技術は独立した関心を持つ。 Large language models based on the Transformer architecture have demonstrated impressive capabilities to learn in context. However, existing theoretical studies on how this phenomenon arises are limited to the dynamics of a single layer of attention trained on linear regression tasks. In this paper, we study the optimization of a Transformer consisting of a fully connected layer followed by a linear attention layer. The MLP acts as a common nonlinear representation or feature map, greatly enhancing the power of in-context learning. We prove in the mean-field and two-timescale limit that the infinite-dimensional loss landscape for the distribution of parameters, while highly nonconvex, becomes quite benign. We also analyze the second-order stability of mean-field dynamics and show that Wasserstein gradient flow almost always avoids saddle points. Furthermore, we establish novel methods for obtaining concrete improvement rates both away from and near critical points. This represents the first saddle point analysis of mean-field dynamics in general and the techniques are of independent interest. | 翻訳日:2024-02-05 16:19:34 公開日:2024-02-02 |
# ゼロショット回帰のためのターゲット誘導法 Target inductive methods for zero-shot regression ( http://arxiv.org/abs/2402.01252v1 ) ライセンス: Link先を確認 | Miriam Fdez-D\'iaz, Jos\'e Ram\'on Quevedo, Elena Monta\~n\'es | (参考訳) この研究は気象観測所の大気汚染物質量を予測する必要性から生じている。
大気汚染は駅の位置(周囲の状況や活動)に依存する。
学習過程において周辺情報は考慮されないことが多い。
この情報は、観測されていない気象条件がなければ事前に知られており、同じ駅で一定である。
周辺情報をサイド情報として考えると,新しい局における汚染物質予測の一般化が容易となり,ゼロショット回帰シナリオが導かれる。
ゼロショットで利用可能なメソッドは通常分類に傾き、回帰に容易に拡張できない。
本稿では2つのゼロショット法を提案する。
最初の方法は類似性に基づくアプローチであり、特徴からモデルを学び、側面情報を用いてそれらを集約する。
しかし、機能モデルの潜在的な知識は集約で失われる可能性がある。
第2の方法は、アグリゲーション手順を置き換え、サイド情報と特徴誘発モデルとの対応を学習することで、この欠点を克服する。
どちらの提案も、人工データセット、UCIリポジトリコミュニティ、犯罪データセット、汚染物質を使用したベースライン手順と比較される。
どちらの手法もベースライン法よりも優れているが,パラメータ学習法は類似性に基づく手法よりも優れていることを示す。 This research arises from the need to predict the amount of air pollutants in meteorological stations. Air pollution depends on the location of the stations (weather conditions and activities in the surroundings). Frequently, the surrounding information is not considered in the learning process. This information is known beforehand in the absence of unobserved weather conditions and remains constant for the same station. Considering the surrounding information as side information facilitates the generalization for predicting pollutants in new stations, leading to a zero-shot regression scenario. Available methods in zero-shot typically lean towards classification, and are not easily extensible to regression. This paper proposes two zero-shot methods for regression. The first method is a similarity based approach that learns models from features and aggregates them using side information. However, potential knowledge of the feature models may be lost in the aggregation. The second method overcomes this drawback by replacing the aggregation procedure and learning the correspondence between side information and feature-induced models, instead. Both proposals are compared with a baseline procedure using artificial datasets, UCI repository communities and crime datasets, and the pollutants. Both approaches outperform the baseline method, but the parameter learning approach manifests its superiority over the similarity based method. | 翻訳日:2024-02-05 16:19:18 公開日:2024-02-02 |
# 2つの頭が1より優れている:意味的・トポロジ的認識によるグラフスパーストレーニング Two Heads Are Better Than One: Boosting Graph Sparse Training via Semantic and Topological Awareness ( http://arxiv.org/abs/2402.01242v1 ) ライセンス: Link先を確認 | Guibin Zhang, Yanwei Yue, Kun Wang, Junfeng Fang, Yongduo Sui, Kai Wang, Yuxuan Liang, Dawei Cheng, Shirui Pan, Tianlong Chen | (参考訳) グラフニューラルネットワーク(gnn)は、さまざまなグラフ学習タスクに優れているが、大規模グラフに適用すると計算上の課題に直面する。
有望な解決策は、GNNの計算オーバーヘッドを減らすために非必要エッジを削除することである。
以前の文献は一般にトポロジー誘導と意味誘導の2つのカテゴリに分類される。
前者は特定のグラフトポロジ特性を維持しているが、ニューラルネットワークトレーニングとの低統合のため、GNNでは性能が劣ることが多い。
後者はGNNでは低い間隔で良好に動作するが、より高い間隔でパフォーマンスが低下する。
このことを念頭に置いて、我々は、データレベルで空間を動的に操作するグラフスパーストレーニング(GST)と呼ばれる新しい研究ラインと概念を提案する第一歩を踏み出した。
具体的には、GSTは最初、低いトレーニングコストでトポロジとセマンティックアンカーを構築し、続いて、スパースグラフをアンカーに合わせるための動的スパーストレーニングを実行する。
本稿では,このプロセスの指針としてEquilibria Sparsification Principleを導入し,トポロジカル情報とセマンティック情報の両方の保存を効果的にバランスさせる。
最終的に、GSTは最大位相整合性と性能劣化のないスパースグラフを生成する。
6つのデータセットと5つのバックボーンに関する大規模な実験では、GST(I)は、最先端のスパーシフィケーション手法よりも高いグラフ間隔レベル(1.67%~15.85%$\uparrow$)でグラフを識別し、(II)より重要なスペクトル特性を保存し、(III)GNN推論における1.27-3.42$\times$スピードアップを達成し、(IV)グラフの敵防御とグラフ宝くじのチケットをうまく支援している。 Graph Neural Networks (GNNs) excel in various graph learning tasks but face computational challenges when applied to large-scale graphs. A promising solution is to remove non-essential edges to reduce the computational overheads in GNN. Previous literature generally falls into two categories: topology-guided and semantic-guided. The former maintains certain graph topological properties yet often underperforms on GNNs due to low integration with neural network training. The latter performs well at lower sparsity on GNNs but faces performance collapse at higher sparsity levels. With this in mind, we take the first step to propose a new research line and concept termed Graph Sparse Training (GST), which dynamically manipulates sparsity at the data level. Specifically, GST initially constructs a topology & semantic anchor at a low training cost, followed by performing dynamic sparse training to align the sparse graph with the anchor. We introduce the Equilibria Sparsification Principle to guide this process, effectively balancing the preservation of both topological and semantic information. Ultimately, GST produces a sparse graph with maximum topological integrity and no performance degradation. Extensive experiments on 6 datasets and 5 backbones showcase that GST (I) identifies subgraphs at higher graph sparsity levels (1.67%~15.85% $\uparrow$) than state-of-the-art sparsification methods, (II) preserves more key spectral properties, (III) achieves 1.27-3.42$\times$ speedup in GNN inference and (IV) successfully helps graph adversarial defense and graph lottery tickets. | 翻訳日:2024-02-05 16:18:58 公開日:2024-02-02 |
# shape-infused joint embeddedsは3次元画像拡散を改善できるか? Can Shape-Infused Joint Embeddings Improve Image-Conditioned 3D Diffusion? ( http://arxiv.org/abs/2402.01241v1 ) ライセンス: Link先を確認 | Cristian Sbrolli, Paolo Cudrano, Matteo Matteucci | (参考訳) 近年の深層生成モデル,特にCLIP(Contrastive Language Image Pretraining)の拡散確率モデル(DDPM)への応用により,テキストから画像生成への顕著な効果が示された。
CLIPのよく構造化された埋め込み空間もDDPMを用いて画像から形状生成に拡張され、顕著な結果が得られた。
これらの成功にもかかわらず、いくつかの根本的な疑問が生じる。 CLIPは画像から形状を生成する最良の結果を保証するか?
条件付けを利用して、明確な3D知識を生成プロセスに持ち込み、より良い品質を得ることができるか?
本研究では,2次元画像による3次元形状合成の促進を目的としたcisp(contrastive image shape pre training)を提案する。
CISPは、CLIPフレームワークの強化を目的として、2Dイメージと3D形状を共有埋め込み空間に整列させ、特にCLIPのテキストイメージフォーカスで見落とされがちな3D特性をキャプチャする。
我々は,CLIP誘導モデルに対するCISPのガイダンス性能を評価し,生成した形状と条件付き画像の質,多様性,コヒーレンスに着目した。
CISPは、CLIPを生成品質と多様性でマッチングしながら、入力画像とのコヒーレンスを大幅に改善し、生成モデルに3D知識を組み込むことの価値を強調している。
これらの結果は,マルチモーダルシステムと3次元表現の統合により,3次元視覚コンテンツの合成を前進させる有望な方向性を示唆する。 Recent advancements in deep generative models, particularly with the application of CLIP (Contrastive Language Image Pretraining) to Denoising Diffusion Probabilistic Models (DDPMs), have demonstrated remarkable effectiveness in text to image generation. The well structured embedding space of CLIP has also been extended to image to shape generation with DDPMs, yielding notable results. Despite these successes, some fundamental questions arise: Does CLIP ensure the best results in shape generation from images? Can we leverage conditioning to bring explicit 3D knowledge into the generative process and obtain better quality? This study introduces CISP (Contrastive Image Shape Pre training), designed to enhance 3D shape synthesis guided by 2D images. CISP aims to enrich the CLIP framework by aligning 2D images with 3D shapes in a shared embedding space, specifically capturing 3D characteristics potentially overlooked by CLIP's text image focus. Our comprehensive analysis assesses CISP's guidance performance against CLIP guided models, focusing on generation quality, diversity, and coherence of the produced shapes with the conditioning image. We find that, while matching CLIP in generation quality and diversity, CISP substantially improves coherence with input images, underscoring the value of incorporating 3D knowledge into generative models. These findings suggest a promising direction for advancing the synthesis of 3D visual content by integrating multimodal systems with 3D representations. | 翻訳日:2024-02-05 16:18:21 公開日:2024-02-02 |
# リクエストを超えて: ブラウザ間のWebトラッカー分類のためのHTTPレスポンスヘッダのハーネス Beyond the Request: Harnessing HTTP Response Headers for Cross-Browser Web Tracker Classification in an Imbalanced Setting ( http://arxiv.org/abs/2402.01240v1 ) ライセンス: Link先を確認 | Wolf Rieder, Philip Raschke, Thomas Cory | (参考訳) World Wide Webの接続性はHTTPプロトコルに大きく影響しており、HTTPメッセージはWebセキュリティやプライバシ、特にWebトラッキングに関する規律に訴える情報的ヘッダフィールドを提供する。
ウェブトラッカーを特定するためにHTTP/Sリクエストメッセージを使用している既存の研究にもかかわらず、HTTP/Sレスポンスヘッダはしばしば見過ごされている。
本研究は,HTTP/S応答ヘッダを用いたWebトラッカ検出のための効果的な機械学習分類器の設計の試みである。
トラフィック監視ブラウザエクステンションであるT.EXを通じて得られたChrome、Firefox、Braveブラウザのデータは、データセットとして役立ちます。
11の教師付きモデルがChromeデータでトレーニングされ、すべてのブラウザでテストされた。
結果は、ChromeとFirefoxで高い精度、F1スコア、精度、リコール、最小ログロスエラーを示したが、Braveのデータ分散と機能セットが異なるため、Braveのパフォーマンスは低い。
この研究は、これらの分類器がchromeとfirefoxのwebトラッカーを検出できることを示唆している。
しかし、実世界のアプリケーションテストはまだ進行中であり、トラッカータイプとより広いラベルソースの区別は、今後の研究で検討できるだろう。 The World Wide Web's connectivity is greatly attributed to the HTTP protocol, with HTTP messages offering informative header fields that appeal to disciplines like web security and privacy, especially concerning web tracking. Despite existing research employing HTTP/S request messages to identify web trackers, HTTP/S response headers are often overlooked. This study endeavors to design effective machine learning classifiers for web tracker detection using HTTP/S response headers. Data from the Chrome, Firefox, and Brave browsers, obtained through the traffic monitoring browser extension T.EX, serves as our data set. Eleven supervised models were trained on Chrome data and tested across all browsers. The results demonstrated high accuracy, F1-score, precision, recall, and minimal log-loss error for Chrome and Firefox, but subpar performance on Brave, potentially due to its distinct data distribution and feature set. The research suggests that these classifiers are viable for detecting web trackers in Chrome and Firefox. However, real-world application testing remains pending, and the distinction between tracker types and broader label sources could be explored in future studies. | 翻訳日:2024-02-05 16:17:51 公開日:2024-02-02 |
# PRIME:悪質な編集からビデオを守る PRIME: Protect Your Videos From Malicious Editing ( http://arxiv.org/abs/2402.01239v1 ) ライセンス: Link先を確認 | Guanlin Li, Shuai Yang, Jie Zhang, Tianwei Zhang | (参考訳) 生成モデルの開発により、生成コンテンツの品質が向上している。
最近、オープンソースのモデルによって、写真やビデオの操作や編集が驚くほど簡単になった。
これらの最先端技術は人気を博しているが、個人のプライバシーと肖像画の権利に関する懸念も持ち上がっている。
悪意のあるユーザーは、偽装や違法な目的でこれらのツールを利用することができる。
これまでのいくつかの研究は、生成モデルから写真を保護することに重点を置いていたが、効率性と有効性の観点からは、ビデオと画像の保護には依然としてギャップがある。
そこで我々は,保護手法PRIMEを導入し,時間コストを大幅に削減し,保護性能を向上させる。
さらに,提案する保護手法を評価するために,客観的指標と人的主観的指標の両方を検討する。
評価の結果,primeは前回のstate-of-the-art法のコストの8.3%のgpu時間しかかからず,人的評価と客観的指標の両方においてより優れた保護結果が得られることがわかった。
コードはhttps://github.com/GuanlinLee/prime.orgにある。 With the development of generative models, the quality of generated content keeps increasing. Recently, open-source models have made it surprisingly easy to manipulate and edit photos and videos, with just a few simple prompts. While these cutting-edge technologies have gained popularity, they have also given rise to concerns regarding the privacy and portrait rights of individuals. Malicious users can exploit these tools for deceptive or illegal purposes. Although some previous works focus on protecting photos against generative models, we find there are still gaps between protecting videos and images in the aspects of efficiency and effectiveness. Therefore, we introduce our protection method, PRIME, to significantly reduce the time cost and improve the protection performance. Moreover, to evaluate our proposed protection method, we consider both objective metrics and human subjective metrics. Our evaluation results indicate that PRIME only costs 8.3% GPU hours of the cost of the previous state-of-the-art method and achieves better protection results on both human evaluation and objective metrics. Code can be found in https://github.com/GuanlinLee/prime. | 翻訳日:2024-02-05 16:17:30 公開日:2024-02-02 |
# フレキシブルな変分情報ボトルネック:シングルトレーニングによる横圧縮の実現 Flexible Variational Information Bottleneck: Achieving Diverse Compression with a Single Training ( http://arxiv.org/abs/2402.01238v1 ) ライセンス: Link先を確認 | Sota Kudo, Naoaki Ono, Shigehiko Kanaya, Ming Huang | (参考訳) Information Bottleneck(IB)は、ターゲットのランダム変数に関連する情報をソースのランダム変数から抽出できるフレームワークである。
目的関数では、ibはラグランジュ乗算器$\beta$を介してデータ圧縮と予測性のトレードオフを制御する。
伝統的に、学習すべきトレードオフを見つけるために、IBは複数のトレーニングサイクルを通じて$\beta$を検索する必要がある。
本研究では,FVIB (Flexible Variational Information Bottleneck) について紹介する。FVIBは1つの計算効率のトレーニングで,$\beta$の全ての値に対して最適なモデルを得ることができる。
理論的には、$\beta$の全ての値に対して、従来のIB法であるVIBに対する目的関数の近似を同時に最大化できることが示されている。
次に、FVIBがVIBの目的をVIBと同じくらい効果的に学習できることを実証的に示す。
さらに、キャリブレーション性能の面では、FVIBは$\beta$の連続最適化を可能にし、他のIBやキャリブレーション法よりも優れている。
私たちのコードはhttps://github.com/sotakudo/fvibで利用可能です。 Information Bottleneck (IB) is a widely used framework that enables the extraction of information related to a target random variable from a source random variable. In the objective function, IB controls the trade-off between data compression and predictiveness through the Lagrange multiplier $\beta$. Traditionally, to find the trade-off to be learned, IB requires a search for $\beta$ through multiple training cycles, which is computationally expensive. In this study, we introduce Flexible Variational Information Bottleneck (FVIB), an innovative framework for classification task that can obtain optimal models for all values of $\beta$ with single, computationally efficient training. We theoretically demonstrate that across all values of reasonable $\beta$, FVIB can simultaneously maximize an approximation of the objective function for Variational Information Bottleneck (VIB), the conventional IB method. Then we empirically show that FVIB can learn the VIB objective as effectively as VIB. Furthermore, in terms of calibration performance, FVIB outperforms other IB and calibration methods by enabling continuous optimization of $\beta$. Our codes are available at https://github.com/sotakudo/fvib. | 翻訳日:2024-02-05 16:17:09 公開日:2024-02-02 |
# su-schrieffer-heeger鎖の位相ソリトン : 周期的ホッピング変調, ドメイン壁および障害 Topological Solitons in Su-Schrieffer-Heeger Chain with periodic hopping modulation, domain walls and disorder ( http://arxiv.org/abs/2402.01236v1 ) ライセンス: Link先を確認 | Surajit Mandal, Satyaki Kar | (参考訳) キラル対称Su-Schrieffer-Heeger(SSH)鎖は、その二量体構成の1つに位相的端状態を持つ。
これらの中間ギャップエネルギー状態は、ホッピング変調の周期的チューニングによって興味深い変化を示す。
さらに、ホッピング周期性の増加によるブリルアンゾーンのさらなる分割のために、非ゼロエネルギーでより多くのガップ内エンドモードが現れるようになる。
新しいトポロジカル位相は、トポロジカル不変量、すなわち巻数とザック位相の詳細な解析と同一視される。
周期的に変調されたホッピングを持つこれらのシステムのスペクトルとトポロジーは、単一の静的ドメイン壁の存在下でも研究され、2つの位相的に非同値な二量化構造を分離する。
最後に,障害,特に現場で発生するキラリティーの破れがエッジ状態やドメインウォール状態に与える影響についても検討する。
エンドソリトンとドメインウォールソリトンはホッピング周期の変動とともに顕著な進化を示す。
量子計算を含む様々な分野において位相位相を利用する上で重要なフィードバックを与えることができ、その結果は光学格子内に設定されたコールド原子で容易に検証できる。 A chiral symmetric Su-Schrieffer-Heeger (SSH) chain features topological end states in one of its dimerized configurations. Those mid-gap zero energy states show interesting modifications upon a periodic tuning of the hopping modulations. Besides, more and more in-gap end modes appear at nonzero energies for further partitioning of the Brillouin zone due to increased hopping periodicity. The new topological phases are identified with a detailed analysis of the topological invariants namely, winding number and Zak phases. Spectra and topology of these systems with periodically modulated hopping are studied also in presence of a single static domain wall, separating two topologically inequivalent dimerized structures. Lastly, we also study the effect of disorder, particularly the chirality breaking onsite ones, on the edge and domain wall states. The end solitons and domain wall solitons show noteworthy evolutions with the variation of hopping periodicity. Our findings can add important feedback in utilizing topological phases in various fields including quantum computations and the results can be easily verified in a cold atom set up within optical lattices. | 翻訳日:2024-02-05 16:16:40 公開日:2024-02-02 |
# 交通予測における遅延効果の顕在化--時空間遅延微分方程式から Unveiling Delay Effects in Traffic Forecasting: A Perspective from Spatial-Temporal Delay Differential Equations ( http://arxiv.org/abs/2402.01231v1 ) ライセンス: Link先を確認 | Qingqing Long, Zheng Fang, Chen Fang, Chong Chen, Pengfei Wang, Yuanchun Zhou | (参考訳) 交通流予測は交通計画と管理の基本的な研究課題であり、空間-時間予測の標準的かつ典型的な例である。
近年,グラフニューラルネットワーク (GNN) とリカレントニューラルネットワーク (RNN) は交通流予測のための空間的時間的相関を捉えることに成功している。
しかし、無視できない2つの問題は未解決です。
1) GNNにおけるメッセージパッシングは即時であり, 実際には隣接ノード間の空間的メッセージインタラクションを遅延させることができる。
1つのノードでのトラフィックの流れの変化、すなわち時間遅延は、接続された隣人に影響を与えるのに数分かかる。
2) 交通状況は連続的に変化する。
交通流予測の予測周波数は、特定のシナリオ要求に基づいて異なる場合がある。
既存の多くの離散化モデルは、各予測水平線に対する再訓練を必要とし、適用性を制限する。
上記の問題に取り組むために,神経空間-時間遅延微分方程式モデル,すなわちstddeを提案する。
これは空間情報伝達の時間遅延を明示的にモデル化する統一遅延微分方程式フレームワークへの遅延効果と連続性の両方を含んでいる。
さらに、その安定性を示す理論的証明が提供される。
そして、隠れ状態の連続性を利用して勾配の後退過程を実現する学習可能な交通グラフ時間遅延推定器を設計する。
最後に、連続出力モジュールを提案し、様々な周波数でのトラフィックフローを正確に予測し、異なるシナリオに対する柔軟性と適応性を提供する。
広範な実験により、競合計算効率とともにstddeの優位性が示された。 Traffic flow forecasting is a fundamental research issue for transportation planning and management, which serves as a canonical and typical example of spatial-temporal predictions. In recent years, Graph Neural Networks (GNNs) and Recurrent Neural Networks (RNNs) have achieved great success in capturing spatial-temporal correlations for traffic flow forecasting. Yet, two non-ignorable issues haven't been well solved: 1) The message passing in GNNs is immediate, while in reality the spatial message interactions among neighboring nodes can be delayed. The change of traffic flow at one node will take several minutes, i.e., time delay, to influence its connected neighbors. 2) Traffic conditions undergo continuous changes. The prediction frequency for traffic flow forecasting may vary based on specific scenario requirements. Most existing discretized models require retraining for each prediction horizon, restricting their applicability. To tackle the above issues, we propose a neural Spatial-Temporal Delay Differential Equation model, namely STDDE. It includes both delay effects and continuity into a unified delay differential equation framework, which explicitly models the time delay in spatial information propagation. Furthermore, theoretical proofs are provided to show its stability. Then we design a learnable traffic-graph time-delay estimator, which utilizes the continuity of the hidden states to achieve the gradient backward process. Finally, we propose a continuous output module, allowing us to accurately predict traffic flow at various frequencies, which provides more flexibility and adaptability to different scenarios. Extensive experiments show the superiority of the proposed STDDE along with competitive computational efficiency. | 翻訳日:2024-02-05 16:16:08 公開日:2024-02-02 |
# STAA-Net: 音声認識のためのスパース・トランスファー可能な敵対攻撃 STAA-Net: A Sparse and Transferable Adversarial Attack for Speech Emotion Recognition ( http://arxiv.org/abs/2402.01227v1 ) ライセンス: Link先を確認 | Yi Chang, Zhao Ren, Zixing Zhang, Xin Jing, Kun Qian, Xi Shao, Bin Hu, Tanja Schultz, Bj\"orn W. Schuller | (参考訳) 音声には人間の感情に関する豊富な情報が含まれており、音声感情認識(ser)は人間とコンピュータの相互作用の分野で重要な話題となっている。
serモデルの堅牢性は、特にプライバシに敏感で信頼性を要求されるプライベートヘルスケアのようなドメインにおいて重要である。
近年,オーディオ領域における深層ニューラルネットワークの悪意ある攻撃に対する脆弱性が広く研究されている。
しかしながら、オーディオ領域における敵対的攻撃に対する先行的な取り組みは、主に反復的な勾配に基づくテクニックに依存している。
さらに、よりステルス性が高い可能性を持つスパース摂動の探索は、音声領域において制限されている。
これらの課題に対処するため,我々は,エンドツーエンドかつ効率的な方法でサーモデルを欺くために,スパースかつ転送可能な攻撃例を生成するジェネレータベースの攻撃手法を提案する。
本研究では,広く利用されている2つのSERデータセット(DEMoS)とIEMOCAP(Interactive Emotional Dyadic Motion CAPture)について評価を行い,その効率よくスパース対向例を生成する能力を示した。
さらに,本生成例では,モデル非依存的転送性を示し,高度な犠牲者モデルに対する効果的な攻撃を可能にする。 Speech contains rich information on the emotions of humans, and Speech Emotion Recognition (SER) has been an important topic in the area of human-computer interaction. The robustness of SER models is crucial, particularly in privacy-sensitive and reliability-demanding domains like private healthcare. Recently, the vulnerability of deep neural networks in the audio domain to adversarial attacks has become a popular area of research. However, prior works on adversarial attacks in the audio domain primarily rely on iterative gradient-based techniques, which are time-consuming and prone to overfitting the specific threat model. Furthermore, the exploration of sparse perturbations, which have the potential for better stealthiness, remains limited in the audio domain. To address these challenges, we propose a generator-based attack method to generate sparse and transferable adversarial examples to deceive SER models in an end-to-end and efficient manner. We evaluate our method on two widely-used SER datasets, Database of Elicited Mood in Speech (DEMoS) and Interactive Emotional dyadic MOtion CAPture (IEMOCAP), and demonstrate its ability to generate successful sparse adversarial examples in an efficient manner. Moreover, our generated adversarial examples exhibit model-agnostic transferability, enabling effective adversarial attacks on advanced victim models. | 翻訳日:2024-02-05 16:15:28 公開日:2024-02-02 |
# 低分解能赤外線アレイを用いたプライバシー保護のためのDNNのHW-SW最適化 HW-SW Optimization of DNNs for Privacy-preserving People Counting on Low-resolution Infrared Arrays ( http://arxiv.org/abs/2402.01226v1 ) ライセンス: Link先を確認 | Matteo Risso, Chen Xie, Francesco Daghero, Alessio Burrello, Seyedmorteza Mollaei, Marco Castellano, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari | (参考訳) 低分解能赤外線(IR)アレイセンサは、プライバシーを守りエネルギー消費を最小限に抑えながら、空間や人々の流れの占有をモニターするなどのアプリケーションを数えることができる。
ディープニューラルネットワーク(DNN)は、これらのセンサデータを正確かつ効率的に処理するのに適していることが示されている。
それでも、DNNのアーキテクチャの空間は巨大であり、手作業による探索は重荷になり、しばしば準最適解につながる。
この問題を解決するため,本研究では,ニューラルネットワーク探索,混合精度量子化,後処理から,カスタマイズした命令セットを備えたマイクロコントローラを含む新しいスマートセンサプロトタイプの実現まで,高度に自動化されたdnnのフルスタック最適化フローを提案する。
これらの層間最適化を統合することで,エネルギー,メモリ,精度の3次元空間におけるパレート最適解の集合が得られる。
ハードウェアプラットフォームにそのようなソリューションをデプロイすることで,最大4.2倍のモデルサイズ削減,23.8倍のコードサイズ削減,およびアイソ精度での15.38倍のエネルギー削減を実現した。 Low-resolution infrared (IR) array sensors enable people counting applications such as monitoring the occupancy of spaces and people flows while preserving privacy and minimizing energy consumption. Deep Neural Networks (DNNs) have been shown to be well-suited to process these sensor data in an accurate and efficient manner. Nevertheless, the space of DNNs' architectures is huge and its manual exploration is burdensome and often leads to sub-optimal solutions. To overcome this problem, in this work, we propose a highly automated full-stack optimization flow for DNNs that goes from neural architecture search, mixed-precision quantization, and post-processing, down to the realization of a new smart sensor prototype, including a Microcontroller with a customized instruction set. Integrating these cross-layer optimizations, we obtain a large set of Pareto-optimal solutions in the 3D-space of energy, memory, and accuracy. Deploying such solutions on our hardware platform, we improve the state-of-the-art achieving up to 4.2x model size reduction, 23.8x code size reduction, and 15.38x energy reduction at iso-accuracy. | 翻訳日:2024-02-05 16:14:14 公開日:2024-02-02 |
# 意味的セグメンテーションに基づく決定に基づくブラックボックス攻撃 Delving into Decision-based Black-box Attacks on Semantic Segmentation ( http://arxiv.org/abs/2402.01220v1 ) ライセンス: Link先を確認 | Zhaoyu Chen, Zhengyang Shan, Jingwen Chang, Kaixun Jiang, Dingkang Yang, Yiting Cheng, Wenqiang Zhang | (参考訳) セマンティックセグメンテーション(Semantic segmentation)は、セキュリティに敏感なアプリケーションに広範囲に展開する、基本的な視覚的タスクである。
それでも最近の研究は、セマンティックセグメンテーションモデルのホワイトボックス攻撃に対する敵意の脆弱性を説明している。
しかし、ブラックボックス攻撃に対する敵対的堅牢性は十分には研究されていない。
本稿では,ブラックボックス決定に基づくセマンティックセグメンテーションに対する攻撃を初めて検討する。
まず,セマンティクスセグメンテーションが意思決定に基づく攻撃にもたらした課題をケーススタディを通じて分析する。
次に,これらの課題に対処するため,まず,離散線形攻撃 (DLA) と呼ばれる意味的セグメンテーションに対する決定に基づく攻撃を提案する。
ランダムサーチとプロキシ指標に基づき,摂動探索とキャリブレーションに離散線形雑音を活用し,効率的な攻撃効率を実現する。
本研究では,Cityscapes とADE20K の 5 つのモデルに対して,8 つの攻撃下で対向ロバスト性評価を行う。
DLAは、PSPNetのmIoUを77.83%からわずか50クエリで2.14%に劇的に削減することで、Cityscapesに強い力を示している。 Semantic segmentation is a fundamental visual task that finds extensive deployment in applications with security-sensitive considerations. Nonetheless, recent work illustrates the adversarial vulnerability of semantic segmentation models to white-box attacks. However, its adversarial robustness against black-box attacks has not been fully explored. In this paper, we present the first exploration of black-box decision-based attacks on semantic segmentation. First, we analyze the challenges that semantic segmentation brings to decision-based attacks through the case study. Then, to address these challenges, we first propose a decision-based attack on semantic segmentation, called Discrete Linear Attack (DLA). Based on random search and proxy index, we utilize the discrete linear noises for perturbation exploration and calibration to achieve efficient attack efficiency. We conduct adversarial robustness evaluation on 5 models from Cityscapes and ADE20K under 8 attacks. DLA shows its formidable power on Cityscapes by dramatically reducing PSPNet's mIoU from an impressive 77.83% to a mere 2.14% with just 50 queries. | 翻訳日:2024-02-05 16:13:29 公開日:2024-02-02 |
# MLLMはテキストから画像へのインコンテキスト学習を実現できるか? Can MLLMs Perform Text-to-Image In-Context Learning? ( http://arxiv.org/abs/2402.01293v1 ) ライセンス: Link先を確認 | Yuchen Zeng, Wonjun Kang, Yicong Chen, Hyung Il Koo, Kangwook Lee | (参考訳) LLM(Large Language Models)からMLLM(Multimodal Large Language Models)への進化は、ICL(In-Context Learning)をマルチモーダルに拡張する研究を刺激している。
既存の研究は主に画像からテキストへのICLに焦点を当てている。
しかし、T2I-ICL(Text-to-Image ICL)の特長と潜在的な用途は未定である。
このギャップに対処するため、我々はT2I-ICLのタスクを正式に定義し、10タスクを含む最初のT2I-ICLベンチマークデータセットであるCoBSATを提示する。
T2I-ICLを解く上でMLLMが遭遇する相当な困難を明らかにする。
我々は、主な課題を、マルチモダリティと画像生成の固有の複雑さと捉えている。
これらの課題を克服するために、私たちは微調整や思考の連鎖といった戦略を探求し、注目すべき改善を示します。
コードとデータセットは \url{https://github.com/UW-Madison-Lee-Lab/CoBSAT} で公開されています。 The evolution from Large Language Models (LLMs) to Multimodal Large Language Models (MLLMs) has spurred research into extending In-Context Learning (ICL) to its multimodal counterpart. Existing such studies have primarily concentrated on image-to-text ICL. However, the Text-to-Image ICL (T2I-ICL), with its unique characteristics and potential applications, remains underexplored. To address this gap, we formally define the task of T2I-ICL and present CoBSAT, the first T2I-ICL benchmark dataset, encompassing ten tasks. Utilizing our dataset to benchmark six state-of-the-art MLLMs, we uncover considerable difficulties MLLMs encounter in solving T2I-ICL. We identify the primary challenges as the inherent complexity of multimodality and image generation. To overcome these challenges, we explore strategies like fine-tuning and Chain-of-Thought prompting, demonstrating notable improvements. Our code and dataset are available at \url{https://github.com/UW-Madison-Lee-Lab/CoBSAT}. | 翻訳日:2024-02-05 16:05:48 公開日:2024-02-02 |
# 新しいXAIに向けて:エビデンスを用いた仮説駆動による意思決定支援 Towards the new XAI: A Hypothesis-Driven Approach to Decision Support Using Evidence ( http://arxiv.org/abs/2402.01292v1 ) ライセンス: Link先を確認 | Thao Le, Tim Miller, Ronal Singh, Liz Sonenberg | (参考訳) AIによる人的意思決定に関する以前の研究では、いくつかの異なる説明可能なAI(XAI)アプローチが検討されている。
最近の論文では、評価的ai(evaluative ai)と呼ばれる概念フレームワークを通じて仮説駆動のxaiを求めるパラダイムシフトを提案している。
本稿では,ある仮説に対する肯定的かつ否定的な証拠を生成するWoE(Weight of Evidence)フレームワークに基づく仮説駆動型XAIのアプローチを記述し,評価する。
人間の行動実験を通じて,我々の仮説駆動アプローチは意思決定精度を高め,レコメンデーション駆動アプローチやai説明のみベースラインに比べて信頼度を低下させるが,レコメンデーション駆動アプローチに比べて低信頼度は少ないことを示した。
さらに、被験者は2つのベースラインと実質的に異なる方法で仮説駆動のアプローチを使用した。 Prior research on AI-assisted human decision-making has explored several different explainable AI (XAI) approaches. A recent paper has proposed a paradigm shift calling for hypothesis-driven XAI through a conceptual framework called evaluative AI that gives people evidence that supports or refutes hypotheses without necessarily giving a decision-aid recommendation. In this paper we describe and evaluate an approach for hypothesis-driven XAI based on the Weight of Evidence (WoE) framework, which generates both positive and negative evidence for a given hypothesis. Through human behavioural experiments, we show that our hypothesis-driven approach increases decision accuracy, reduces reliance compared to a recommendation-driven approach and an AI-explanation-only baseline, but with a small increase in under-reliance compared to the recommendation-driven approach. Further, we show that participants used our hypothesis-driven approach in a materially different way to the two baselines. | 翻訳日:2024-02-05 16:05:27 公開日:2024-02-02 |
# ucvc - p-frame と b-frame を併用した統合コンテクストビデオ圧縮フレームワーク UCVC: A Unified Contextual Video Compression Framework with Joint P-frame and B-frame Coding ( http://arxiv.org/abs/2402.01289v1 ) ライセンス: Link先を確認 | Jiayu Yang, Wei Jiang, Yongqi Zhai, Chunhui Yang, Ronggang Wang | (参考訳) 本稿では,dcc 2024において,第6回学習画像圧縮(clic)チャレンジの映像圧縮トラックに応答して,学習映像圧縮手法を提案する。
それぞれの非イントラフレームは、2つの隣り合うデコードされたフレームを指しており、これはpフレーム圧縮では過去から、またはbフレーム圧縮では未来からのどちらかである。
トレーニング段階では、モデルパラメータはPフレームとBフレームの両方で共同最適化される。
この設計の利点により、フレームワークはpフレームとbフレームの両方のコーディングをサポートし、pフレームまたはbフレーム用に特別に設計されたものと同等の圧縮効率を達成することができる。
チーム名はPKUSZ-LVC。 This paper presents a learned video compression method in response to video compression track of the 6th Challenge on Learned Image Compression (CLIC), at DCC 2024.Specifically, we propose a unified contextual video compression framework (UCVC) for joint P-frame and B-frame coding. Each non-intra frame refers to two neighboring decoded frames, which can be either both from the past for P-frame compression, or one from the past and one from the future for B-frame compression. In training stage, the model parameters are jointly optimized with both P-frames and B-frames. Benefiting from the designs, the framework can support both P-frame and B-frame coding and achieve comparable compression efficiency with that specifically designed for P-frame or B-frame.As for challenge submission, we report the optimal compression efficiency by selecting appropriate frame types for each test sequence. Our team name is PKUSZ-LVC. | 翻訳日:2024-02-05 16:05:10 公開日:2024-02-02 |
# spiking centernet: オブジェクト検出のための蒸留ブーストスパイクニューラルネットワーク Spiking CenterNet: A Distillation-boosted Spiking Neural Network for Object Detection ( http://arxiv.org/abs/2402.01287v1 ) ライセンス: Link先を確認 | Lennard Bodden, Franziska Schwaiger, Duc Bach Ha, Lars Kreuzberg, Sven Behnke | (参考訳) 最先端のAI、自動運転車、気候変動の時代には、エネルギー効率が高く、小さな組み込みAIの必要性が高まっている。
Spiking Neural Networks(SNN)は、イベント駆動の情報フローとスパースアクティベーションを備えた、この課題に対処するための有望なアプローチである。
イベントデータに対するオブジェクト検出のためのSpking CenterNetを提案する。
SNN CenterNetと効率の良いM2U-Netベースのデコーダを組み合わせる。
私たちのモデルは、propheseeの挑戦的なgen1オートマチック検出データセットの以前の作業よりも、エネルギーの半分未満で大幅に優れています。
非喫煙教師の知識をSNNに浸透させると、パフォーマンスがさらに向上する。
我々の知識を最大限に活用するために、我々の研究は、スパイク物体検出の分野で知識蒸留を利用する最初のアプローチである。 In the era of AI at the edge, self-driving cars, and climate change, the need for energy-efficient, small, embedded AI is growing. Spiking Neural Networks (SNNs) are a promising approach to address this challenge, with their event-driven information flow and sparse activations. We propose Spiking CenterNet for object detection on event data. It combines an SNN CenterNet adaptation with an efficient M2U-Net-based decoder. Our model significantly outperforms comparable previous work on Prophesee's challenging GEN1 Automotive Detection Dataset while using less than half the energy. Distilling the knowledge of a non-spiking teacher into our SNN further increases performance. To the best of our knowledge, our work is the first approach that takes advantage of knowledge distillation in the field of spiking object detection. | 翻訳日:2024-02-05 16:04:54 公開日:2024-02-02 |
# 導波路における量子ビット対からの方向放出と光子束 Directional emission and photon bunching from a qubit pair in waveguide ( http://arxiv.org/abs/2402.01286v1 ) ライセンス: Link先を確認 | M. Maffei, D. Pomarico, P. Facchi, G. Magnifico, S. Pascazio, F. Pepe | (参考訳) 導波路量子電磁力学は、絡み合いと光子状態を生成する強力なプラットフォームである。
マイクロ波領域におけるパリティ不変導波路に結合した一対の同一量子ビットを考える。
1つと2つの励起セクターで作業することにより、崩壊過程の統一的なビューを提供し、指向性単一光子放出と2つの光子方向束の共通起源を示す。
量子軌道を解明し、両現象が直交量子ビットのベル状態と異なる光子伝播方向の選択的結合に根付いていることを示す。
我々は,この機構を用いてベル状態の最適化後選択を実現する方法についてコメントする。 Waveguide quantum electrodynamics represents a powerful platform to generate entanglement and tailor photonic states. We consider a pair of identical qubits coupled to a parity invariant waveguide in the microwave domain. By working in the one- and two-excitation sectors, we provide a unified view of decay processes and we show the common origin of directional single photon emission and two photon directional bunching. Unveiling the quantum trajectories, we demonstrate that both phenomena are rooted in the selective coupling of orthogonal qubits Bell states with different photon propagation directions. We comment on how to use this mechanism to implement optimized post-selection of Bell states, heralded by the detection of photons on one qubits side. | 翻訳日:2024-02-05 16:04:40 公開日:2024-02-02 |
# 球面と球面上の微分可能および加速ウェーブレット変換 Differentiable and accelerated wavelet transforms on the sphere and ball ( http://arxiv.org/abs/2402.01282v1 ) ライセンス: Link先を確認 | Matthew A. Price, Alicja Polanska, Jessica Whitney, Jason D. McEwen | (参考訳) 方向性ウェーブレット辞書(Directional wavelet dictionary)は、スケール、位置、方向の情報を効率的にキャプチャし、セグメント化する階層的な表現である。
このような表現は物理信号に特定の親和性を示し、しばしば高度に異方的で局所化された多スケール構造を示す。
多くの物理的に重要な信号は、宇宙論における天空のような球面領域上で観測される。
計算調和解析の最近の進歩を生かして, 2 次元球面 $\mathbb{S}^2$ と 3 次元球面 $\mathbb{B}^3 = \mathbb{R}^+ \times \mathbb{S}^2$ (球面を半径半直線で拡大することによって形成される空間) に高分散かつ自動微分可能な方向ウェーブレット変換を新たに設計する。
我々は,64ビットマシンの精度を維持しながら,球面上の信号に対して最大300ドル,21800ドルの加速度を観測した。
これらのアルゴリズムは既存の球面ウェーブレット変換を劇的に加速するだけでなく、自動微分によって得られる勾配情報は、これまでこれらの空間では不可能だった多くのデータ駆動分析技術を解き放つ。
S2WAVとS2BALLは、当社の変換用のオープンソースJAXライブラリで、自動微分可能で、ハードウェアアクセラレータのクラスタ(GPUやTPUなど)上で、容易にデプロイできます。 Directional wavelet dictionaries are hierarchical representations which efficiently capture and segment information across scale, location and orientation. Such representations demonstrate a particular affinity to physical signals, which often exhibit highly anisotropic, localised multiscale structure. Many physically important signals are observed over spherical domains, such as the celestial sky in cosmology. Leveraging recent advances in computational harmonic analysis, we design new highly distributable and automatically differentiable directional wavelet transforms on the $2$-dimensional sphere $\mathbb{S}^2$ and $3$-dimensional ball $\mathbb{B}^3 = \mathbb{R}^+ \times \mathbb{S}^2$ (the space formed by augmenting the sphere with the radial half-line). We observe up to a $300$-fold and $21800$-fold acceleration for signals on the sphere and ball, respectively, compared to existing software, whilst maintaining 64-bit machine precision. Not only do these algorithms dramatically accelerate existing spherical wavelet transforms, the gradient information afforded by automatic differentiation unlocks many data-driven analysis techniques previously not possible for these spaces. We publicly release both S2WAV and S2BALL, open-sourced JAX libraries for our transforms that are automatically differentiable and readily deployable both on and over clusters of hardware accelerators (e.g. GPUs & TPUs). | 翻訳日:2024-02-05 16:04:28 公開日:2024-02-02 |
# パラメトリックタスクmap-elites Parametric-Task MAP-Elites ( http://arxiv.org/abs/2402.01275v1 ) ライセンス: Link先を確認 | Timoth\'ee Anne, Jean-Baptiste Mouret | (参考訳) 類似性を利用して関数の集合を同時に最適化することはマルチタスク最適化(multi-task optimization)と呼ばれる。
現在のブラックボックスマルチタスクアルゴリズムは、タスクが連続空間から派生した場合でも、有限のタスクのみを解く。
本稿では,連続マルチタスク最適化問題を解決する新しいブラックボックスアルゴリズムであるParametric-task MAP-Elites (PT-ME)を提案する。
このアルゴリズム(1)は反復毎に新しいタスクを解き、連続空間を効果的にカバーし、(2)局所線形回帰に基づく新しい変分演算子を利用する。
結果として得られるソリューションのデータセットは、任意のタスクパラメータを最適なソリューションにマッピングする関数を作成することができる。
PT-MEが深部強化学習アルゴリズムPPOを含む全てのベースラインより優れているというシミュレーションにおいて、2つのパラメトリックタスクの玩具問題と、より現実的で挑戦的なロボット問題を示す。 Optimizing a set of functions simultaneously by leveraging their similarity is called multi-task optimization. Current black-box multi-task algorithms only solve a finite set of tasks, even when the tasks originate from a continuous space. In this paper, we introduce Parametric-task MAP-Elites (PT-ME), a novel black-box algorithm to solve continuous multi-task optimization problems. This algorithm (1) solves a new task at each iteration, effectively covering the continuous space, and (2) exploits a new variation operator based on local linear regression. The resulting dataset of solutions makes it possible to create a function that maps any task parameter to its optimal solution. We show on two parametric-task toy problems and a more realistic and challenging robotic problem in simulation that PT-ME outperforms all baselines, including the deep reinforcement learning algorithm PPO. | 翻訳日:2024-02-05 16:03:56 公開日:2024-02-02 |
# 小規模音声分類への大規模自己スーパービジョンの転送性について On the Transferability of Large-Scale Self-Supervision to Few-Shot Audio Classification ( http://arxiv.org/abs/2402.01274v1 ) ライセンス: Link先を確認 | Calum Heggan, Sam Budgett, Timothy Hosepedales, Mehrdad Yeghoobi | (参考訳) 近年,自己教師型学習は,非競合データから頑健な特徴表現を学習する能力に優れてきた。
自己監督を通じて事前訓練されたネットワークは、Few-Shot Learningを含む下流タスクのための効果的な特徴抽出器として機能する。
数ショット学習のための教師なしアプローチの評価は画像上では十分に確立されているが、音響学では特に欠落している。
本研究は,小規模音声分類における大規模自己教師付きモデルの性能を評価することで,このギャップを解消する。
さらに,モデルのマイナショット学習能力と他のダウンストリームタスクベンチマークとの関係について検討する。
以上の結果から, speechcommandsv2 などの数少ない問題や, 音声ベースの少数ショット問題と下流の様々な音声タスクとの強い相関性が明らかになった。 In recent years, self-supervised learning has excelled for its capacity to learn robust feature representations from unlabelled data. Networks pretrained through self-supervision serve as effective feature extractors for downstream tasks, including Few-Shot Learning. While the evaluation of unsupervised approaches for few-shot learning is well-established in imagery, it is notably absent in acoustics. This study addresses this gap by assessing large-scale self-supervised models' performance in few-shot audio classification. Additionally, we explore the relationship between a model's few-shot learning capability and other downstream task benchmarks. Our findings reveal state-of-the-art performance in some few-shot problems such as SpeechCommandsv2, as well as strong correlations between speech-based few-shot problems and various downstream audio tasks. | 翻訳日:2024-02-05 16:03:41 公開日:2024-02-02 |
# イベントパーソン再識別のためのスペクトル誘導特徴強調ネットワーク Spectrum-guided Feature Enhancement Network for Event Person Re-Identification ( http://arxiv.org/abs/2402.01269v1 ) ライセンス: Link先を確認 | Hongchen Tan, Yi Zhang, Xiuping Liu, Baocai Yin, Nan Ma, Xin Li, Huchuan Lu | (参考訳) 最先端バイオセンサーとして、イベントカメラはコンピュータビジョン、特にプライバシー保護の分野で大きな可能性を秘めている。
しかし、従来のカメラと比較して、イベントストリームはノイズを伴い、非常にスパースなセマンティクスを持ち、イベントベースの人物の再識別(イベントRe-ID)に深刻な課題を呈する。
そこで我々は,新しい人物識別ネットワークであるスペクトル誘導特徴強調ネットワーク(SFE-Net)を紹介した。
このネットワークは、2つの革新的なコンポーネント、MSAM(Multi-grain Spectrum Attention Mechanism)とCPDM(Consecutive Patch Dropout Module)で構成されている。
MSAMは、イベントノイズをフィルタリングするためにフーリエスペクトル変換戦略を使用し、また、イベント誘導多粒度注意戦略を利用して、識別的人物意味論を強化し、捉える。
CPDMは、複数の不完全な特徴マップを生成するために、連続的なパッチドロップアウト戦略を採用しており、ディープ Re-IDモデルは、人の身体の各有効領域を等しく知覚し、堅牢な人物記述子を捕獲することを奨励している。
Event Re-IDデータセットに関する大規模な実験は、私たちのSFE-Netがこのタスクで最高のパフォーマンスを達成することを示す。 As a cutting-edge biosensor, the event camera holds significant potential in the field of computer vision, particularly regarding privacy preservation. However, compared to traditional cameras, event streams often contain noise and possess extremely sparse semantics, posing a formidable challenge for event-based person re-identification (event Re-ID). To address this, we introduce a novel event person re-identification network: the Spectrum-guided Feature Enhancement Network (SFE-Net). This network consists of two innovative components: the Multi-grain Spectrum Attention Mechanism (MSAM) and the Consecutive Patch Dropout Module (CPDM). MSAM employs a fourier spectrum transform strategy to filter event noise, while also utilizing an event-guided multi-granularity attention strategy to enhance and capture discriminative person semantics. CPDM employs a consecutive patch dropout strategy to generate multiple incomplete feature maps, encouraging the deep Re-ID model to equally perceive each effective region of the person's body and capture robust person descriptors. Extensive experiments on Event Re-ID datasets demonstrate that our SFE-Net achieves the best performance in this task. | 翻訳日:2024-02-05 16:03:26 公開日:2024-02-02 |
# 人間と機械:ロゴ、真理、チャットGPT The Human and the Mechanical: logos, truthfulness, and ChatGPT ( http://arxiv.org/abs/2402.01267v1 ) ライセンス: Link先を確認 | Anastasia Giannakidou and Alda Mari | (参考訳) メカニカルマインド」について話すのが適切かどうか、そしてChatGPTモデルが実際にその実現とみなすことができるかどうかという問題に対処する。
本稿は現在の議論に意味論を加えている。
人間の主張の行為は、正当性判断の形成を必要とする。
モダルによるアサーションの修正(ジョンは自宅にいなければならない)と主観的要素の使用(ジョンは明らかに自宅にいる)は、話者が彼女の判断を操作しており、協力的な文脈では、彼女の認識状態が受取人に透過的であることを意図している。
検証性判定は2つの要素に基づいて構成される。
(i)現実(外部証拠)に関連する証拠及び
(ii)選好や民間信仰などの内在的な証拠。
「機械心」にはこの2つの要素がない。
(i)現実とは無関係で
(ii)内因性証拠がない。
そのため、世界に対する信念を形成する能力や、検証的な判断を全く持たない。
彼らはその判断を模倣するしかありませんが、そのアウトプットは、その基礎に基づかないのです。 The paper addresses the question of whether it is appropriate to talk about `mechanical minds' at all, and whether ChatGPT models can indeed be thought of as realizations of that. Our paper adds a semantic argument to the current debate. The act of human assertion requires the formation of a veridicality judgment. Modification of assertions with modals (John must be at home) and the use of subjective elements (John is obviously at home) indicate that the speaker is manipulating her judgments and, in a cooperative context, intends her epistemic state to be transparent to the addressee. Veridicality judgments are formed on the basis of two components: (i) evidence that relates to reality (exogenous evidence) and (ii) endogenous evidence, such as preferences and private beliefs. `Mechanical minds' lack these two components: (i) they do not relate to reality and (ii) do not have endogenous evidence. Therefore they lack the ability to form a belief about the world and a veridicality judgments altogether. They can only mimic that judgment, but the output is not ground in the very foundations for it. | 翻訳日:2024-02-05 16:03:01 公開日:2024-02-02 |
# ゼロショット回帰のための直接側情報学習 Direct side information learning for zero-shot regression ( http://arxiv.org/abs/2402.01264v1 ) ライセンス: Link先を確認 | Miriam Fdez-D\'iaz, Elena Monta\~n\'es, Jos\'e Ram\'on Quevedo | (参考訳) ゼロショット学習は、一般的には観測されていないターゲットと呼ばれる、インスタンスが利用できないターゲットのためのモデルを提供する。
この文脈では、ターゲットに関するモデルを適切に誘導するために、ターゲット側情報の提供が不可欠となる。
このシナリオに対処するには多くの戦略があるが、特にコンピュータビジョンや画像分類においてゼロショット分類シナリオに基づいて設計されているが、ラベルではなく連続値が予測されるゼロショット回帰フレームワークには適用できないか、容易に拡張可能である。
実際、文献にはゼロショット回帰の方法がかなり欠けている。
近年,二相法で作用するゼロショット回帰の2つのアプローチが提案されている。
彼らはまず、ターゲット側情報を無視する古典的な回帰学習を通して観測対象モデルを学習する。
そして、その後、対象側情報を利用した観測対象モデルを集約し、未観測対象のモデルを誘導する。
共通の特徴とサイド情報に対する異なる扱いにより、どちらも非常に優れたパフォーマンスを示しているが、彼らは特徴とサイド情報を別々に利用し、観測されていないターゲットモデルを提供するためのグローバルな最適化を避けている。
本論文は,片相学習プロセスにおいて特徴量と側面情報を取り扱うが,共通的な特徴量よりも側面情報を適切に,より保存的に扱う新しい手法を提案する。
この目的のために、機能とサイド情報を適切にマージする特定のカーネルが提案され、人工データと実データの両方よりも優れたパフォーマンスを示す新しいアプローチが提案されている。 Zero-shot learning provides models for targets for which instances are not available, commonly called unobserved targets. The availability of target side information becomes crucial in this context in order to properly induce models for these targets. The literature is plenty of strategies to cope with this scenario, but specifically designed on the basis of a zero-shot classification scenario, mostly in computer vision and image classification, but they are either not applicable or easily extensible for a zero-shot regression framework for which a continuos value is required to be predicted rather than a label. In fact, there is a considerable lack of methods for zero-shot regression in the literature. Two approaches for zero-shot regression that work in a two-phase procedure were recently proposed. They first learn the observed target models through a classical regression learning ignoring the target side information. Then, they aggregate those observed target models afterwards exploiting the target side information and the models for the unobserved targets are induced. Despite both have shown quite good performance because of the different treatment they grant to the common features and to the side information, they exploit features and side information separately, avoiding a global optimization for providing the unobserved target models. The proposal of this paper is a novel method that jointly takes features and side information in a one-phase learning process, but treating side information properly and in a more deserving way than as common features. A specific kernel that properly merges features and side information is proposed for this purpose resulting in a novel approach that exhibits better performance over both artificial and real datasets. | 翻訳日:2024-02-05 16:02:43 公開日:2024-02-02 |
# 前向きメッセージパッシングを用いた微分可能なPOGLM A Differentiable POGLM with Forward-Backward Message Passing ( http://arxiv.org/abs/2402.01263v1 ) ライセンス: Link先を確認 | Chengrui Li, Weihan Li, Yule Wang, and Anqi Wu | (参考訳) 部分的に観測可能な一般化線形モデル(POGLM)は、既存の隠れニューロンを仮定して神経接続を理解する強力なツールである。
スパイクトレインは可視ニューロンからのみ記録されるため、既存の研究では変分推論を用いてPOGLMを学習する一方、この潜伏変数モデルを学ぶのが困難である。
主な問題として,(1) サンプルポアソン隠れスパイクカウントは, VI における経路勾配推定器の使用を妨げること,(2) 既存の変分モデルの設計は表現性や時間効率に悪影響を及ぼさないこと,などがあげられる。
本稿では,(1)既存の作業におけるスコア関数勾配推定器よりもパスワイズ勾配推定器を良好に使用できる,新しい微分可能な poglm を提案する。
2) 変分モデルに対するフォワード・バック・メッセージ・パッシング・サンプリング手法を提案する。
包括的実験により、私たちの前向きメッセージパッシングによる差別化可能なPOGLMは、1つの合成データセットと2つの実世界のデータセット上でより優れたパフォーマンスをもたらすことが示された。
さらに,本手法はより解釈可能なパラメータとなり,神経科学におけるその意義を強調する。 The partially observable generalized linear model (POGLM) is a powerful tool for understanding neural connectivity under the assumption of existing hidden neurons. With spike trains only recorded from visible neurons, existing works use variational inference to learn POGLM meanwhile presenting the difficulty of learning this latent variable model. There are two main issues: (1) the sampled Poisson hidden spike count hinders the use of the pathwise gradient estimator in VI; and (2) the existing design of the variational model is neither expressive nor time-efficient, which further affects the performance. For (1), we propose a new differentiable POGLM, which enables the pathwise gradient estimator, better than the score function gradient estimator used in existing works. For (2), we propose the forward-backward message-passing sampling scheme for the variational model. Comprehensive experiments show that our differentiable POGLMs with our forward-backward message passing produce a better performance on one synthetic and two real-world datasets. Furthermore, our new method yields more interpretable parameters, underscoring its significance in neuroscience. | 翻訳日:2024-02-05 16:02:19 公開日:2024-02-02 |
# カスケードスケーリング分類器:確率スケーリングによるクラスインクリメンタル学習 Cascaded Scaling Classifier: class incremental learning with probability scaling ( http://arxiv.org/abs/2402.01262v1 ) ライセンス: Link先を確認 | Jary Pomponi, Alessio Devoto, Simone Scardapane | (参考訳) 人間は新しい知識を取得し、学習した知識を異なる領域に移し、少し忘れてしまう。
連続学習(Continuous Learning)と呼ばれる同じ能力は、ニューラルネットワークで操作する場合、新しいものを学ぶときの過去の学習タスクの影響を忘れてしまうため、実現が難しい。
これは過去のタスクから保存されたサンプルを再生することで緩和できるが、長いタスクのシーケンスには大きなメモリサイズが必要になる可能性がある。
本稿では,新しい正規化手法と,マージン減衰法とカスケードスケーリング分類法という新しいインクリメンタル分類法を提案する。
まず、ソフト制約と知識蒸留アプローチを組み合わせて過去の知識を保存し、モデルが新しいパターンを効果的に学習できるようにする。
後者はゲートインクリメンタルな分類器で、モデルが直接干渉することなく過去の予測を変更するのに役立つ。
これはモデルの出力を補助スケーリング関数で変更することで実現される。
我々は,提案手法が確立されたベースラインに対して複数のベンチマークで良好に動作することを示すとともに,提案手法のそれぞれのコンポーネントと,それらの組み合わせが最終的な結果に与える影響についても検討する。 Humans are capable of acquiring new knowledge and transferring learned knowledge into different domains, incurring a small forgetting. The same ability, called Continual Learning, is challenging to achieve when operating with neural networks due to the forgetting affecting past learned tasks when learning new ones. This forgetting can be mitigated by replaying stored samples from past tasks, but a large memory size may be needed for long sequences of tasks; moreover, this could lead to overfitting on saved samples. In this paper, we propose a novel regularisation approach and a novel incremental classifier called, respectively, Margin Dampening and Cascaded Scaling Classifier. The first combines a soft constraint and a knowledge distillation approach to preserve past learned knowledge while allowing the model to learn new patterns effectively. The latter is a gated incremental classifier, helping the model modify past predictions without directly interfering with them. This is achieved by modifying the output of the model with auxiliary scaling functions. We empirically show that our approach performs well on multiple benchmarks against well-established baselines, and we also study each component of our proposal and how the combinations of such components affect the final results. | 翻訳日:2024-02-05 16:01:59 公開日:2024-02-02 |
# TEDDY:Degreeベースの差別戦略によるエッジのトリミング TEDDY: Trimming Edges with Degree-based Discrimination strategY ( http://arxiv.org/abs/2402.01261v1 ) ライセンス: Link先を確認 | Hyunjin Seo, Jihun Yun, Eunho Yang | (参考訳) グラフニューラルネットワーク(GNN)の抽選チケット仮説(GNN)に関する先駆的な研究が2021年にChenらによって提案されて以来、グラフ抽選チケット(GLT)の発見に関する研究は、GNNコミュニティにおける重要な焦点の1つとなり、研究者たちは、元の高密度ネットワークに匹敵する性能を達成しつつ、スパーサーGLTを発見することを奨励している。
グラフ構造はGNNトレーニングの力学において重要な要素として注目されており、近年のいくつかの研究によって解明されている。
それにもかかわらず、GLTに関する現代の研究は一般的に、グラフ構造における固有の経路を完全に活用せず、反復的な方法でチケットを識別している。
このような制約に対処するために,我々は,エッジ度情報を取り込むことで構造情報を活用する,ワンショットのエッジスパーシフィケーションフレームワークであるteddyを紹介する。
エッジスペーシフィケーションの後に、$\ell_0$ボール上の単純な投影勾配降下により、トレーニング中のパラメータスペーシリティを奨励する。
我々のTEDDYは,グラフ構造とモデルパラメータの両方のターゲット空間レベルを考慮し,単一のトレーニングにおいてGLTの効率的かつ迅速な実現を促進する。
グラフ構造のみを利用するワンショットスパルシフィケーションを行う場合であっても,ノードの特徴を考慮せずに,teddyは従来の一般化における反復的アプローチを大幅に上回っている。 Since the pioneering work on the lottery ticket hypothesis for graph neural networks (GNNs) was proposed in Chen et al. (2021), the study on finding graph lottery tickets (GLT) has become one of the pivotal focus in the GNN community, inspiring researchers to discover sparser GLT while achieving comparable performance to original dense networks. In parallel, the graph structure has gained substantial attention as a crucial factor in GNN training dynamics, also elucidated by several recent studies. Despite this, contemporary studies on GLT, in general, have not fully exploited inherent pathways in the graph structure and identified tickets in an iterative manner, which is time-consuming and inefficient. To address these limitations, we introduce TEDDY, a one-shot edge sparsification framework that leverages structural information by incorporating edge-degree information. Following edge sparsification, we encourage the parameter sparsity during training via simple projected gradient descent on the $\ell_0$ ball. Given the target sparsity levels for both the graph structure and the model parameters, our TEDDY facilitates efficient and rapid realization of GLT within a single training. Remarkably, our experimental results demonstrate that TEDDY significantly surpasses conventional iterative approaches in generalization, even when conducting one-shot sparsification that solely utilizes graph structures, without taking node features into account. | 翻訳日:2024-02-05 16:01:36 公開日:2024-02-02 |
# 配電シフトのアルゴリズム的公平性に関する調査 Supervised Algorithmic Fairness in Distribution Shifts: A Survey ( http://arxiv.org/abs/2402.01327v1 ) ライセンス: Link先を確認 | Yujie Lin, Dong Li, Chen Zhao, Xintao Wu, Qin Tian, Minglai Shao | (参考訳) 分散シフト下での公平性を考慮した機械学習は、ソースからターゲット領域へのデータ分布の変化に直面した場合、公平で偏りのない予測を維持するという課題に対処する新興分野である。
現実世界のアプリケーションでは、機械学習モデルは特定のデータセットでトレーニングされることが多いが、さまざまな要因によってデータの分散が時間とともに変化する環境にデプロイされる。
この変化は、人種や性別などのセンシティブな属性によって特徴づけられる特定のグループに不公平な予測をもたらす可能性がある。
本調査では, 各種分布シフトの概説を行い, これらのシフトに基づく既存手法を包括的に検討し, 文献で広く用いられている6つのアプローチを概説する。
さらに、この調査では、実証研究のための公開データセットと評価指標をリストアップしている。
我々は,関連する研究分野との相互関係をさらに探究し,重要な課題について議論し,今後の研究の方向性を明らかにする。 Supervised fairness-aware machine learning under distribution shifts is an emerging field that addresses the challenge of maintaining equitable and unbiased predictions when faced with changes in data distributions from source to target domains. In real-world applications, machine learning models are often trained on a specific dataset but deployed in environments where the data distribution may shift over time due to various factors. This shift can lead to unfair predictions, disproportionately affecting certain groups characterized by sensitive attributes, such as race and gender. In this survey, we provide a summary of various types of distribution shifts and comprehensively investigate existing methods based on these shifts, highlighting six commonly used approaches in the literature. Additionally, this survey lists publicly available datasets and evaluation metrics for empirical studies. We further explore the interconnection with related research fields, discuss the significant challenges, and identify potential directions for future studies. | 翻訳日:2024-02-05 15:54:41 公開日:2024-02-02 |
# 高次元ヒルベルト空間を用いた量子通信の展望 A Review of Quantum communication using high-dimensional Hilbert spaces ( http://arxiv.org/abs/2402.01319v1 ) ライセンス: Link先を確認 | Yuval Idan and Avihai Didi | (参考訳) このプロジェクトでは、ヒルベルト空間が2次元でヒルベルト空間次元が2より大きい量子ビットを用いて分割するいくつかの異なる量子鍵分散プロトコルについて検討し、量子コンピュータにおけるデータの単位はquditsと呼ばれ、本論文ではツイスト光子の軌道角運動量を用いて実装する。
セクション[3]及び[4]では、各プロトコルの特定の手順を簡潔に記述し、続いて各プロトコルの理論的および実験的メリットについて検討する。
これらの利点は、最大チャネルノイズを定量化するビット誤り率許容値 $e_b$ と、プロトコルでデータが転送されるレートを定量化するキーレート $r$ で測定される。
第7節では、異なるプロトコルに関するすべての関連データの統一的なビューを示し、異なるアプリケーションに対する異なるプロトコルの利点と欠点について論じます。 In this project we examine several different quantum key distribution protocols which we divide into ones utilizing qubits whose Hilbert spaces are two dimensional and ones whose Hilbert space dimension is greater than two, these units of data in quantum computers are known as qudits and in the papers we'll examine are implemented using the orbital angular momentum of twisted photons. In sections [3] and [4] the specific procedures of each protocol are briefly described and followed by an examination of the theoretical and experimental merits of each protocol. These merits are measured in the bit error rate tolerance $e_b$, which quantifies the maximum channel noise and the key rate $R$ which quantifies the rate at which data is transferred in the protocol. In section [7] we present a unified view of all the relevant data for the different protocols, and argue for the benefits and drawbacks of the different protocols for different applications. | 翻訳日:2024-02-05 15:54:26 公開日:2024-02-02 |
# AutoGCN -- ニューラルアーキテクチャ検索によるジェネリックヒューマンアクティビティ認識を目指す AutoGCN -- Towards Generic Human Activity Recognition with Neural Architecture Search ( http://arxiv.org/abs/2402.01313v1 ) ライセンス: Link先を確認 | Felix Tempel, Inga Str\"umke and Espen Alexander F. Ihlen | (参考訳) 本稿では、グラフ畳み込みネットワーク(GCN)を用いた人間活動認識(HAR)のための汎用ニューラルアーキテクチャ探索(NAS)アルゴリズムであるAutoGCNを紹介する。
HARはディープラーニングの進歩、データ可用性の向上、計算能力の向上によって注目を集めている。
同時に、GCNは骨格グラフ内のボディキーポイント間の関係をモデル化する有望な結果を示している。
ドメインの専門家はデータセット固有のGCNベースのメソッドを作ることが多いが、この特定のコンテキストを超える適用性は非常に限られている。
AutoGCNは、探索過程中に知識貯水池で最適な探索と搾取の挙動をバランスさせながら、多目的探索空間内で理想的なハイパーパラメータとアーキテクチャの組み合わせを同時に探索することで、この制限に対処しようとしている。
提案アルゴリズムの性能を評価するために,骨格に基づく行動認識に着目した2つの大規模データセットについて広範な実験を行った。
実験結果は,従来のNAS法やGCN法,およびランダム探索法よりも優れたHARのための最適なGCNアーキテクチャを構築する上で,AutoGCNの有効性を裏付けるものである。
これらの結果は,ネットワーク性能と一般化性を高めるための多様な検索空間と表現表現の重要性を浮き彫りにしている。 This paper introduces AutoGCN, a generic Neural Architecture Search (NAS) algorithm for Human Activity Recognition (HAR) using Graph Convolution Networks (GCNs). HAR has gained attention due to advances in deep learning, increased data availability, and enhanced computational capabilities. At the same time, GCNs have shown promising results in modeling relationships between body key points in a skeletal graph. While domain experts often craft dataset-specific GCN-based methods, their applicability beyond this specific context is severely limited. AutoGCN seeks to address this limitation by simultaneously searching for the ideal hyperparameters and architecture combination within a versatile search space using a reinforcement controller while balancing optimal exploration and exploitation behavior with a knowledge reservoir during the search process. We conduct extensive experiments on two large-scale datasets focused on skeleton-based action recognition to assess the proposed algorithm's performance. Our experimental results underscore the effectiveness of AutoGCN in constructing optimal GCN architectures for HAR, outperforming conventional NAS and GCN methods, as well as random search. These findings highlight the significance of a diverse search space and an expressive input representation to enhance the network performance and generalizability. | 翻訳日:2024-02-05 15:54:10 公開日:2024-02-02 |
# 複素電界を受ける非エルミート系の波束ダイナミクス Wave-packet dynamics in non-Hermitian systems subject to complex electric fields ( http://arxiv.org/abs/2402.01312v1 ) ライセンス: Link先を確認 | Bar Alon (1), Roni Ilan (1), Moshe Goldstein (1) ((1) Raymond and Beverly Sackler School of Physics and Astronomy Tel Aviv University) | (参考訳) ベリー相は長い間、周期系の特性を著しく変化させることが知られており、波束力学を記述する運動の半古典方程式において異常項が生じる。
非エルミート系では、ベリー接続の一般化が提案され、力学と輸送に新しい影響を与えることが示されている。
本研究では、複素外部電場を対象とする非エルミート系における波束力学の半古典的な運動方程式の完全な集合をゲイン勾配として実現することにより、これらの結果を拡張する。
バンドハミルトニアンと外部ポテンシャルの非ヘルミティクスは、量子計量テンソルを含む固有関数の幾何学的性質に依存する異常な重量率と速度項をもたらすことを示した。
これらの解析結果は1次元においてもこれらの異常項を明らかにする数値格子シミュレーションと比較される。
我々の研究は、実験装置で検出可能な現象の範囲を広げ、現在利用可能なメタマテリアルや、機械、音響、光学を含む古典的な波動システムで実現できるはずである。 Berry phases have long been known to significantly alter the properties of periodic systems, giving rise to anomalous terms in the semiclassical equations of motion describing wave-packet dynamics. In non-Hermitian systems, generalizations of the Berry connection have been proposed and shown to have novel effects on dynamics and transport. In this work, we expand upon these results by deriving the full set of semiclassical equations of motion for wave-packet dynamics in a non-Hermitian system subject to complex external electric fields, which are realizable as gain gradients. We show that the non-Hermiticities of both the band Hamiltonian and the external potential give rise to anomalous weight rate and velocity terms which depend on the geometric properties of the eigenfunctions, including the quantum metric tensor. These analytical results are compared with numerical lattice simulations which reveal these anomalous terms even in one-dimension. Our work expands the range of phenomena expected to be detectable in experimental setups, which should be realizable in currently available metamaterials and classical wave systems, including mechanical, acoustic, and optical. | 翻訳日:2024-02-05 15:53:46 公開日:2024-02-02 |
# 射影ネットワークによる異次元データの深層マルチモーダル融合 Deep Multimodal Fusion of Data with Heterogeneous Dimensionality via Projective Networks ( http://arxiv.org/abs/2402.01311v1 ) ライセンス: Link先を確認 | Jos\'e Morano and Guilherme Aresta and Christoph Grechenig and Ursula Schmidt-Erfurth and Hrvoje Bogunovi\'c | (参考訳) マルチモーダルイメージングの使用は、多くの疾患の診断と治療に大きな改善をもたらした。
臨床と同様、深層学習を用いた自動セグメンテーションと分類のためのマルチモーダル融合の利点を実証する研究もある。
しかし、現在のセグメンテーション法は、同じ次元を持つモダリティ(例えば、3D+3D、2D+2D)の融合に限られており、分類法によって実施される融合戦略は、ローカライズタスクとは相容れない。
本研究では,マルチモーダルデータと不均質な次元(例えば,3d+2d)を融合する深層学習に基づく新しいフレームワークを提案する。
提案するフレームワークは,異なるモダリティの特徴を抽出し,共通の特徴部分空間に投影する。
投影された特徴を融合してさらに処理し、最終的な予測を得る。
この枠組みは、地理的萎縮(GA)の分画、加齢に伴う黄斑変性の後期発現、マルチモーダル網膜イメージングにおける網膜血管(RBV)の分画といった課題で検証された。
提案手法は,gaとrbvのセグメンテーションにおける最先端モノモーダル法を3.10%,4.64%それぞれ上回っている。 The use of multimodal imaging has led to significant improvements in the diagnosis and treatment of many diseases. Similar to clinical practice, some works have demonstrated the benefits of multimodal fusion for automatic segmentation and classification using deep learning-based methods. However, current segmentation methods are limited to fusion of modalities with the same dimensionality (e.g., 3D+3D, 2D+2D), which is not always possible, and the fusion strategies implemented by classification methods are incompatible with localization tasks. In this work, we propose a novel deep learning-based framework for the fusion of multimodal data with heterogeneous dimensionality (e.g., 3D+2D) that is compatible with localization tasks. The proposed framework extracts the features of the different modalities and projects them into the common feature subspace. The projected features are then fused and further processed to obtain the final prediction. The framework was validated on the following tasks: segmentation of geographic atrophy (GA), a late-stage manifestation of age-related macular degeneration, and segmentation of retinal blood vessels (RBV) in multimodal retinal imaging. Our results show that the proposed method outperforms the state-of-the-art monomodal methods on GA and RBV segmentation by up to 3.10% and 4.64% Dice, respectively. | 翻訳日:2024-02-05 15:53:25 公開日:2024-02-02 |
# 量子計算のためのNMRスピン系の制御 Controlling NMR spin systems for quantum computation ( http://arxiv.org/abs/2402.01308v1 ) ライセンス: Link先を確認 | Jonathan A. Jones | (参考訳) 核磁気共鳴は、単純な量子コンピューティング実験を実行する上で最も有効な量子技術であり、大規模な量子コンピュータを構築する上で最悪の技術であることは間違いない。
数年の急速な成長を経て、ショアの量子因数分解アルゴリズムを7スピン系に実装し、フィールドは自然の限界に達し、さらなる進歩が困難になった。
より大きなシステムでより複雑なアルゴリズムを追求するよりも、よりスケーラブルな他の技術や従来のnmrで適用可能な方法の開発を目的として、スピン状態の精密かつ効率的な操作のための技術の開発に注目が集まっている。
しかし、nmr実装のユーザフレンドリは、単純な量子情報プロトコルの原理実証デモで人気を保っていることを意味する。 Nuclear magnetic resonance is arguably both the best available quantum technology for implementing simple quantum computing experiments and the worst technology for building large scale quantum computers that has ever been seriously put forward. After a few years of rapid growth, leading to an implementation of Shor's quantum factoring algorithm in a seven-spin system, the field started to reach its natural limits and further progress became challenging. Rather than pursuing more complex algorithms on larger systems, interest has now largely moved into developing techniques for the precise and efficient manipulation of spin states with the aim of developing methods that can be applied in other more scalable technologies and within conventional NMR. However, the user friendliness of NMR implementations means that they remain popular for proof-of-principle demonstrations of simple quantum information protocols. | 翻訳日:2024-02-05 15:53:03 公開日:2024-02-02 |
# KTO:将来の理論最適化としてのモデルアライメント KTO: Model Alignment as Prospect Theoretic Optimization ( http://arxiv.org/abs/2402.01306v1 ) ライセンス: Link先を確認 | Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, Douwe Kiela | (参考訳) Kahneman & Tversky's $\textit{prospect theory}$は、人間が偏見はあるが明確に定義された方法でランダムな変数を知覚することを示している。
我々は、LLMを人間のフィードバックに合わせる目的が、これらのバイアスの多くを暗黙的に取り入れていることを示し、例えば、クロスエントロピーの最小化よりも、これらの目的(例えば、DPO)の成功は、部分的に$\textit{human-aware loss function}$ (HALOs)と記述できることを示した。
しかし、これらの方法が人間に持つ効用関数は、まだ先見論文献にあるものとは異なる。
人間のユーティリティのKahneman-Tverskyモデルを用いて、現在の方法のように、好みのログを最大化するのではなく、世代ごとのユーティリティを直接最大化するHALOを提案する。
このアプローチをKTO(Kahneman-Tversky Optimization)と呼び、1Bから30Bのスケールで、好みに基づく手法のパフォーマンスを一致または超える。
重要なことは、KTOは好みを必要としない -- 与えられた入力に対して出力が望ましいか望ましくないかのバイナリ信号のみである。
これにより、プレファレンスデータが不足し、コストがかかる現実世界での使用がはるかに容易になります。 Kahneman & Tversky's $\textit{prospect theory}$ tells us that humans perceive random variables in a biased but well-defined manner; for example, humans are famously loss-averse. We show that objectives for aligning LLMs with human feedback implicitly incorporate many of these biases -- the success of these objectives (e.g., DPO) over cross-entropy minimization can partly be ascribed to them being $\textit{human-aware loss functions}$ (HALOs). However, the utility functions these methods attribute to humans still differ from those in the prospect theory literature. Using a Kahneman-Tversky model of human utility, we propose a HALO that directly maximizes the utility of generations instead of maximizing the log-likelihood of preferences, as current methods do. We call this approach Kahneman-Tversky Optimization (KTO), and it matches or exceeds the performance of preference-based methods at scales from 1B to 30B. Crucially, KTO does not need preferences -- only a binary signal of whether an output is desirable or undesirable for a given input. This makes it far easier to use in the real world, where preference data is scarce and expensive. | 翻訳日:2024-02-05 15:52:49 公開日:2024-02-02 |
# フレーズ接地に基づく単一領域一般化物体検出のためのスタイル転送 Phrase Grounding-based Style Transfer for Single-Domain Generalized Object Detection ( http://arxiv.org/abs/2402.01304v1 ) ライセンス: Link先を確認 | Hao Li, Wei Wang, Cong Wang, Zhigang Luo, Xinwang Liu, Kenli Li and Xiaochun Cao | (参考訳) 単一ドメインの一般化オブジェクト検出は、トレーニング中に単一のソースドメインのデータのみを使用して、複数の未確認対象ドメインに対するモデルの一般化性を高めることを目的としている。
ターゲットとなるドメインデータをトレーニングに組み込むことなく、モデルがドメインシフトに対処する必要があるため、これは実用的かつ困難なタスクです。
本稿では,この課題に対する新しい文節接地型スタイル転送(PGST)手法を提案する。
具体的には、まず、対象領域ごとに潜在的なオブジェクトを記述するためのテキストプロンプトを定義します。
次に,glip(grounded language-image pre-training)モデルを用いて,対象領域のスタイルを学習し,ソースから対象領域へのスタイル転送を実現する。
スタイル変換されたソースの視覚機能はセマンティックにリッチであり、ターゲットドメインの想像上の機能に近い可能性がある。
最後に、これらのスタイル変換された視覚特徴を用いて、GLIPを微調整する。
想像上の相手を導入することで、検出器は訓練のために単一のソースドメインのみを使用して、効果的に標的ドメインに一般化できる。
提案手法は,訓練プロセスに対象のドメインイメージを組み込んだいくつかのドメイン適応手法を超越した,最先端の性能を実現することを実証し,ソースコードと事前訓練済みモデルを利用可能とする。 Single-domain generalized object detection aims to enhance a model's generalizability to multiple unseen target domains using only data from a single source domain during training. This is a practical yet challenging task as it requires the model to address domain shift without incorporating target domain data into training. In this paper, we propose a novel phrase grounding-based style transfer (PGST) approach for the task. Specifically, we first define textual prompts to describe potential objects for each unseen target domain. Then, we leverage the grounded language-image pre-training (GLIP) model to learn the style of these target domains and achieve style transfer from the source to the target domain. The style-transferred source visual features are semantically rich and could be close to imaginary counterparts in the target domain. Finally, we employ these style-transferred visual features to fine-tune GLIP. By introducing imaginary counterparts, the detector could be effectively generalized to unseen target domains using only a single source domain for training. Extensive experimental results on five diverse weather driving benchmarks demonstrate our proposed approach achieves state-of-the-art performance, even surpassing some domain adaptive methods that incorporate target domain images into the training process.The source codes and pre-trained models will be made available. | 翻訳日:2024-02-05 15:52:25 公開日:2024-02-02 |
# AGILE: 要素分解から学んだアプローチベースのGrasp推論 AGILE: Approach-based Grasp Inference Learned from Element Decomposition ( http://arxiv.org/abs/2402.01303v1 ) ライセンス: Link先を確認 | MohammadHossein Koosheshi, Hamed Hosseini, Mehdi Tale Masouleh, Ahmad Kalhor, Mohammad Reza Hairi Yazdi | (参考訳) この把持検出の専門家であるヒトは、手対象の位置情報を考慮して物体を把握できる。
本研究は,ロボットマニピュレータが物体に対するグリッパーの接近状況に応じて,物体を最も最適な方法で把握し,同一の学習を可能にする手法を提案する。
深層学習を基盤として,提案手法は2つの主要段階からなる。
ネットワークを未知のオブジェクトに一般化するために、提案するアプローチに基づく把持推論は、グリッパーの特定のアプローチに対して1つ以上の注釈付き把持を持つオブジェクトをその主部分に分割する要素分解段階を含む。
その後、把握検出ネットワークは、マスクr−cnnによる分解された要素と、グリッパーの接近に関する情報を利用して、グリッパーが接近した要素と最も最適な把持を検出する。
ネットワークをトレーニングするために,coppeliasimシミュレーション環境で収集したロボット把持データセットを紹介する。
データセットは10の異なるオブジェクトを含み、注釈付き要素分解マスクと矩形を把握している。
提案手法は,コッペリアシムシミュレーション環境において,被写体に対する90%の把握成功率と見えない被写体に対する78%を取得する。
最後に、シミュレーションから現実への領域適応は、シミュレーションで収集したトレーニングセットに変換を適用し、データセットを拡大することにより、デルタパラレルロボットと2本指グリップパーを用いて、70%の物理的把握成功性能が得られる。 Humans, this species expert in grasp detection, can grasp objects by taking into account hand-object positioning information. This work proposes a method to enable a robot manipulator to learn the same, grasping objects in the most optimal way according to how the gripper has approached the object. Built on deep learning, the proposed method consists of two main stages. In order to generalize the network on unseen objects, the proposed Approach-based Grasping Inference involves an element decomposition stage to split an object into its main parts, each with one or more annotated grasps for a particular approach of the gripper. Subsequently, a grasp detection network utilizes the decomposed elements by Mask R-CNN and the information on the approach of the gripper in order to detect the element the gripper has approached and the most optimal grasp. In order to train the networks, the study introduces a robotic grasping dataset collected in the Coppeliasim simulation environment. The dataset involves 10 different objects with annotated element decomposition masks and grasp rectangles. The proposed method acquires a 90% grasp success rate on seen objects and 78% on unseen objects in the Coppeliasim simulation environment. Lastly, simulation-to-reality domain adaptation is performed by applying transformations on the training set collected in simulation and augmenting the dataset, which results in a 70% physical grasp success performance using a Delta parallel robot and a 2 -fingered gripper. | 翻訳日:2024-02-05 15:52:05 公開日:2024-02-02 |
# 分散データの勾配に基づくクラスタリングのための統一フレームワーク A Unified Framework for Gradient-based Clustering of Distributed Data ( http://arxiv.org/abs/2402.01302v1 ) ライセンス: Link先を確認 | Aleksandar Armacki, Dragana Bajovi\'c, Du\v{s}an Jakoveti\'c, Soummya Kar | (参考訳) 我々は,ユーザのネットワーク上で動作する分散クラスタリングアルゴリズムのファミリーを開発する。
提案したシナリオでは、ユーザはローカルデータセットを格納し、隣人とのみ通信し、完全なジョイントデータのクラスタリングを見つけることを目的としている。
DGC-$\mathcal{F}_\rho$と呼ばれる提案されたファミリーは、$\rho \geq 1$によってパラメータ化され、クラスタリング損失を$\mathcal{F}$で決定する。
k$-means や huber loss のような一般的なクラスタリングの損失に特化し、dgc-$\mathcal{f}_\rho$ は新たな分散クラスタリングアルゴリズム dgc-km$_\rho$ と dgc-hl$_\rho$ を生み出し、ロジスティック関数に基づく新しいクラスタリングの損失は dgc-ll$_\rho$ をもたらす。
我々は統一的な分析を行い,軽度の仮定のもとにいくつかの強い結果を確立した。
まず、メソッドによって生成される中心の列は、任意の中心初期化と$\rho$の値の下で、よく定義された固定点の概念に収束する。
次に、$\rho$が増加するにつれて、DGC-$\mathcal{F}_\rho$ によって生成される固定点の族は、コンセンサス固定点の概念に収束する。
DGC-$\mathcal{F}_{\rho}$のコンセンサス固定点は、全データの上の勾配クラスタリングの固定点と同値であり、全データのクラスタリングが生成されることを保証する。
ブレグマン損失の特別の場合、固定点がロイド点の集合に収束することを示す。
実データに関する数値実験により,理論的な結果を確認し,その性能を実証した。 We develop a family of distributed clustering algorithms that work over networks of users. In the proposed scenario, users contain a local dataset and communicate only with their immediate neighbours, with the aim of finding a clustering of the full, joint data. The proposed family, termed Distributed Gradient Clustering (DGC-$\mathcal{F}_\rho$), is parametrized by $\rho \geq 1$, controling the proximity of users' center estimates, with $\mathcal{F}$ determining the clustering loss. Specialized to popular clustering losses like $K$-means and Huber loss, DGC-$\mathcal{F}_\rho$ gives rise to novel distributed clustering algorithms DGC-KM$_\rho$ and DGC-HL$_\rho$, while a novel clustering loss based on the logistic function leads to DGC-LL$_\rho$. We provide a unified analysis and establish several strong results, under mild assumptions. First, the sequence of centers generated by the methods converges to a well-defined notion of fixed point, under any center initialization and value of $\rho$. Second, as $\rho$ increases, the family of fixed points produced by DGC-$\mathcal{F}_\rho$ converges to a notion of consensus fixed points. We show that consensus fixed points of DGC-$\mathcal{F}_{\rho}$ are equivalent to fixed points of gradient clustering over the full data, guaranteeing a clustering of the full data is produced. For the special case of Bregman losses, we show that our fixed points converge to the set of Lloyd points. Numerical experiments on real data confirm our theoretical findings and demonstrate strong performance of the methods. | 翻訳日:2024-02-05 15:51:41 公開日:2024-02-02 |
# ポーランド語テキストのダイアクロニック正規化に対する2つのアプローチ Two Approaches to Diachronic Normalization of Polish Texts ( http://arxiv.org/abs/2402.01300v1 ) ライセンス: Link先を確認 | Kacper Dudzic, Filip Grali\'nski, Krzysztof Jassem, Marek Kubis, Piotr Wierzcho\'n | (参考訳) 本稿では,ポーランド語テキストのダイアクロニック正規化に対する2つのアプローチについて論じる。手作りパターンの集合に依存するルールベースソリューションと,テキストからテキストへの変換変換アーキテクチャに基づくニューラル正規化モデルである。
提案した正規化法との比較実験とともに,タスクのために準備されたトレーニングおよび評価データについて詳述した。
定量的かつ定性的な分析が行われる。
この問題に対する調査の現段階では、ルールベースの解は準備されたデータセットの4つの変種のうち3つでニューラルな解よりも優れているが、実際には両者のアプローチには明確な利点とデメリットがある。 This paper discusses two approaches to the diachronic normalization of Polish texts: a rule-based solution that relies on a set of handcrafted patterns, and a neural normalization model based on the text-to-text transfer transformer architecture. The training and evaluation data prepared for the task are discussed in detail, along with experiments conducted to compare the proposed normalization solutions. A quantitative and qualitative analysis is made. It is shown that at the current stage of inquiry into the problem, the rule-based solution outperforms the neural one on 3 out of 4 variants of the prepared dataset, although in practice both approaches have distinct advantages and disadvantages. | 翻訳日:2024-02-05 15:51:04 公開日:2024-02-02 |
# 文脈表現と音声表現の両方を用いた生音声信号からの意味情報学習 Learning Semantic Information from Raw Audio Signal Using Both Contextual and Phonetic Representations ( http://arxiv.org/abs/2402.01298v1 ) ライセンス: Link先を確認 | Jaeyeon Kim, Injune Hwang, Kyogu Lee | (参考訳) 本研究では,音声信号から文脈情報と音韻情報の2種類の表現を用いて意味を学習する枠組みを提案する。
具体的には、時間分解能の異なる2種類の表現をキャプチャする音声対単位処理パイプラインを提案する。
言語モデルでは、両タイプの表現を組み込むためにデュアルチャネルアーキテクチャを採用する。
また,新しい学習目標,マスキングコンテキスト再構成,マスキングコンテキスト予測も提示し,モデルにセマンティクスを効果的に学習させる。
Zero Resource Speech Benchmark 2021 と Fluent Speech Command データセットの sSIMI 測定実験により、我々のフレームワークは1種類の表現だけで訓練されたモデルよりもセマンティクスを学習できることを示した。 We propose a framework to learn semantics from raw audio signals using two types of representations, encoding contextual and phonetic information respectively. Specifically, we introduce a speech-to-unit processing pipeline that captures two types of representations with different time resolutions. For the language model, we adopt a dual-channel architecture to incorporate both types of representation. We also present new training objectives, masked context reconstruction and masked context prediction, that push models to learn semantics effectively. Experiments on the sSIMI metric of Zero Resource Speech Benchmark 2021 and Fluent Speech Command dataset show our framework learns semantics better than models trained with only one type of representation. | 翻訳日:2024-02-05 15:50:51 公開日:2024-02-02 |
# 固有スペクトルによるカーネルリッジレス回帰におけるオーバーフィッティングの特徴 Characterizing Overfitting in Kernel Ridgeless Regression Through the Eigenspectrum ( http://arxiv.org/abs/2402.01297v1 ) ライセンス: Link先を確認 | Tin Sum Cheng and Aurelien Lucchi and Anastasis Kratsios and David Belius | (参考訳) カーネル行列の条件数に対する新しい境界を導出し、固定された入力次元に対するオーバーパラメータ化された状態におけるカーネルリッジレス回帰のための既存の非漸近テストエラー境界を強化するために使用する。
多項式スペクトル減衰を持つ核では、前の研究から境界を回復し、指数的減衰の場合、我々の境界は非自明かつ新規である。
オーバーフィッティングに関する私たちの結論は2倍です。
(i)固有スペクトルが多項式的に崩壊するカーネルレグレッサは、騒がしいラベル付きトレーニングデータが存在する場合でも、よく一般化しなければならない。これらのモデルは、いわゆる温和な過剰フィッティングを示す。
(II)任意の核尾根回帰器の固有スペクトルが指数関数的に減衰すると、それは一般化が悪く、すなわち破滅的な過剰適合を示す。
これは、カーネルの固有スペクトルがサブポリノマー的に崩壊する極端の場合として、良性過剰を示すカーネルリッジレグレッセプタの特性を付加する。
我々の分析は、新しいランダム行列理論(RMT)とカーネルリッジ回帰(KRR)文学における最近のツールを組み合わせる。 We derive new bounds for the condition number of kernel matrices, which we then use to enhance existing non-asymptotic test error bounds for kernel ridgeless regression in the over-parameterized regime for a fixed input dimension. For kernels with polynomial spectral decay, we recover the bound from previous work; for exponential decay, our bound is non-trivial and novel. Our conclusion on overfitting is two-fold: (i) kernel regressors whose eigenspectrum decays polynomially must generalize well, even in the presence of noisy labeled training data; these models exhibit so-called tempered overfitting; (ii) if the eigenspectrum of any kernel ridge regressor decays exponentially, then it generalizes poorly, i.e., it exhibits catastrophic overfitting. This adds to the available characterization of kernel ridge regressors exhibiting benign overfitting as the extremal case where the eigenspectrum of the kernel decays sub-polynomially. Our analysis combines new random matrix theory (RMT) techniques with recent tools in the kernel ridge regression (KRR) literature. | 翻訳日:2024-02-05 15:50:37 公開日:2024-02-02 |
# bi-cryptonets: 暗号化推論に異なるレベルのプライバシーを活用する Bi-CryptoNets: Leveraging Different-Level Privacy for Encrypted Inference ( http://arxiv.org/abs/2402.01296v1 ) ライセンス: Link先を確認 | Man-Jie Yuan, Zheng Zou, Wei Gao | (参考訳) 近年,プライバシ保全型ニューラルネットワークが注目され,暗号的視点から精度,計算複雑性,情報セキュリティのバランスを保ちながら様々なアルゴリズムが開発されている。
この研究は、ニューラルネットワークの入力データや構造とは異なる見方を取る。
入力データ(例えば、いくつかの画像)を重要度とプライバシーに応じてセンシティブで不感なセグメントに分解する。
センシティブセグメントには、人間の顔などの重要なプライベート情報が含まれており、セキュリティを維持するために強力な同型暗号化を採用しています。
本稿では,平文分岐と暗号文分岐の2つのセグメントをそれぞれ扱うバイクリプトネットを提案し,一方向接続により平文分岐からの情報を利用することができる。
我々は、教師ニューラルネットワークから表現を転送することにより、bi-cryptonetsに知識蒸留を導入する。
実証研究は、我々のバイクリプトネットにおける推論遅延の有効性と減少を示す。 Privacy-preserving neural networks have attracted increasing attention in recent years, and various algorithms have been developed to keep the balance between accuracy, computational complexity and information security from the cryptographic view. This work takes a different view from the input data and structure of neural networks. We decompose the input data (e.g., some images) into sensitive and insensitive segments according to importance and privacy. The sensitive segment includes some important and private information such as human faces and we take strong homomorphic encryption to keep security, whereas the insensitive one contains some background and we add perturbations. We propose the bi-CryptoNets, i.e., plaintext and ciphertext branches, to deal with two segments, respectively, and ciphertext branch could utilize the information from plaintext branch by unidirectional connections. We adopt knowledge distillation for our bi-CryptoNets by transferring representations from a well-trained teacher neural network. Empirical studies show the effectiveness and decrease of inference latency for our bi-CryptoNets. | 翻訳日:2024-02-05 15:50:16 公開日:2024-02-02 |
# ExtremeCast:グローバル気象予報における極値予測の強化 ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast ( http://arxiv.org/abs/2402.01295v1 ) ライセンス: Link先を確認 | Wanghan Xu, Kang Chen, Tao Han, Hao Chen, Wanli Ouyang, Lei Bai | (参考訳) 機械学習(ML)に基づくデータ駆動天気予報は、従来の物理に基づく力学モデルと比較して、急速に発展し、世界中距離予測において優れた性能を示した。
しかし、これらのMLモデルのほとんどは、極端な天気を正確に予測するのに苦労している。
数学的解析により、平均二乗誤差 (MSE) のような対称損失を用いることで、偏りのある予測や極端な値の過小評価につながることが証明される。
この問題に対処するために,非対称な最適化を行う新しい損失関数であるExlossを導入する。
さらに,ExEnsembleというトレーニング不要な極値拡張戦略を導入し,画素値のばらつきを高め,予測ロバスト性を向上させる。
先進的なグローバル気象予報モデルと組み合わせることで、我々のソリューションは極端気象予報において最先端の性能を達成でき、同時に、上位中距離予報モデルに匹敵する全体的な予測精度を維持できることを示す。 Data-driven weather forecast based on machine learning (ML) has experienced rapid development and demonstrated superior performance in the global medium-range forecast compared to traditional physics-based dynamical models. However, most of these ML models struggle with accurately predicting extreme weather, which is closely related to the extreme value prediction. Through mathematical analysis, we prove that the use of symmetric losses, such as the Mean Squared Error (MSE), leads to biased predictions and underestimation of extreme values. To address this issue, we introduce Exloss, a novel loss function that performs asymmetric optimization and highlights extreme values to obtain accurate extreme weather forecast. Furthermore, we introduce a training-free extreme value enhancement strategy named ExEnsemble, which increases the variance of pixel values and improves the forecast robustness. Combined with an advanced global weather forecast model, extensive experiments show that our solution can achieve state-of-the-art performance in extreme weather prediction, while maintaining the overall forecast accuracy comparable to the top medium-range forecast models. | 翻訳日:2024-02-05 15:49:47 公開日:2024-02-02 |
# ハイパーパラメータ最適化重畳アンサンブルにおけるメタリアナとしての係数の増大による正規化ブースティング Regularized boosting with an increasing coefficient magnitude stop criterion as meta-learner in hyperparameter optimization stacking ensemble ( http://arxiv.org/abs/2402.01379v1 ) ライセンス: Link先を確認 | Laura Fdez-D\'iaz, Jos\'e Ram\'on Quevedo, Elena Monta\~n\'es | (参考訳) ハイパーパラメータ最適化(hpo)では、いくつかの試行を行った後、最高のパフォーマンスを持つハイパーパラメータ構成のみを選択し、ハイパーパラメータ構成試行毎にすべてのモデルをトレーニングし、それらすべてをアンサンブルする作業を破棄する。
このアンサンブルは、モデル予測を単に平均化し、ある確率でモデルを重み付けする。
近年,caruana法や積み重ね法など,より洗練されたアンサンブル戦略が提案されている。
一方、カラナ法はHPOのアンサンブルにおいて、HPOで広く見られる多重線型性の影響を受けないため、良好に機能する。
代わりに予測のサブセットよりも平均を計算するだけである。
しかし、これは学習プロセスの一般化の力の恩恵を受けない。
一方、積み重ね手法は、メタラーナーがアンサンブルを実行するために必要となるため、学習手順を含む。
しかし、どのメタラーナーが適切かというアドバイスはほとんど見つからない。
さらに、メタリアナーの中にはマルチコリニア性の影響に苦しむものもあれば、それらを減らすために調整する必要があるものもある。
本稿では,ハイパーパラメータチューニングのないHPOでアンサンブルを積み重ねるメタラーナーについて検討し,マルチコリニティの効果を低減し,アンサンブル学習プロセスの一般化能力を考慮した。
この点において、ブースティング戦略はスタックングメタラーナーとして有望なようだ。
実際、それは多重線型性の影響を完全に取り除きます。
また,従来のブースティング手法の暗黙的な正規化と,HPO用に特別に設計されたブースティングのみに適した新しい非パラメトリックストップ基準を提案する。
これら2つの改良の相乗効果は,積層アンサンブル以外の既存のメタラーナーやHPOのアンサンブルアプローチと比較して,競争力と期待できるパワー性能を示す。 In Hyperparameter Optimization (HPO), only the hyperparameter configuration with the best performance is chosen after performing several trials, then, discarding the effort of training all the models with every hyperparameter configuration trial and performing an ensemble of all them. This ensemble consists of simply averaging the model predictions or weighting the models by a certain probability. Recently, other more sophisticated ensemble strategies, such as the Caruana method or the stacking strategy has been proposed. On the one hand, the Caruana method performs well in HPO ensemble, since it is not affected by the effects of multicollinearity, which is prevalent in HPO. It just computes the average over a subset of predictions with replacement. But it does not benefit from the generalization power of a learning process. On the other hand, stacking methods include a learning procedure since a meta-learner is required to perform the ensemble. Yet, one hardly finds advice about which meta-learner is adequate. Besides, some meta-learners may suffer from the effects of multicollinearity or need to be tuned to reduce them. This paper explores meta-learners for stacking ensemble in HPO, free of hyperparameter tuning, able to reduce the effects of multicollinearity and considering the ensemble learning process generalization power. At this respect, the boosting strategy seems promising as a stacking meta-learner. In fact, it completely removes the effects of multicollinearity. This paper also proposes an implicit regularization in the classical boosting method and a novel non-parametric stop criterion suitable only for boosting and specifically designed for HPO. The synergy between these two improvements over boosting exhibits competitive and promising predictive power performance compared to other existing meta-learners and ensemble approaches for HPO other than the stacking ensemble. | 翻訳日:2024-02-05 15:41:45 公開日:2024-02-02 |
# FindingEmo:野生における感情認識のための画像データセット FindingEmo: An Image Dataset for Emotion Recognition in the Wild ( http://arxiv.org/abs/2402.01355v1 ) ライセンス: Link先を確認 | Laurent Mertens and Elahe' Yargholi and Hans Op de Beeck and Jan Van den Stock and Joost Vennekens | (参考訳) 我々は,25k画像のためのアノテーションを含む新しい画像データセットであるfingemoについて紹介する。
既存のデータセットとは対照的に、さまざまな自然主義的、社会的な設定で複数の人を描写する複雑なシーンに焦点を合わせており、画像は全体として注釈付けされている。
注釈付きディメンションには、Valence、Arousal、Emotionのラベルがあり、Prolificを使ってアノテーションを収集する。
アノテーションと一緒に、私たちは元のイメージを指したurlのリストと関連するすべてのソースコードをリリースします。 We introduce FindingEmo, a new image dataset containing annotations for 25k images, specifically tailored to Emotion Recognition. Contrary to existing datasets, it focuses on complex scenes depicting multiple people in various naturalistic, social settings, with images being annotated as a whole, thereby going beyond the traditional focus on faces or single individuals. Annotated dimensions include Valence, Arousal and Emotion label, with annotations gathered using Prolific. Together with the annotations, we release the list of URLs pointing to the original images, as well as all associated source code. | 翻訳日:2024-02-05 15:41:13 公開日:2024-02-02 |
# Image $\textit{Fast and Slow}$: Visuo-Linguistic Processsにおける人間の信号の変動の定量と予測 Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting the Variation in Human Signals during Visuo-Linguistic Processes ( http://arxiv.org/abs/2402.01352v1 ) ライセンス: Link先を確認 | Ece Takmaz, Sandro Pezzelle, Raquel Fern\'andez | (参考訳) 画像の性質と、画像の記述中に人間がどう振る舞うかとの間には複雑な関係がある。
この行動は、眼球運動などの人間の信号や、そのイメージが説明され始めると、多くの変化を示す。
このようなビジュオ言語的変動の信号の値にもかかわらず、それらは現在の事前学習モデルの訓練において事実上無視され、さらなる研究の動機となっている。
同時収集された視線追跡データを用いたオランダ画像記述のコーパスを用いて,視覚言語信号の変動の性質を調べ,相互に相関することを示す。
この結果から,画像の特性が変動の原因であると考え,事前学習した視覚エンコーダで符号化された画像表現がそのような変動を捉えることができるかどうかを考察する。
以上の結果から, 事前学習モデルでは, 刺激が複雑になる要因や, 人間の出力の変動要因について, 偏見が欠如していることが示唆された。 There is an intricate relation between the properties of an image and how humans behave while describing the image. This behavior shows ample variation, as manifested in human signals such as eye movements and when humans start to describe the image. Despite the value of such signals of visuo-linguistic variation, they are virtually disregarded in the training of current pretrained models, which motivates further investigation. Using a corpus of Dutch image descriptions with concurrently collected eye-tracking data, we explore the nature of the variation in visuo-linguistic signals, and find that they correlate with each other. Given this result, we hypothesize that variation stems partly from the properties of the images, and explore whether image representations encoded by pretrained vision encoders can capture such variation. Our results indicate that pretrained models do so to a weak-to-moderate degree, suggesting that the models lack biases about what makes a stimulus complex for humans and what leads to variations in human outputs. | 翻訳日:2024-02-05 15:41:04 公開日:2024-02-02 |
# fedmoe: モデルヘテロジェンス型フェデレーション学習のための専門家の混合によるデータレベルのパーソナライズ FedMoE: Data-Level Personalization with Mixture of Experts for Model-Heterogeneous Personalized Federated Learning ( http://arxiv.org/abs/2402.01350v1 ) ライセンス: Link先を確認 | Liping Yi, Han Yu, Chao Ren, Heng Zhang, Gang Wang, Xiaoguang Liu, Xiaoxiao Li | (参考訳) フェデレートラーニング(FL)は分散データの協調トレーニングに広く使用されているが、データ、システム、モデルの不均一性といった課題に直面している。
これにより,モデル・ヘテロジニアス・パーソナライズド・フェデレーション・ラーニング(MHPFL)が緊急化した。
しかしながら、データとモデルのプライバシ、モデルパフォーマンス、通信、現在のmhpflメソッドの計算コストに関する懸念は続いている。
これらの問題に対処するために,大規模言語モデル (LLM) の強化で有名なMixture of Experts (MoE) を用いた新しいモデル固有型フェデレート学習アルゴリズム (FedMoE) を提案する。
各クライアントのローカルなヘテロジニアス大規模モデルに対して、共有された均質な小さな特徴抽出器とローカルゲーティングネットワークを割り当てる。
1)局所訓練中,局所異種モデルの特徴抽出器はパーソナライズされた特徴(表現)抽出のローカルエキスパートとして機能し,共有同種小特徴抽出器は一般化された特徴抽出のグローバルエキスパートとして機能する。
ローカルゲーティングネットワークは、各データサンプル上の両方の専門家から抽出された表現に対してパーソナライズされた重み付けを生成する。
3つのモデルは局所的な異種moeを形成する。
重み付き混合表現は、グローバル一般化およびローカルパーソナライズされた特徴を融合させ、出力のためのパーソナライズされた予測情報を備えたローカルヘテロジニアス大規模モデルのヘッダによって処理される。
MoEと予測ヘッダは同期的に更新される。
2) 訓練された局所的同種小特徴抽出器は, 集約を介してクロスクライアント情報融合のためにサーバに送られる。
簡単に言うと、FedMoEはまず、モデルの不均一性をサポートしながら、きめ細かいデータレベルで局所モデルパーソナライズを強化する。 Federated learning (FL) is widely employed for collaborative training on decentralized data but faces challenges like data, system, and model heterogeneity. This prompted the emergency of model-heterogeneous personalized federated learning (MHPFL). However, concerns persist regarding data and model privacy, model performance, communication, and computational costs in current MHPFL methods. To tackle these concerns, we propose a novel model-heterogeneous personalized Federated learning algorithm (FedMoE) with the Mixture of Experts (MoE), renowned for enhancing large language models (LLMs). It assigns a shared homogeneous small feature extractor and a local gating network for each client's local heterogeneous large model. (1) During local training, the local heterogeneous model's feature extractor acts as a local expert for personalized feature (representation) extraction, while the shared homogeneous small feature extractor serves as a global expert for generalized feature extraction. The local gating network produces personalized weights for extracted representations from both experts on each data sample. The three models form a local heterogeneous MoE. The weighted mixed representation fuses global generalized and local personalized features and is processed by the local heterogeneous large model's header with personalized prediction information for output. The MoE and prediction header are updated synchronously. (2) The trained local homogeneous small feature extractors are sent to the server for cross-client information fusion via aggregation. Briefly, FedMoE first enhances local model personalization at a fine-grained data level while supporting model heterogeneity. | 翻訳日:2024-02-05 15:40:43 公開日:2024-02-02 |
# 回答を超えて:大規模言語モデルの評価のための多重選択質問応答の合理性の検討 Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models ( http://arxiv.org/abs/2402.01349v1 ) ライセンス: Link先を確認 | Haochun Wang, Sendong Zhao, Zewen Qiang, Bing Qin, Ting Liu | (参考訳) 自然言語処理(NLP)の分野では、Large Language Models(LLM)がパラダイムシフトを引き起こし、自然言語生成タスクのパフォーマンスが著しく向上した。
これらの進歩にもかかわらず、LLMの包括的な評価はコミュニティにとって必然的な課題である。
近年,LLMのベンチマークとしてMultiple Choice Question Answering (MCQA) が注目されている。
本研究では,LCMの評価手法としてMCQAの合理性を検討する。
LLMが真に質問の意味を理解しているなら、それらの性能は同じ質問から派生した様々な構成に対して一貫性を示すべきである。
この期待とは対照的に,我々の経験的結果は,LLMの応答の整合性に顕著な相違があることを示唆しており,このことから,現在のMCQAベースのベンチマークでは,LCMの性能を評価する上でより堅牢な評価機構の必要性が浮き彫りにされている。 In the field of natural language processing (NLP), Large Language Models (LLMs) have precipitated a paradigm shift, markedly enhancing performance in natural language generation tasks. Despite these advancements, the comprehensive evaluation of LLMs remains an inevitable challenge for the community. Recently, the utilization of Multiple Choice Question Answering (MCQA) as a benchmark for LLMs has gained considerable traction. This study investigates the rationality of MCQA as an evaluation method for LLMs. If LLMs genuinely understand the semantics of questions, their performance should exhibit consistency across the varied configurations derived from the same questions. Contrary to this expectation, our empirical findings suggest a notable disparity in the consistency of LLM responses, which we define as REsponse VAriability Syndrome (REVAS) of the LLMs, indicating that current MCQA-based benchmarks may not adequately capture the true capabilities of LLMs, which underscores the need for more robust evaluation mechanisms in assessing the performance of LLMs. | 翻訳日:2024-02-05 15:40:13 公開日:2024-02-02 |
# コア:コグニティブリプレイによる連続学習における破滅的忘れの軽減 CORE: Mitigating Catastrophic Forgetting in Continual Learning through Cognitive Replay ( http://arxiv.org/abs/2402.01348v1 ) ライセンス: Link先を確認 | Jianshu Zhang, Yankai Fu, Ziheng Peng, Dongyu Yao, Kun He | (参考訳) 本稿では,既存の知識を保存し,新たな情報を統一するモデルの能力に重点を置く,連続学習における破滅的な忘れ方(cl)を著しく緩和する新たな視点を提案する。
現在のリプレイベースメソッドは、すべてのタスクとデータサンプルを平等に扱うため、リプレイバッファの可能性を十分に活用できません。
これに対して,人間の認知的レビュープロセスからインスピレーションを得た認知的リプレイ(CORE)を提案する。
適応量割り当てと品質重視のデータ選択という2つの重要な戦略がある。
前者は、その忘れ率に基づいて各タスクのリプレイバッファ割り当てを適応的に調整し、後者は、各タスクの特徴をバッファ内にカプセル化する代表データを含むことを保証する。
スプリットCIFAR10の平均精度は37.95%で、最良基準法を6.52%上回っている。
さらに、最上位のベースラインに比べて、最も貧弱なパフォーマンスタスクの精度を6.30%向上させる。 This paper introduces a novel perspective to significantly mitigate catastrophic forgetting in continuous learning (CL), which emphasizes models' capacity to preserve existing knowledge and assimilate new information. Current replay-based methods treat every task and data sample equally and thus can not fully exploit the potential of the replay buffer. In response, we propose COgnitive REplay (CORE), which draws inspiration from human cognitive review processes. CORE includes two key strategies: Adaptive Quantity Allocation and Quality-Focused Data Selection. The former adaptively modulates the replay buffer allocation for each task based on its forgetting rate, while the latter guarantees the inclusion of representative data that best encapsulates the characteristics of each task within the buffer. Our approach achieves an average accuracy of 37.95% on split-CIFAR10, surpassing the best baseline method by 6.52%. Additionally, it significantly enhances the accuracy of the poorest-performing task by 6.30% compared to the top baseline. | 翻訳日:2024-02-05 15:39:56 公開日:2024-02-02 |
# skip $\textbackslash n$: 大きな視覚言語モデルの幻覚を減らすための単純な方法 Skip $\textbackslash n$: A simple method to reduce hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2402.01345v1 ) ライセンス: Link先を確認 | Zongbo Han, Zechen Bai, Haiyang Mei, Qianli Xu, Changqing Zhang, Mike Zheng Shou | (参考訳) 大規模視覚言語モデル(LVLM)の最近の進歩は、人間の言語による視覚情報理解における印象的な能力を示している。
これらの進歩にもかかわらず、LVLMは視覚情報に存在しないオブジェクトのテキスト記述を生成するなど、マルチモーダル幻覚の課題に直面している。
しかし、マルチモーダル幻覚の根本原因はいまだに解明されていない。
本稿では,LVLMの固有バイアスが幻覚の重要な要因である可能性を示唆する新しい視点を提案する。
具体的には、訓練データにおける '$\textbackslash n\textbackslash n$' の前後の内容が意味的変化をしばしば呈する、段落ブレークに関連する意味的シフトバイアス('$\textbackslash n\textbackslash n$')を体系的に識別する。
このパターンは、「$\textbackslash n\textbackslash n$」に続く内容が、幻覚的記述の少ない前の内容と明らかに異なることを推測し、「$\textbackslash n\textbackslash n$」に続く幻覚的記述の確率を増大させる。
我々は,この仮説を複数の公開LVLM上で検証した。
さらに、生成した記述に'$\textbackslash n\textbackslash n$'を意図的に挿入すると、より幻覚が引き起こされる。
テキストバックスラッシュn'の出力をスキップすることでLVLMの幻覚を効果的に緩和する簡単な方法を提案する。 Recent advancements in large vision-language models (LVLMs) have demonstrated impressive capability in visual information understanding with human language. Despite these advances, LVLMs still face challenges with multimodal hallucination, such as generating text descriptions of objects that are not present in the visual information. However, the underlying fundamental reasons of multimodal hallucinations remain poorly explored. In this paper, we propose a new perspective, suggesting that the inherent biases in LVLMs might be a key factor in hallucinations. Specifically, we systematically identify a semantic shift bias related to paragraph breaks ('$\textbackslash n\textbackslash n$'), where the content before and after '$\textbackslash n\textbackslash n$' in the training data frequently exhibit significant semantic changes. This pattern leads the model to infer that the contents following '$\textbackslash n\textbackslash n$' should be obviously different from the preceding contents with less hallucinatory descriptions, thereby increasing the probability of hallucinatory descriptions subsequent to the '$\textbackslash n\textbackslash n$'. We have validated this hypothesis on multiple publicly available LVLMs. Besides, we find that deliberately inserting '$\textbackslash n\textbackslash n$' at the generated description can induce more hallucinations. A simple method is proposed to effectively mitigate the hallucination of LVLMs by skipping the output of `\textbackslash n'. | 翻訳日:2024-02-05 15:39:40 公開日:2024-02-02 |
# モノトン, bi-lipschitz, polyak-\l{}ojasiewiczネットワーク Monotone, Bi-Lipschitz, and Polyak-\L{}ojasiewicz Networks ( http://arxiv.org/abs/2402.01344v1 ) ライセンス: Link先を確認 | Ruigang Wang, Krishnamurthy Dvijotham, Ian R. Manchester | (参考訳) 本稿では,入力摂動に対する応答感度)と逆リプシッツネス(異なる出力からの入力弁別性)の両方を制御できるニューラルネットであるbilipnet(bilipnet)を提案する。
主な貢献は、証明された強い単調性とリプシッツ性を持つ新しい可逆残留層であり、双リプシッツネットワークを構築するために直交層を構成する。
この認定は、スペクトル正規化よりもずっと厳密な境界を達成する漸進的二次的制約に基づいている。
さらに、高速アルゴリズムが知られている3演算分割問題としてモデル逆計算を定式化する。
提案した双Lipschitzネットワークに基づいて,Polyak-\L{}ojasiewicz条件を満たす新しいスカラー出力ネットワークPLNetを導入する。
例えば、一意で効率的な計算可能なグローバル最小値など、好ましい特性を持つ非凸サーロゲート損失の学習に応用することができる。 This paper presents a new \emph{bi-Lipschitz} invertible neural network, the BiLipNet, which has the ability to control both its \emph{Lipschitzness} (output sensitivity to input perturbations) and \emph{inverse Lipschitzness} (input distinguishability from different outputs). The main contribution is a novel invertible residual layer with certified strong monotonicity and Lipschitzness, which we compose with orthogonal layers to build bi-Lipschitz networks. The certification is based on incremental quadratic constraints, which achieves much tighter bounds compared to spectral normalization. Moreover, we formulate the model inverse calculation as a three-operator splitting problem, for which fast algorithms are known. Based on the proposed bi-Lipschitz network, we introduce a new scalar-output network, the PLNet, which satisfies the Polyak-\L{}ojasiewicz condition. It can be applied to learn non-convex surrogate losses with favourable properties, e.g., a unique and efficiently-computable global minimum. | 翻訳日:2024-02-05 15:39:09 公開日:2024-02-02 |
# シェープレットに基づく時系列分類のためのモデル非現実的局所記述法 Shapelet-based Model-agnostic Counterfactual Local Explanations for Time Series Classification ( http://arxiv.org/abs/2402.01343v1 ) ライセンス: Link先を確認 | Qi Huang, Wei Chen, Thomas B\"ack, Niki van Stein | (参考訳) 本稿では,時系列分類のためのモデル非依存なインスタンスベースポストホック説明可能性法を提案する。
提案したアルゴリズム、すなわちTime-CFはシェープレットとTimeGANを利用して任意の時系列分類器に反実的な説明を提供する。
提案手法は,UCR時系列アーカイブから,実世界の複数時系列分類タスクについて検証する。
その結果,Time-CFが生成する反ファクトのインスタンスは,最先端の手法と比較して,近さ,感受性,妥当性,疎さの4つの説明可能性指標で優れた性能を示した。 In this work, we propose a model-agnostic instance-based post-hoc explainability method for time series classification. The proposed algorithm, namely Time-CF, leverages shapelets and TimeGAN to provide counterfactual explanations for arbitrary time series classifiers. We validate the proposed method on several real-world univariate time series classification tasks from the UCR Time Series Archive. The results indicate that the counterfactual instances generated by Time-CF when compared to state-of-the-art methods, demonstrate better performance in terms of four explainability metrics: closeness, sensibility, plausibility, and sparsity. | 翻訳日:2024-02-05 15:38:49 公開日:2024-02-02 |
# リニアモード接続とモデル融合を改善するための置換部分空間によるトレーニング時間ニューロンアライメント Training-time Neuron Alignment through Permutation Subspace for Improving Linear Mode Connectivity and Model Fusion ( http://arxiv.org/abs/2402.01342v1 ) ライセンス: Link先を確認 | Zexi Li, Zhiqi Li, Jie Lin, Tao Shen, Tao Lin, Chao Wu | (参考訳) 深層学習において、確率勾配降下はしばしば、同じ初期化の下でも、重み空間において機能的に類似しているが広く分散した解をもたらし、線形モード接続性(LMC)ランドスケープに障壁をもたらす。
これらの障壁を克服することは、ディープラーニングのダイナミクスの理解とモデル融合アルゴリズムの拡張に不可欠である。
前回の研究では、ネットワーク置換によるトレーニング後の障壁の削減における置換対称性の役割が強調された。
しかし、これらのポストホック法は、余分な計算を必要とするが、多くの置換行列のため、より大きく複雑なモデル(例えば、ViT, LLM)では効果が低い。
そこで本稿では,学習時間ニューロンアライメントについて検討する。
我々の仮説は、トレーニング時間置換部分空間がLCC障壁を無料で低減できることを示唆している。
初期化時のプルーニングはそれをサポートする。
プルーニング以外にも,訓練中に部分勾配マスクを用いた単純でロスレスなアルゴリズムであるtna-pfnを導入する。
TNA-PFNは理論上, 実験的にLCC障壁の低減に有効である。
TNA-FPNに基づく2つのアルゴリズムは、異種データセットでさえもその可能性を示すために提案されている。
さらに、TNA-PFNは、視覚変換器のモデルスープの一般化と事前訓練された言語モデルのColD融合を促進することができる。 In deep learning, stochastic gradient descent often yields functionally similar yet widely scattered solutions in the weight space even under the same initialization, causing barriers in the Linear Mode Connectivity (LMC) landscape. Overcoming these barriers is crucial for understanding deep learning dynamics and enhancing model-fusion algorithms. Previous studies highlight the role of permutation symmetry in reducing post-training barriers through network permutation. However, these post-hoc methods, demanding extra computations, are less effective for larger, complex models (e.g., ViT, LLM) due to numerous permutation matrices. Thus, in this paper, we study training-time neuron alignment. Our hypothesis suggests that training-time permutation subspace can reduce LMC barriers for free. We find that pruning at initialization supports this. Beyond pruning, we introduce TNA-PFN, a simple yet lossless algorithm using a partial gradient mask during training. TNA-PFN is theoretically and empirically validated for reducing LMC barriers. It excels in wide model fusion applications, especially in federated learning, two algorithms based on TNA-FPN that are proposed to show its prospects even under heterogeneous datasets. Moreover, TNA-PFN can enhance the generalization of model soup for vision transformers and ColD fusion for pretrained language models. | 翻訳日:2024-02-05 15:38:38 公開日:2024-02-02 |
# 因果エントロピーの基本特性と情報ゲイン Fundamental Properties of Causal Entropy and Information Gain ( http://arxiv.org/abs/2402.01341v1 ) ライセンス: Link先を確認 | Francisco N. F. Q. Simoes, Mehdi Dastani, Thijs van Ommen | (参考訳) 近年の進歩は、構造因果モデル(SCM)が与えられた因果制御の定量化を可能にする。
これはある変数のエントロピーの変化を他の変数にインターベンションする際にエンコードする量を導入することで達成されている。
因果的エントロピーと因果的情報ゲインと名付けられたこれらの尺度は、因果性が重要な役割を果たす機械学習タスクに対する既存の情報理論的アプローチの限界に対処することを目的としている。
数学的にはまだ研究されていない。
本研究は,これらの概念の基本的性質を確立・解析することにより,因果エントロピーの概念と因果情報獲得の形式的理解に寄与する。
さらに,因果エントロピーと確率的介入の関係を明らかにする。
また,因果条件エントロピーと因果条件情報ゲインの定義を提案する。
この調査は、因果性を考慮した情報理論量の研究を通じて、因果的機械学習タスクの強化を図っている。 Recent developments enable the quantification of causal control given a structural causal model (SCM). This has been accomplished by introducing quantities which encode changes in the entropy of one variable when intervening on another. These measures, named causal entropy and causal information gain, aim to address limitations in existing information theoretical approaches for machine learning tasks where causality plays a crucial role. They have not yet been properly mathematically studied. Our research contributes to the formal understanding of the notions of causal entropy and causal information gain by establishing and analyzing fundamental properties of these concepts, including bounds and chain rules. Furthermore, we elucidate the relationship between causal entropy and stochastic interventions. We also propose definitions for causal conditional entropy and causal conditional information gain. Overall, this exploration paves the way for enhancing causal machine learning tasks through the study of recently-proposed information theoretic quantities grounded in considerations about causality. | 翻訳日:2024-02-05 15:38:15 公開日:2024-02-02 |
# SignSGD with Federated Defense: Gradient Sign Decodingによる敵攻撃の回避 SignSGD with Federated Defense: Harnessing Adversarial Attacks through Gradient Sign Decoding ( http://arxiv.org/abs/2402.01340v1 ) ライセンス: Link先を確認 | Chanho Park, Namyoon Lee | (参考訳) 分散学習は、複数のワーカーを使ったモデルのトレーニングを加速する効果的なアプローチである。
しかし、通信勾配に伴う膨大なコストのため、労働者とパラメータサーバとの間にかなりの通信遅延が発生する。
多数決のSignSGD(signSGD-MV)は,1ビット量子化による通信コストの削減を目的とした簡易かつ効果的な最適化手法である。
本稿では, 対人労働者の数の増加に伴って収束率が不変であることを示し, 対人労働者の数が良性労働者の数よりも小さいことを仮定する。
この反直感的な結果を示す重要なアイデアは、連邦防衛(signSGD-FD)を備えた新しいサインSGDである。
従来の手法とは異なり、SignSGD-FDは、勾配符号復号によって得られる適切な重みを持つ敵の労働者が送る勾配情報を利用する。
SGD-FDは,様々な攻撃シナリオにおいて,従来のアルゴリズムよりも収束率が高いことを示す実験結果を得た。 Distributed learning is an effective approach to accelerate model training using multiple workers. However, substantial communication delays emerge between workers and a parameter server due to massive costs associated with communicating gradients. SignSGD with majority voting (signSGD-MV) is a simple yet effective optimizer that reduces communication costs through one-bit quantization, yet the convergence rates considerably decrease as adversarial workers increase. In this paper, we show that the convergence rate is invariant as the number of adversarial workers increases, provided that the number of adversarial workers is smaller than that of benign workers. The key idea showing this counter-intuitive result is our novel signSGD with federated defense (signSGD-FD). Unlike the traditional approaches, signSGD-FD exploits the gradient information sent by adversarial workers with the proper weights, which are obtained through gradient sign decoding. Experimental results demonstrate signSGD-FD achieves superior convergence rates over traditional algorithms in various adversarial attack scenarios. | 翻訳日:2024-02-05 15:37:58 公開日:2024-02-02 |
# ベイジアンニューラルネットワークによるランゲヴィン方程式の不確かさの推定 Inferring the Langevin Equation with Uncertainty via Bayesian Neural Networks ( http://arxiv.org/abs/2402.01338v1 ) ライセンス: Link先を確認 | Youngkyoung Bae, Seungwoong Ha, Hawoong Jeong | (参考訳) 様々な領域に広がる確率系は、分子動力学から気候現象まで、プロセスの変動を示す。
ランゲヴィン方程式はそのような系を研究するための一般的な数学的モデルとして機能し、その時間的進化の予測と吸収熱、システムの研究、エントロピー生成を含む熱力学量の分析を可能にした。
しかし、観測軌道からランゲヴィン方程式を推定することは、特に非線形系や高次元系では困難である。
本研究では,過減衰状態と過減衰状態の両方におけるランジュバン方程式を推定するためにベイズニューラルネットワークを用いた包括的枠組みを提案する。
我々のフレームワークはまずドリフト力と拡散行列を別々に提供し、それらを結合してランジュバン方程式を構築する。
単一の値ではなく予測の分布を提供することで、予測の不確実性を評価し、システムの潜在的な誤解や誤った判断を防ぐことができる。
ニューロンモデルや微視的エンジンを含む様々なシナリオにおいてランジュバン方程式を推定する枠組みの有効性を実証し,その汎用性と潜在的影響を強調する。 Pervasive across diverse domains, stochastic systems exhibit fluctuations in processes ranging from molecular dynamics to climate phenomena. The Langevin equation has served as a common mathematical model for studying such systems, enabling predictions of their temporal evolution and analyses of thermodynamic quantities, including absorbed heat, work done on the system, and entropy production. However, inferring the Langevin equation from observed trajectories remains challenging, particularly for nonlinear and high-dimensional systems. In this study, we present a comprehensive framework that employs Bayesian neural networks for inferring Langevin equations in both overdamped and underdamped regimes. Our framework first provides the drift force and diffusion matrix separately and then combines them to construct the Langevin equation. By providing a distribution of predictions instead of a single value, our approach allows us to assess prediction uncertainties, which can prevent potential misunderstandings and erroneous decisions about the system. We demonstrate the effectiveness of our framework in inferring Langevin equations for various scenarios including a neuron model and microscopic engine, highlighting its versatility and potential impact. | 翻訳日:2024-02-05 15:37:40 公開日:2024-02-02 |
# ビデオゲームによるシミュレータフリービジュアルドメインランダム化 Simulator-Free Visual Domain Randomization via Video Games ( http://arxiv.org/abs/2402.01335v1 ) ライセンス: Link先を確認 | Chintan Trivedi, Nemanja Ra\v{s}ajski, Konstantinos Makantasis, Antonios Liapis and Georgios N. Yannakakis | (参考訳) ドメインランダム化(Domain randomization)は、視覚的に異なる領域にまたがる視覚モデルの伝達性を改善する効果的なコンピュータビジョン技術である。
しかし、既存のアプローチは、構築が困難な複雑で特殊なシミュレーションエンジンの微調整に大きく依存し、その実現可能性とスケーラビリティに影響を及ぼす。
本稿では,シミュレーションエンジンへのアクセスを必要とせず,ドメインランダム化のために既存の商用ビデオゲームを多用した映像理解フレームワークBehAVEを紹介する。
振る舞い(1)ゲームの本質的なリッチな視覚的多様性は、ランダム化の源となり、(2)プレイヤーの振る舞いは、アクションのテキスト的記述によって意味的に表現され、同様のコンテンツを持つビデオの *alignment* を導く。
我々は、様々なビデオおよびテキスト基礎モデルのFPSジャンルの25のゲームでBehAVEをテストし、ドメインランダム化の頑健さを報告する。
BehAVEはプレイヤーの行動パターンの調整に成功し、1つのFPSゲームでトレーニングされた時に、それらを複数の見えないFPSゲームにゼロショット転送することができる。
より難しい設定では、BehAVEは、異なるジャンルのゲーム(Minecraft)でトレーニングされた場合でも、ファンデーションモデルのゼロショット転送性を改善して、FPSゲーム(最大22%)を目にする。
コードとデータセットはhttps://github.com/nrasajski/behaveにある。 Domain randomization is an effective computer vision technique for improving transferability of vision models across visually distinct domains exhibiting similar content. Existing approaches, however, rely extensively on tweaking complex and specialized simulation engines that are difficult to construct, subsequently affecting their feasibility and scalability. This paper introduces BehAVE, a video understanding framework that uniquely leverages the plethora of existing commercial video games for domain randomization, without requiring access to their simulation engines. Under BehAVE (1) the inherent rich visual diversity of video games acts as the source of randomization and (2) player behavior -- represented semantically via textual descriptions of actions -- guides the *alignment* of videos with similar content. We test BehAVE on 25 games of the first-person shooter (FPS) genre across various video and text foundation models and we report its robustness for domain randomization. BehAVE successfully aligns player behavioral patterns and is able to zero-shot transfer them to multiple unseen FPS games when trained on just one FPS game. In a more challenging setting, BehAVE manages to improve the zero-shot transferability of foundation models to unseen FPS games (up to 22%) even when trained on a game of a different genre (Minecraft). Code and dataset can be found at https://github.com/nrasajski/BehAVE. | 翻訳日:2024-02-05 15:37:20 公開日:2024-02-02 |
# 回転不変点雲解析の一般的な枠組み A general framework for rotation invariant point cloud analysis ( http://arxiv.org/abs/2402.01331v1 ) ライセンス: Link先を確認 | Shuqing Luo, Wei Gao | (参考訳) 本稿では,入力の回転に不変な深層学習に基づく点雲解析法を提案する。
古典的な手法は回転に弱いため、通常は整列点雲を入力とする。
原理成分分析(PCA)は回転不変性を実現するための実践的手法である。
しかし、理論と実践的なアルゴリズムの間にはまだいくつかのギャップがある。
本稿では,点雲解析のための回転不変アルゴリズムの設計に関する徹底的な研究を行う。
まず、置換不変問題として定式化し、任意のバックボーンと組み合わせることができる一般的なフレームワークを提案する。
本手法は,3次元事前学習やマルチモーダル学習などのさらなる研究に有用である。
実験により,本手法は共通ベンチマークにおける最先端の手法に比べ,相当あるいは優れた性能を示すことがわかった。
コードはhttps://github.com/luoshuqing2001/ri_frameworkで入手できる。 We propose a general method for deep learning based point cloud analysis, which is invariant to rotation on the inputs. Classical methods are vulnerable to rotation, as they usually take aligned point clouds as input. Principle Component Analysis (PCA) is a practical approach to achieve rotation invariance. However, there are still some gaps between theory and practical algorithms. In this work, we present a thorough study on designing rotation invariant algorithms for point cloud analysis. We first formulate it as a permutation invariant problem, then propose a general framework which can be combined with any backbones. Our method is beneficial for further research such as 3D pre-training and multi-modal learning. Experiments show that our method has considerable or better performance compared to state-of-the-art approaches on common benchmarks. Code is available at https://github.com/luoshuqing2001/RI_framework. | 翻訳日:2024-02-05 15:36:56 公開日:2024-02-02 |
# ファンデルワールス相互作用を持つ2つの閉じ込められた原子に対するシュル'{o}dinger方程式の解析解 Analytical solutions of the Schr\"{o}dinger equation for two confined atoms with van der Waals interaction ( http://arxiv.org/abs/2402.01409v1 ) ライセンス: Link先を確認 | Ruijie Du | (参考訳) 対称調和トラップにおける等方性ファンデルワールス相互作用に対するschr\"{o}dinger方程式の解を,マルチスケール長距離ポテンシャルを扱うための最近のアプローチ (arxiv:2207.09377 (2022)] で導出する。
これらの解の漸近的挙動は、$r\rightarrow 0$ と $r\rightarrow \infty$ で得られる。
さらに2体相対運動のエネルギースペクトルを推定し、そのスペクトルを$s$ wave と $p$ wave の散乱長さに関連付ける。
これらの結果は、閉じ込められた原子-原子衝突とエネルギースペクトルの研究に使用できる。 We derive solutions of the Schr\"{o}dinger equation for the isotropic van der Waals interaction in a symmetric harmonic trap, with the recent approach [arXiv:2207.09377 (2022)] to handle the multi-scale long-range potential. Asymptotic behaviors of these solutions are then obtained for $r\rightarrow 0$ and $r\rightarrow \infty$. We further deduce the energy spectrum of the two-body relative motion and relate the spectrum to scattering lengths for $s$ wave and $p$ wave. These results can be used to research trapped atom-atom collisions and energy spectra. | 翻訳日:2024-02-05 15:29:39 公開日:2024-02-02 |
# 均質化確率勾配降下における重尾の出現 Emergence of heavy tails in homogenized stochastic gradient descent ( http://arxiv.org/abs/2402.01382v1 ) ライセンス: Link先を確認 | Zhe Jiao, Martin Keller-Ressel | (参考訳) 確率勾配降下(SGD)による損失最小化は、ニューラルネットワークパラメータの重み付き分布をもたらすことが繰り返し観測されている。
そこで我々は,SGDの連続拡散近似をホモジナイズド・確率勾配勾配(hoogenized stochastic gradient descent)と呼び,漸近的に重く振舞うことを示す。
これらの境界を数値実験で検証し,sgdイテレートの実験的テールインデックスに近い近似であることを示す。
さらに、それらの明示的な形式により、最適化パラメータとテールインデックス間の相互作用を定量化することができる。
そこで我々は,重尾間の関係とニューラルネットワークの一般化性能に関する議論の進行に寄与し,また,SGDによる局所的極小視の回避にも寄与する。 It has repeatedly been observed that loss minimization by stochastic gradient descent (SGD) leads to heavy-tailed distributions of neural network parameters. Here, we analyze a continuous diffusion approximation of SGD, called homogenized stochastic gradient descent, show that it behaves asymptotically heavy-tailed, and give explicit upper and lower bounds on its tail-index. We validate these bounds in numerical experiments and show that they are typically close approximations to the empirical tail-index of SGD iterates. In addition, their explicit form enables us to quantify the interplay between optimization parameters and the tail-index. Doing so, we contribute to the ongoing discussion on links between heavy tails and the generalization performance of neural networks as well as the ability of SGD to avoid suboptimal local minima. | 翻訳日:2024-02-05 15:29:26 公開日:2024-02-02 |
# レート歪み最適化による高能率動的nerfベースボリュームビデオ符号化 Efficient Dynamic-NeRF Based Volumetric Video Coding with Rate Distortion Optimization ( http://arxiv.org/abs/2402.01380v1 ) ライセンス: Link先を確認 | Zhiyu Zhang, Guo Lu, Huanxiong Liang, Anni Tang, Qiang Hu, Li Song | (参考訳) 没入的な3d現実主義と対話性から恩恵を受けたボリュームビデオは、様々なアプリケーションにとって大きな可能性を秘めている。
最近、NeRFは、そのシンプルな表現と強力な3Dモデリング能力により、ボリュームビデオ圧縮において顕著な可能性を実証している。
しかし、rerfはモデルを圧縮プロセスから分離し、サブ最適圧縮効率をもたらす。
一方,本稿では,よりコンパクトな動的NeRFに基づくボリュームビデオ圧縮手法を提案する。
具体的には、nrf表現を係数場と基底場に分解し、時間領域の基底フィールドを段階的に更新して動的モデリングを行う。
さらに,圧縮効率をさらに向上させるために,モデリングと圧縮プロセスのエンドツーエンド共同最適化を行う。
実験により, 各種データセットのReRFと比較して圧縮効率が高いことを示した。 Volumetric videos, benefiting from immersive 3D realism and interactivity, hold vast potential for various applications, while the tremendous data volume poses significant challenges for compression. Recently, NeRF has demonstrated remarkable potential in volumetric video compression thanks to its simple representation and powerful 3D modeling capabilities, where a notable work is ReRF. However, ReRF separates the modeling from compression process, resulting in suboptimal compression efficiency. In contrast, in this paper, we propose a volumetric video compression method based on dynamic NeRF in a more compact manner. Specifically, we decompose the NeRF representation into the coefficient fields and the basis fields, incrementally updating the basis fields in the temporal domain to achieve dynamic modeling. Additionally, we perform end-to-end joint optimization on the modeling and compression process to further improve the compression efficiency. Extensive experiments demonstrate that our method achieves higher compression efficiency compared to ReRF on various datasets. | 翻訳日:2024-02-05 15:29:07 公開日:2024-02-02 |
# lotr: 低テンソルランクの重み付け LoTR: Low Tensor Rank Weight Adaptation ( http://arxiv.org/abs/2402.01376v1 ) ライセンス: Link先を確認 | Daniel Bershatsky, Daria Cherniuk, Talgat Daulbaev and Ivan Oseledets | (参考訳) 本稿では,Transformerアーキテクチャに基づく大規模言語モデル(LLM)のローランク適応(LoRA)を一般化し,拡張する。
LLMを微調整するLoRAライクな手法は、勾配更新の行列因数分解に基づいている。
本稿では,パラメータの勾配更新をテンソル分解の形で表現する LLM のパラメータ効率向上のための新しいアプローチである LoTR を紹介する。
各層に対する低ランクアダプタは3つの行列の積として構成され、テンソル構造は、この積の左右乗算器を層間で共有することによって生じる。
低ランクテンソル表現を持つ層列の同時圧縮により、LoTRはさらに優れたパラメータ効率をアーカイブできる。
さらに、コアテンソルは元々の重さ寸法に依存しておらず、任意の大きさにすることができるため、非常に安価で高速な下流の微調整が可能となる。 In this paper we generalize and extend an idea of low-rank adaptation (LoRA) of large language models (LLMs) based on Transformer architecture. Widely used LoRA-like methods of fine-tuning LLMs are based on matrix factorization of gradient update. We introduce LoTR, a novel approach for parameter-efficient fine-tuning of LLMs which represents a gradient update to parameters in a form of tensor decomposition. Low-rank adapter for each layer is constructed as a product of three matrices, and tensor structure arises from sharing left and right multipliers of this product among layers. Simultaneous compression of a sequence of layers with low-rank tensor representation allows LoTR to archive even better parameter efficiency then LoRA especially for deep models. Moreover, the core tensor does not depend on original weight dimension and can be made arbitrary small, which allows for extremely cheap and fast downstream fine-tuning. | 翻訳日:2024-02-05 15:28:51 公開日:2024-02-02 |
# キャズムに潜り込む: 内的・横断的一般化のギャップを探究する Dive into the Chasm: Probing the Gap between In- and Cross-Topic Generalization ( http://arxiv.org/abs/2402.01375v1 ) ライセンス: Link先を確認 | Andreas Waldis, Yufang Hou, Iryna Gurevych | (参考訳) トレーニング済み言語モデル(LM)は、トレーニングとテストが同じトピックから来る、イントピックのセットアップでうまく機能する。
しかしながら、Gun Controlなど、異なるトピックからデータをテストする場合、クロストピックシナリオでは課題に直面している。
本研究は,3つの探索型実験を用いて様々なLMを分析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
そこで本研究では, 一般化ギャップと埋め込み空間のロバスト性がlsmにより大きく異なることを示す。
さらに、より大きなlmsを評価し、最近のモデルに対する分析の妥当性を強調する。
全体として、様々な事前学習の目的、アーキテクチャの規則化、データ重複は、より堅牢なLMに寄与し、一般化のギャップを減らします。
本研究は,様々な一般化シナリオにおける言語モデルの理解と比較に寄与する。 Pre-trained language models (LMs) perform well in In-Topic setups, where training and testing data come from the same topics. However, they face challenges in Cross-Topic scenarios where testing data is derived from distinct topics -- such as Gun Control. This study analyzes various LMs with three probing-based experiments to shed light on the reasons behind the In- vs. Cross-Topic generalization gap. Thereby, we demonstrate, for the first time, that generalization gaps and the robustness of the embedding space vary significantly across LMs. Additionally, we assess larger LMs and underscore the relevance of our analysis for recent models. Overall, diverse pre-training objectives, architectural regularization, or data deduplication contribute to more robust LMs and diminish generalization gaps. Our research contributes to a deeper understanding and comparison of language models across different generalization scenarios. | 翻訳日:2024-02-05 15:28:36 公開日:2024-02-02 |
# cmaes : CMA-ESのためのシンプルで実用的なPythonライブラリ cmaes : A Simple yet Practical Python Library for CMA-ES ( http://arxiv.org/abs/2402.01373v1 ) ライセンス: Link先を確認 | Masahiro Nomura, Masashi Shibata | (参考訳) 共分散行列適応進化戦略 (CMA-ES) は、ベンチマーク問題と実世界の様々な応用において成功し、ブラックボックス連続最適化において非常に効果的である。
このドメインでアクセス可能で強力なツールの必要性に対処するため、私たちはcma-es用のシンプルで実用的なpythonライブラリであるcmaesを開発しました。
cmaesの特徴は単純で直感的な使いやすさと高いコード読みやすさである。
これにより、CMA-ESの迅速な使用、教育目的、他のライブラリへのシームレスな統合に適している。
簡素な設計にもかかわらず、cmaesは機能拡張を維持している。
CMA-ESの最近の進歩には、挑戦的なシナリオの学習率適応、移行学習、混合整数最適化機能などがある。
これらの高度な機能は、ユーザフレンドリなAPIを通じてアクセス可能で、cmaesが実用的なアプリケーションで簡単に採用できるようにする。
cmaesはPython CMA-ESライブラリの最初の選択肢だと考えている。
このソフトウェアはMITライセンスでhttps://github.com/CyberAgentAILab/cmaesで入手できる。 The covariance matrix adaptation evolution strategy (CMA-ES) has been highly effective in black-box continuous optimization, as demonstrated by its success in both benchmark problems and various real-world applications. To address the need for an accessible yet potent tool in this domain, we developed cmaes, a simple and practical Python library for CMA-ES. cmaes is characterized by its simplicity, offering intuitive use and high code readability. This makes it suitable for quickly using CMA-ES, as well as for educational purposes and seamless integration into other libraries. Despite its simplistic design, cmaes maintains enhanced functionality. It incorporates recent advancements in CMA-ES, such as learning rate adaptation for challenging scenarios, transfer learning, and mixed-integer optimization capabilities. These advanced features are accessible through a user-friendly API, ensuring that cmaes can be easily adopted in practical applications. We regard cmaes as the first choice for a Python CMA-ES library among practitioners. The software is available under the MIT license at https://github.com/CyberAgentAILab/cmaes. | 翻訳日:2024-02-05 15:28:23 公開日:2024-02-02 |
# 関数近似を用いた平均回帰MDPに対する批判的アクター:有限時間解析 Critic-Actor for Average Reward MDPs with Function Approximation: A Finite-Time Analysis ( http://arxiv.org/abs/2402.01371v1 ) ライセンス: Link先を確認 | Prashansa Panda and Shalabh Bhatnagar | (参考訳) 近年、俳優の更新が批評家よりも遅い時間スケールで実行される2段階の俳優批判アルゴリズムに対して漸近的かつ非漸近的収束分析を行うことに焦点を当てた研究活動が数多く行われている。
近年の研究では、俳優と批評家の時間スケールを逆転させ漸近収束解析を行うルックアップテーブルケースにおいて、無限ホライズンディスカウントコスト設定のために、批評家-アクターアルゴリズムが提示されている。
本研究は,関数近似と長期平均報酬設定を用いた最初の批判-実行アルゴリズムを示し,そのようなスキームの最初の有限時間(非漸近的)解析を提案する。
我々は最適な学習率を求め,批評家の平均二乗誤差に対して,このアルゴリズムが$\mathcal{\tilde{O}}(\epsilon^{-2.08})$のサンプル複雑性を達成することを証明した。
また,3つのベンチマーク設定における数値実験の結果を示し,批判者-実行者アルゴリズムがアクタ-批判的アルゴリズムとよく競合していることを確認する。 In recent years, there has been a lot of research work activity focused on carrying out asymptotic and non-asymptotic convergence analyses for two-timescale actor critic algorithms where the actor updates are performed on a timescale that is slower than that of the critic. In a recent work, the critic-actor algorithm has been presented for the infinite horizon discounted cost setting in the look-up table case where the timescales of the actor and the critic are reversed and asymptotic convergence analysis has been presented. In our work, we present the first critic-actor algorithm with function approximation and in the long-run average reward setting and present the first finite-time (non-asymptotic) analysis of such a scheme. We obtain optimal learning rates and prove that our algorithm achieves a sample complexity of $\mathcal{\tilde{O}}(\epsilon^{-2.08})$ for the mean squared error of the critic to be upper bounded by $\epsilon$ which is better than the one obtained for actor-critic in a similar setting. We also show the results of numerical experiments on three benchmark settings and observe that the critic-actor algorithm competes well with the actor-critic algorithm. | 翻訳日:2024-02-05 15:28:06 公開日:2024-02-02 |
# 加熱接尾辞:マルチモーダル優先によるテキスト・画像拡散モデルへの標的攻撃 Cheating Suffix: Targeted Attack to Text-To-Image Diffusion Models with Multi-Modal Priors ( http://arxiv.org/abs/2402.01369v1 ) ライセンス: Link先を確認 | Dingcheng Yang, Yang Bai, Xiaojun Jia, Yang Liu, Xiaochun Cao, Wenjian Yu | (参考訳) 拡散モデルは様々な画像生成タスクに広く展開され、画像とテキストのモダリティの間に異常なつながりを示す。
しかし、元のプロンプトに特定の接尾辞を追加することで有害な画像や繊細な画像を生成するために悪用されるという課題に直面している。
既存の作業は主に、単一モーダル情報を使用して攻撃を実行することに焦点を当てており、これはマルチモーダル機能の利用に失敗し、結果として満足なパフォーマンスを達成できない。
本稿では,マルチモーダルプリエント (mmp) の統合,すなわちテキストと画像の両方の機能について,mmp攻撃と呼ばれる標的攻撃手法を提案する。
具体的には、MMP-Attackの目標は、元のオブジェクトを同時に削除しながら、ターゲットオブジェクトをイメージコンテンツに追加することである。
MMP-Attackは、DALL-E 3のような商用テキスト・ツー・イメージ(T2I)モデルを効果的に攻撃できる、優れた普遍性と転送性を持つ既存の作品に対して、顕著な優位性を示している。
私たちの知る限りでは、これは商用T2Iモデルへのトランスファーベースのアタックの最初の成功例です。
我々のコードは \url{https://github.com/ydc123/MMP-Attack} で公開されている。 Diffusion models have been widely deployed in various image generation tasks, demonstrating an extraordinary connection between image and text modalities. However, they face challenges of being maliciously exploited to generate harmful or sensitive images by appending a specific suffix to the original prompt. Existing works mainly focus on using single-modal information to conduct attacks, which fails to utilize multi-modal features and results in less than satisfactory performance. Integrating multi-modal priors (MMP), i.e. both text and image features, we propose a targeted attack method named MMP-Attack in this work. Specifically, the goal of MMP-Attack is to add a target object into the image content while simultaneously removing the original object. The MMP-Attack shows a notable advantage over existing works with superior universality and transferability, which can effectively attack commercial text-to-image (T2I) models such as DALL-E 3. To the best of our knowledge, this marks the first successful attempt of transfer-based attack to commercial T2I models. Our code is publicly available at \url{https://github.com/ydc123/MMP-Attack}. | 翻訳日:2024-02-05 15:27:42 公開日:2024-02-02 |
# LIR:軽量画像復元のための効率的な劣化除去 LIR: Efficient Degradation Removal for Lightweight Image Restoration ( http://arxiv.org/abs/2402.01368v1 ) ライセンス: Link先を確認 | Dongqi Fan, Ting Yue, Xin Zhao, Liang Chang | (参考訳) 近年,CNNとトランスフォーマーをベースとした画像復元が大幅に進歩している。
しかし、画像復元作業の本質的な特徴は、多くの作品で見過ごされている。
これらの作業は、基本ブロックの設計と、多数の基本ブロックをモデルに積み重ねることに重点を置いており、冗長なパラメータと不要な計算をもたらし、画像復元の効率を妨げている。
本稿では,lirと呼ばれる軽量な画像復元ネットワークを提案し,劣化(泥,雨,騒音,煙など)を効率的に除去する。
LIRの鍵となるコンポーネントは、適応フィルタとアテンションブロックで構成される、効率的なアダプティブアテンションブロック(EAA)である。
様々な画像復元シーンにおける輪郭を適応的に研削し、劣化を除去し、グローバル情報を効率的かつ計算フレンドリに捉えることができる。
さらに、単純な構造設計により、LIRは、現代のネットワークで無視される局所的および大域的残差接続に存在する劣化に対処する。
我々のLIRは、パラメータや計算量が少ないほとんどのベンチマークにおいて、最先端ネットワークに匹敵する性能を実現している。
我々のLIRは、人間の美学とより一致した最先端のネットワークよりも、より良い視覚結果を生み出すことは注目に値する。 Recently, there have been significant advancements in Image Restoration based on CNN and transformer. However, the inherent characteristics of the Image Restoration task are often overlooked in many works. These works often focus on the basic block design and stack numerous basic blocks to the model, leading to redundant parameters and unnecessary computations and hindering the efficiency of the image restoration. In this paper, we propose a Lightweight Image Restoration network called LIR to efficiently remove degradation (blur, rain, noise, haze, etc.). A key component in LIR is the Efficient Adaptive Attention (EAA) Block, which is mainly composed of Adaptive Filters and Attention Blocks. It is capable of adaptively sharpening contours, removing degradation, and capturing global information in various image restoration scenes in an efficient and computation-friendly manner. In addition, through a simple structural design, LIR addresses the degradations existing in the local and global residual connections that are ignored by modern networks. Extensive experiments demonstrate that our LIR achieves comparable performance to state-of-the-art networks on most benchmarks with fewer parameters and computations. It is worth noting that our LIR produces better visual results than state-of-the-art networks that are more in line with the human aesthetic. | 翻訳日:2024-02-05 15:27:20 公開日:2024-02-02 |
# 大規模言語モデルのための連続学習:調査 Continual Learning for Large Language Models: A Survey ( http://arxiv.org/abs/2402.01364v1 ) ライセンス: Link先を確認 | Tongtong Wu, Linhao Luo, Yuan-Fang Li, Shirui Pan, Thuy-Trang Vu, Gholamreza Haffari | (参考訳) 大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
しかし、llmに新しいスキルを与え、急速に進化する人間の知識を最新に保つためには、更新が必要である。
本稿では,LLMの連続学習に関する最近の研究について述べる。
LLMの独特な性質のため、連続的な事前学習、命令チューニング、アライメントを含む、新しい多段階分類方式で継続学習手法をカタログ化する。
llmの連続学習と,より小さなモデルで使用される単純な適応法と,検索型生成やモデル編集などの拡張戦略を比較した。
さらに、ベンチマークと評価に関する議論から、この重要なタスクに対するいくつかの課題と今後の作業の方向性を明らかにする。 Large language models (LLMs) are not amenable to frequent re-training, due to high training costs arising from their massive scale. However, updates are necessary to endow LLMs with new skills and keep them up-to-date with rapidly evolving human knowledge. This paper surveys recent works on continual learning for LLMs. Due to the unique nature of LLMs, we catalog continue learning techniques in a novel multi-staged categorization scheme, involving continual pretraining, instruction tuning, and alignment. We contrast continual learning for LLMs with simpler adaptation methods used in smaller models, as well as with other enhancement strategies like retrieval-augmented generation and model editing. Moreover, informed by a discussion of benchmarks and evaluation, we identify several challenges and future work directions for this crucial task. | 翻訳日:2024-02-05 15:27:02 公開日:2024-02-02 |
# 不規則XXZモデルにおけるキャッチ熱雪崩 Catching thermal avalanches in disordered XXZ model ( http://arxiv.org/abs/2402.01362v1 ) ライセンス: Link先を確認 | Tomasz Szo{\l}dra, Piotr Sierant, Maciej Lewenstein, Jakub Zakrzewski | (参考訳) 弱歪スピン鎖に接触したランダム磁場を持つXXZモデルを有限熱浴として検討した。
我々は、熱浴とXXZスピン鎖の相互作用に関するフェルミの黄金律を、系の熱化のための非摂動量子雪崩シナリオと対比する。
2点相関関数を用いて風呂の隣の熱処理領域の温度を$\xi_d$と定義した。
unbounded growth of $\xi_d$ proportional to the logarithm of time or fasterは雪崩のサインである。
これは系の熱化を意味し、xxzスピンチェーンのエルゴードおよび臨界レジームにおける一般初期状態について数値的に確認する。
多体局在状態では、特に準備された初期状態に対してアバランチの明確な終了が観察され、驚くべきことに、一般的な初期生成状態には見えない。
さらに, 運動の局所積分の局所化長を抽出し, 弱乱れたXXZ鎖からなる浴槽が, ランダム行列のガウス直交集合からハミルトニアンによってモデル化された浴槽としてシステムに類似した効果を持つことを示す。
また,先行研究(phys)の結果についてもコメントした。
B 108, L020201 (2023) は、観測された熱化はシステムの外部の駆動によるものであり、自律モデルでは起こらないと主張した。
本研究は、量子雪崩の実験的にアクセス可能なシグネチャを明らかにし、雪崩の終了を観測できる条件を特定する。 We study the XXZ model with a random magnetic field in contact with a weakly disordered spin chain, acting as a finite thermal bath. We revise Fermi's golden rule description of the interaction between the thermal bath and the XXZ spin chain, contrasting it with a non-perturbative quantum avalanche scenario for the thermalization of the system. We employ two-point correlation functions to define the extent, $\xi_d$, of the thermalized region next to the bath. Unbounded growth of $\xi_d$ proportional to the logarithm of time or faster is a signature of an avalanche. It signifies the thermalization of the system, as we confirm numerically for a generic initial state in the ergodic and critical regimes of the XXZ spin chain. In the many-body localized regime, a clear termination of avalanches is observed for specifically prepared initial states and, surprisingly, is not visible for generic initial product states. Additionally, we extract the localization length of the local integrals of motion and show that a bath made out of a weakly disordered XXZ chain has a similar effect on the system as a bath modeled by a Hamiltonian from a Gaussian Orthogonal Ensemble of random matrices. We also comment on the result of the earlier study (Phys. Rev. B 108, L020201 (2023)), arguing that the observed thermalization is due to external driving of the system and does not occur in the autonomous model. Our work reveals experimentally accessible signatures of quantum avalanches and identifies conditions under which termination of the avalanches may be observed. | 翻訳日:2024-02-05 15:26:48 公開日:2024-02-02 |
# to the max: 強化学習における報酬の再発明 To the Max: Reinventing Reward in Reinforcement Learning ( http://arxiv.org/abs/2402.01361v1 ) ライセンス: Link先を確認 | Grigorii Veviurko, Wendelin B\"ohmer, Mathijs de Weerdt | (参考訳) 強化学習(rl)では、異なる報酬が同じ最適方針を定義することができるが、学習性能は大きく異なる。
ある場合には、エージェントは最適以下の行動で立ち往生し、ある場合にはそのタスクを効率的に解決する。
良い報酬関数を選択することは非常に重要で難しい問題です。
本稿では,報酬を学習に利用するための代替手法を検討する。
我々は,エージェントが累積報酬よりも最大値を最適化するmax-reward rlを導入する。
従来の手法とは異なり,本手法は決定論的・確率的環境に対して有効であり,最先端のRLアルゴリズムと容易に組み合わせることができる。
実験では,Gymnasium-Robotics の2つの目標達成環境における最大回帰RLアルゴリズムの性能について検討し,標準RLよりもその利点を実証した。
コードは公開されている。 In reinforcement learning (RL), different rewards can define the same optimal policy but result in drastically different learning performance. For some, the agent gets stuck with a suboptimal behavior, and for others, it solves the task efficiently. Choosing a good reward function is hence an extremely important yet challenging problem. In this paper, we explore an alternative approach to using rewards for learning. We introduce max-reward RL, where an agent optimizes the maximum rather than the cumulative reward. Unlike earlier works, our approach works for deterministic and stochastic environments and can be easily combined with state-of-the-art RL algorithms. In the experiments, we study the performance of max-reward RL algorithms in two goal-reaching environments from Gymnasium-Robotics and demonstrate its benefits over standard RL. The code is publicly available. | 翻訳日:2024-02-05 15:26:20 公開日:2024-02-02 |
# 医療行為を検証できるものは何か?
事実検証のためのエンティティと関係性の分析 What Makes Medical Claims (Un)Verifiable? Analyzing Entity and Relation Properties for Fact Verification ( http://arxiv.org/abs/2402.01360v1 ) ライセンス: Link先を確認 | Amelie W\"uhrl and Yarik Menchaca Resendiz and Lara Grimminger and Roman Klinger | (参考訳) バイオメディカルクレームの検証は、証拠が見つからなければ失敗する。
これらの場合、事実確認の判断は依然として不明であり、主張は検証できない。
これを改善するためには、その検証可能性に影響を与えるクレーム特性があるかどうかを理解する必要がある。
本研究では,生物医学的クレームの解剖学において,実体と関係がコア変数を定義し,その性質が検証不能クレームと検証不能クレームを区別するのに役立つかどうかを分析する。
訓練された注釈専門家による研究で、私たちは彼らにバイオメディカルクレームの証拠を見つけるように促し、彼らの証拠検索のために検索クエリを洗練する方法を観察します。
これは、科学的事実検証のための最初のコーパスに、主題関係のオブジェクト三つ子、証拠文書、事実チェックの評決(BEAR-Fact corpus)が注釈付けされた。
否定的主張(例えば、X-does-not- because-Y)の証拠を発見することは特に困難である。
さらに、アノテーションは検索に制約を加え、エンティティを標準名に正規化することでクエリを処理する。
2) 社内アノテーションとクラウドソーシングの小さな設定を比較して,医療専門家や在職者を採用する。
ドメインの専門知識がアノテーションの信頼性に大きな影響を与えないことが分かりました。
最後に, クレームテキスト~(.82\F)から証拠検索の成功を確実に推定できる一方で, 検証不能なクレームの特定はより困難であることを示す(.27\F)。
データセットはhttp://www.ims.uni-stuttgart.de/data/bioclaimで利用可能である。 Biomedical claim verification fails if no evidence can be discovered. In these cases, the fact-checking verdict remains unknown and the claim is unverifiable. To improve upon this, we have to understand if there are any claim properties that impact its verifiability. In this work we assume that entities and relations define the core variables in a biomedical claim's anatomy and analyze if their properties help us to differentiate verifiable from unverifiable claims. In a study with trained annotation experts we prompt them to find evidence for biomedical claims, and observe how they refine search queries for their evidence search. This leads to the first corpus for scientific fact verification annotated with subject-relation-object triplets, evidence documents, and fact-checking verdicts (the BEAR-Fact corpus). We find (1) that discovering evidence for negated claims (e.g., X-does-not-cause-Y) is particularly challenging. Further, we see that annotators process queries mostly by adding constraints to the search and by normalizing entities to canonical names. (2) We compare our in-house annotations with a small crowdsourcing setting where we employ medical experts and laypeople. We find that domain expertise does not have a substantial effect on the reliability of annotations. Finally, (3), we demonstrate that it is possible to reliably estimate the success of evidence retrieval purely from the claim text~(.82\F), whereas identifying unverifiable claims proves more challenging (.27\F). The dataset is available at http://www.ims.uni-stuttgart.de/data/bioclaim. | 翻訳日:2024-02-05 15:26:04 公開日:2024-02-02 |
# TESSERACT: 空間と時間にわたるマルウェア分類における実験バイアスの除去(拡張版) TESSERACT: Eliminating Experimental Bias in Malware Classification across Space and Time (Extended Version) ( http://arxiv.org/abs/2402.01359v1 ) ライセンス: Link先を確認 | Zeliang Kan, Shae McFadden, Daniel Arp, Feargus Pendlebury, Roberto Jordaney, Johannes Kinder, Fabio Pierazzi, Lorenzo Cavallaro | (参考訳) 機械学習(ML)は、悪意のあるソフトウェアを検出する上で重要な役割を果たす。
多くの研究で報告された高いf1-scoreは 0.99 に達しているが、完全な解決には至っていない。
マルウェア検知器は、常に進化しているオペレーティングシステムや攻撃方法により、しばしば性能劣化を経験する。
本稿では、実世界の展開を代表していないデータ分布による空間バイアスと、誤った時間分割による時間バイアスと、非現実的な構成をもたらす2つの実験バイアスが原因で、一般的に報告される結果が膨らんでいることを論じる。
これらのバイアスに対処するために、公正な実験設計のための一連の制約を導入し、実世界の環境における分類器の堅牢性に対する新しい指標AUTを提案する。
さらに,学習データをチューニングして分類器の性能を向上させるアルゴリズムを提案する。
最後に,リアルな分類器比較のためのオープンソースフレームワークであるTESSERACTを紹介する。
評価対象は従来のMLとディープラーニングの両方で,5年間にわたる259,230のサンプルを含む広範なAndroidデータセットの公開作業について検討した。
さらに, windows pe および pdf ドメインでケーススタディを実施している。
以上の結果から,先行研究におけるバイアスの存在が明らかとなり,適切な周期的チューニングにより,大幅な性能向上が可能であることが判明した。
我々は、パフォーマンスの低下を遅らせるために複数の戦略を採用することにより、より安定し、より良いパフォーマンスを達成するために緩和戦略がいかに役立つかを探る。 Machine learning (ML) plays a pivotal role in detecting malicious software. Despite the high F1-scores reported in numerous studies reaching upwards of 0.99, the issue is not completely solved. Malware detectors often experience performance decay due to constantly evolving operating systems and attack methods, which can render previously learned knowledge insufficient for accurate decision-making on new inputs. This paper argues that commonly reported results are inflated due to two pervasive sources of experimental bias in the detection task: spatial bias caused by data distributions that are not representative of a real-world deployment; and temporal bias caused by incorrect time splits of data, leading to unrealistic configurations. To address these biases, we introduce a set of constraints for fair experiment design, and propose a new metric, AUT, for classifier robustness in real-world settings. We additionally propose an algorithm designed to tune training data to enhance classifier performance. Finally, we present TESSERACT, an open-source framework for realistic classifier comparison. Our evaluation encompasses both traditional ML and deep learning methods, examining published works on an extensive Android dataset with 259,230 samples over a five-year span. Additionally, we conduct case studies in the Windows PE and PDF domains. Our findings identify the existence of biases in previous studies and reveal that significant performance enhancements are possible through appropriate, periodic tuning. We explore how mitigation strategies may support in achieving a more stable and better performance over time by employing multiple strategies to delay performance decay. | 翻訳日:2024-02-05 15:25:37 公開日:2024-02-02 |
# 潜時拡散によるバス伴奏生成 Bass Accompaniment Generation via Latent Diffusion ( http://arxiv.org/abs/2402.01412v1 ) ライセンス: Link先を確認 | Marco Pasini, Maarten Grachten, Stefan Lattner | (参考訳) 任意の入力トラックに適切にマッチする音楽を自動的に生成する機能は、難しい課題である。
任意の長さの音楽ミックスに付随する単一幹を生成できる新しい制御可能なシステムを提案する。
本手法のコアとなるのは、音声波形サンプルを効率よく非可逆な潜在表現に圧縮するオーディオオートエンコーダと、ミックスの潜時符号化を入力として対応する幹の潜時符号化を生成する条件付き潜時拡散モデルである。
生成したサンプルの音色を制御できるようにするため,拡散サンプリング中に潜在空間をユーザが提供する参照スタイルに接地させる手法を提案する。
音声品質をさらに向上するため,非有界潜在空間を生成する際に,高誘導強度での歪みを避けるために分類器フリーガイダンスを適用する。
私たちは、ミックスとベースステムのペアのデータセットでモデルをトレーニングします。
定量的実験により, 入力混合により, ユーザが指定した音色でベースラインを生成できることが実証された。
制御可能な条件付きオーディオ生成フレームワークは、音楽制作においてミュージシャンを支援するための生成AIツールを作成する上で、大きな前進となる。 The ability to automatically generate music that appropriately matches an arbitrary input track is a challenging task. We present a novel controllable system for generating single stems to accompany musical mixes of arbitrary length. At the core of our method are audio autoencoders that efficiently compress audio waveform samples into invertible latent representations, and a conditional latent diffusion model that takes as input the latent encoding of a mix and generates the latent encoding of a corresponding stem. To provide control over the timbre of generated samples, we introduce a technique to ground the latent space to a user-provided reference style during diffusion sampling. For further improving audio quality, we adapt classifier-free guidance to avoid distortions at high guidance strengths when generating an unbounded latent space. We train our model on a dataset of pairs of mixes and matching bass stems. Quantitative experiments demonstrate that, given an input mix, the proposed system can generate basslines with user-specified timbres. Our controllable conditional audio generation framework represents a significant step forward in creating generative AI tools to assist musicians in music production. | 翻訳日:2024-02-05 15:17:06 公開日:2024-02-02 |
# CodePori: マルチエージェントによる自律ソフトウェア開発のための大規模モデル CodePori: Large Scale Model for Autonomous Software Development by Using Multi-Agents ( http://arxiv.org/abs/2402.01411v1 ) ライセンス: Link先を確認 | Zeeshan Rasheed, Muhammad Waseem, Mika Saari, Kari Syst\"a, Pekka Abrahamsson | (参考訳) 大規模言語モデル(LLM)と生成事前学習トランスフォーマー(GPT)は、ソフトウェア工学(SE)の分野を変えつつある。
既存のllmベースのマルチエージェントシステムは、単純な対話タスクをうまく解決した。
しかし、大規模で複雑なプロジェクトのコードの自動生成など、より複雑なタスクのためのLLMの可能性は、いくつかの既存の研究で研究されている。
本稿では,自然言語のプロンプトに基づく大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化する新しいモデルであるCodePoriを紹介する。
LLMベースのマルチAIエージェントを使用して、自律ソフトウェア開発における創造的で困難なタスクを処理します。
各エージェントは、システム設計、コード開発、コードレビュー、コード検証、テストエンジニアリングを含む特定のタスクに従事します。
論文では、CodePoriが大規模なプロジェクトのために実行中のコードを生成し、数時間ではなく数分でソフトウェア開発プロセス全体を完了し、数ドルもすることを示した。
潜在的なセキュリティ脆弱性を特定し、軽減し、堅固なコードパフォーマンスレベルを維持しながらエラーを修正する。
また,HumanEvalとMassively Multitask Benchmark for Python (MBPP)ベンチマークを用いて,既存のソリューションに対するCodePoriの評価を行った。
結果は、コード精度、効率、全体的なパフォーマンスの観点から、CodePoriがベンチマークを改善していることを示している。
例えば、CodePoriはHumanEvalのpass@1メトリックを87.5%、MBPPを86.5%に改善し、既存のモデルよりも明らかに改善されている。
また,CodePoriのパフォーマンスを実践的評価を通じて評価し,91%がモデルの性能に対する満足度を示した。 Large Language Models (LLMs) and Generative Pre-trained Transformers (GPTs) are reshaping the field of Software Engineering (SE). Existing LLM-based multi-agent systems have successfully resolved simple dialogue tasks. However, the potential of LLMs for more complex tasks, such as automated code generation for large and complex projects, have been explored in only a few existing works. This paper introduces CodePori, a novel model designed to automate code generation for extensive and complex software projects based on natural language prompts. We employ LLM-based multi-AI agents to handle creative and challenging tasks in autonomous software development. Each agent engages with a specific task, including system design, code development, code review, code verification, and test engineering. We show in the paper that CodePori is able to generate running code for large-scale projects, completing the entire software development process in minutes rather than hours, and at a cost of a few dollars. It identifies and mitigates potential security vulnerabilities and corrects errors while maintaining a solid code performance level. We also conducted an evaluation of CodePori against existing solutions using HumanEval and the Massively Multitask Benchmark for Python (MBPP) benchmark. The results indicate that CodePori improves upon the benchmarks in terms of code accuracy, efficiency, and overall performance. For example, CodePori improves the pass@1 metric on HumanEval to 87.5% and on MBPP to 86.5%, representing a clear improvement over the existing models. We also assessed CodePori's performance through practitioner evaluations, with 91% expressing satisfaction with the model's performance. | 翻訳日:2024-02-05 15:16:46 公開日:2024-02-02 |
# XAIによる皮膚がん原型検出と非専門的スーパービジョン XAI for Skin Cancer Detection with Prototypes and Non-Expert Supervision ( http://arxiv.org/abs/2402.01410v1 ) ライセンス: Link先を確認 | Miguel Correia, Alceu Bissoto, Carlos Santiago, Catarina Barata | (参考訳) 皮膚内視鏡画像解析による皮膚がんの検出は重要な課題である。
しかし、既存のモデルは解釈可能性や信頼性に欠けることが多く、ブラックボックスの性質から医師の懸念が高まる。
本稿では,解釈可能な原型部品モデルを用いたメラノーマ診断のための新しいアプローチを提案する。
我々は,非専門家のフィードバックに基づく指導的監督を導入する。
1)セグメンテーションネットワークを用いて自動的に得られるバイナリマスク、及び
2) ユーザリファインドプロトタイプ。
これら2つの異なる情報経路は、学習されたプロトタイプが皮膚病変内の関連領域に対応していることを保証することを目的としている。
実験結果から,専門家の指導がなくても,非解釈可能なモデルに比べて優れた性能と一般化が得られた。 Skin cancer detection through dermoscopy image analysis is a critical task. However, existing models used for this purpose often lack interpretability and reliability, raising the concern of physicians due to their black-box nature. In this paper, we propose a novel approach for the diagnosis of melanoma using an interpretable prototypical-part model. We introduce a guided supervision based on non-expert feedback through the incorporation of: 1) binary masks, obtained automatically using a segmentation network; and 2) user-refined prototypes. These two distinct information pathways aim to ensure that the learned prototypes correspond to relevant areas within the skin lesion, excluding confounding factors beyond its boundaries. Experimental results demonstrate that, even without expert supervision, our approach achieves superior performance and generalization compared to non-interpretable models. | 翻訳日:2024-02-05 15:16:19 公開日:2024-02-02 |
# 対実概念ボトルネックモデルによる解釈可能性の上昇 Climbing the Ladder of Interpretability with Counterfactual Concept Bottleneck Models ( http://arxiv.org/abs/2402.01408v1 ) ライセンス: Link先を確認 | Gabriele Dominici, Pietro Barbiero, Francesco Giannini, Martin Gjoreski, Giuseppe Marra and Marc Langheinrich | (参考訳) 現在のディープラーニングモデルは、与えられた分類タスクを解決するためにクラスラベルを予測する("What?")、タスク予測を説明する("Why?")、異なる予測をもたらす可能性のある代替シナリオを想像する("What if?
これらの質問に答えることができないことは、信頼性の高いAIエージェントのデプロイ、人間の信頼の校正、人間と機械の相互作用の深化における重要なギャップを表している。
このギャップを埋めるため、我々は、上記のクエリを、ポストホックな検索を実行することなく、効率的に処理するように設計されたモデルクラスである、反事実的コンセプトボトルネックモデル(cf-cbms)を導入する。
その結果、cf-cbmsは、正確な予測(what?)、タスク予測のための単純な説明(why?)、解釈可能な反事実(what if?)を生み出していることがわかった。
CF-CBMは、最も可能性の高いカウンターファクトをサンプリングまたは見積もることができる。
(i)課題に対する概念介入の効果を説明する。
(ii)希望するクラスラベルの取得方法を示し、
(iii)「タスク駆動」介入による概念的介入を提案する。 Current deep learning models are not designed to simultaneously address three fundamental questions: predict class labels to solve a given classification task (the "What?"), explain task predictions (the "Why?"), and imagine alternative scenarios that could result in different predictions (the "What if?"). The inability to answer these questions represents a crucial gap in deploying reliable AI agents, calibrating human trust, and deepening human-machine interaction. To bridge this gap, we introduce CounterFactual Concept Bottleneck Models (CF-CBMs), a class of models designed to efficiently address the above queries all at once without the need to run post-hoc searches. Our results show that CF-CBMs produce: accurate predictions (the "What?"), simple explanations for task predictions (the "Why?"), and interpretable counterfactuals (the "What if?"). CF-CBMs can also sample or estimate the most probable counterfactual to: (i) explain the effect of concept interventions on tasks, (ii) show users how to get a desired class label, and (iii) propose concept interventions via "task-driven" interventions. | 翻訳日:2024-02-05 15:16:06 公開日:2024-02-02 |
# 文書レベルMTシステムにおける文脈利用の測定について On Measuring Context Utilization in Document-Level MT Systems ( http://arxiv.org/abs/2402.01404v1 ) ライセンス: Link先を確認 | Wafaa Mohammed, Vlad Niculae | (参考訳) 文書レベルの翻訳モデルは一般にBLEUのような一般的なメトリクスを用いて評価される。
コントラスト法などの文脈認識評価に関する現在の研究は、曖昧性を必要とする単語についてのみ翻訳精度を測定する。
このような尺度は、翻訳モデルが正しいサポートコンテキストを使用するかどうかを明らかにすることはできない。
文脈利用の尺度を用いて精度に基づく評価を補完する。
摂動に基づく分析(正しい場合とランダムな場合のモデルの性能を比較する)がコンテキスト全体の利用の効果的な尺度であることがわかった。
よりきめ細かな現象特異的評価を行うため,支援文脈が文脈依存の談話現象にどの程度寄与するかを測定する。
自動アノテーション付きサポートコンテキストは、人間アノテーション付きコンテキストと同じような結論を与え、人間のアノテーションが利用できない場合の代替として使用できることを示す。
最後に,文脈利用を評価する際に,談話に富んだデータセットを使うことの重要性を強調する。 Document-level translation models are usually evaluated using general metrics such as BLEU, which are not informative about the benefits of context. Current work on context-aware evaluation, such as contrastive methods, only measure translation accuracy on words that need context for disambiguation. Such measures cannot reveal whether the translation model uses the correct supporting context. We propose to complement accuracy-based evaluation with measures of context utilization. We find that perturbation-based analysis (comparing models' performance when provided with correct versus random context) is an effective measure of overall context utilization. For a finer-grained phenomenon-specific evaluation, we propose to measure how much the supporting context contributes to handling context-dependent discourse phenomena. We show that automatically-annotated supporting context gives similar conclusions to human-annotated context and can be used as alternative for cases where human annotations are not available. Finally, we highlight the importance of using discourse-rich datasets when assessing context utilization. | 翻訳日:2024-02-05 15:15:46 公開日:2024-02-02 |
# リプシッツ正則化によるスケールでのゼロショットマシンアンラーニング Zero-Shot Machine Unlearning at Scale via Lipschitz Regularization ( http://arxiv.org/abs/2402.01401v1 ) ライセンス: Link先を確認 | Jack Foster, Kyle Fogarty, Stefan Schoepf, Cengiz \"Oztireli, Alexandra Brintrup | (参考訳) aiとデータ規制に従うために、訓練された機械学習モデルからプライベートあるいは著作権のある情報を忘れる必要性がますます重要になっている。
非学習における重要な課題は、モデルのパフォーマンスを維持しながら、必要なデータをタイムリーに忘れることである。
本研究では,ゼロショット学習のシナリオに対処し,未学習のアルゴリズムでは,訓練されたモデルと忘れられるデータのみを削除できなければならない。
このような定義の下では、既存の最先端のメソッドは不十分である。
リプシッツ連続性の概念に基づいて、そのサンプルの摂動に関して、忘れられたサンプルの出力の滑らか化を誘導する手法を提案する。
この平滑化は, 一般的なモデル性能を維持しながら, 忘れた結果をもたらす。
提案手法がゼロショットアンラーニングの厳密な制約の下で最先端の性能を達成可能であることを検証するため,同時代のベンチマークを用いて実験的な評価を行った。 To comply with AI and data regulations, the need to forget private or copyrighted information from trained machine learning models is increasingly important. The key challenge in unlearning is forgetting the necessary data in a timely manner, while preserving model performance. In this work, we address the zero-shot unlearning scenario, whereby an unlearning algorithm must be able to remove data given only a trained model and the data to be forgotten. Under such a definition, existing state-of-the-art methods are insufficient. Building on the concepts of Lipschitz continuity, we present a method that induces smoothing of the forget sample's output, with respect to perturbations of that sample. We show this smoothing successfully results in forgetting while preserving general model performance. We perform extensive empirical evaluation of our method over a range of contemporary benchmarks, verifying that our method achieves state-of-the-art performance under the strict constraints of zero-shot unlearning. | 翻訳日:2024-02-05 15:15:31 公開日:2024-02-02 |
# うるさいオラクルによるクエリー効率の相関クラスタリング Query-Efficient Correlation Clustering with Noisy Oracle ( http://arxiv.org/abs/2402.01400v1 ) ライセンス: Link先を確認 | Yuko Kuroki, Atsushi Miyauchi, Francesco Bonchi, Wei Chen | (参考訳) 我々は、$n$の要素をクラスタ化する一般的なクラスタリング環境について検討し、二つの要素間の類似性のノイズのあるサンプルを返すオラクルに対して、できるだけ少数のクエリを実行することを目指している。
我々の設定は、類似性関数が計算に要し、本質的にノイズの多い多くのアプリケーションドメインを含んでいる。
本稿では,PE-CMAB(Pure Exploration in Combinatorial Multi-Armed Bandits)のパラダイムに根ざしたオンライン学習問題の2つの新しい定式化を提案する。
いずれの場合においても,サンプリング戦略と古典的な近似アルゴリズムを組み合わせた相関クラスタリングアルゴリズムを設計し,その理論的保証について検討する。
本研究は, PE-CMABの場合の多項式時間アルゴリズムの最初の例であり, 基礎となるオフライン最適化問題はNP-hardである。 We study a general clustering setting in which we have $n$ elements to be clustered, and we aim to perform as few queries as possible to an oracle that returns a noisy sample of the similarity between two elements. Our setting encompasses many application domains in which the similarity function is costly to compute and inherently noisy. We propose two novel formulations of online learning problems rooted in the paradigm of Pure Exploration in Combinatorial Multi-Armed Bandits (PE-CMAB): fixed confidence and fixed budget settings. For both settings, we design algorithms that combine a sampling strategy with a classic approximation algorithm for correlation clustering and study their theoretical guarantees. Our results are the first examples of polynomial-time algorithms that work for the case of PE-CMAB in which the underlying offline optimization problem is NP-hard. | 翻訳日:2024-02-05 15:15:14 公開日:2024-02-02 |
# 自己監督型表現学習の確率論的モデル A Probabilistic Model to explain Self-Supervised Representation Learning ( http://arxiv.org/abs/2402.01399v1 ) ライセンス: Link先を確認 | Alice Bizeul, Bernhard Sch\"olkopf and Carl Allen | (参考訳) 自己教師付き学習(SSL)は、データ拡張やモダリティなど、意味的に関連するサンプルを分類するなど、補助的な教師なしタスクを活用することで表現を学ぶ。
SSLへの多くのアプローチのうち、SimCLR、CLIP、VicREGといった対照的な手法は、教師付き学習に近い下流のパフォーマンスを実現する学習表現に注目を集めている。
しかし、これらの手法の背後にあるメカニズムに関する理論的理解は不要である。
本研究では,データに対する生成的潜在変数モデルを提案し,コントラスト法を含む数種類の識別的自己教師付きアルゴリズムが,表現上の潜在構造を近似的に誘導し,統一的な理論的枠組みを提供することを示した。
また,相互情報へのリンクと投影ヘッドの使用を正当化する。
simveのように、モデルが生成的に適合することで、共通のベンチマーク(例えば、fashionmnist、cifar10、celeba)における以前のvaeメソッドよりもパフォーマンスが向上し、_content_分類の差別的メソッドへのギャップが狭まります。 Self-supervised learning (SSL) learns representations by leveraging an auxiliary unsupervised task, such as classifying semantically related samples, e.g. different data augmentations or modalities. Of the many approaches to SSL, contrastive methods, e.g. SimCLR, CLIP and VicREG, have gained attention for learning representations that achieve downstream performance close to that of supervised learning. However, a theoretical understanding of the mechanism behind these methods eludes. We propose a generative latent variable model for the data and show that several families of discriminative self-supervised algorithms, including contrastive methods, approximately induce its latent structure over representations, providing a unifying theoretical framework. We also justify links to mutual information and the use of a projection head. Fitting our model generatively, as SimVE, improves performance over previous VAE methods on common benchmarks (e.g. FashionMNIST, CIFAR10, CelebA), narrows the gap to discriminative methods on _content_ classification and, as our analysis predicts, outperforms them where _style_ information is required, taking a step toward task-agnostic representations. | 翻訳日:2024-02-05 15:15:00 公開日:2024-02-02 |
# ALERT-Transformer:リアルタイムイベントベースの時空間データのための非同期・同期機械学習 ALERT-Transformer: Bridging Asynchronous and Synchronous Machine Learning for Real-Time Event-based Spatio-Temporal Data ( http://arxiv.org/abs/2402.01393v1 ) ライセンス: Link先を確認 | Carmen Martin-Turrero, Maxence Bouvier, Manuel Breitenstein, Pietro Zanuttigh, Vincent Parret | (参考訳) 本研究では,高濃度機械学習モデルを用いたイベントベースセンサによる連続的超スパース時空間データの古典的処理を実現する。
We propose a novel hybrid pipeline composed of asynchronous sensing and synchronous processing that combines several ideas: (1) an embedding based on PointNet models -- the ALERT module -- that can continuously integrate new and dismiss old events thanks to a leakage mechanism, (2) a flexible readout of the embedded data that allows to feed any downstream model with always up-to-date features at any sampling rate, (3) exploiting the input sparsity in a patch-based approach inspired by Vision Transformer to optimize the efficiency of the method.
これらの埋め込みは、オブジェクト認識とジェスチャー認識のために訓練されたトランスフォーマーモデルによって処理される。
このアプローチを用いることで、競合より低いレイテンシで最先端のパフォーマンスを実現します。
また,任意のサンプリングレートで非同期モデルが動作できることを実証した。 We seek to enable classic processing of continuous ultra-sparse spatiotemporal data generated by event-based sensors with dense machine learning models. We propose a novel hybrid pipeline composed of asynchronous sensing and synchronous processing that combines several ideas: (1) an embedding based on PointNet models -- the ALERT module -- that can continuously integrate new and dismiss old events thanks to a leakage mechanism, (2) a flexible readout of the embedded data that allows to feed any downstream model with always up-to-date features at any sampling rate, (3) exploiting the input sparsity in a patch-based approach inspired by Vision Transformer to optimize the efficiency of the method. These embeddings are then processed by a transformer model trained for object and gesture recognition. Using this approach, we achieve performances at the state-of-the-art with a lower latency than competitors. We also demonstrate that our asynchronous model can operate at any desired sampling rate. | 翻訳日:2024-02-05 15:14:35 公開日:2024-02-02 |
# StepCoder: コンパイラのフィードバックから強化学習によるコード生成の改善 StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback ( http://arxiv.org/abs/2402.01391v1 ) ライセンス: Link先を確認 | Shihan Dou, Yan Liu, Haoxiang Jia, Limao Xiong, Enyu Zhou, Junjie Shan, Caishuang Huang, Wei Shen, Xiaoran Fan, Zhiheng Xi, Yuhao Zhou, Tao Ji, Rui Zheng, Qi Zhang, Xuanjing Huang, Tao Gui | (参考訳) 大規模言語モデル(LLM)の進歩は、コード生成の分野を著しく推進している。
従来,LLMの出力空間を探索してコード生成品質を向上させるために,コンパイラフィードバックとRLを統合していた。
しかし、複雑な人間の要求に応えてLLMが生成する長大なコードは、RL探索を困難にしている。
また、ユニットテストは複雑なコードをカバーすることができないため、これらの実行されていないコードスニペットを使用することでLLMを最適化するのは効果がない。
cccsは、長いシーケンスのコード生成タスクをコード補完サブタスクのカリキュラムに分割して探索課題に対処しますが、fgoは、実行されていないコードセグメントをマスキングして、きめ細かな最適化を提供するだけで、モデルを最適化します。
さらに,ユニットテストの正確性を保証するために手作業で検証される,rlトレーニング用のapps+データセットも構築する。
実験結果から,提案手法は出力空間を探索し,対応するベンチマークにおける最先端手法よりも優れた性能を示すことがわかった。 The advancement of large language models (LLMs) has significantly propelled the field of code generation. Previous work integrated reinforcement learning (RL) with compiler feedback for exploring the output space of LLMs to enhance code generation quality. However, the lengthy code generated by LLMs in response to complex human requirements makes RL exploration a challenge. Also, since the unit tests may not cover the complicated code, optimizing LLMs by using these unexecuted code snippets is ineffective. To tackle these challenges, we introduce StepCoder, a novel RL framework for code generation, consisting of two main components: CCCS addresses the exploration challenge by breaking the long sequences code generation task into a Curriculum of Code Completion Subtasks, while FGO only optimizes the model by masking the unexecuted code segments to provide Fine-Grained Optimization. In addition, we furthermore construct the APPS+ dataset for RL training, which is manually verified to ensure the correctness of unit tests. Experimental results show that our method improves the ability to explore the output space and outperforms state-of-the-art approaches in corresponding benchmarks. | 翻訳日:2024-02-05 15:14:23 公開日:2024-02-02 |
# 対称petz-r\'enyi相対エントロピー不確かさ関係 Symmetric Petz-R\'enyi relative entropy uncertainty relation ( http://arxiv.org/abs/2402.01390v1 ) ライセンス: Link先を確認 | Domingos S. P. Salazar | (参考訳) ホールボは量子状態間の忠実性を導入し、それらの類似性を評価する際にトレースノルムと同じくらい効果的である。
この忠実性はトレースノルムの関数によって束縛され、この関係はホールボの不等式 (holevo's inequality) と呼ばれる。
より広義に、ホレヴォの忠実性は対称ペッツ-R'enyi相対エントロピーの1パラメータ族の一部であり、結果としてトレースノルムに関してピンスカーの様不等式を満たす。
ホレヴォの不平等は厳しいが、ピンスカーの不平等はこの家族にとって緩い。
対称ペッツ-R'enyi 相対エントロピーはトレースノルムに関して厳密な不等式を満たすことを示し、ピンスカーを改良し、特定のケースとしてホレヴォを再現する。
さらに、この結果は、量子力学と確率的熱力学のいくつかの関係を含む対称ペッツ-R'enyiの不確実性関係から生じることを示す。 Holevo introduced a fidelity between quantum states that is symmetric and as effective as the trace norm in evaluating their similarity. This fidelity is bounded by a function of the trace norm, a relationship to which we will refer as Holevo's inequality. More broadly, Holevo's fidelity is part of a one-parameter family of symmetric Petz-R\'enyi relative entropies, which in turn satisfy a Pinsker's-like inequality with respect to the trace norm. Although Holevo's inequality is tight, Pinsker's inequality is loose for this family. We show that the symmetric Petz-R\'enyi relative entropies satisfy a tight inequality with respect to the trace norm, improving Pinsker's and reproducing Holevo's as a specific case. Additionally, we show how this result emerges from a symmetric Petz-R\'enyi uncertainty relation, a result that encompasses several relations in quantum and stochastic thermodynamics. | 翻訳日:2024-02-05 15:14:04 公開日:2024-02-02 |
# sima-hand:single-to-multi-view適応による3次元手指再建の促進 SiMA-Hand: Boosting 3D Hand-Mesh Reconstruction by Single-to-Multi-View Adaptation ( http://arxiv.org/abs/2402.01389v1 ) ライセンス: Link先を確認 | Yinqiao Wang, Hao Xu, Pheng-Ann Heng, Chi-Wing Fu | (参考訳) RGB画像から3Dハンドメッシュを推定することは、長年続くトラックであり、オクルージョンが最も難しい問題の1つである。
このタスクに対する既存の試みは、オクルージョンが画像空間を支配しているときに失敗することが多い。
本稿では,Single-to-Multi-view Adaptationによるメッシュ再構成性能の向上を目的としたSiMA-Handを提案する。
まず,多視点ハンドコンストラクタを設計し,画像,関節,頂点レベルでの特徴フュージョンを適用し,複数のビューに情報を融合する。
次に,SiMAを搭載した単視点ハンドコンストラクタを提案する。
1つの視点のみを入力とするが、単視点再構成器の形状と方向の特徴は、訓練時に余分な視点から非閉塞的な知識を学習し、閉鎖された領域の再構築精度を高めることで、強化することができる。
我々は,Dex-YCB と HanCo のベンチマーク実験を行い,SiMA-Hand が芸術の状況よりも常に優れたパフォーマンスを達成していることを示す。
コードはhttps://github.com/JoyboyWang/SiMA-Hand Pytorchでリリースされる。 Estimating 3D hand mesh from RGB images is a longstanding track, in which occlusion is one of the most challenging problems. Existing attempts towards this task often fail when the occlusion dominates the image space. In this paper, we propose SiMA-Hand, aiming to boost the mesh reconstruction performance by Single-to-Multi-view Adaptation. First, we design a multi-view hand reconstructor to fuse information across multiple views by holistically adopting feature fusion at image, joint, and vertex levels. Then, we introduce a single-view hand reconstructor equipped with SiMA. Though taking only one view as input at inference, the shape and orientation features in the single-view reconstructor can be enriched by learning non-occluded knowledge from the extra views at training, enhancing the reconstruction precision on the occluded regions. We conduct experiments on the Dex-YCB and HanCo benchmarks with challenging object- and self-caused occlusion cases, manifesting that SiMA-Hand consistently achieves superior performance over the state of the arts. Code will be released on https://github.com/JoyboyWang/SiMA-Hand Pytorch. | 翻訳日:2024-02-05 15:13:44 公開日:2024-02-02 |
# 大規模言語モデルはデータ分析に役立つか?
質的データ分析のためのマルチエージェント支援手法 Can Large Language Models Serve as Data Analysts? A Multi-Agent Assisted Approach for Qualitative Data Analysis ( http://arxiv.org/abs/2402.01386v1 ) ライセンス: Link先を確認 | Zeeshan Rasheed, Muhammad Waseem, Aakash Ahmad, Kai-Kristian Kemell, Wang Xiaofeng, Anh Nguyen Duc, Pekka Abrahamsson | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学(SE)における協調的な人間とロボットの相互作用を可能にしている。
しかし、SEにおける定性データ解析にLSMを組み込むことの潜在的な利点と意義は、完全には解明されていない。
例えば、定性的データ分析を手動で行うことは、研究者にとって時間を要する、努力を要する、エラーを起こしやすいタスクである。
大規模なデータセットでトレーニングされた生成AIモデルのようなLLMベースのソリューションは、ソフトウェア開発や定性的データ分析のタスクを自動化するために利用することができる。
そこで我々はLLMを用いて定性的データ分析プロセスの自動化と高速化を行った。
エージェント毎に個別の研究活動を実行するマルチエージェントモデルを用いた。
提案モデルは,大量のテキスト文書とインタビュー記録を解釈し,定性解析に共通するタスクを複数実施した。
結果は、このテクニカルアシスタントがデータ分析プロセスを大幅に高速化し、研究者がより大きなデータセットをより効果的に管理できることを示している。
さらに,定性的研究におけるスケーラビリティと精度の新たな次元を導入し,SEにおけるデータ解釈手法を変革する可能性がある。 Recent advancements in Large Language Models (LLMs) have enabled collaborative human-bot interactions in Software Engineering (SE), similar to many other professions. However, the potential benefits and implications of incorporating LLMs into qualitative data analysis in SE have not been completely explored. For instance, conducting qualitative data analysis manually can be a time-consuming, effort-intensive, and error-prone task for researchers. LLM-based solutions, such as generative AI models trained on massive datasets, can be utilized to automate tasks in software development as well as in qualitative data analysis. To this end, we utilized LLMs to automate and expedite the qualitative data analysis processes. We employed a multi-agent model, where each agent was tasked with executing distinct, individual research related activities. Our proposed model interpreted large quantities of textual documents and interview transcripts to perform several common tasks used in qualitative analysis. The results show that this technical assistant speeds up significantly the data analysis process, enabling researchers to manage larger datasets much more effectively. Furthermore, this approach introduces a new dimension of scalability and accuracy in qualitative research, potentially transforming data interpretation methodologies in SE. | 翻訳日:2024-02-05 15:13:22 公開日:2024-02-02 |
# LLMによるNLG評価の現状と課題 LLM-based NLG Evaluation: Current Status and Challenges ( http://arxiv.org/abs/2402.01383v1 ) ライセンス: Link先を確認 | Mingqi Gao, Xinyu Hu, Jie Ruan, Xiao Pu, Xiaojun Wan | (参考訳) 自然言語生成(NLG)を評価することは人工知能において不可欠だが難しい問題である。
従来の評価基準では、システム出力と参照の間のコンテンツ(例えばn-gram)の重なりは満足のいくものではないが、chatgptのような大規模言語モデル(llm)は近年、nlgの評価において大きな可能性を秘めている。
LLMに基づく様々な自動評価手法が提案され、LLMから派生したメトリクス、LLMの促進、ラベル付き評価データによる微調整 LLM などが提案されている。
本調査ではまず, LLM を用いた NLG 評価手法の分類について述べ, その長所と短所について考察する。
また,NLG評価のための人間-LLMコラボレーションについても論じる。
最後に,この領域におけるいくつかのオープンな問題について論じ,今後の研究の方向性を指摘する。 Evaluating natural language generation (NLG) is a vital but challenging problem in artificial intelligence. Traditional evaluation metrics mainly capturing content (e.g. n-gram) overlap between system outputs and references are far from satisfactory, and large language models (LLMs) such as ChatGPT have demonstrated great potential in NLG evaluation in recent years. Various automatic evaluation methods based on LLMs have been proposed, including metrics derived from LLMs, prompting LLMs, and fine-tuning LLMs with labeled evaluation data. In this survey, we first give a taxonomy of LLM-based NLG evaluation methods, and discuss their pros and cons, respectively. We also discuss human-LLM collaboration for NLG evaluation. Lastly, we discuss several open problems in this area and point out future research directions. | 翻訳日:2024-02-05 15:13:02 公開日:2024-02-02 |
# スケールド360のレイアウト: 非中央パノラマの再検討 Scaled 360 layouts: Revisiting non-central panoramas ( http://arxiv.org/abs/2402.01466v1 ) ライセンス: Link先を確認 | Bruno Berenguel-Baeta, Jesus Bermudez-Cameo, Jose J. Guerrero | (参考訳) 非中央パノラマから幾何学的推論により3次元線を復元することができる。
しかし、ノイズに対する感度と複雑な幾何学的モデリングにより、これらのパノラマはほとんど研究されていない。
本研究では, 単一非中央パノラマを用いた室内環境の3次元レイアウト復元手法を提案する。
深層学習を用いて非中央パノラマから部屋の構造線の境界を求め,新しい幾何学的処理により非中央プロジェクションシステムの特性を利用してスケールしたレイアウトを復元する。
マンハッタンの環境問題,オクルージョン処理,アトランタの環境問題についても,統一的な手法で解決する。
実験では,1つのパノラマから3次元レイアウトを復元するための最先端手法を改善した。
我々のアプローチは、非中央パノラマを用いたディープラーニングによる最初の研究であり、単一のパノラマレイアウトのスケールを回復する。 From a non-central panorama, 3D lines can be recovered by geometric reasoning. However, their sensitivity to noise and the complex geometric modeling required has led these panoramas being very little investigated. In this work we present a novel approach for 3D layout recovery of indoor environments using single non-central panoramas. We obtain the boundaries of the structural lines of the room from a non-central panorama using deep learning and exploit the properties of non-central projection systems in a new geometrical processing to recover the scaled layout. We solve the problem for Manhattan environments, handling occlusions, and also for Atlanta environments in an unified method. The experiments performed improve the state-of-the-art methods for 3D layout recovery from a single panorama. Our approach is the first work using deep learning with non-central panoramas and recovering the scale of single panorama layouts. | 翻訳日:2024-02-05 15:05:06 公開日:2024-02-02 |
# ミッションクリティカル -- 衛星データは機械学習において異なるモダリティである Mission Critical -- Satellite Data is a Distinct Modality in Machine Learning ( http://arxiv.org/abs/2402.01444v1 ) ライセンス: Link先を確認 | Esther Rolf, Konstantin Klemmer, Caleb Robinson, Hannah Kerner | (参考訳) 衛星データには、機械学習の耐震変化を引き起こす可能性があり、従来のデータモダリティのために設計された既存のプラクティスを再考する。
サテライトデータ(SatML)の機械学習は、現実世界の影響で勢いを増し、私たちの分野はクロスロードにあります。
我々は、不適切なアプローチを継続するか、衛星データの特徴と課題に焦点を絞った新たな研究アジェンダを開始することができる。
本稿では,サテライトデータは機械学習研究の異なるモダリティであり,理論,手法,展開におけるsatml研究の質と影響を前進させるものとして認識する必要があることを論じる。
我々は,satmlを単なる興味をそそる応用分野から,機械学習と社会の大きな課題に取り組むための専門的な研究分野へ転換するための,重要な議論質問と行動可能な提案について概説する。 Satellite data has the potential to inspire a seismic shift for machine learning -- one in which we rethink existing practices designed for traditional data modalities. As machine learning for satellite data (SatML) gains traction for its real-world impact, our field is at a crossroads. We can either continue applying ill-suited approaches, or we can initiate a new research agenda that centers around the unique characteristics and challenges of satellite data. This position paper argues that satellite data constitutes a distinct modality for machine learning research and that we must recognize it as such to advance the quality and impact of SatML research across theory, methods, and deployment. We outline critical discussion questions and actionable suggestions to transform SatML from merely an intriguing application area to a dedicated research discipline that helps move the needle on big challenges for machine learning and society. | 翻訳日:2024-02-05 15:04:53 公開日:2024-02-02 |
# 市場を学習する:感覚に基づくアンサンブル取引エージェント Learning the Market: Sentiment-Based Ensemble Trading Agents ( http://arxiv.org/abs/2402.01441v1 ) ライセンス: Link先を確認 | Andrew Ye, James Xu, Yi Wang, Yifan Yu, Daniel Yan, Ryan Chen, Bosheng Dong, Vipin Chaudhary, Shuai Xu | (参考訳) 本稿では,株式取引における感情分析と深層強化学習アンサンブルアルゴリズムの統合を提案し,市場感情を併せ持つエージェントを動的に変化させる戦略を考案する。
特に、ニュース感情を抽出し、これを既存の作業の全般的な改善と組み合わせることで、質的市場要因と定量ストックデータの両方を効果的に考慮する自動取引業者が生まれる。
我々のアプローチは、従来のアンサンブル戦略や単一エージェントアルゴリズムや市場指標よりも、収益性、堅牢性、リスク最小の戦略をもたらすことを示しています。
本研究は,固定数月ごとにアンサンブルエージェントを切り替える手法が準最適であり,動的感情ベースフレームワークによってエージェント内でのさらなるパフォーマンスが大幅に向上することを示した。
さらに,本アルゴリズムをシンプルさと効率性を念頭に置いて設計したので,本手法の歴史的評価から実データとのリアルタイム取引への移行は比較的簡単であるべきと仮定した。 We propose the integration of sentiment analysis and deep-reinforcement learning ensemble algorithms for stock trading, and design a strategy capable of dynamically altering its employed agent given concurrent market sentiment. In particular, we create a simple-yet-effective method for extracting news sentiment and combine this with general improvements upon existing works, resulting in automated trading agents that effectively consider both qualitative market factors and quantitative stock data. We show that our approach results in a strategy that is profitable, robust, and risk-minimal -- outperforming the traditional ensemble strategy as well as single agent algorithms and market metrics. Our findings determine that the conventional practice of switching ensemble agents every fixed-number of months is sub-optimal, and that a dynamic sentiment-based framework greatly unlocks additional performance within these agents. Furthermore, as we have designed our algorithm with simplicity and efficiency in mind, we hypothesize that the transition of our method from historical evaluation towards real-time trading with live data should be relatively simple. | 翻訳日:2024-02-05 15:04:35 公開日:2024-02-02 |
# グラフによる少しのショットラーニング:メタラーニングから事前学習とプロンプト Few-Shot Learning on Graphs: from Meta-learning to Pre-training and Prompting ( http://arxiv.org/abs/2402.01440v1 ) ライセンス: Link先を確認 | Xingtong Yu, Yuan Fang, Zemin Liu, Yuxia Wu, Zhihao Wen, Jianyuan Bo, Xinming Zhang and Steven C.H. Hoi | (参考訳) グラフ中心のタスクにおける重要なステップであるグラフ表現学習は、大きな進歩を遂げている。
従来の手法はエンドツーエンドで動作し、性能は豊富なラベル付きデータの可用性に大きく依存する。
この制約により、グラフ上の数発の学習が出現し、各タスクで利用可能なタスク固有のラベルはわずかである。
この分野での広範な文献を踏まえ、この調査は、最近の発展を総合し、比較洞察を提供し、将来の方向性を特定するための努力である。
我々は,既存の研究を,メタラーニングアプローチ,事前学習アプローチ,ハイブリッドアプローチの3つの主要なファミリーに体系的に分類し,各ファミリーの詳細な分類を行い,読者の方法選択プロセスを支援する。
各カテゴリにおいて,これらの手法間の関係を分析し,その強度と限界を比較する。
最後に,この分野におけるイノベーションの継続を触媒するグラフ上での,少数ショット学習の今後の方向性について概説する。 Graph representation learning, a critical step in graph-centric tasks, has seen significant advancements. Earlier techniques often operate in an end-to-end setting, where performance heavily relies on the availability of ample labeled data. This constraint has spurred the emergence of few-shot learning on graphs, where only a few task-specific labels are available for each task. Given the extensive literature in this field, this survey endeavors to synthesize recent developments, provide comparative insights, and identify future directions. We systematically categorize existing studies into three major families: meta-learning approaches, pre-training approaches, and hybrid approaches, with a finer-grained classification in each family to aid readers in their method selection process. Within each category, we analyze the relationships among these methods and compare their strengths and limitations. Finally, we outline prospective future directions for few-shot learning on graphs to catalyze continued innovation in this field. | 翻訳日:2024-02-05 15:04:17 公開日:2024-02-02 |
# 言葉から分子へ:化学における大規模言語モデルの調査 From Words to Molecules: A Survey of Large Language Models in Chemistry ( http://arxiv.org/abs/2402.01439v1 ) ライセンス: Link先を確認 | Chang Liao, Yemin Yu, Yu Mei, Ying Wei | (参考訳) 近年,Large Language Models (LLM) は自然言語処理 (NLP) や様々な学際領域において大きな成功を収めている。
しかし、化学へのllmの適用は、専門的なドメイン知識を必要とする複雑なタスクである。
本稿では,llmを化学分野に統合し,この学際的融合における複雑さとイノベーションを探究する,ニュアンス的手法の徹底的な考察を行う。
具体的には,分子情報がLLMにどのように供給されるか,様々な表現やトークン化手法を用いて検討することから始める。
次に, 化学LLMを, それらの入力データの領域とモダリティに基づいて3つの異なるグループに分類し, これらの入力をLCMに組み込むアプローチについて議論する。
さらに, 化学llmに適応した事前学習目標について述べる。
その後、化学におけるLSMの多様な応用を探求し、化学タスクへの応用のための新しいパラダイムについて考察する。
最後に, 化学知識のさらなる統合, 継続的学習の進歩, モデル解釈能力の向上など, この分野の画期的な発展への道筋を拓く有望な研究方向を明らかにする。 In recent years, Large Language Models (LLMs) have achieved significant success in natural language processing (NLP) and various interdisciplinary areas. However, applying LLMs to chemistry is a complex task that requires specialized domain knowledge. This paper provides a thorough exploration of the nuanced methodologies employed in integrating LLMs into the field of chemistry, delving into the complexities and innovations at this interdisciplinary juncture. Specifically, our analysis begins with examining how molecular information is fed into LLMs through various representation and tokenization methods. We then categorize chemical LLMs into three distinct groups based on the domain and modality of their input data, and discuss approaches for integrating these inputs for LLMs. Furthermore, this paper delves into the pretraining objectives with adaptations to chemical LLMs. After that, we explore the diverse applications of LLMs in chemistry, including novel paradigms for their application in chemistry tasks. Finally, we identify promising research directions, including further integration with chemical knowledge, advancements in continual learning, and improvements in model interpretability, paving the way for groundbreaking developments in the field. | 翻訳日:2024-02-05 15:04:01 公開日:2024-02-02 |
# GitHub Copilotを使用したコード提案に対する複数の自然言語の効果を探る Exploring the Effect of Multiple Natural Languages on Code Suggestion Using GitHub Copilot ( http://arxiv.org/abs/2402.01438v1 ) ライセンス: Link先を確認 | Kei Koyanagi, Dong Wang, Kotaro Noguchi, Masanari Kondo, Alexander Serebrenik, Yasutaka Kamei, Naoyasu Ubayashi | (参考訳) GitHub Copilotは、プログラム合成を自動化するAI対応ツールである。
2021年の打ち上げ以来、大きな注目を集めている。
最近の研究では、様々なプログラミングタスクにおけるCopilotの能力とセキュリティの問題について広く研究されている。
しかし、異なる自然言語がコード提案に与える影響についてはほとんど分かっていない。
自然言語はNLPの分野における社会的バイアスと考えられており、このバイアスはソフトウェア工学の多様性に影響を与える可能性がある。
そこで本研究では,3つの自然言語(英語,日本語,中国語)がコピロットに与える影響について実証研究を行った。
評価目的には,atcoderコンテストの難易度レベルの異なる756問を用いた。
その結果、その能力は自然言語によって異なり、中国は最悪のパフォーマンスを達成した。
さらに, 自然言語の種類にかかわらず, 質問の難易度が増大するにつれて, 性能が著しく低下する。
我々の研究は、コピロの能力における自然言語の重要性を理解するための最初のステップであり、将来の努力に有望な機会をもたらす。 GitHub Copilot is an AI-enabled tool that automates program synthesis. It has gained significant attention since its launch in 2021. Recent studies have extensively examined Copilot's capabilities in various programming tasks, as well as its security issues. However, little is known about the effect of different natural languages on code suggestion. Natural language is considered a social bias in the field of NLP, and this bias could impact the diversity of software engineering. To address this gap, we conducted an empirical study to investigate the effect of three popular natural languages (English, Japanese, and Chinese) on Copilot. We used 756 questions of varying difficulty levels from AtCoder contests for evaluation purposes. The results highlight that the capability varies across natural languages, with Chinese achieving the worst performance. Furthermore, regardless of the type of natural language, the performance decreases significantly as the difficulty of questions increases. Our work represents the initial step in comprehending the significance of natural languages in Copilot's capability and introduces promising opportunities for future endeavors. | 翻訳日:2024-02-05 15:03:41 公開日:2024-02-02 |
# 条件付き非線形および無限次元拡散過程 Conditioning non-linear and infinite-dimensional diffusion processes ( http://arxiv.org/abs/2402.01434v1 ) ライセンス: Link先を確認 | Elizabeth Louise Baker, Gefan Yang, Michael L. Severinsen, Christy Anna Hipsley, Stefan Sommer | (参考訳) 生成拡散モデルと科学や工学における多くの確率的モデルは、離散化の前に自然に無限次元に存在する。
統計的および学習タスクに観察データを組み込むには、観察を条件にする必要がある。
近年,無限次元の条件付き線形過程を扱っているが,無限次元の条件付き非線形過程については検討されていない。
本稿では,事前の離散化を伴わない確率過程を関数化する。
そのため、Girsanovの定理の無限次元版を用いて関数値確率過程を条件付け、スコアを含む条件付き過程に対して確率微分方程式(SDE)を導出する。
この手法を進化生物学における生物の形状の時系列解析に応用し,フーリエ基底を通じて判別し,スコアマッチング法を用いてスコア関数の係数を学習する。 Generative diffusion models and many stochastic models in science and engineering naturally live in infinite dimensions before discretisation. To incorporate observed data for statistical and learning tasks, one needs to condition on observations. While recent work has treated conditioning linear processes in infinite dimensions, conditioning non-linear processes in infinite dimensions has not been explored. This paper conditions function valued stochastic processes without prior discretisation. To do so, we use an infinite-dimensional version of Girsanov's theorem to condition a function-valued stochastic process, leading to a stochastic differential equation (SDE) for the conditioned process involving the score. We apply this technique to do time series analysis for shapes of organisms in evolutionary biology, where we discretise via the Fourier basis and then learn the coefficients of the score function with score matching methods. | 翻訳日:2024-02-05 15:03:25 公開日:2024-02-02 |
# 連続時間PMDPの近似制御 Approximate Control for Continuous-Time POMDPs ( http://arxiv.org/abs/2402.01431v1 ) ライセンス: Link先を確認 | Yannick Eich, Bastian Alt, Heinz Koeppl | (参考訳) 本研究では、離散状態とアクション空間を持つ連続的に部分的に観測可能なシステムの意思決定フレームワークを提案する。
大きな状態空間では最適な意思決定が難解になるにつれて、フィルタリングの近似法と、状態数の増加とともにスケールする制御問題を採用する。
具体的には, 分布のパラメトリックファミリーに投影して高次元フィルタリング分布を近似し, 完全に観測可能なシステムに基づく制御ヒューリスティックに統合し, スケーラブルなポリシを得る。
本稿では,キューシステムや化学反応ネットワークなど,いくつかの部分的に観測されたシステムに対するアプローチの有効性を示す。 This work proposes a decision-making framework for partially observable systems in continuous time with discrete state and action spaces. As optimal decision-making becomes intractable for large state spaces we employ approximation methods for the filtering and the control problem that scale well with an increasing number of states. Specifically, we approximate the high-dimensional filtering distribution by projecting it onto a parametric family of distributions, and integrate it into a control heuristic based on the fully observable system to obtain a scalable policy. We demonstrate the effectiveness of our approach on several partially observed systems, including queueing systems and chemical reaction networks. | 翻訳日:2024-02-05 15:03:12 公開日:2024-02-02 |
# 多様性が集団意思決定に及ぼす影響 The effect of diversity on group decision-making ( http://arxiv.org/abs/2402.01427v1 ) ライセンス: Link先を確認 | Georgi Karadzhov, Andreas Vlachos, Tom Stafford | (参考訳) 認知の多様性の異なる側面と、それが集団検討の成功に与える影響を考察する。
これを評価するために、Wason Card SelectionタスクであるDeliData corpusについて議論する小さなオンライングループから500の対話を使用します。
コーパスを活用することで,認知多様性の3つの異なる尺度を定量的に評価する。
まず,多様性のプロキシ尺度としてグループサイズの影響を分析する。
第2に、初期アイデアプールのサイズの影響を評価する。
最後に、議論されたソリューション、議論パターン、そして会話的調査がそれらの特性をどのように改善できるかを分析して、議論の内容を検討する。
混合バイアスに対するグループの評価にもかかわらず、小さなグループは対話を通じて直感的なバイアスを克服し、個人の意思決定を改善することができることを示す。
大規模なサンプルと異なる運用方法を通じて、より高い認知的多様性は、より成功したグループの熟考に結びつくことを一貫して見出します。
分析に使用されるコードとデータは匿名リポジトリで公開されている。 We explore different aspects of cognitive diversity and its effect on the success of group deliberation. To evaluate this, we use 500 dialogues from small, online groups discussing the Wason Card Selection task - the DeliData corpus. Leveraging the corpus, we perform quantitative analysis evaluating three different measures of cognitive diversity. First, we analyse the effect of group size as a proxy measure for diversity. Second, we evaluate the effect of the size of the initial idea pool. Finally, we look into the content of the discussion by analysing discussed solutions, discussion patterns, and how conversational probing can improve those characteristics. Despite the reputation of groups for compounding bias, we show that small groups can, through dialogue, overcome intuitive biases and improve individual decision-making. Across a large sample and different operationalisations, we consistently find that greater cognitive diversity is associated with more successful group deliberation. Code and data used for the analysis are available in the anonymised repository: https://anonymous.4open.science/ r/cogsci24-FD6D | 翻訳日:2024-02-05 15:03:02 公開日:2024-02-02 |
# ロバストなピアノ自動転写のデータ駆動解析 A Data-Driven Analysis of Robust Automatic Piano Transcription ( http://arxiv.org/abs/2402.01424v1 ) ライセンス: Link先を確認 | Drew Edwards, Simon Dixon, Emmanouil Benetos, Akira Maezawa, Yuta Kusaka | (参考訳) 近年,新たなデータセットやモデリング技術により,自動ピアノ書き起こしアルゴリズムが劇的に向上している。
最近の開発は、より正確なシステムを得るために、TransformerやPerceiverといった新しいニューラルネットワークアーキテクチャの適応に重点を置いている。
本研究では,その学習データの観点から,転写システムについて検討する。
そこで本研究では,これらのモデルがトレーニングデータの音響特性に過度に適合することを示す。
我々はMAESTROデータセットのための新しいオーディオセットを作成し、ヤマハ・ディスクラビエ・プレイングを介してプロのスタジオ録音環境に自動的にキャプチャする。
maestroデータセットのオリジナルおよび再フォーマットされたバージョンでトレーニングを行う際に、様々なデータ拡張技術を用いて、マップデータセット上で88.4 f1-scoreの最先端のノートオンセット精度を達成する。
次に、これらのデータ拡張手法を一連のアブレーション研究で分析し、結果のモデルへの影響をよりよく理解する。 Algorithms for automatic piano transcription have improved dramatically in recent years due to new datasets and modeling techniques. Recent developments have focused primarily on adapting new neural network architectures, such as the Transformer and Perceiver, in order to yield more accurate systems. In this work, we study transcription systems from the perspective of their training data. By measuring their performance on out-of-distribution annotated piano data, we show how these models can severely overfit to acoustic properties of the training data. We create a new set of audio for the MAESTRO dataset, captured automatically in a professional studio recording environment via Yamaha Disklavier playback. Using various data augmentation techniques when training with the original and re-performed versions of the MAESTRO dataset, we achieve state-of-the-art note-onset accuracy of 88.4 F1-score on the MAPS dataset, without seeing any of its training data. We subsequently analyze these data augmentation techniques in a series of ablation studies to better understand their influence on the resulting models. | 翻訳日:2024-02-05 15:02:47 公開日:2024-02-02 |
# エンティティの異なる味:名前付きエンティティアノテーションにおけるラベルの変動について Different Tastes of Entities: Investigating Human Label Variation in Named Entity Annotations ( http://arxiv.org/abs/2402.01423v1 ) ライセンス: Link先を確認 | Siyao Peng, Zihang Sun, Sebastian Loftus, Barbara Plank | (参考訳) 名前付きエンティティ認識(NER)は、長年の伝統を持つ重要な情報抽出タスクである。
近年の研究では、再ラベルによるアノテーションエラーの修正が試みられているが、テキストの曖昧さ、アノテーションの誤り、ガイドラインのばらつきなど、人間のラベルの変化の原因についてはほとんど分かっていない。
これは特に高品質なデータセットで、英語のCoNLL03を超えています。
本稿では,3言語(英語,デンマーク語,バイエルン語)のエキスパートアノテーション付きエンティティデータセットの相違について検討する。
テキストのあいまいさと人為的ガイドラインの変更が,高品質なリビジョンにおける多彩なアノテーションの主要な要因であることを示す。
難しいエンティティのサブセットに対する学生のアノテーションを調査し,分布的観点から名前付きエンティティの曖昧さを理解するための多様体的アノテーションの有効性と必要性を検証した。 Named Entity Recognition (NER) is a key information extraction task with a long-standing tradition. While recent studies address and aim to correct annotation errors via re-labeling efforts, little is known about the sources of human label variation, such as text ambiguity, annotation error, or guideline divergence. This is especially the case for high-quality datasets and beyond English CoNLL03. This paper studies disagreements in expert-annotated named entity datasets for three languages: English, Danish, and Bavarian. We show that text ambiguity and artificial guideline changes are dominant factors for diverse annotations among high-quality revisions. We survey student annotations on a subset of difficult entities and substantiate the feasibility and necessity of manifold annotations for understanding named entity ambiguities from a distributional perspective. | 翻訳日:2024-02-05 15:02:30 公開日:2024-02-02 |
# emospeaker: きめ細かな感情制御による会話顔生成 EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face Generation ( http://arxiv.org/abs/2402.01422v1 ) ライセンス: Link先を確認 | Guanwen Feng, Haoran Cheng, Yunan Li, Zhiyuan Ma, Chaoneng Li, Zhihao Qian, Qiguang Miao, Chi-Man Pun | (参考訳) 生成モデルの表現能力を向上し、様々なニュアンスな感情状態を正確かつ包括的に捉え、表現し、生成したコンテンツの感情品質とパーソナライズを改善するため、感情生成タスクにきめ細かい感情制御を実装することが不可欠である。
ポートレートとオーディオ録音だけで感情表現を正確に表現するきめ細かい顔アニメーションを作成することが課題となる。
この課題に対処するため,視覚的属性誘導型オーディオデカップラを提案する。
これにより、音声コンテンツのみに関連するコンテンツベクトルの拘束が可能となり、その後の唇運動係数予測の安定性が向上する。
より正確な感情表現を実現するために,細粒度感情係数予測モジュールを導入する。
さらに,微粒な感情行列を用いた感情強度制御手法を提案する。
これにより、生成したビデオにおける感情表現の効果的な制御と感情強度の詳細な分類が達成される。
その後、一連の3DMM係数生成ネットワークが3D係数を予測するように設計され、続いてレンダリングネットワークを用いて最終映像を生成する。
実験の結果,提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
プロジェクトページ: https://peterfan.github.io/EmoSpeaker/ Implementing fine-grained emotion control is crucial for emotion generation tasks because it enhances the expressive capability of the generative model, allowing it to accurately and comprehensively capture and express various nuanced emotional states, thereby improving the emotional quality and personalization of generated content. Generating fine-grained facial animations that accurately portray emotional expressions using only a portrait and an audio recording presents a challenge. In order to address this challenge, we propose a visual attribute-guided audio decoupler. This enables the obtention of content vectors solely related to the audio content, enhancing the stability of subsequent lip movement coefficient predictions. To achieve more precise emotional expression, we introduce a fine-grained emotion coefficient prediction module. Additionally, we propose an emotion intensity control method using a fine-grained emotion matrix. Through these, effective control over emotional expression in the generated videos and finer classification of emotion intensity are accomplished. Subsequently, a series of 3DMM coefficient generation networks are designed to predict 3D coefficients, followed by the utilization of a rendering network to generate the final video. Our experimental results demonstrate that our proposed method, EmoSpeaker, outperforms existing emotional talking face generation methods in terms of expression variation and lip synchronization. Project page: https://peterfanfan.github.io/EmoSpeaker/ | 翻訳日:2024-02-05 15:02:19 公開日:2024-02-02 |
# 文脈対応機械翻訳のためのシーケンス短縮 Sequence Shortening for Context-Aware Machine Translation ( http://arxiv.org/abs/2402.01416v1 ) ライセンス: Link先を確認 | Pawe{\l} M\k{a}ka, Yusuf Can Semerci, Jan Scholtes, Gerasimos Spanakis | (参考訳) 文脈対応機械翻訳は、周囲の文を文脈として組み込むことで文の翻訳を改善することを目的としている。
このタスクに向けて、シングルエンコーダ(結合に基づく)とマルチエンコーダモデルという2つの主要なアーキテクチャが適用されている。
本研究では,次のステップにおいて,ソース文の潜在表現をキャッシュし,文脈として再利用するマルチエンコーダアーキテクチャの特殊な場合として,コントラストデータセット(モデルが提供文の正しい翻訳をランク付けする必要がある)とbleuおよびcometスコアを,単一および複数エンコーダアプローチとして高い精度を達成することを示す。
さらに,キャッシュ表現へのシーケンス短縮の適用について検討する。
我々は3つのプール方式のショートニング手法をテストし、遅延グループと遅延選択という2つの新しい手法を導入し、そこでネットワークはトークンをグループ化するか、コンテキストとしてキャッシュされるトークンを選択する。
実験の結果,両手法が競合するbleuとcometのスコアと,他のテスト手法との対比データセットの精度を実現し,より高い解釈可能性とコンテキストサイズの増加によるメモリ要件の増大を可能とした。 Context-aware Machine Translation aims to improve translations of sentences by incorporating surrounding sentences as context. Towards this task, two main architectures have been applied, namely single-encoder (based on concatenation) and multi-encoder models. In this study, we show that a special case of multi-encoder architecture, where the latent representation of the source sentence is cached and reused as the context in the next step, achieves higher accuracy on the contrastive datasets (where the models have to rank the correct translation among the provided sentences) and comparable BLEU and COMET scores as the single- and multi-encoder approaches. Furthermore, we investigate the application of Sequence Shortening to the cached representations. We test three pooling-based shortening techniques and introduce two novel methods - Latent Grouping and Latent Selecting, where the network learns to group tokens or selects the tokens to be cached as context. Our experiments show that the two methods achieve competitive BLEU and COMET scores and accuracies on the contrastive datasets to the other tested methods while potentially allowing for higher interpretability and reducing the growth of memory requirements with increased context size. | 翻訳日:2024-02-05 15:01:59 公開日:2024-02-02 |
# SMLP:シンボリック機械学習プロバー SMLP: Symbolic Machine Learning Prover ( http://arxiv.org/abs/2402.01415v1 ) ライセンス: Link先を確認 | Franz Brau{\ss}e, Zurab Khasidashvili, Konstantin Korovin | (参考訳) Symbolic Machine Learning Prover (SMLP) は、複数の入力ベクトル上でシステムをシミュレートまたは実行することによって得られたデータサンプルに基づくシステム探索のためのツールおよびライブラリである。
smlpは、統計的なデータ探索の手法と、緊密なフィードバックループにおける機械学習モデルの構築と探索をシステムの応答と組み合わせ、確率的手法と形式的手法を組み合わせることによって、これらのモデルを探索することを目的としています。
smlpは、アナログレベルでハードウェア設計を分析および最適化するためにintelの産業環境で適用されている。
SMLPは汎用ツールであり、機械学習モデルによってサンプル化およびモデル化できるシステムに適用することができる。 Symbolic Machine Learning Prover (SMLP) is a tool and a library for system exploration based on data samples obtained by simulating or executing the system on a number of input vectors. SMLP aims at exploring the system based on this data by taking a grey-box approach: SMLP combines statistical methods of data exploration with building and exploring machine learning models in close feedback loop with the system's response, and exploring these models by combining probabilistic and formal methods. SMLP has been applied in industrial setting at Intel for analyzing and optimizing hardware designs at the analog level. SMLP is a general purpose tool and can be applied to systems that can be sampled and modeled by machine learning models. | 翻訳日:2024-02-05 15:01:34 公開日:2024-02-02 |
# 第7回CiMEチャレンジUDASE課題における音声強調手法の客観的・主観的評価 Objective and subjective evaluation of speech enhancement methods in the UDASE task of the 7th CHiME challenge ( http://arxiv.org/abs/2402.01413v1 ) ライセンス: Link先を確認 | Simon Leglaive, Matthieu Fraticelli, Hend ElGhazaly, L\'eonie Borne, Mostafa Sadeghi, Scott Wisdom, Manuel Pariente, John R. Hershey, Daniel Pressnitzer, Jon P. Barker | (参考訳) クリーン音声とノイズ信号の混合を人工的に生成し,音声強調のための教師付きモデルを訓練する。
しかし、合成訓練条件はテスト中に遭遇した実世界の状況を正確に反映するものではない。
この相違は、テストドメインが合成トレーニングドメインと大きく異なる場合、性能が低下する可能性がある。
この問題に取り組むため,第7回chimeチャレンジのudase課題は,音声強調モデルの教師なしドメイン適応のためのテスト領域からの実世界雑音音声記録を活用することを目的とした。
特に、このテスト領域は、実マルチスピーカと会話音声記録を特徴とするCHiME-5データセットに対応し、地上の清潔な音声信号が利用できない、騒音および残響な家庭環境下での会話音声記録を行う。
本稿では,CHiME-7 UDASEタスクに提出されたシステムの目的的,主観的な評価を行い,その結果について分析する。
この分析により,最近提案されている音声強調のための主観的評価と教師付き非意図的パフォーマンス指標との相関が限定的であることが判明した。
逆に,本課題のために開発された残響型librichime-5データセットを用いて,従来型の侵入的客観的指標をドメイン内パフォーマンス評価に使用できることが示唆された。
主観評価は、すべてのシステムが背景雑音を低減できたが、常に歪みの増加を犠牲にしていたことを示している。
主観的に評価した4つの音声強調法のうち, タスクの難易度を浮き彫りにした無処理雑音音声に比べ, 全体の品質改善は1つに過ぎなかった。
CHiME-7 UDASEタスクのために作成されたツールとオーディオ資料はコミュニティと共有されている。 Supervised models for speech enhancement are trained using artificially generated mixtures of clean speech and noise signals. However, the synthetic training conditions may not accurately reflect real-world conditions encountered during testing. This discrepancy can result in poor performance when the test domain significantly differs from the synthetic training domain. To tackle this issue, the UDASE task of the 7th CHiME challenge aimed to leverage real-world noisy speech recordings from the test domain for unsupervised domain adaptation of speech enhancement models. Specifically, this test domain corresponds to the CHiME-5 dataset, characterized by real multi-speaker and conversational speech recordings made in noisy and reverberant domestic environments, for which ground-truth clean speech signals are not available. In this paper, we present the objective and subjective evaluations of the systems that were submitted to the CHiME-7 UDASE task, and we provide an analysis of the results. This analysis reveals a limited correlation between subjective ratings and several supervised nonintrusive performance metrics recently proposed for speech enhancement. Conversely, the results suggest that more traditional intrusive objective metrics can be used for in-domain performance evaluation using the reverberant LibriCHiME-5 dataset developed for the challenge. The subjective evaluation indicates that all systems successfully reduced the background noise, but always at the expense of increased distortion. Out of the four speech enhancement methods evaluated subjectively, only one demonstrated an improvement in overall quality compared to the unprocessed noisy speech, highlighting the difficulty of the task. The tools and audio material created for the CHiME-7 UDASE task are shared with the community. | 翻訳日:2024-02-05 15:01:21 公開日:2024-02-02 |
# 単位補間によるパラメトリックハミルトンの指数化 Exponentiation of Parametric Hamiltonians via Unitary interpolation ( http://arxiv.org/abs/2402.01498v1 ) ライセンス: Link先を確認 | Michael Schilling, Francesco Preti, Matthias M. M\"uller, Tommaso Calarco, Felix Motzoi | (参考訳) 量子系の時間進化を決定するために必要となる行列指数と関連する微分を生成する努力は、量子制御理論、変分回路コンパイル、モンテカルロサンプリングにおける問題の評価をしばしば制約する。
線形多重パラメトリックハミルトニアンの行列指数の時間効率近似に関する2つのアイデアを紹介する。
我々は,スズキ-トロッター積公式を近似から補間スキームに変更し,精度と計算時間の両方を改善した。
これにより、単一の補間ステップ内で高いフィディリティを達成でき、キャッシュされた行列から直接計算できます。
さらに、系パラメータの格子上の補間を定義し、補間の不完全性は補間ビンの数で4^\mathrm{th}$次に収束することを示す。 The effort to generate matrix exponentials and associated differentials, required to determine the time evolution of quantum systems, frequently constrains the evaluation of problems in quantum control theory, variational circuit compilation, or Monte-Carlo sampling. We introduce two ideas for the time-efficient approximation of matrix exponentials of linear multi-parametric Hamiltonians. We modify the Suzuki-Trotter product formula from an approximation to an interpolation schemes to improve both accuracy and computational time. This allows us to achieve high fidelities within a single interpolation step, which can be computed directly from cached matrices. We furthermore define the interpolation on a grid of system parameters, and show that the infidelity of the interpolation converges with $4^\mathrm{th}$ order in the number of interpolation bins. | 翻訳日:2024-02-05 14:54:31 公開日:2024-02-02 |
# AMOR: プロセスフィードバックによる適応型モジュール型知識エージェント構築のためのレシピ AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through Process Feedback ( http://arxiv.org/abs/2402.01469v1 ) ライセンス: Link先を確認 | Jian Guan, Wei Wu, Zujie Wen, Peng Xu, Hongning Wang, Minlie Huang | (参考訳) 大規模言語モデル(LLMs)の顕著な成功は、様々な複雑なタスクを完了させる言語エージェントの構築の急激な増加をもたらした。
本稿では,オープンソースllmに基づくエージェントフレームワークamorを提案する。このフレームワークは,外部知識ベースを理由とし,推論プロセスに対する人間の監督を通じて,特定のドメインに適応する。
AMORは有限状態マシン(FSM)上に推論ロジックを構築し、自律的な実行と非絡み合ったモジュールの遷移によって問題を解決する。
これにより、個々のモジュールに直接フィードバックを与え、プロセスの監視を自然に形成することができる。
この推論とフィードバックの枠組みに基づき、2段階の微調整(ウォームアップと適応)によりAMORを開発する。
前者は、様々な公開データセットからサンプルを自動構築し、AMORが様々な知識環境をまたいで一般化できるようにし、後者はプロセスフィードバックを使用して特定のドメインにAMORを調整した。
複数のドメインにわたる大規模な実験は、FSMベースの推論とプロセスフィードバック機構のおかげで、AMORの強力なベースラインへの優位性を実証している。 The notable success of large language models (LLMs) has sparked an upsurge in building language agents to complete various complex tasks. We present AMOR, an agent framework based on open-source LLMs, which reasons with external knowledge bases and adapts to specific domains through human supervision to the reasoning process. AMOR builds reasoning logic over a finite state machine (FSM) that solves problems through autonomous executions and transitions over disentangled modules. This allows humans to provide direct feedback to the individual modules, and thus naturally forms process supervision. Based on this reasoning and feedback framework, we develop AMOR through two-stage fine-tuning: warm-up and adaptation. The former fine-tunes the LLM with examples automatically constructed from various public datasets and enables AMOR to generalize across different knowledge environments, while the latter tailors AMOR to specific domains using process feedback. Extensive experiments across multiple domains demonstrate the advantage of AMOR to strong baselines, thanks to its FSM-based reasoning and process feedback mechanism. | 翻訳日:2024-02-05 14:54:07 公開日:2024-02-02 |
# 強化学習エージェントにおける脳ライクなリプレイ Brain-Like Replay Naturally Emerges in Reinforcement Learning Agents ( http://arxiv.org/abs/2402.01467v1 ) ライセンス: Link先を確認 | Jiyi Wang, Likai Tang, Huimiao Chen, Sen Song | (参考訳) 脳の領域、特に海馬や新皮質で広く観察されている神経活動パターンとして、リプレイは人工エージェントに現れるのか?
もしそうなら、それはタスクに貢献しますか?
本研究は,複雑な仮定に重依存せず,海馬と前頭前野を模倣した再帰的ニューラルネットワークを用いた強化学習モデルと,それらの相互通信と感覚野入力を用いて,タスク最適化されたパラダイムの下で自然に創発的なリプレイを見出す。
海馬での創発的なリプレイは、エピソディック記憶と認知地図と環境観察から得られるものであり、動物実験データとよく似ており、高いタスクパフォーマンスの効果的な指標となっている。
このモデルはまた、人間の実験データとマッチするローカルおよび非ローカルリプレイをうまく再現する。
私たちの仕事は、リプレイの背後にあるメカニズムを理解するための新しい道を提供する。 Can replay, as a widely observed neural activity pattern in brain regions, particularly in the hippocampus and neocortex, emerge in an artificial agent? If yes, does it contribute to the tasks? In this work, without heavy dependence on complex assumptions, we discover naturally emergent replay under task-optimized paradigm using a recurrent neural network-based reinforcement learning model, which mimics the hippocampus and prefrontal cortex, as well as their intercommunication and the sensory cortex input. The emergent replay in the hippocampus, which results from the episodic memory and cognitive map as well as environment observations, well resembles animal experimental data and serves as an effective indicator of high task performance. The model also successfully reproduces local and nonlocal replay, which matches the human experimental data. Our work provides a new avenue for understanding the mechanisms behind replay. | 翻訳日:2024-02-05 14:53:36 公開日:2024-02-02 |
# 電子-核ダイナミクスによる分子幾何相の創発 Emergence of the molecular geometric phase from exact electron-nuclear dynamics ( http://arxiv.org/abs/2402.01463v1 ) ライセンス: Link先を確認 | Rocco Martinazzo and Irene Burghardt | (参考訳) 幾何学的位相は様々な分野において重要な役割を果たす。
化学では、反応経路が断熱ポテンシャルエネルギー面と分子波動関数の交点を囲むと、量子力学的干渉効果が発生する。
この興味深い効果は、磁気アハロノフ・ボーム効果によく似ているが、力学の断熱的な記述に依存しており、それが正確な量子力学の枠組みで持続するかどうかは不明である。
近年の研究では、幾何学的位相は断熱的近似の人工物であり、分子における幾何学的位相概念の実用性に挑戦していることが示されている。
ここでは、この問題を正確な動的枠組みで検討する。
我々は、電子と原子核を分離した瞬時ゲージ不変位相を導入し、円錐交叉を囲むウェーブパックの後縁間の位相差を監視する。
このようにして、干渉過程における幾何相の役割を曖昧に評価し、分子系におけるその持続性に光を当てる。 Geometric phases play a crucial role in diverse fields. In chemistry they appear when a reaction path encircles an intersection between adiabatic potential energy surfaces and the molecular wavefunction experiences quantum-mechanical interference effects. This intriguing effect, closely resembling the magnetic Aharonov-Bohm effect, crucially relies on the adiabatic description of the dynamics, and it is uncertain whether and how it persists in an exact quantum dynamical framework. Recent works have shown that the geometric phase is an artifact of the adiabatic approximation, thereby challenging the perceived utility of the geometric phase concept in molecules. Here, we investigate this issue in an exact dynamical framework. We introduce instantaneous, gauge invariant phases separately for the electrons and for the nuclei, and use them to monitor the phase difference between the trailing edges of a wavepacket encircling a conical intersection. In this way we unambiguosly assess the role of the geometric phase in the interference process and shed light on its persistence in molecular systems. | 翻訳日:2024-02-05 14:53:10 公開日:2024-02-02 |
# 3次元椎体計測:局所解剖学的椎体軸を用いたヒト松毛モデルにおける椎体次元の評価 3D Vertebrae Measurements: Assessing Vertebral Dimensions in Human Spine Mesh Models Using Local Anatomical Vertebral Axes ( http://arxiv.org/abs/2402.01462v1 ) ライセンス: Link先を確認 | Ivanna Kramer, Vinzent Rittel, Lara Blomenkamp, Sabine Bauer, Dietrich Paulus | (参考訳) 脊椎形態計測は、脊椎バイオメカニクスや臨床応用、術前および術後の様々な分野において重要である。
これらの測定は、長期にわたって脊椎の計測が繰り返し記録される人類学的縦断研究においても重要な役割を担っている。
伝統的に、このような測定は手動で行われており、時間を要するプロセスである。
本研究では, 腰椎モデルと胸椎モデルの3次元メッシュを用いて脊椎形態を自動計測する新しい手法を提案する。我々の実験結果は, 1.09mmの平均絶対誤差(MAE)と, 0.7mmの人工的に作成した腰椎から得られたものを, 低分解能の患者特異的脊椎メッシュを正確に測定する能力を示すものである。
定性解析により, 3次元脊椎モデルを用いた計測は, 画像が利用可能であれば, 元の医用画像に正確に再投影できることが示された。 Vertebral morphological measurements are important across various disciplines, including spinal biomechanics and clinical applications, pre- and post-operatively. These measurements also play a crucial role in anthropological longitudinal studies, where spinal metrics are repeatedly documented over extended periods. Traditionally, such measurements have been manually conducted, a process that is time-consuming. In this study, we introduce a novel, fully automated method for measuring vertebral morphology using 3D meshes of lumbar and thoracic spine models.Our experimental results demonstrate the method's capability to accurately measure low-resolution patient-specific vertebral meshes with mean absolute error (MAE) of 1.09 mm and those derived from artificially created lumbar spines, where the average MAE value was 0.7 mm. Our qualitative analysis indicates that measurements obtained using our method on 3D spine models can be accurately reprojected back onto the original medical images if these images are available. | 翻訳日:2024-02-05 14:52:41 公開日:2024-02-02 |
# 視覚ジャイロスコープ:パノラマ安定化のためのディープラーニング機能と直接アライメントの組み合わせ Visual Gyroscope: Combination of Deep Learning Features and Direct Alignment for Panoramic Stabilization ( http://arxiv.org/abs/2402.01461v1 ) ライセンス: Link先を確認 | Bruno Berenguel-Baeta, Antoine N. Andre, Guillaume Caron, Jesus Bermudez-Cameo, Jose J. Guerrero | (参考訳) 本稿では、等方形パノラマに基づく視覚ジャイロスコープを提案する。
本研究では,3つの異なる手法を組み合わせてロバストで正確なカメラの姿勢推定を行う新しいパイプラインを提案する。
360ドル(約3万5000円)のデュアルフィッシュアイカメラで撮影した2つの画像列を定量的に定量的に検証した。 In this article we present a visual gyroscope based on equirectangular panoramas. We propose a new pipeline where we take advantage of combining three different methods to obtain a robust and accurate estimation of the attitude of the camera. We quantitatively and qualitatively validate our method on two image sequences taken with a $360^\circ$ dual-fisheye camera mounted on different aerial vehicles. | 翻訳日:2024-02-05 14:52:13 公開日:2024-02-02 |
# deep conditional generative learning:モデルとエラー分析 Deep Conditional Generative Learning: Model and Error Analysis ( http://arxiv.org/abs/2402.01460v1 ) ライセンス: Link先を確認 | Jinyuan Chang, Zhao Ding, Yuling Jiao, Ruoxuan Li, Jerry Zhijian Yang | (参考訳) 本稿では,条件分布を学習するための常微分方程式 (ode) に基づく深部生成法について,条件フォアマーフロー(conditional follmer flow)という。
標準ガウス分布から始めて,提案する流れは,時間1で効率的に対象条件分布に変換することができる。
効果的な実装のために,ディープニューラルネットワークを用いて速度場を非パラメトリックに推定するeuler法とフローを区別する。
さらに,学習したサンプルの分布と対象分布の間のワッサーシュタイン距離における非漸近収束率を導出し,ODEフローによる条件分布学習のための最初の包括的エンドツーエンド誤差解析を行う。
数値実験では, 標準的な非パラメトリックな条件密度推定問題から, 画像データを含むより複雑な課題に至るまで, 様々な条件密度推定法に比較してその優位性を示す。 We introduce an Ordinary Differential Equation (ODE) based deep generative method for learning a conditional distribution, named the Conditional Follmer Flow. Starting from a standard Gaussian distribution, the proposed flow could efficiently transform it into the target conditional distribution at time 1. For effective implementation, we discretize the flow with Euler's method where we estimate the velocity field nonparametrically using a deep neural network. Furthermore, we derive a non-asymptotic convergence rate in the Wasserstein distance between the distribution of the learned samples and the target distribution, providing the first comprehensive end-to-end error analysis for conditional distribution learning via ODE flow. Our numerical experiments showcase its effectiveness across a range of scenarios, from standard nonparametric conditional density estimation problems to more intricate challenges involving image data, illustrating its superiority over various existing conditional density estimation methods. | 翻訳日:2024-02-05 14:51:20 公開日:2024-02-02 |
# GaMeS: メッシュベースのガウススティングの適応と修正 GaMeS: Mesh-Based Adapting and Modification of Gaussian Splatting ( http://arxiv.org/abs/2402.01459v1 ) ライセンス: Link先を確認 | Joanna Waczy\'nska, Piotr Borycki, S{\l}awomir Tadeja, Jacek Tabor, Przemys{\l}aw Spurek | (参考訳) 近年,画像レンダリングのためのニューラルネットワークベースの手法が数多く導入されている。
例えば、広く研究されているneural radiance fields(nerf)は、ニューラルネットワークを使って3dシーンを表現し、少数の2d画像からの現実的なビュー合成を可能にする。
しかし、ほとんどのNeRFモデルは長いトレーニングと推論時間によって制約される。
対照的に、Gaussian Splatting(GS)は、ガウス分布を通して画像画素への寄与を近似し、高速なトレーニングと高速なリアルタイムレンダリングを保証することによって、3Dシーンのポイントをレンダリングする新しい最先端技術である。
GSの欠点は、数十万のガウス成分を条件付けする必要があるため、その条件付けに対する明確なアプローチが存在しないことである。
そこで本研究では,メッシュとガウス分布のハイブリッドであるガウスメッシュスプレート(ゲーム)モデルを導入し,すべてのガウスメッシュスプレートを物体表面(mesh)にピン留めする。
この方法のユニークな貢献は,メッシュ上の位置のみに基づいてガウスプレートを定義することで,アニメーション中の位置,スケール,回転の自動調整を可能にすることである。
その結果、高品質なビューをリアルタイムに生成する際の高品質なレンダリングが得られる。
さらに,事前定義されたメッシュがない場合,学習プロセス中に初期メッシュを微調整することが可能であることを実証する。 In recent years, a range of neural network-based methods for image rendering have been introduced. For instance, widely-researched neural radiance fields (NeRF) rely on a neural network to represent 3D scenes, allowing for realistic view synthesis from a small number of 2D images. However, most NeRF models are constrained by long training and inference times. In comparison, Gaussian Splatting (GS) is a novel, state-of-theart technique for rendering points in a 3D scene by approximating their contribution to image pixels through Gaussian distributions, warranting fast training and swift, real-time rendering. A drawback of GS is the absence of a well-defined approach for its conditioning due to the necessity to condition several hundred thousand Gaussian components. To solve this, we introduce Gaussian Mesh Splatting (GaMeS) model, a hybrid of mesh and a Gaussian distribution, that pin all Gaussians splats on the object surface (mesh). The unique contribution of our methods is defining Gaussian splats solely based on their location on the mesh, allowing for automatic adjustments in position, scale, and rotation during animation. As a result, we obtain high-quality renders in the real-time generation of high-quality views. Furthermore, we demonstrate that in the absence of a predefined mesh, it is possible to fine-tune the initial mesh during the learning process. | 翻訳日:2024-02-05 14:50:45 公開日:2024-02-02 |
# 校正魚眼における畳み込み核適応 Convolution kernel adaptation to calibrated fisheye ( http://arxiv.org/abs/2402.01456v1 ) ライセンス: Link先を確認 | Bruno Berenguel-Baeta, Maria Santos-Villafranca, Jesus Bermudez-Cameo, Alejandro Perez-Yus, Jose J. Guerrero | (参考訳) 畳み込みカーネルは畳み込みニューラルネットワーク(CNN)の基本構造コンポーネントである。
近年、多くの用途で魚眼カメラへの関心が高まっている。
しかし、これらのカメラの放射対称投影モデルは、特に視野が非常に大きい場合、CNNの性能に影響を及ぼす高い歪みを生じさせる。
本研究では,カメラのキャリブレーションを利用してコンボリューションカーネルを変形させ,歪みに適応させる手法を提案する。
このようにして、畳み込みの受容場はパースペクティブイメージの標準的な畳み込みと似ており、大きなパースペクティブデータセットで事前訓練されたネットワークを利用することができる。
我々は,小データセットの簡単な微調整段階において,深度推定とセマンティックセグメンテーションにおける標準的な畳み込みに対して,キャリブレーション魚眼ネットワークの性能を向上させる方法を示す。 Convolution kernels are the basic structural component of convolutional neural networks (CNNs). In the last years there has been a growing interest in fisheye cameras for many applications. However, the radially symmetric projection model of these cameras produces high distortions that affect the performance of CNNs, especially when the field of view is very large. In this work, we tackle this problem by proposing a method that leverages the calibration of cameras to deform the convolution kernel accordingly and adapt to the distortion. That way, the receptive field of the convolution is similar to standard convolutions in perspective images, allowing us to take advantage of pre-trained networks in large perspective datasets. We show how, with just a brief fine-tuning stage in a small dataset, we improve the performance of the network for the calibrated fisheye with respect to standard convolutions in depth estimation and semantic segmentation. | 翻訳日:2024-02-05 14:50:22 公開日:2024-02-02 |
# 因果発見における大規模言語モデルの統合:統計的因果的アプローチ Integrating Large Language Models in Causal Discovery: A Statistical Causal Approach ( http://arxiv.org/abs/2402.01454v1 ) ライセンス: Link先を確認 | Masayuki Takayama, Tadahisa Okuda, Thong Pham, Tatsuyoshi Ikenoue, Shingo Fukuma, Shohei Shimizu, Akiyoshi Sannai | (参考訳) 実用的な統計的因果探索(SCD)では、背景知識の体系的獲得における課題にもかかわらず、アルゴリズムに制約としてドメイン専門家の知識を埋め込むことは、一貫性のある因果モデルを作成する上で重要であると広く受け入れられている。
これらの課題を克服するために,LLMの統計因果的プロンプト(SCP)とSCDの事前知識増強により,大規模言語モデル(LLM)を用いたSCD手法と知識ベース因果推論(KBCI)を合成する,因果推論の新しい手法を提案する。
GPT-4 は LLM-KBCI と SCD の出力を LLM-KBCI の事前の知識によって引き起こし、GPT-4 が SCP の処理を行う場合、SCD の結果をさらに改善できることを示した。
さらに, LLMがデータセットに関する情報を含まない場合でも, LLMは背景知識でSCDを改善することができることを明らかにした。
提案手法は、データセットバイアスや制限といった課題に対処し、多様な科学領域にわたるデータ駆動因果推論を改善するLLMの可能性を示す。 In practical statistical causal discovery (SCD), embedding domain expert knowledge as constraints into the algorithm is widely accepted as significant for creating consistent meaningful causal models, despite the recognized challenges in systematic acquisition of the background knowledge. To overcome these challenges, this paper proposes a novel methodology for causal inference, in which SCD methods and knowledge based causal inference (KBCI) with a large language model (LLM) are synthesized through "statistical causal prompting (SCP)" for LLMs and prior knowledge augmentation for SCD. Experiments have revealed that GPT-4 can cause the output of the LLM-KBCI and the SCD result with prior knowledge from LLM-KBCI to approach the ground truth, and that the SCD result can be further improved, if GPT-4 undergoes SCP. Furthermore, it has been clarified that an LLM can improve SCD with its background knowledge, even if the LLM does not contain information on the dataset. The proposed approach can thus address challenges such as dataset biases and limitations, illustrating the potential of LLMs to improve data-driven causal inference across diverse scientific domains. | 翻訳日:2024-02-05 14:50:07 公開日:2024-02-02 |
# イングランド女王はイングランドの女王ではない: PLMにおける実質的一貫性の欠如について The Queen of England is not England's Queen: On the Lack of Factual Coherency in PLMs ( http://arxiv.org/abs/2402.01453v1 ) ライセンス: Link先を確認 | Paul Youssef, J\"org Schl\"otterer, Christin Seifert | (参考訳) 事前学習言語モデル(plm)にエンコードされた事実知識は、それらの表現を豊かにし、知識ベースとしての使用を正当化する。
従来の研究は、対象物と関係物とを正確に予測できる頻度を測定し、PLMのクエリに使用するプロンプトを最適化することで、事実検索を改善することで、事実知識のためのPLMの探索に重点を置いてきた。
本研究では,PLMにおける事実的知識の一貫性,すなわちPLMが対象エンティティの初期予測からどの程度の頻度で対象エンティティを予測することができるのかという相補的な側面を考察する。
これはplmがどれだけ知っているかを評価するだけでなく、内部の知識の内部状態にも焦点を当てる。
以上の結果から,plmは手書き,最適化,パラフレッシュプロンプトを用いたコヒーレンシが低いが,エビデンス段落を含めれば相当な改善が期待できることがわかった。
このことは、PLMが逆関係のモデル化に失敗し、コヒーレントな方法でパラメータから事実を抽出し、知識ベースと見なすためにさらなる拡張が必要であることを示している。 Factual knowledge encoded in Pre-trained Language Models (PLMs) enriches their representations and justifies their use as knowledge bases. Previous work has focused on probing PLMs for factual knowledge by measuring how often they can correctly predict an object entity given a subject and a relation, and improving fact retrieval by optimizing the prompts used for querying PLMs. In this work, we consider a complementary aspect, namely the coherency of factual knowledge in PLMs, i.e., how often can PLMs predict the subject entity given its initial prediction of the object entity. This goes beyond evaluating how much PLMs know, and focuses on the internal state of knowledge inside them. Our results indicate that PLMs have low coherency using manually written, optimized and paraphrased prompts, but including an evidence paragraph leads to substantial improvement. This shows that PLMs fail to model inverse relations and need further enhancements to be able to handle retrieving facts from their parameters in a coherent manner, and to be considered as knowledge bases. | 翻訳日:2024-02-05 14:49:42 公開日:2024-02-02 |
# 高精度な予測誤差を提供する共変量シフトの重要度推定の改善 Improving importance estimation in covariate shift for providing accurate prediction error ( http://arxiv.org/abs/2402.01450v1 ) ライセンス: Link先を確認 | Laura Fdez-D\'iaz, Sara Gonz\'alez Tomillo, Elena Monta\~n\'es, Jos\'e Ram\'on Quevedo | (参考訳) 従来の機械学習では、アルゴリズムの予測は、データがトレーニングとテストデータセットの両方で同じ分布に従うという仮定に基づいている。
しかし、現実のデータでは、この条件は保持されておらず、例えば、共変量の分布は変化するが、対象の条件分布は変わらない。
この状況は、標準誤差推定がもはや正確でないかもしれない共変シフト問題と呼ばれる。
この文脈での重要性は、共変量シフトが誤差推定に与える影響を緩和するために一般的に用いられる尺度である。
主な欠点は計算が簡単でないことである。
Kullback-Leibler Importance Estimation(KLIEP)は、将来的な方法で重要度を推定できる。
その優れた性能にもかかわらず、重要度を計算するための共変量情報のみを含むため、ターゲット情報を無視しない。
本稿では,重要度計算における対象情報を考慮した場合の性能改善の可能性について検討する。
そして、このように一般化するために重要性を再定義する。
対象情報を含む潜在的な性能改善の他に、コ変量よりも対象を考慮すれば、コ変量内の計算とノイズを減少させるため、この研究を動機付け、その大きな次元性によって特徴付けられるプランクトン分類の実際の応用への応用が可能である。
対象情報を取得することの影響は、ロジスティック回帰(LR)、ケルネル平均マッチング(KMM)、エンサンブルケルネル平均マッチング(EKMM)、およびケルネル密度推定(KDE)法と呼ばれるKLIEPの前駆的な手法が重要度を推定する際にも検討される。
実験結果から,特にKLIEPを用いた場合,ターゲット情報を用いた精度の高い誤差推定が得られた。 In traditional Machine Learning, the algorithms predictions are based on the assumption that the data follows the same distribution in both the training and the test datasets. However, in real world data this condition does not hold and, for instance, the distribution of the covariates changes whereas the conditional distribution of the targets remains unchanged. This situation is called covariate shift problem where standard error estimation may be no longer accurate. In this context, the importance is a measure commonly used to alleviate the influence of covariate shift on error estimations. The main drawback is that it is not easy to compute. The Kullback-Leibler Importance Estimation Procedure (KLIEP) is capable of estimating importance in a promising way. Despite its good performance, it fails to ignore target information, since it only includes the covariates information for computing the importance. In this direction, this paper explores the potential performance improvement if target information is considered in the computation of the importance. Then, a redefinition of the importance arises in order to be generalized in this way. Besides the potential improvement in performance, including target information make possible the application to a real application about plankton classification that motivates this research and characterized by its great dimensionality, since considering targets rather than covariates reduces the computation and the noise in the covariates. The impact of taking target information is also explored when Logistic Regression (LR), Kernel Mean Matching (KMM), Ensemble Kernel Mean Matching (EKMM) and the naive predecessor of KLIEP called Kernel Density Estimation (KDE) methods estimate the importance. The experimental results lead to a more accurate error estimation using target information, especially in case of the more promising method KLIEP. | 翻訳日:2024-02-05 14:49:22 公開日:2024-02-02 |
# 生涯マルチエージェントパス探索のためのガイダンスグラフ最適化 Guidance Graph Optimization for Lifelong Multi-Agent Path Finding ( http://arxiv.org/abs/2402.01446v1 ) ライセンス: Link先を確認 | Yulun Zhang, He Jiang, Varun Bhatt, Stefanos Nikolaidis, Jiaoyang Li | (参考訳) 本研究では,MAPF(Multi-Agent Path Finding)のスループット向上のためのガイダンスの活用方法について検討する。
従来の研究では、高速道路などのガイダンスを組み込むことでMAPFアルゴリズムを加速できるが、ソリューションの品質とのトレードオフをもたらすことが示されている。
さらに、優れたガイダンスを自動生成する方法はほとんど探索されておらず、現在の手法は手作業で設計したものを超えていない。
本稿では,生涯mapfのガイダンスの汎用表現としてdirected guidance graphを導入し,そのエッジ重みを最適化するタスクとしてframing guidance graph optimization(ggo)を提案する。
任意の寿命のMAPFアルゴリズムとマップのガイダンスを自動生成する2つのGGOアルゴリズムを提案する。
最初の方法はブラックボックス最適化アルゴリズムであるCMA-ESを用いてGGOを直接解く。
第2の方法であるPIUは、ガイダンスを生成することのできる更新モデルを最適化し、最適化されたガイダンスグラフを同様のレイアウトを持つ大きなマップに転送する機能を示す。
その結果,(1)誘導グラフは4つのベンチマークマップにおいて3つの代表的な長寿命mapfアルゴリズムのスループットを向上し,(2)更新モデルは最大93 \times 91$mapと最大3000エージェントの誘導グラフを生成することができることがわかった。 We study how to use guidance to improve the throughput of lifelong Multi-Agent Path Finding (MAPF). Previous studies have demonstrated that while incorporating guidance, such as highways, can accelerate MAPF algorithms, this often results in a trade-off with solution quality. In addition, how to generate good guidance automatically remains largely unexplored, with current methods falling short of surpassing manually designed ones. In this work, we introduce the directed guidance graph as a versatile representation of guidance for lifelong MAPF, framing Guidance Graph Optimization (GGO) as the task of optimizing its edge weights. We present two GGO algorithms to automatically generate guidance for arbitrary lifelong MAPF algorithms and maps. The first method directly solves GGO by employing CMA-ES, a black-box optimization algorithm. The second method, PIU, optimizes an update model capable of generating guidance, demonstrating the ability to transfer optimized guidance graphs to larger maps with similar layouts. Empirically, we show that (1) our guidance graphs improve the throughput of three representative lifelong MAPF algorithms in four benchmark maps, and (2) our update model can generate guidance graphs for as large as $93 \times 91$ maps and as many as 3000 agents. | 翻訳日:2024-02-05 14:48:52 公開日:2024-02-02 |
# すべてのグラフ状態検証プロトコルは構成可能安全である All graph state verification protocols are composably secure ( http://arxiv.org/abs/2402.01445v1 ) ライセンス: Link先を確認 | L\'eo Colisson and Damian Markham and Raja Yehia | (参考訳) グラフ状態検証プロトコルは、悪意のあるパーティの存在下でも、複数のパーティがグラフ状態を共有しながら、状態が誠実に準備されていることをチェックする。
グラフ状態は多数の量子プロトコルの出発点であるため、グラフ状態検証プロトコルが他のプロトコルで安全に構成できることを保証することが重要である。
我々は、すべてのグラフ状態検証プロトコルが、グラフ状態準備の自然な機能に関して、構成可能なセキュアなプロトコルに変換できることを示すことで、この予想を否定する。
さらに, 変更のないグラフ状態検証プロトコルは, わずかに異なるが有用である機能に対して, 構成的に安全なものとみなすこともできる。
最後に、この2つの結果が最適であることを示し、任意のブラックボックスプロトコルを考慮すれば、プロトコルを変更するか、異なる機能を検討する必要がある。
その過程で、独立した関心を持つ可能性のある任意のグラフ状態への絡み合い交換を一般化するプロトコルを示す。 Graph state verification protocols allow multiple parties to share a graph state while checking that the state is honestly prepared, even in the presence of malicious parties. Since graph states are the starting point of numerous quantum protocols, it is crucial to ensure that graph state verification protocols can safely be composed with other protocols, this property being known as composable security. Previous works [YDK21] conjectured that such a property could not be proven within the abstract cryptography framework: we disprove this conjecture by showing that all graph state verification protocols can be turned into a composably secure protocol with respect to the natural functionality for graph state preparation. Moreover, we show that any unchanged graph state verification protocols can also be considered as composably secure for a slightly different, yet useful, functionality. Finally, we show that these two results are optimal, in the sense that any such generic result, considering arbitrary black-box protocols, must either modify the protocol or consider a different functionality. Along the way, we show a protocol to generalize entanglement swapping to arbitrary graph states that might be of independent interest. | 翻訳日:2024-02-05 14:48:31 公開日:2024-02-02 |
# 普遍的係り受けによる多言語勾配単語順型付け Multilingual Gradient Word-Order Typology from Universal Dependencies ( http://arxiv.org/abs/2402.01513v1 ) ライセンス: Link先を確認 | Emi Baylor and Esther Ploeger and Johannes Bjerva | (参考訳) 言語型学の分野からの情報はNLPタスクの性能を向上させる可能性があるが、信頼性の高い型学データは必須条件である。
WALSやGrambankといった既存の分類データベースは、主に分類形式によって生じる矛盾に悩まされている。
さらに、定義による類型分類は、自然言語コーパスに見られる現象の連続的な性質とは大きく異なる。
本稿では,言語の多様性をよりよく反映できる分類データではなく,連続的に評価されたデータからなる新しいシードデータセットを提案する。
この初期データセットは語順の類型論に重点を置いているが、より広範な特徴や言語のためのデータ生成に容易に適応できるデータセットを作成するための方法論も提示する。 While information from the field of linguistic typology has the potential to improve performance on NLP tasks, reliable typological data is a prerequisite. Existing typological databases, including WALS and Grambank, suffer from inconsistencies primarily caused by their categorical format. Furthermore, typological categorisations by definition differ significantly from the continuous nature of phenomena, as found in natural language corpora. In this paper, we introduce a new seed dataset made up of continuous-valued data, rather than categorical data, that can better reflect the variability of language. While this initial dataset focuses on word-order typology, we also present the methodology used to create the dataset, which can be easily adapted to generate data for a broader set of features and languages. | 翻訳日:2024-02-05 14:40:31 公開日:2024-02-02 |
# 複数項目質問に対するディトラクタ生成:方法,データセット,評価に関する調査 Distractor Generation for Multiple-Choice Questions: A Survey of Methods, Datasets, and Evaluation ( http://arxiv.org/abs/2402.01512v1 ) ライセンス: Link先を確認 | Elaf Alhazmi, Quan Z. Sheng, Wei Emma Zhang, Munazza Zaib, Ahoud Alhazmi | (参考訳) トラクタは学習評価において重要である。
本稿では,テキストとマルチモーダルの文脈に英語のマルチチョース質問データセットを用いた気晴らし生成タスクについて検討する。
特に本論文では,近年の邪魔者生成タスクに関する研究を概説し,複数の選択要素とその特徴を考察し,関連するデータセットを分析し,邪魔者生成の評価指標を要約する。
我々の調査によると、データセットの半数以上が、オープンドメインとマルチモーダルデータセットの欠如により、主にテキストベースであるScienceやBritishなどの特定のドメインの教育ソースから生成される。 Distractors are important in learning evaluation. This paper surveys distractor generation tasks using English multiple-choice question datasets for textual and multimodal contexts. In particular, this paper presents a thorough literature review of the recent studies on distractor generation tasks, discusses multiple choice components and their characteristics, analyzes the related datasets, and summarizes the evaluation metrics of distractor generation. Our investigation reveals that more than half of datasets are human-generated from educational sources in specific domains such as Science and English, which are largely text-based, with a lack of open domain and multimodal datasets. | 翻訳日:2024-02-05 14:40:19 公開日:2024-02-02 |
# シミュレーションに基づく生産システムトポロジーの最適化 --ニューラルネットワーク支援遺伝的アルゴリズム Simulation-based optimization of a production system topology -- a neural network-assisted genetic algorithm ( http://arxiv.org/abs/2402.01511v1 ) ライセンス: Link先を確認 | N. Paape, J.A.W.M. van Eekelen, M.A. Reniers | (参考訳) プロダクションシステムの最適化に関する先行研究は数多く存在するが、どのコンポーネントを設計に含めるべきか、どのように接続すべきかについては、研究のギャップがある。
このギャップを克服するために,遺伝的アルゴリズム(GA)を用いた生産システムのトポロジ最適化手法を提案する。
このGAは、子作りに類似性に基づく突然変異と組換えを用い、フィットネス評価には離散イベントシミュレーションを用いる。
計算コストを低減するために、ニューラルネットワークがシミュレーションの代理モデルとして機能するGAの拡張を示す。
3種類のニューラルネットワークを比較し、その最適化性能と計算コストに基づいて、代理モデルとして最も有効なタイプを選択する。
インダストリアルケーススタディと拡張性ケーススタディに、非アシストGAとニューラルネットワークアシストGAの両方を適用した。
これらの結果は、両方のアプローチが産業環境で最適なソリューションを見つけるのに効果的であることを示し、両方がスケールし、潜在的なソリューションの数が増加することを示している。 There is an abundance of prior research on the optimization of production systems, but there is a research gap when it comes to optimizing which components should be included in a design, and how they should be connected. To overcome this gap, a novel approach is presented for topology optimization of production systems using a genetic algorithm (GA). This GA employs similarity-based mutation and recombination for the creation of offspring, and discrete-event simulation for fitness evaluation. To reduce computational cost, an extension to the GA is presented in which a neural network functions as a surrogate model for simulation. Three types of neural networks are compared, and the type most effective as a surrogate model is chosen based on its optimization performance and computational cost. Both the unassisted GA and neural network-assisted GA are applied to an industrial case study and a scalability case study. These show that both approaches are effective at finding the optimal solution in industrial settings, and both scale well as the number of potential solutions increases, with the neural network-assisted GA having the better scalability of the two. | 翻訳日:2024-02-05 14:40:07 公開日:2024-02-02 |
# チャットテキスト要約のためのハイブリッド戦略 A Hybrid Strategy for Chat Transcript Summarization ( http://arxiv.org/abs/2402.01510v1 ) ライセンス: Link先を確認 | Pratik K. Biswas | (参考訳) テキスト要約(英: text summarization)は、文章を少ない文に凝縮する過程であり、その内容は保存される。
チャット書き起こし(Chat transcript)は、顧客(呼び出し者)とエージェント(s)の間のデジタルまたはオンライン会話のテキストコピーである。
本稿では,まず,不動あるいは不動のチャット書き起こしを圧縮して,より読解可能な要約を生成するための抽出的および抽象的要約手法を組み合わせた,局所的に開発されたハイブリッド手法を提案する。
大規模なテスト,評価,比較,検証は,手作業による参照(注釈付き)要約がない場合に,チャット書き起こし要約の大規模展開において,このアプローチの有効性を示した。 Text summarization is the process of condensing a piece of text to fewer sentences, while still preserving its content. Chat transcript, in this context, is a textual copy of a digital or online conversation between a customer (caller) and agent(s). This paper presents an indigenously (locally) developed hybrid method that first combines extractive and abstractive summarization techniques in compressing ill-punctuated or un-punctuated chat transcripts to produce more readable punctuated summaries and then optimizes the overall quality of summarization through reinforcement learning. Extensive testing, evaluations, comparisons, and validation have demonstrated the efficacy of this approach for large-scale deployment of chat transcript summarization, in the absence of manually generated reference (annotated) summaries. | 翻訳日:2024-02-05 14:39:48 公開日:2024-02-02 |
# 生成モデルによる脳腫瘍の進展 Advancing Brain Tumor Inpainting with Generative Models ( http://arxiv.org/abs/2402.01509v1 ) ライセンス: Link先を確認 | Ruizhi Zhu, Xinru Zhang, Haowen Pang, Chundan Xu, Chuyang Ye | (参考訳) 病気の脳スキャンから健康な脳スキャンを合成することは、組織セグメント化や脳抽出アルゴリズムといった汎用アルゴリズムの限界に対処する潜在的な解決策を提供する。
本研究は,3次元磁気共鳴画像(MRI)データの要求を満たすために,3次元インペイントタスクと2次元インペイント手法の適用について検討する。
また,BraTS2023 Inpaintingデータセットを用いて複数の塗布技術の評価を行い,その有効性と限界について検討した。 Synthesizing healthy brain scans from diseased brain scans offers a potential solution to address the limitations of general-purpose algorithms, such as tissue segmentation and brain extraction algorithms, which may not effectively handle diseased images. We consider this a 3D inpainting task and investigate the adaptation of 2D inpainting methods to meet the requirements of 3D magnetic resonance imaging(MRI) data. Our contributions encompass potential modifications tailored to MRI-specific needs, and we conducted evaluations of multiple inpainting techniques using the BraTS2023 Inpainting datasets to assess their efficacy and limitations. | 翻訳日:2024-02-05 14:39:32 公開日:2024-02-02 |
# コード変換言語識別は、想像以上に難しい Code-Switched Language Identification is Harder Than You Think ( http://arxiv.org/abs/2402.01505v1 ) ライセンス: Link先を確認 | Laurie Burchell, Alexandra Birch, Robert P. Thompson, Kenneth Heafield | (参考訳) コードスイッチング(cs)は、文字と音声のコミュニケーションにおいて非常に一般的な現象であるが、多くの自然言語処理アプリケーションでは扱いにくい。
CSコーパス構築の応用について,コーパス構築のためのCS言語識別(LID)について検討する。
より多くの言語に拡張し、よりシンプルなアーキテクチャでより高速な推論モデルを検討することで、タスクをより現実的にします。
また,タスクをより扱いやすくするために,文レベルのマルチラベルタグ問題としてタスクを再構成する。
タスクを定義して、このタスクに合理的な3つのモデルを調査し、望ましいパフォーマンスをよりよく反映するメトリクスを定義します。
我々は、現在のアプローチが適切でないという実証的な証拠を示し、最終的にこの分野における今後の作業について推奨する。 Code switching (CS) is a very common phenomenon in written and spoken communication but one that is handled poorly by many natural language processing applications. Looking to the application of building CS corpora, we explore CS language identification (LID) for corpus building. We make the task more realistic by scaling it to more languages and considering models with simpler architectures for faster inference. We also reformulate the task as a sentence-level multi-label tagging problem to make it more tractable. Having defined the task, we investigate three reasonable models for this task and define metrics which better reflect desired performance. We present empirical evidence that no current approach is adequate and finally provide recommendations for future work in this area. | 翻訳日:2024-02-05 14:39:21 公開日:2024-02-02 |
# なぜランダム森林は機能するのか?
自己正規化適応型スムーサとしてのツリーアンサンブルの理解 Why do Random Forests Work? Understanding Tree Ensembles as Self-Regularizing Adaptive Smoothers ( http://arxiv.org/abs/2402.01502v1 ) ライセンス: Link先を確認 | Alicia Curth and Alan Jeffares and Mihaela van der Schaar | (参考訳) その顕著な効果と幅広い応用にもかかわらず、樹木のアンサンブルに基づく成功の要因はまだ完全には理解されていない。
本稿では,木アンサンブルを適応的かつ自己正規化スムーサとして解釈することで,このトピックに対する新たな直観と深い洞察が得られることを示す。
この観点から,スムーザとして研究すると,ランダム化ツリーアンサンブルは,構成する個々のツリーの予測よりも定量的にスムースな予測を行うだけでなく,テストとトレーニング入力の相違度に基づいて,テスト時のスムーサネスを制御できることを示した。
まず,この知見を生かして,近年の林業成功に関する2つの説明の再検討,精錬,再検討に活用し,樹木群落の予測された挙動を客観的に定量的に定量化する方法を提案する。
次に,樹木群集が個々の樹木を改良するメカニズムに関する既存の説明を超越し,分散還元のみの結果として森林の優れた性能を理解するべきだという一般の認識に挑戦する。
偏見の定義は、木や森によって形成される仮説クラスの表現性の違いを捉えないため、統計学で広く見られる偏見と分散還元への現在の高レベル二分法は、木のアンサンブルを理解するには不十分である。
その代わりに、通常暗黙的に絡み合っている3つの異なるメカニズムによって、森林が木を改良できることを示す。
特に, センスリングの平滑化効果は, 結果生成のノイズによる予測のばらつきを低減し, 定型入力データによる学習関数の品質のばらつきを低減し, 利用可能な仮説空間を充実させることにより学習可能な関数の潜在的なバイアスを低減できることを実証する。 Despite their remarkable effectiveness and broad application, the drivers of success underlying ensembles of trees are still not fully understood. In this paper, we highlight how interpreting tree ensembles as adaptive and self-regularizing smoothers can provide new intuition and deeper insight to this topic. We use this perspective to show that, when studied as smoothers, randomized tree ensembles not only make predictions that are quantifiably more smooth than the predictions of the individual trees they consist of, but also further regulate their smoothness at test-time based on the dissimilarity between testing and training inputs. First, we use this insight to revisit, refine and reconcile two recent explanations of forest success by providing a new way of quantifying the conjectured behaviors of tree ensembles objectively by measuring the effective degree of smoothing they imply. Then, we move beyond existing explanations for the mechanisms by which tree ensembles improve upon individual trees and challenge the popular wisdom that the superior performance of forests should be understood as a consequence of variance reduction alone. We argue that the current high-level dichotomy into bias- and variance-reduction prevalent in statistics is insufficient to understand tree ensembles -- because the prevailing definition of bias does not capture differences in the expressivity of the hypothesis classes formed by trees and forests. Instead, we show that forests can improve upon trees by three distinct mechanisms that are usually implicitly entangled. In particular, we demonstrate that the smoothing effect of ensembling can reduce variance in predictions due to noise in outcome generation, reduce variability in the quality of the learned function given fixed input data and reduce potential bias in learnable functions by enriching the available hypothesis space. | 翻訳日:2024-02-05 14:39:08 公開日:2024-02-02 |
# 正の人工知能の設計法の開発と評価 Developing and Evaluating a Design Method for Positive Artificial Intelligence ( http://arxiv.org/abs/2402.01499v1 ) ライセンス: Link先を確認 | Willem van der Maden, Derek Lomas, Paul Hekkert | (参考訳) ai(artificial intelligence, 人工知能)が進歩を続けるにつれ、ポジティブな社会的影響の確保が重要になる。
しかし、「善のためのAI」の開発は、複雑な人間の価値とシステムの整合性に重大な課題をもたらす。
現在、これらの課題に取り組むための成熟した方法が欠けている。
本稿では,このギャップに対処するPositive AI設計手法を提示し,評価する。
この方法は、幸福な願望を具体的な実践に翻訳する人間中心のプロセスを提供する。
まず,フィードバックサイクルの連続計測によって支援されるウェルビーイングのコンテキスト化,運用,最適化,実装という4つのステップについて説明する。
次に,初心者設計者がこの手法を適用し,有効性とユーザビリティに関連する強みと弱みを明らかにする複数のケーススタディを行った。
次に、専門家評価研究は、得られた概念の質を評価し、それを適度に高く評価し、実現可能性、望ましさ、そして、意図した幸福の利益を達成するための妥当性を評価した。
これらの研究は、AI設計を改善する方法の能力の予備的検証を提供するとともに、複雑なステップのサポートの開発のような改善が必要な領域を提示する。
例や評価ヒューリスティックのような提案された適応は弱点に対処できる。
さらなる研究は、複数のプロジェクトに対する持続的な適用を検討するべきである。
この人間中心のアプローチは、害を避けるだけでなく、積極的に人類に利益をもたらす「幸福のためのAI」のビジョンを実現することを約束している。 As artificial intelligence (AI) continues advancing, ensuring positive societal impacts becomes critical, especially as AI systems become increasingly ubiquitous in various aspects of life. However, developing "AI for good" poses substantial challenges around aligning systems with complex human values. Presently, we lack mature methods for addressing these challenges. This article presents and evaluates the Positive AI design method aimed at addressing this gap. The method provides a human-centered process to translate wellbeing aspirations into concrete practices. First, we explain the method's four key steps: contextualizing, operationalizing, optimizing, and implementing wellbeing supported by continuous measurement for feedback cycles. We then present a multiple case study where novice designers applied the method, revealing strengths and weaknesses related to efficacy and usability. Next, an expert evaluation study assessed the quality of the resulting concepts, rating them moderately high for feasibility, desirability, and plausibility of achieving intended wellbeing benefits. Together, these studies provide preliminary validation of the method's ability to improve AI design, while surfacing areas needing refinement like developing support for complex steps. Proposed adaptations such as examples and evaluation heuristics could address weaknesses. Further research should examine sustained application over multiple projects. This human-centered approach shows promise for realizing the vision of 'AI for Wellbeing' that does not just avoid harm, but actively benefits humanity. | 翻訳日:2024-02-05 14:38:35 公開日:2024-02-02 |
# 知識に基づくテキスト生成における対話型大言語モデルの比較分析 A Comparative Analysis of Conversational Large Language Models in Knowledge-Based Text Generation ( http://arxiv.org/abs/2402.01495v1 ) ライセンス: Link先を確認 | Phillip Schneider, Manuel Klettner, Elena Simperl, Florian Matthes | (参考訳) グラフ構造化データから自然言語テキストを生成することは会話情報検索に不可欠である。
知識グラフから派生したセマンティックトリプルは、会話エージェントからの応答を根拠として、それらが通信する情報の事実ベースを提供する。
これは大きな言語モデルにおいて特に意味があり、会話の相互作用に大きな可能性をもたらすが、幻覚、省略、矛盾する情報を生み出す傾向にある。
本研究では,意味的三重項から自然言語文を生成する際に,対話型大規模言語モデルの実証分析を行う。
異なる大きさの4つの大きな言語モデルと異なるプロンプト技術を比較した。
WebNLGデータセット上での一連のベンチマーク実験を通じて、モデルの性能を分析し、生成された予測における最も一般的な問題を特定する。
以上の結果から,特にゼロショット性能の低い小型モデルでは,数発のプロンプト,後処理,効率的な微調整技術により,三重言語モデルの能力は著しく向上できることがわかった。 Generating natural language text from graph-structured data is essential for conversational information seeking. Semantic triples derived from knowledge graphs can serve as a valuable source for grounding responses from conversational agents by providing a factual basis for the information they communicate. This is especially relevant in the context of large language models, which offer great potential for conversational interaction but are prone to hallucinating, omitting, or producing conflicting information. In this study, we conduct an empirical analysis of conversational large language models in generating natural language text from semantic triples. We compare four large language models of varying sizes with different prompting techniques. Through a series of benchmark experiments on the WebNLG dataset, we analyze the models' performance and identify the most common issues in the generated predictions. Our findings show that the capabilities of large language models in triple verbalization can be significantly improved through few-shot prompting, post-processing, and efficient fine-tuning techniques, particularly for smaller models that exhibit lower zero-shot performance. | 翻訳日:2024-02-05 14:38:12 公開日:2024-02-02 |
# 球面高調波を制御変数とするスライス・wasserstein推定 Sliced-Wasserstein Estimation with Spherical Harmonics as Control Variates ( http://arxiv.org/abs/2402.01493v1 ) ライセンス: Link先を確認 | R\'emi Leluc, Aymeric Dieuleveut, Fran\c{c}ois Portier, Johan Segers and Aigerim Zhuman | (参考訳) 確率測度間のスライス・wasserstein距離は、関連する1次元射影に生じるwasserstein距離の平均として定義される。
その結果、SW距離は球面上の均一測度に関する積分として記述することができ、また、モンテカルロフレームワークはSW距離を計算するために用いられる。
球面調和とは、球面上の平方可積分関数の集合の正規直交基底を形成する球面上の多項式である。
これら2つの事実をまとめると、制御変数として球高調波を用いてSW距離を近似するために、Spherical Harmonics Control Variates (SHCV)と呼ばれる新しいモンテカルロ法が提案される。
結果として得られるアプローチは、例えば、変数間のある種の線形依存の形でガウス測度に対するNo-error特性など、優れた理論的性質を持つことが示されている。
さらに、モンテカルロと比較して収束率の向上が一般的な測度のために確立されている。
収束解析はSW積分に付随するリプシッツの性質に依存する。
SW距離計算のための最先端手法に対するSHCVの優れた性能を示す数値実験がいくつかある。 The Sliced-Wasserstein (SW) distance between probability measures is defined as the average of the Wasserstein distances resulting for the associated one-dimensional projections. As a consequence, the SW distance can be written as an integral with respect to the uniform measure on the sphere and the Monte Carlo framework can be employed for calculating the SW distance. Spherical harmonics are polynomials on the sphere that form an orthonormal basis of the set of square-integrable functions on the sphere. Putting these two facts together, a new Monte Carlo method, hereby referred to as Spherical Harmonics Control Variates (SHCV), is proposed for approximating the SW distance using spherical harmonics as control variates. The resulting approach is shown to have good theoretical properties, e.g., a no-error property for Gaussian measures under a certain form of linear dependency between the variables. Moreover, an improved rate of convergence, compared to Monte Carlo, is established for general measures. The convergence analysis relies on the Lipschitz property associated to the SW integrand. Several numerical experiments demonstrate the superior performance of SHCV against state-of-the-art methods for SW distance computation. | 翻訳日:2024-02-05 14:37:56 公開日:2024-02-02 |
# ドットをつなぐ:モード接続性はベイズニューラルネットワークにおけるサンプルベース推論の鍵か? Connecting the Dots: Is Mode-Connectedness the Key to Feasible Sample-Based Inference in Bayesian Neural Networks? ( http://arxiv.org/abs/2402.01484v1 ) ライセンス: Link先を確認 | Emanuel Sommer, Lisa Wimmer, Theodore Papamarkou, Ludwig Bothmann, Bernd Bischl, David R\"ugamer | (参考訳) ベイズニューラルネットワークに対するサンプルベース推論(SBI)における大きな課題は、ネットワークのパラメータ空間のサイズと構造である。
本研究は, 重みと関数空間の特性的関係を包含し, 過パラメータ化とサンプリング問題の難易度との系統的関係を明らかにすることで, sbi が有効であることを示す。
広範な実験を通じて,サンプリングと収束診断の実践的ガイドラインを確立する。
その結果,競争性能と不確かさの定量化に有効な解としてベイズ深層アンサンブル法を提案する。 A major challenge in sample-based inference (SBI) for Bayesian neural networks is the size and structure of the networks' parameter space. Our work shows that successful SBI is possible by embracing the characteristic relationship between weight and function space, uncovering a systematic link between overparameterization and the difficulty of the sampling problem. Through extensive experiments, we establish practical guidelines for sampling and convergence diagnosis. As a result, we present a Bayesian deep ensemble approach as an effective solution with competitive performance and uncertainty quantification. | 翻訳日:2024-02-05 14:37:37 公開日:2024-02-02 |
# Vabs-Netを用いた多レベルタンパク質プレトレーニング Multi-level protein pre-training with Vabs-Net ( http://arxiv.org/abs/2402.01481v1 ) ライセンス: Link先を確認 | Jiale Zhao, Wanru Zhuang, Jia Song, Yaqi Li, Shuqi Lu | (参考訳) 近年、3次元構造に基づく事前学習タンパク質モデルの開発が急増しており、様々な下流タスクにおける事前学習タンパク質言語モデルに対する顕著な進歩を示している。
しかし、既存の構造に基づく事前訓練モデルは、主に残基レベル、すなわちアルファ炭素原子に焦点を当て、一方側鎖原子のような他の原子を無視している。
側鎖の原子は、例えば分子ドッキングのような多くの下流のタスクにも重要であるので、残基と原子レベルのタンパク質のモデリングが重要であると我々は主張する。
それにもかかわらず、予備訓練中に残基と原子情報を鼻で組み合わせることは通常失敗する。
そこで,本研究では,残差レベルの事前学習タスクを自明に表現し,残差表現を不十分に表現する,入力に原子構造が組み込まれて情報漏洩が発生する原因を明らかにする。
この問題に対処するために,3次元タンパク質鎖上でのスパンマスク事前学習戦略を導入し,残基と原子の有意義な表現を学習する。
これにより、さまざまな下流タスクに適したタンパク質表現を学ぶための、シンプルで効果的なアプローチがもたらされる。
バインディングサイト予測と関数予測タスクに関する広範囲な実験結果から,提案手法が他の手法を大きく上回ることを示した。
私たちのコードは公開されます。 In recent years, there has been a surge in the development of 3D structure-based pre-trained protein models, representing a significant advancement over pre-trained protein language models in various downstream tasks. However, most existing structure-based pre-trained models primarily focus on the residue level, i.e., alpha carbon atoms, while ignoring other atoms like side chain atoms. We argue that modeling proteins at both residue and atom levels is important since the side chain atoms can also be crucial for numerous downstream tasks, for example, molecular docking. Nevertheless, we find that naively combining residue and atom information during pre-training typically fails. We identify a key reason is the information leakage caused by the inclusion of atom structure in the input, which renders residue-level pre-training tasks trivial and results in insufficiently expressive residue representations. To address this issue, we introduce a span mask pre-training strategy on 3D protein chains to learn meaningful representations of both residues and atoms. This leads to a simple yet effective approach to learning protein representation suitable for diverse downstream tasks. Extensive experimental results on binding site prediction and function prediction tasks demonstrate our proposed pre-training approach significantly outperforms other methods. Our code will be made public. | 翻訳日:2024-02-05 14:37:28 公開日:2024-02-02 |
# カーネル-固有対スパース変分ガウス過程による自己アテンション Self-Attention through Kernel-Eigen Pair Sparse Variational Gaussian Processes ( http://arxiv.org/abs/2402.01476v1 ) ライセンス: Link先を確認 | Yingyi Chen, Qinghua Tao, Francesco Tonin, Johan A.K. Suykens | (参考訳) トランスフォーマーの優れた能力は予測精度を大幅に向上させるが、過度に信頼された予測を導き、ガウス過程(GP)に対処できる校正された不確実性推定を必要とする可能性がある。
既存の研究は、アテンションカーネルに対する変分推論の下で対称核を持つGPを適用するが、アテンションカーネルが本質的に非対称であるという事実を省略する。
また,大規模データではgp後頭部を導出する複雑さは高いままである。
本稿では,Kernel SVD(KSVD)により注目カーネルの非対称性が取り組まれる不確実性を考慮した自己アテンションを構築するためのKEP-SVGP(Kernel-Eigen Pair Sparse Variational Gaussian Processs)を提案する。
略称KEP-SVGP。
i) KSVD w.r.tの2つの特異ベクトルの集合によって誘導されるSVGP対。注目核は非対称性を完全に特徴づける。
二 SVGP後縁の導出は、KSVDからの一組の随伴固有関数のみを用いて、特異値を含む対角行列の逆転に基づいて、時間の複雑さの低減に寄与することができる。
三 変動パラメータをこの目的に最適化することができるように、下限の証拠を導出すること。
実験は、分散性、分散性、分散性ベンチマークにおける優れた性能と効率を検証する。 While the great capability of Transformers significantly boosts prediction accuracy, it could also yield overconfident predictions and require calibrated uncertainty estimation, which can be commonly tackled by Gaussian processes (GPs). Existing works apply GPs with symmetric kernels under variational inference to the attention kernel; however, omitting the fact that attention kernels are in essence asymmetric. Moreover, the complexity of deriving the GP posteriors remains high for large-scale data. In this work, we propose Kernel-Eigen Pair Sparse Variational Gaussian Processes (KEP-SVGP) for building uncertainty-aware self-attention where the asymmetry of attention kernels is tackled by Kernel SVD (KSVD) and a reduced complexity is acquired. Through KEP-SVGP, i) the SVGP pair induced by the two sets of singular vectors from KSVD w.r.t. the attention kernel fully characterizes the asymmetry; ii) using only a small set of adjoint eigenfunctions from KSVD, the derivation of SVGP posteriors can be based on the inversion of a diagonal matrix containing singular values, contributing to a reduction in time complexity; iii) an evidence lower bound is derived so that variational parameters can be optimized towards this objective. Experiments verify our excellent performances and efficiency on in-distribution, distribution-shift and out-of-distribution benchmarks. | 翻訳日:2024-02-05 14:37:07 公開日:2024-02-02 |
# 顔認識における人口バイアス緩和のための合成データ Synthetic Data for the Mitigation of Demographic Biases in Face Recognition ( http://arxiv.org/abs/2402.01472v1 ) ライセンス: Link先を確認 | Pietro Melzi and Christian Rathgeb and Ruben Tolosana and Ruben Vera-Rodriguez and Aythami Morales and Dominik Lawatsch and Florian Domin and Maxim Schaubert | (参考訳) 本研究では,合成データを用いて,顔認識技術に影響を及ぼす集団バイアスの軽減の可能性を検討する。
デモグラフィックバイアスは、特定の人口集団の個人に影響を与える可能性があり、人口集団間での顔認識システムの異なる性能を観察することによって識別することができる。
それらは主に、トレーニングデータにおける人口集団の不平等な表現から生じる。
近年,顔認識システムに影響を及ぼす問題に対する解決策として,合成データが出現している。
特に、生成過程において、合成データセットの人口分布を制御するために、画像の所望の人口分布と顔特性を特定でき、かつ、異なる人口群を適切に表現することができる。
本稿では,人口統計バイアスを呈する既存の顔認識システムを用いた微調整を提案する。
GANDiffFaceによって生成された合成データセットは、制御可能な人口分布と現実的なクラス内変動で顔認識のためのデータセットを合成できる新しいフレームワークである。
異なる人口集団を表す複数のデータセットを訓練と評価のために検討する。
また、異なる顔認識システムを微調整し、異なる指標でそれらの人口動態の公平性を評価する。
本研究は,提案手法と合成データを用いて,顔認識における人口統計学的バイアスを軽減することを支援する。 This study investigates the possibility of mitigating the demographic biases that affect face recognition technologies through the use of synthetic data. Demographic biases have the potential to impact individuals from specific demographic groups, and can be identified by observing disparate performance of face recognition systems across demographic groups. They primarily arise from the unequal representations of demographic groups in the training data. In recent times, synthetic data have emerged as a solution to some problems that affect face recognition systems. In particular, during the generation process it is possible to specify the desired demographic and facial attributes of images, in order to control the demographic distribution of the synthesized dataset, and fairly represent the different demographic groups. We propose to fine-tune with synthetic data existing face recognition systems that present some demographic biases. We use synthetic datasets generated with GANDiffFace, a novel framework able to synthesize datasets for face recognition with controllable demographic distribution and realistic intra-class variations. We consider multiple datasets representing different demographic groups for training and evaluation. Also, we fine-tune different face recognition systems, and evaluate their demographic fairness with different metrics. Our results support the proposed approach and the use of synthetic data to mitigate demographic biases in face recognition. | 翻訳日:2024-02-05 14:36:41 公開日:2024-02-02 |
# ヘックス格子上の横磁場イジングモデルにおける閉じ込め Confinement in the Transverse Field Ising model on the Heavy Hex lattice ( http://arxiv.org/abs/2402.01558v1 ) ライセンス: Link先を確認 | Joseph Tindall and Dries Sels | (参考訳) 装飾された六角形格子上の横フィールドIsingモデルにおける閉じ込めの出現について検討する。
信念伝達に最適化された無限のテンソルネットワーク状態を用いることで、破れた対称性状態からのクエンチが、持続的な振動とエントロピーの飽和によって引き起こされる非熱的振る舞いにどのようにつながるかを示す。
この現象は, 格子の特異な構造によるハドロン準粒子の様々なフレーバーの形状を考慮した, 基本励起の閉じ込めに基づく最小限のモデルを構築して説明する。
私たちのモデルは数値結果とよく一致している。
逆磁場および非対称破壊状態のより大きい値へのクエンチについて, 数値計算の結果, エントロピーの線形成長, 相関の伝播, 可観測物の温度平均への飽和など, 熱化の期待値が示された。
これらの結果は、最近の大規模量子計算の予期せぬ同化可能性の物理的説明を与える。 We study the emergence of confinement in the transverse field Ising model on a decorated hexagonal lattice. Using an infinite tensor network state optimised with belief propagation we show how a quench from a broken symmetry state leads to striking nonthermal behaviour underpinned by persistent oscillations and saturation of the entanglement entropy. We explain this phenomenon by constructing a minimal model based on the confinement of elementary excitations, which take the form of various flavors of hadronic quasiparticles due to the unique structure of the lattice. Our model is in excellent agreement with our numerical results. For quenches to larger values of the transverse field and/or from non-symmetry broken states, our numerical results displays the expected signatures of thermalisation: a linear growth of entanglement entropy in time, propagation of correlations and the saturation of observables to their thermal averages. These results provide a physical explanation for the unexpected simulability of a recent large scale quantum computation. | 翻訳日:2024-02-05 14:30:50 公開日:2024-02-02 |
# 大規模言語モデルの均質化が創造的思考に及ぼす影響 Homogenization Effects of Large Language Models on Human Creative Ideation ( http://arxiv.org/abs/2402.01536v1 ) ライセンス: Link先を確認 | Barrett R. Anderson, Jash Hemant Shah, Max Kreminski | (参考訳) 大規模言語モデル(llm)は現在、ユーザが新しいアイデアを思いつくのを助けるcsts(creative support tools)など、さまざまなコンテキストで使用されています。
LLMは実際にユーザの創造性をサポートするのか?
我々は,LCMをCSTとして使用することで,LCMのユーザはより創造的で,個々のユーザによって提案されるアイデアの範囲を広げるだけでなく,異なるユーザによって提案されるアイデアを均質化する,という仮説を立てた。
筆者らは36名の被験者を対象に,同質化仮説に従って,ChatGPTでは他のCSTよりも意味的に異なる概念が生じる傾向が見られた。
さらに、ChatGPTユーザはより詳細なアイデアを多数生成したが、生成したアイデアに対する責任は少なかった。
LLM ベースの CST のユーザ,デザイナ,開発者に対して,これらの発見がもたらす影響について論じる。 Large language models (LLMs) are now being used in a wide variety of contexts, including as creativity support tools (CSTs) intended to help their users come up with new ideas. But do LLMs actually support user creativity? We hypothesized that the use of an LLM as a CST might make the LLM's users feel more creative, and even broaden the range of ideas suggested by each individual user, but also homogenize the ideas suggested by different users. We conducted a 36-participant comparative user study and found, in accordance with the homogenization hypothesis, that different users tended to produce less semantically distinct ideas with ChatGPT than with an alternative CST. Additionally, ChatGPT users generated a greater number of more detailed ideas, but felt less responsible for the ideas they generated. We discuss potential implications of these findings for users, designers, and developers of LLM-based CSTs. | 翻訳日:2024-02-05 14:30:31 公開日:2024-02-02 |
# 議論要約における多様性の実証分析 An Empirical Analysis of Diversity in Argument Summarization ( http://arxiv.org/abs/2402.01535v1 ) ライセンス: Link先を確認 | Michiel van der Meer, Piek Vossen, Catholijn M. Jonker, Pradeep K. Murukannaiah | (参考訳) ハイレベルな議論の提示は、オンライン社会議論への参加を促進する上で重要な課題である。
現在の議論の要約アプローチでは、このタスクの重要な側面 -- 多様性を捉える -- を見逃している。
多様性の3つの側面:意見,注釈,情報源を紹介する。
キーポイント分析(Key Point Analysis)と呼ばれる一般的な議論要約タスクへのアプローチを評価し,(1)少数の人が共有する議論を表現し,(2)様々な情報源からのデータを扱い,(3)人為的アノテーションの主観性と整合する手法を示す。
汎用LLMと専用KPAモデルの両方がこの挙動を示すが、相補的な強みを持つ。
さらに、トレーニングデータの多様化が一般化を改善する可能性があることを観察する。
議論の要約における多様性に対処するには、主観性を扱うための戦略の混合が必要である。 Presenting high-level arguments is a crucial task for fostering participation in online societal discussions. Current argument summarization approaches miss an important facet of this task -- capturing diversity -- which is important for accommodating multiple perspectives. We introduce three aspects of diversity: those of opinions, annotators, and sources. We evaluate approaches to a popular argument summarization task called Key Point Analysis, which shows how these approaches struggle to (1) represent arguments shared by few people, (2) deal with data from various sources, and (3) align with subjectivity in human-provided annotations. We find that both general-purpose LLMs and dedicated KPA models exhibit this behavior, but have complementary strengths. Further, we observe that diversification of training data may ameliorate generalization. Addressing diversity in argument summarization requires a mix of strategies to deal with subjectivity. | 翻訳日:2024-02-05 14:30:13 公開日:2024-02-02 |
# スパイクニューラルネットワークによる効率的な時系列予測 Efficient and Effective Time-Series Forecasting with Spiking Neural Networks ( http://arxiv.org/abs/2402.01533v1 ) ライセンス: Link先を確認 | Changze Lv, Yansen Wang, Dongqi Han, Xiaoqing Zheng, Xuanjing Huang, Dongsheng Li | (参考訳) 生物学的ニューロンのスパイク行動にインスパイアされたスパイキングニューラルネットワーク(SNN)は、時間的データの複雑さを捉えるユニークな経路を提供する。
しかし,SNNを時系列予測に適用することは,効率的な時間的アライメントの難しさ,符号化プロセスの複雑さ,モデル選択のための標準ガイドラインの欠如などにより困難である。
本稿では,時間情報処理におけるスパイクニューロンの効率を活かした時系列予測タスクにおけるSNNの枠組みを提案する。
提案するsnnベースの手法は,様々なベンチマークにおいて従来の時系列予測手法に匹敵する,あるいは優れた結果が得られることを実証する。
さらに,時系列データ内の時間的依存性を捉えるsnnの能力を評価するための詳細な解析実験を行い,そのニュアンス強度と時間的データの複雑なダイナミクスのモデル化における効果について貴重な知見を提供する。
本研究は, SNNの普及に寄与し, 時系列予測タスクの代替として, より生物学的にインスパイアされ, 時間的に意識された予測モデルを開発するための経路を提供する。 Spiking neural networks (SNNs), inspired by the spiking behavior of biological neurons, provide a unique pathway for capturing the intricacies of temporal data. However, applying SNNs to time-series forecasting is challenging due to difficulties in effective temporal alignment, complexities in encoding processes, and the absence of standardized guidelines for model selection. In this paper, we propose a framework for SNNs in time-series forecasting tasks, leveraging the efficiency of spiking neurons in processing temporal information. Through a series of experiments, we demonstrate that our proposed SNN-based approaches achieve comparable or superior results to traditional time-series forecasting methods on diverse benchmarks with much less energy consumption. Furthermore, we conduct detailed analysis experiments to assess the SNN's capacity to capture temporal dependencies within time-series data, offering valuable insights into its nuanced strengths and effectiveness in modeling the intricate dynamics of temporal data. Our study contributes to the expanding field of SNNs and offers a promising alternative for time-series forecasting tasks, presenting a pathway for the development of more biologically inspired and temporally aware forecasting models. | 翻訳日:2024-02-05 14:29:59 公開日:2024-02-02 |
# 量子LDPC符号のためのクローズドブランチデコーダ The closed-branch decoder for quantum LDPC codes ( http://arxiv.org/abs/2402.01532v1 ) ライセンス: Link先を確認 | Antonio deMarti iOlius and Josu Etxezarreta Martinez | (参考訳) 量子誤り訂正は、構成要素がデコヒーレンスによって破損しても確実に動作可能なフォールトトレラント量子プロセッサを構築するためのビルディングブロックである。
この文脈では、リアルタイムデコーディングは論理レベルで任意の量子計算を実装するために必要である。
本稿では,quantum low density parity check (qldpc) 符号のための新しいデコーダを提案する。このデコーダは,$\mathcal{o}(n\text{max}_{\text{gr}}\text{max}_{\text{br}})$,ただし$\text{max}_{\text{gr}}$ と$\text{max}_{\text{br}}$ は,デコーダアルゴリズムの精度と速度のトレードオフを表す可変パラメータである。
最適な精度のために、$\text{max}_{\text{gr}}\text{max}_{\text{br}}$ の積は指数関数的に増加するが、符号距離の多項式である小さい値を考えると、良い誤り訂正性能には十分であることが数値的に証明される。
このデコーダは、BPOSD (Belief Propagation Ordered Statistics Decoder) がデータキュービット、現象論的および回路レベルのノイズモデルで動作しているのに対し、BB (Bivariate Bicycle) 符号のクラスはBPOSD (Belief Propagation Ordered Statistics Decoder) である。
その結果、最小距離符号を考慮すれば、bposdよりも複雑さがはるかに低い同様の結果が得られるが、大きな符号に対する論理誤差確率の低下を経験できるという、デコーダの有望な性能を示す。
最終的に、デコーダのパフォーマンスと複雑さは、製品$\text{max}_{\text{gr}}\text{max}_{\text{br}}$に依存する。 Quantum error correction is the building block for constructing fault-tolerant quantum processors that can operate reliably even if its constituting elements are corrupted by decoherence. In this context, real-time decoding is a necessity for implementing arbitrary quantum computations on the logical level. In this work, we present a new decoder for Quantum Low Density Parity Check (QLDPC) codes, named the closed-branch decoder, with a worst-case complexity loosely upper bounded by $\mathcal{O}(n\text{max}_{\text{gr}}\text{max}_{\text{br}})$, where $\text{max}_{\text{gr}}$ and $\text{max}_{\text{br}}$ are tunable parameters that pose the accuracy versus speed trade-off of decoding algorithms. For the best precision, the $\text{max}_{\text{gr}}\text{max}_{\text{br}}$ product is exponentially increasing, but we numerically prove that considering small values that are polynomials of the code distance are enough for good error correction performance. The decoder is described to great extent and compared with the Belief Propagation Ordered Statistics Decoder (BPOSD) operating over data qubit, phenomenological and circuit-level noise models for the class of Bivariate Bicycle (BB) codes. The results showcase a promising performance of the decoder, obtaining similar results with much lower complexity than BPOSD when considering the smallest distance codes, but experiencing some logical error probability degradation for the bigger ones. Ultimately, the performance and complexity of the decoder depends on the product $\text{max}_{\text{gr}}\text{max}_{\text{br}}$, which can be considered taking into account benefiting one of the two aspects at the expense of the other. | 翻訳日:2024-02-05 14:29:41 公開日:2024-02-02 |
# ホモダイン測定による実効ベル試験 Realistic Bell tests with homodyne measurements ( http://arxiv.org/abs/2402.01530v1 ) ライセンス: Link先を確認 | Enky Oudot, Ga\"el Mass\'e, Xavier Valcarce, Antonio Ac\'in | (参考訳) 計測装置をホモダイン測定に限定したフォトニック実験におけるベル不等式違反の解析を行った。
ホモダイン測定と結合選択によるクレーター・ホーネ・シモニー・ホルト不等式の数値最適化により,光子数に有界な状態に対する大きな違反を示す。
NOON状態のような2つのフォック状態のクビット局所部分空間内で定義される状態を考えると、違反はゼロと2つの光子で広がるクビットフォック空間内でのみ観察される。
より一般的な状態の場合、大きな違反が発生する。
局所的に3つの光子を含む状態においても、ノイズや損失の現実的な値の下で重要な違反が観測される。
我々は,このような違反を達成するための具体的実装を提案し,ホモダイン検出器を用いたベル実験の新たな道を開く。 We analyze Bell inequalities violations in photonic experiments for which the measurement apparatuses are restricted to homodyne measurements. Through numerical optimization of the Clauser-Horne-Shimony-Holt inequality over homodyne measurements and binning choices, we demonstrate large violations for states with a bounded number of photons. When considering states defined within qubit local subspaces of two Fock states, such as NOON states, a violation is observed solely within the qubit Fock space spanned by zero and two photons. For more generic states, large violations are obtained. Significant violations are observed even for states containing three photons locally and under realistic values of noise and losses. We propose concrete implementations to achieve such violations, opening new avenues for Bell experiments with homodyne detectors. | 翻訳日:2024-02-05 14:28:59 公開日:2024-02-02 |
# 小さな量子コンピュータ上のビッグデータ応用 Big data applications on small quantum computers ( http://arxiv.org/abs/2402.01529v1 ) ライセンス: Link先を確認 | Boniface Yogendran, Daniel Charlton, Miriam Beddig, Ioannis Kolotouros, and Petros Wallden | (参考訳) 現在の量子ハードウェアは、大規模な古典的データセットの直接使用を禁止している。
コアセットはこれらの大きなデータセットの簡潔な説明を可能にし、計算タスクにおけるそれらのソリューションは、元のデータセットのソリューションと競合する。
コアセットを小さな量子コンピュータと組み合わせて、大量のデータポイントを必要とするタスクを解く方法は、最初にHarrow [arXiv:2004.00026] によって導入された。
本稿では,コアセット法を,分割クラスタリング,3次元クラスタリング,ガウス混合モデルクラスタリングという3つのよく研究された古典的機械学習問題に適用する。
量子ビットの数がコアセットのサイズに比例して線形にスケールする上記の問題のハミルトニアン定式化を提供する。
次に, 変動量子固有解法 (VQE) がこれらの問題に対してどのように作用するかを評価し, 小さな量子コンピュータとともにコアセットの実用的効率を示す。
CUDA量子上で最大25量子ビットのインスタンス上でノイズレスシミュレーションを行い、従来の解法に匹敵する性能を示すことを示す。 Current quantum hardware prohibits any direct use of large classical datasets. Coresets allow for a succinct description of these large datasets and their solution in a computational task is competitive with the solution on the original dataset. The method of combining coresets with small quantum computers to solve a given task that requires a large number of data points was first introduced by Harrow [arXiv:2004.00026]. In this paper, we apply the coreset method in three different well-studied classical machine learning problems, namely Divisive Clustering, 3-means Clustering, and Gaussian Mixture Model Clustering. We provide a Hamiltonian formulation of the aforementioned problems for which the number of qubits scales linearly with the size of the coreset. Then, we evaluate how the variational quantum eigensolver (VQE) performs on these problems and demonstrate the practical efficiency of coresets when used along with a small quantum computer. We perform noiseless simulations on instances of sizes up to 25 qubits on CUDA Quantum and show that our approach provides comparable performance to classical solvers. | 翻訳日:2024-02-05 14:28:44 公開日:2024-02-02 |
# 投機的復号 Decoding Speculative Decoding ( http://arxiv.org/abs/2402.01528v1 ) ライセンス: Link先を確認 | Minghao Yan, Saurabh Agarwal, Shivaram Venkataraman | (参考訳) 投機的復号化(英: Speculative Decoding)とは、大規模言語モデル(LLM)の推論を、結果を変更することなく高速化する手法である。
LLMで推論を行う場合、投機的復号法は投機的トークンを生成する小さなドラフトモデルを使用し、ターゲットのLLMを使用してこれらのドラフトトークンを検証する。
投機的復号化によって提供されるスピードアップは、ドラフトモデルの選択に大きく依存する。
LLMが高いスループットを達成するために、生成されたトークンの高い確率を提供するドラフトモデルを選択することが広く提案されている。
しかし,本実験は,生成トークンがターゲットモデルで受け入れられる確率が増加するにつれて,スループットが低下することを示す。
この現象を理解するために,我々は,投機的復号化に影響を与えるさまざまな要因と,それらの要因がどのように相互作用し,スピードアップに影響を与えるかを特徴付けるために,広範囲にわたる実験を行った。
実験に基づいて、所定のワークロードに対して適切なドラフトモデルを決定するために使用できる分析モデルを記述する。
さらに,既存のドラフトモデルよりも30%高いスループットを提供できるLLaMA-65Bの新しいドラフトモデルを設計した。 Speculative Decoding is a widely used technique to speed up inference for Large Language Models (LLMs) without modifying its outcome. When performing inference on an LLM, speculative decoding uses a smaller draft model which generates speculative tokens and then uses the target LLM to verify those draft tokens. The speedup provided by speculative decoding heavily depends on the choice of the draft model. It has been widely suggested to select a draft model that provides a high probability of the generated token being accepted by the LLM to achieve the highest throughput. However, our experiments indicate the contrary with throughput diminishing as the probability of generated tokens to be accepted by the target model increases. To understand this phenomenon, we perform extensive experiments to characterize the different factors that affect speculative decoding and how those factors interact and affect the speedups. Based on our experiments we describe an analytical model which can be used to decide the right draft model for a given workload. Further, using our insights we design a new draft model for LLaMA-65B which can provide 30% higher throughput than existing draft models. | 翻訳日:2024-02-05 14:28:25 公開日:2024-02-02 |
# 正規位相をもつ量子ネットワークにおける絡み合いの連続分布 Continuously Distributing Entanglement in Quantum Networks with Regular Topologies ( http://arxiv.org/abs/2402.01527v1 ) ライセンス: Link先を確認 | Lars Talsma, \'Alvaro G. I\~nesta and Stephanie Wehner | (参考訳) 小さな相互接続型量子プロセッサは、通常より有能なデバイスを必要とする量子計算問題に対処するために協力することができる。
これらの連結プロセッサは量子ノードと呼ばれ、共有絡み合った状態を使用して非局所的な操作を実行することができる。
結果として、ノード間の絡み合った状態の分散方法を理解することは、ハードウェアやソフトウェアの開発に不可欠である。
我々は,チェーン,ハニカム格子,正方形格子,三角形格子という,物理的に規則的なパターンで配置されたノード間で絡み合いが連続的に分散されるプロトコルを解析する。
これらの規則パターンは、大規模分散量子コンピューティングのためのネットワークのモジュラー拡張を可能にする。
絡み合い分布プロトコルでは、隣接するノードと共有される複数の絡み合い状態と、非隣ノードと共有されるより少ない絡み合い状態とを交換するために、絡み合いスワップを試みようとする確率を修正することができる。
我々は,仮想近傍サイズを用いて,あるノードが絡み合った状態を共有する他のノードの数を示す指標を用いて,プロトコルの性能を評価する。
数値的手法を用いることで,コヒーレンス時間が短ければ仮想近傍サイズを最大化するために,ノードがより多くのスワップを実行しなければならないことが分かった。
チェーンネットワークでは、チェーンの終端からの距離に基づいて、スワップ試行確率に対する仮想近傍の大きさの依存性が異なる。
逆に、正方形格子の全てのノードは、スワップ確率に対する仮想近傍の大きさの質的に類似した依存性を示す。 Small interconnected quantum processors can collaborate to tackle quantum computational problems that typically demand more capable devices. These linked processors, referred to as quantum nodes, can use shared entangled states to execute nonlocal operations. As a consequence, understanding how to distribute entangled states among nodes is essential for developing hardware and software. We analyze a protocol where entanglement is continuously distributed among nodes that are physically arranged in a regular pattern: a chain, a honeycomb lattice, a square grid, and a triangular lattice. These regular patterns allow for the modular expansion of networks for large-scale distributed quantum computing. Within the entanglement distribution protocol, nodes can fix the probability of attempting entanglement swaps to trade off multiple entangled states shared with neighboring nodes for fewer entangled states shared with non-neighboring nodes. We evaluate the protocol's performance using the virtual neighborhood size -- a metric indicating the number of other nodes with which a given node shares entangled states. Employing numerical methods, we find that nodes must perform more swaps to maximize the virtual neighborhood size when coherence times are short. In a chain network, the virtual neighborhood size's dependence on swap attempt probability differs for each node based on its distance from the end of the chain. Conversely, all nodes in the square grid exhibit a qualitatively similar dependence of the virtual neighborhood size on the swap probability. | 翻訳日:2024-02-05 14:28:06 公開日:2024-02-02 |
# HyperPlanes: 高速NeRF適応に対するハイパーネットワークアプローチ HyperPlanes: Hypernetwork Approach to Rapid NeRF Adaptation ( http://arxiv.org/abs/2402.01524v1 ) ライセンス: Link先を確認 | Pawe{\l} Batorski, Dawid Malarz, Marcin Przewi\k{e}\'zlikowski, Marcin Mazur, S{\l}awomir Tadeja, Przemys{\l}aw Spurek | (参考訳) ニューラル放射場(NeRF)は、少数のベース画像から新しい3Dオブジェクトビューを合成するための広く受け入れられている標準である。
しかし、NeRFは限定的な一般化特性を持つため、表現したい項目ごとに個々のアーキテクチャをトレーニングするために、重要な計算資源を使う必要がある。
この問題に対処するために,推論中に勾配最適化を必要としないハイパーネットワークパラダイムに基づく数ショットの学習手法を提案する。
ハイパーネットワークはトレーニングデータから情報を収集し、普遍重みの更新を生成する。
その結果,少数の画像から1ステップで高品質な3dオブジェクト表現を生成する効率的な手法を開発した。
これは最先端の解と包括的アブレーション研究とを直接比較して確認されている。 Neural radiance fields (NeRFs) are a widely accepted standard for synthesizing new 3D object views from a small number of base images. However, NeRFs have limited generalization properties, which means that we need to use significant computational resources to train individual architectures for each item we want to represent. To address this issue, we propose a few-shot learning approach based on the hypernetwork paradigm that does not require gradient optimization during inference. The hypernetwork gathers information from the training data and generates an update for universal weights. As a result, we have developed an efficient method for generating a high-quality 3D object representation from a small number of images in a single step. This has been confirmed by direct comparison with the state-of-the-art solutions and a comprehensive ablation study. | 翻訳日:2024-02-05 14:27:44 公開日:2024-02-02 |
# 大規模言語モデルを用いたKレベル推論 K-Level Reasoning with Large Language Models ( http://arxiv.org/abs/2402.01521v1 ) ライセンス: Link先を確認 | Yadong Zhang, Shaoguang Mao, Tao Ge, Xun Wang, Yan Xia, Man Lan, Furu Wei | (参考訳) 大規模言語モデル(llm)は複雑な推論タスクにおいてその熟練度を示す一方で、ビジネス戦略や株式市場分析といった動的、インタラクティブ、競争的なシナリオにおけるその性能は過小評価されている。
このギャップを埋めるため、急速に発展する環境における意思決定のためのllmの動的推論能力を正式に検討する。
実世界の動的意思決定の複雑さを反映した2つのゲーム理論に基づくパイロットチャレンジを導入する。
これらの課題は明確に定義されており、LLMの動的推論能力を明確かつ制御可能かつ正確に評価することができる。
より広範な実験を通して、既存の推論手法はkレベルの思考を必要とする動的設定に干渉する傾向があることが判明した。
そこで我々は,LLMの新たな推論手法であるK-Level Reasoningを提案する。
このアプローチは、利用可能な履歴情報に基づいてkレベルの思考を再帰的に採用するライバルの視点を採用し、ライバルのその後の動きの予測精度を大幅に向上させ、より戦略的意思決定を知らせる。
本研究は、動的推論の評価のためのロバストな定量的指標を設定するだけでなく、動的文脈におけるllmの熟練度を著しく向上させる。 While Large Language Models (LLMs) have demonstrated their proficiency in complex reasoning tasks, their performance in dynamic, interactive, and competitive scenarios - such as business strategy and stock market analysis - remains underexplored. To bridge this gap, we formally explore the dynamic reasoning capabilities of LLMs for decision-making in rapidly evolving environments. We introduce two game theory-based pilot challenges that mirror the complexities of real-world dynamic decision-making. These challenges are well-defined, enabling clear, controllable, and precise evaluation of LLMs' dynamic reasoning abilities. Through extensive experiments, we find that existing reasoning methods tend to falter in dynamic settings that require k-level thinking - a key concept not tackled by previous works. To address this, we propose a novel reasoning approach for LLMs, named "K-Level Reasoning". This approach adopts the perspective of rivals to recursively employ k-level thinking based on available historical information, which significantly improves the prediction accuracy of rivals' subsequent moves and informs more strategic decision-making. This research not only sets a robust quantitative benchmark for the assessment of dynamic reasoning but also markedly enhances the proficiency of LLMs in dynamic contexts. | 翻訳日:2024-02-05 14:27:32 公開日:2024-02-02 |
# 自己教師あり音声表現の低減による低リソースクロスドメイン歌唱音声合成 Low-Resource Cross-Domain Singing Voice Synthesis via Reduced Self-Supervised Speech Representations ( http://arxiv.org/abs/2402.01520v1 ) ライセンス: Link先を確認 | Panos Kakoulidis, Nikolaos Ellinas, Georgios Vamvoukakis, Myrsini Christidou, Alexandra Vioni, Georgia Maniati, Junkwang Oh, Gunu Jho, Inchul Hwang, Pirros Tsiakoulis, Aimilios Chalamandaris | (参考訳) 本稿では,歌声合成モデルであるカラオカー・SSLを提案する。
ボーコーダも音声データに基づいてトレーニングされているため、歌唱データをエンドツーエンドで使用しない低リソースのパイプラインである。
Karaoker-SSLは、教師なしの方法で自己教師付き音声表現によって条件付けされる。
我々はこれらの表現を、タスク関連次元のサブセットのみを選択して前処理する。
コンディショニングモジュールは、マルチタスクによるトレーニング中にスタイル情報をキャプチャするために間接的にガイドされる。
これは、音響モデルの出力からピッチを予測するConformerベースのモジュールによって達成される。
そのため、Karaoker-SSLは手作りやドメイン固有の機能に依存しない歌声合成を可能にする。
テキストアライメントや歌詞タイムスタンプも必要ありません。
音声品質を向上するために、ターゲット話者に条件付きで拡散GAN訓練スキームに従うU-Net判別器を用いる。 In this paper, we propose a singing voice synthesis model, Karaoker-SSL, that is trained only on text and speech data as a typical multi-speaker acoustic model. It is a low-resource pipeline that does not utilize any singing data end-to-end, since its vocoder is also trained on speech data. Karaoker-SSL is conditioned by self-supervised speech representations in an unsupervised manner. We preprocess these representations by selecting only a subset of their task-correlated dimensions. The conditioning module is indirectly guided to capture style information during training by multi-tasking. This is achieved with a Conformer-based module, which predicts the pitch from the acoustic model's output. Thus, Karaoker-SSL allows singing voice synthesis without reliance on hand-crafted and domain-specific features. There are also no requirements for text alignments or lyrics timestamps. To refine the voice quality, we employ a U-Net discriminator that is conditioned on the target speaker and follows a Diffusion GAN training scheme. | 翻訳日:2024-02-05 14:26:56 公開日:2024-02-02 |
# 人物画像合成のためのクロスビューマスク拡散トランス Cross-view Masked Diffusion Transformers for Person Image Synthesis ( http://arxiv.org/abs/2402.01516v1 ) ライセンス: Link先を確認 | Trung X. Pham, Zhang Kang, Chang D. Yoo | (参考訳) X-MDPT (Cross-view Masked Diffusion Prediction Transformers) は,ポーズ誘導型画像生成のための新しい拡散モデルである。
x-mdpt は潜伏パッチで動作するマスク拡散変圧器を採用しており、既存の作品で一般的に使用されている unet 構造から逸脱している。
モデルは3つの主要なモジュールから構成される。
1) 拡散変圧器
2)拡散過程の条件を1つのベクトルに集約する集約ネットワーク、
3)参照画像からの意味情報による表現学習を強化するマスククロス予測モジュール。
X-MDPTは拡張性を示し、より大きなモデルでFID、SSIM、LPIPSを改善している。
そのシンプルな設計にもかかわらず、我々のモデルはDeepFashionデータセットの最先端のアプローチよりも優れており、トレーニングパラメータ、トレーニング時間、推論速度の点で効率が良い。
我々のコンパクト33MBモデルは7.42のFIDを達成し、Unet遅延拡散法(FID 8.07)をはるかに上回っている。
我々の最良のモデルは、パラメータの$\frac{2}{3}$でピクセルベースの拡散を超え、5.43 \times$高速推論を達成する。 We present X-MDPT (Cross-view Masked Diffusion Prediction Transformers), a novel diffusion model designed for pose-guided human image generation. X-MDPT distinguishes itself by employing masked diffusion transformers that operate on latent patches, a departure from the commonly-used Unet structures in existing works. The model comprises three key modules: 1) a denoising diffusion Transformer, 2) an aggregation network that consolidates conditions into a single vector for the diffusion process, and 3) a mask cross-prediction module that enhances representation learning with semantic information from the reference image. X-MDPT demonstrates scalability, improving FID, SSIM, and LPIPS with larger models. Despite its simple design, our model outperforms state-of-the-art approaches on the DeepFashion dataset while exhibiting efficiency in terms of training parameters, training time, and inference speed. Our compact 33MB model achieves an FID of 7.42, surpassing a prior Unet latent diffusion approach (FID 8.07) using only $11\times$ fewer parameters. Our best model surpasses the pixel-based diffusion with $\frac{2}{3}$ of the parameters and achieves $5.43 \times$ faster inference. | 翻訳日:2024-02-05 14:26:34 公開日:2024-02-02 |
# 確率的勾配降下の促進:統一フレームワークと高速収束のための新しい加速法 Enhancing Stochastic Gradient Descent: A Unified Framework and Novel Acceleration Methods for Faster Convergence ( http://arxiv.org/abs/2402.01515v1 ) ライセンス: Link先を確認 | Yichuan Deng, Zhao Song, Chiwun Yang | (参考訳) SGDに基づいて、SGDm、AdaGrad、Adamなどの確率最適化における収束速度と一般化を改善する多くのアルゴリズムが提案されている。
しかし,非凸条件下での収束解析は困難である。
本稿では,この問題に対処するための統一フレームワークを提案する。
任意の一階法に対して、更新された方向 $g_t$ を確率的次数 $\nabla f_t(x_t)$ と追加の加速項 $\frac{2|\langle v_t, \nabla f_t(x_t) \rangle|||v_t\|_2^2} v_t$ の和として解釈する。
提案手法により,2つのプラグ・アンド・プレイ・アクセラレーション法を発見した: \textbf{reject acceleration} と \textbf{random vector acceleration} であり,この2つの手法が直接収束率の向上につながることを理論的に証明した。 Based on SGD, previous works have proposed many algorithms that have improved convergence speed and generalization in stochastic optimization, such as SGDm, AdaGrad, Adam, etc. However, their convergence analysis under non-convex conditions is challenging. In this work, we propose a unified framework to address this issue. For any first-order methods, we interpret the updated direction $g_t$ as the sum of the stochastic subgradient $\nabla f_t(x_t)$ and an additional acceleration term $\frac{2|\langle v_t, \nabla f_t(x_t) \rangle|}{\|v_t\|_2^2} v_t$, thus we can discuss the convergence by analyzing $\langle v_t, \nabla f_t(x_t) \rangle$. Through our framework, we have discovered two plug-and-play acceleration methods: \textbf{Reject Accelerating} and \textbf{Random Vector Accelerating}, we theoretically demonstrate that these two methods can directly lead to an improvement in convergence rate. | 翻訳日:2024-02-05 14:25:58 公開日:2024-02-02 |
# 潜在表現の多元写像 Mapping the Multiverse of Latent Representations ( http://arxiv.org/abs/2402.01514v1 ) ライセンス: Link先を確認 | Jeremy Wayland, Corinna Coupette, Bastian Rieck | (参考訳) マルチバース分析による機械学習の信頼性とロバスト性に対する最近の要求に反し、潜在表現に依存する多元的機械学習モデルのマッピングのための原則付きフレームワークprestoを提案する。
このようなモデルは広く採用されているが、その埋め込みの多様性は理解されていないままであり、不要な複雑さと信頼できない表現をもたらす。
私たちのフレームワークは、永続ホモロジーを使用して、さまざまな機械学習メソッド、(ハイパー)パラメータ構成、データセットの組み合わせから生じる潜在空間を特徴付け、ペアワイズ(dis)相似性を計測し、その分布を統計的に推論する。
理論的にも実証的にも,本パイプラインは潜在表現の集合の望ましい特性を保存し,感度解析や異常埋め込みの検出,高パラメータ探索空間の効率的かつ効果的にナビゲートに活用できる。 Echoing recent calls to counter reliability and robustness concerns in machine learning via multiverse analysis, we present PRESTO, a principled framework for mapping the multiverse of machine-learning models that rely on latent representations. Although such models enjoy widespread adoption, the variability in their embeddings remains poorly understood, resulting in unnecessary complexity and untrustworthy representations. Our framework uses persistent homology to characterize the latent spaces arising from different combinations of diverse machine-learning methods, (hyper)parameter configurations, and datasets, allowing us to measure their pairwise (dis)similarity and statistically reason about their distributions. As we demonstrate both theoretically and empirically, our pipeline preserves desirable properties of collections of latent representations, and it can be leveraged to perform sensitivity analysis, detect anomalous embeddings, or efficiently and effectively navigate hyperparameter search spaces. | 翻訳日:2024-02-05 14:24:48 公開日:2024-02-02 |
# 衝突テキストコーパスからのデータマイニングのための深層能動的学習 Deep Active Learning for Data Mining from Conflict Text Corpora ( http://arxiv.org/abs/2402.01577v1 ) ライセンス: Link先を確認 | Mihai Croicu | (参考訳) 武装紛争と関連するプロセスに関する高解像度のイベントデータは、UCDP GEDやACLEDなどのデータセットによる政治的対立の研究に革命をもたらした。
しかし、これらのデータセットのほとんどは、時空間(高解像度)と強度データの収集に制限されている。
ターゲット、戦術、目的などのダイナミクスに関する情報は、データ収集の極端な作業負荷のため、まれに収集される。
しかし、ほとんどのデータセットはリッチなテキストデータコーパスに依存しており、各イベントに関連付けられたさらなる情報のマイニングが可能である。
本稿では、逐次(誘導)人間の入力に基づく機械学習モデルを改善する反復的プロセスであるアクティブラーニングを活用して、安価で高性能な手法を提案する。
アクティブラーニングは、競合ダイナミクスに関連するイベントのサブクラスを抽出するために適応された大きなエンコーダのみの言語モデルのステップワイズトレーニング(ファインチューニング)に使用される。
このアプローチは、人間の(ゴールドスタンダードの)コーディングに類似したパフォーマンスを示しながら、必要な人間のアノテーションの量を99%削減する。 High-resolution event data on armed conflict and related processes have revolutionized the study of political contention with datasets like UCDP GED, ACLED etc. However, most of these datasets limit themselves to collecting spatio-temporal (high-resolution) and intensity data. Information on dynamics, such as targets, tactics, purposes etc. are rarely collected owing to the extreme workload of collecting data. However, most datasets rely on a rich corpus of textual data allowing further mining of further information connected to each event. This paper proposes one such approach that is inexpensive and high performance, leveraging active learning - an iterative process of improving a machine learning model based on sequential (guided) human input. Active learning is employed to then step-wise train (fine-tuning) of a large, encoder-only language model adapted for extracting sub-classes of events relating to conflict dynamics. The approach shows performance similar to human (gold-standard) coding while reducing the amount of required human annotation by as much as 99%. | 翻訳日:2024-02-05 14:16:26 公開日:2024-02-02 |
# IT組織における競争的アドバンテージとしてのタレント保持の理解と改善のための実行可能なフレームワーク An Actionable Framework for Understanding and Improving Talent Retention as a Competitive Advantage in IT Organizations ( http://arxiv.org/abs/2402.01573v1 ) ライセンス: Link先を確認 | Luiz Alexandre Costa, Edson Dias, Danilo Monteiro, Awdren Font\~ao, Gustavo Pinto, Rodrigo Pereira dos Santos, Alexander Serebrenik | (参考訳) 急速に発展するグローバルビジネスの世界では、ソフトウェアに対する需要が組織間の競争を激化させ、ソフトウェア組織における高度なITメンバーを維持する上での課題につながっている。
IT組織が直面している問題の1つは、これらの戦略的プロフェッショナルの維持である。
この作業は、IT組織で使用されるTalent Retention(TR)のための実行可能なフレームワークを提示します。
これは、21のITマネージャによるインタビューの結果に基づいています。
TR Frameworkは私たちの主要な研究成果です。
私たちのフレームワークは、要素、文脈特性、障壁、戦略、対処メカニズムのセットを包含しています。
この結果から,ソフトウェア技術者は他の専門家グループと差別化が可能であることが示唆され,競争的な給与を超えて,心理的安全性,ワークライフバランス,ポジティブな作業環境,革新的で挑戦的なプロジェクト,柔軟な作業といった,IT組織における人材維持の他の要素を考慮する必要がある。
ソフトウェアエンジニアリングの課題に対処し、重要な要素を特定し、個人、チーム、組織レベルで戦略を探求することによって、ITマネージャが人材管理プロセスを改善する上で、ファクタをより深く理解することが可能になる。 In the rapidly evolving global business landscape, the demand for software has intensified competition among organizations, leading to challenges in retaining highly qualified IT members in software organizations. One of the problems faced by IT organizations is the retention of these strategic professionals, also known as talent. This work presents an actionable framework for Talent Retention (TR) used in IT organizations. It is based on our findings from interviews performed with 21 IT managers. The TR Framework is our main research outcome. Our framework encompasses a set of factors, contextual characteristics, barriers, strategies, and coping mechanisms. Our findings indicated that software engineers can be differentiated from other professional groups, and beyond competitive salaries, other elements for retaining talent in IT organizations should be considered, such as psychological safety, work-life balance, a positive work environment, innovative and challenging projects, and flexible work. A better understanding of factors could guide IT managers in improving talent management processes by addressing Software Engineering challenges, identifying important elements, and exploring strategies at the individual, team, and organizational levels. | 翻訳日:2024-02-05 14:16:11 公開日:2024-02-02 |
# Spiking Music:イベントベースのオートエンコーダによるオーディオ圧縮 Spiking Music: Audio Compression with Event Based Auto-encoders ( http://arxiv.org/abs/2402.01571v1 ) ライセンス: Link先を確認 | Martim Lisboa, Guillaume Bellec | (参考訳) 脳内のニューロンはスパイクと呼ばれる時間的出来事を通じて情報を伝達する。
スパイクのタイミングは豊富な情報を持っていると考えられているが、デジタルシステムでこれを利用する方法は不明である。
音声圧縮にはイベントベースのエンコーディングが有効であることを示す。
このイベントベースの表現を構築するには、深いバイナリの自動エンコーダを使用し、高いスパース性圧力下で、分散行列ストレージアルゴリズムによりバイナリイベントマトリックスをより効率的に格納するレジームに入る。
我々は、ベクトル量子化オートエンコーダに対するピアノ録音の大規模なmaestroデータセットでこれをテストする。
我々の「スポーキング・ミュージック・圧縮」アルゴリズムは、競争力のある圧縮/再構成トレードオフを達成するだけでなく、符号化されたイベントとピアノキーストライクの間の選択性と同期をスパース体制の監督なしに実現します。 Neurons in the brain communicate information via punctual events called spikes. The timing of spikes is thought to carry rich information, but it is not clear how to leverage this in digital systems. We demonstrate that event-based encoding is efficient for audio compression. To build this event-based representation we use a deep binary auto-encoder, and under high sparsity pressure, the model enters a regime where the binary event matrix is stored more efficiently with sparse matrix storage algorithms. We test this on the large MAESTRO dataset of piano recordings against vector quantized auto-encoders. Not only does our "Spiking Music compression" algorithm achieve a competitive compression/reconstruction trade-off, but selectivity and synchrony between encoded events and piano key strikes emerge without supervision in the sparse regime. | 翻訳日:2024-02-05 14:15:52 公開日:2024-02-02 |
# アップデートのオンライン学習を通じてAdam Optimizerを理解する:AdamはFTRLである Understanding Adam Optimizer via Online Learning of Updates: Adam is FTRL in Disguise ( http://arxiv.org/abs/2402.01567v1 ) ライセンス: Link先を確認 | Kwangjun Ahn, Zhiyu Zhang, Yunbum Kook, Yan Dai | (参考訳) アダム・オプティマイザの成功にもかかわらず、そのアルゴリズム成分の理論的な理解は依然として限られている。
特に、Adamの既存の分析のほとんどは、SGDのような非適応アルゴリズムによって簡単に達成できる収束率を示している。
本研究では,Adamのアルゴリズム的コンポーネントの重要性を浮き彫りにするオンライン学習に基づく異なる視点を提供する。
Cutkoskyらにインスパイアされた2023年、我々はオンライン学習と呼ばれるフレームワークを検討し、オンライン学習者に基づいて最適化者の更新を選択する。
このフレームワークにより、優れたオプティマイザの設計は、優れたオンライン学習者の設計に還元される。
我々は、AdamがFTRL(Follow-the-Regularized-Leader)と呼ばれる原則付きオンライン学習フレームワークに対応していると考えている。
この観察に基づいて,そのアルゴリズムコンポーネントの利点をオンライン学習の観点から検討する。 Despite the success of the Adam optimizer in practice, the theoretical understanding of its algorithmic components still remains limited. In particular, most existing analyses of Adam show the convergence rate that can be simply achieved by non-adative algorithms like SGD. In this work, we provide a different perspective based on online learning that underscores the importance of Adam's algorithmic components. Inspired by Cutkosky et al. (2023), we consider the framework called online learning of updates, where we choose the updates of an optimizer based on an online learner. With this framework, the design of a good optimizer is reduced to the design of a good online learner. Our main observation is that Adam corresponds to a principled online learning framework called Follow-the-Regularized-Leader (FTRL). Building on this observation, we study the benefits of its algorithmic components from the online learning perspective. | 翻訳日:2024-02-05 14:15:37 公開日:2024-02-02 |
# Boximator:ビデオ合成のためのリッチで制御可能なモーションの生成 Boximator: Generating Rich and Controllable Motions for Video Synthesis ( http://arxiv.org/abs/2402.01566v1 ) ライセンス: Link先を確認 | Jiawei Wang, Yuchen Zhang, Jiaxin Zou, Yan Zeng, Guoqiang Wei, Liping Yuan, Hang Li | (参考訳) リッチで制御可能な動きを生成することは、ビデオ合成における重要な課題である。
運動制御のための新しい手法であるBoximatorを提案する。
Boximatorはハードボックスとソフトボックスという2つの制約タイプを導入している。
ユーザーはハードボックスを使用して条件付きフレーム内のオブジェクトを選択し、いずれのタイプのボックスを使用して、将来のフレームにおけるオブジェクトの位置、形状、動作経路を概略的または厳密に定義する。
Boximatorは既存のビデオ拡散モデルのプラグインとして機能する。
その訓練プロセスは、元の重み付けを凍結し、制御モジュールのみを訓練することで、ベースモデルの知識を保存する。
学習課題に対処するために,箱-対象相関の学習を単純化する新しい自己追跡手法を提案する。
経験上、boximatorは最先端のビデオ品質(fvd)スコアを達成し、2つのベースモデルで改善し、ボックス制約を組み込んだ後にさらに強化する。
その頑健な動き制御性は、境界箱アライメント計量の急激な増加によって検証される。
人的評価は、ユーザーがベースモデルよりもBoximator生成結果を好むことを示している。 Generating rich and controllable motion is a pivotal challenge in video synthesis. We propose Boximator, a new approach for fine-grained motion control. Boximator introduces two constraint types: hard box and soft box. Users select objects in the conditional frame using hard boxes and then use either type of boxes to roughly or rigorously define the object's position, shape, or motion path in future frames. Boximator functions as a plug-in for existing video diffusion models. Its training process preserves the base model's knowledge by freezing the original weights and training only the control module. To address training challenges, we introduce a novel self-tracking technique that greatly simplifies the learning of box-object correlations. Empirically, Boximator achieves state-of-the-art video quality (FVD) scores, improving on two base models, and further enhanced after incorporating box constraints. Its robust motion controllability is validated by drastic increases in the bounding box alignment metric. Human evaluation also shows that users favor Boximator generation results over the base model. | 翻訳日:2024-02-05 14:15:23 公開日:2024-02-02 |
# 量子幾何テンソルの光による神経量子状態の効率性 Efficiency of neural quantum states in light of the quantum geometric tensor ( http://arxiv.org/abs/2402.01565v1 ) ライセンス: Link先を確認 | Sidhartha Dash, Filippo Vicentini, Michel Ferrero and Antoine Georges | (参考訳) ニューラル量子状態 (nqs) ans\"atzeは変分モンテカルロアルゴリズムにおいて、任意の量子状態を表現する理論的能力によって期待できることを示した。
しかし、パラメータ数の増加による性能の実際的な改善の背景は、完全には理解されていない。
本研究では,隠蔽層密度$\alpha$が増大するにつれて,制限ボルツマンマシン(RBMs)のスピン-1双線型双立方体モデルの異なる相における基底状態を表現するための効率を体系的に研究する。
2つの異なる損失関数を最小化することで ansatz を訓練します。
1)エネルギー,及び
2) 正確な基底状態のNQSアンサッツ w.r.t.の不忠実性。
どちらのケースでも、ansatzの精度は$\alpha$で飽和しています。
量子幾何テンソル(qgt)のスペクトルを見ることにより、このことが説明できることを示す。
qgt の階数は特定の $\alpha$ を超えて飽和し、最適化された nqs に対して関連する多様体の \textit{dimension of the relevant manifold} に対応することを強調する。
これにより、NQSアンサッツの実用的な表現力の診断に有用である。 Neural quantum state (NQS) ans\"atze have shown promise in variational Monte Carlo algorithms by their theoretical capability of representing any quantum state. However, the reason behind the practical improvement in their performance with an increase in the number of parameters is not fully understood. In this work, we systematically study the efficiency of restricted Boltzmann Machines (RBMs) to represent the ground states in different phases of the spin-1 bilinear-biquadratic model, as the hidden layer density $\alpha$ increases. We train our ansatz by minimizing two different loss functions: 1) energy, and 2) infidelity of the NQS ansatz w.r.t. that of the exact ground state. We observe that the accuracy of our ansatz saturates with $\alpha$ in both cases. We demonstrate that this can be explained by looking at the spectrum of the quantum geometric tensor (QGT). We find that the rank of the QGT saturates beyond a certain $\alpha$, and we emphasize that it corresponds to the \textit{dimension of the relevant manifold} for an optimized NQS. This provides a useful diagnostics for the practical representation power of an NQS ansatz. | 翻訳日:2024-02-05 14:15:05 公開日:2024-02-02 |
# ディープ連続ネットワーク Deep Continuous Networks ( http://arxiv.org/abs/2402.01557v1 ) ライセンス: Link先を確認 | Nergis Tomen, Silvia L. Pintea, Jan C. van Gemert | (参考訳) CNNと生物学的ビジョンの計算モデルはいくつかの基本的な原理を共有し、新たな研究の道を開いた。
しかし、実りあるクロスフィールド研究は、連続的に変化する受容野の大きさやニューロンの反応のダイナミクスといった生物学的複雑さの特定の側面に対応できない、空間的および奥行き的な離散表現に基づく従来のcnnアーキテクチャによって妨げられている。
本稿では,空間的連続フィルタとニューラルネットワークの連続深度フレームワークを組み合わせた深層連続ネットワーク(dcns)を提案する。
これにより、トレーニング中のフィルタの空間的サポートを学習し、特徴写像の連続的な進化をモデル化し、DCNを生物学的モデルに密接にリンクすることができる。
パラメータとデータ効率を改善し,メタパラメトリゼーションを可能にする標準画像分類・再構成問題に対して,DCNは汎用的で高い適用性を示す。
本稿では,DCNが学習したスケール分布の生物学的妥当性を概説し,神経科学的にインスパイアされたパターン完了タスクにおけるその性能について考察する。
最後に,入力コントラストの変更によるdcnsの効率的な実装について検討する。 CNNs and computational models of biological vision share some fundamental principles, which opened new avenues of research. However, fruitful cross-field research is hampered by conventional CNN architectures being based on spatially and depthwise discrete representations, which cannot accommodate certain aspects of biological complexity such as continuously varying receptive field sizes and dynamics of neuronal responses. Here we propose deep continuous networks (DCNs), which combine spatially continuous filters, with the continuous depth framework of neural ODEs. This allows us to learn the spatial support of the filters during training, as well as model the continuous evolution of feature maps, linking DCNs closely to biological models. We show that DCNs are versatile and highly applicable to standard image classification and reconstruction problems, where they improve parameter and data efficiency, and allow for meta-parametrization. We illustrate the biological plausibility of the scale distributions learned by DCNs and explore their performance in a neuroscientifically inspired pattern completion task. Finally, we investigate an efficient implementation of DCNs by changing input contrast. | 翻訳日:2024-02-05 14:14:47 公開日:2024-02-02 |
# SLYKLatent - 顔の特徴推定のための学習フレームワーク SLYKLatent, a Learning Framework for Facial Features Estimation ( http://arxiv.org/abs/2402.01555v1 ) ライセンス: Link先を確認 | Samuel Adebayo, Joost C. Dessing, Se\'an McLoone | (参考訳) 本研究では, aleatoric uncertainties, covariant shifts, and test domain generalizationによるデータセットの出現不安定性問題に対処することにより,視線推定を改善する新しい手法であるslyklatentを提案する。
slyklatentは、表情データセットを用いた初期トレーニングに自己教師付き学習を使用し、続いてパッチベースのトリブランチネットワークと逆説明型分散重み付きトレーニング損失関数による改良を行っている。
ベンチマークデータセットの評価では,上位MPIIFaceGazeと競合するGaze360が8.7%向上し,ETH-XGazeのサブセットが13%向上し,既存の手法をかなり上回った。
RAF-DBとAffectnetの適応性テストはそれぞれ86.4%と60.9%の精度を示している。
アブレーション研究はslyklatentの新規成分の有効性を確認した。
このアプローチは人間とロボットの相互作用に強い可能性を秘めている。 In this research, we present SLYKLatent, a novel approach for enhancing gaze estimation by addressing appearance instability challenges in datasets due to aleatoric uncertainties, covariant shifts, and test domain generalization. SLYKLatent utilizes Self-Supervised Learning for initial training with facial expression datasets, followed by refinement with a patch-based tri-branch network and an inverse explained variance-weighted training loss function. Our evaluation on benchmark datasets achieves an 8.7% improvement on Gaze360, rivals top MPIIFaceGaze results, and leads on a subset of ETH-XGaze by 13%, surpassing existing methods by significant margins. Adaptability tests on RAF-DB and Affectnet show 86.4% and 60.9% accuracies, respectively. Ablation studies confirm the effectiveness of SLYKLatent's novel components. This approach has strong potential in human-robot interaction. | 翻訳日:2024-02-05 14:14:28 公開日:2024-02-02 |
# マッピングの受容: マイクロシナリオによる新興技術と概念の評価 Mapping Acceptance: Assessing Emerging Technologies and Concepts through Micro Scenarios ( http://arxiv.org/abs/2402.01551v1 ) ライセンス: Link先を確認 | Philipp Brauner | (参考訳) テクノロジーが急速に進化するにつれて、公共の認識を理解することがますます重要になる。
本稿では、精神モデルの評価と様々な技術の社会的受容のための統合的手法を紹介する。
提案手法は,視覚空間マッピングと組み合わせたマイクロシナリオを活用し,限られたシナリオの詳細な評価に焦点を当てた従来の手法とは対照的な包括的視点を提供する。
この手法により、視覚空間マップ上で複数の技術の同時定量評価が可能となり、多様な基準に基づく比較ランク付けや、世論の形成における個々の要因と技術属性の相互作用の探索が容易となる。
我々のアプローチは、研究者や政策立案者が重要な問題を評価し、受け入れに重要な要因を特定するための枠組みを提供する。
我々は,この方法論を我々の研究の例で説明し,同様の研究を行うための実践的ガイドラインとRコードを提供する。
本稿では,技術発展と社会的認知のギャップを埋めることを目的として,技術開発と政策の領域におけるより深い意思決定のためのツールを提供する。 As technology evolves rapidly, understanding public perception becomes increasingly crucial. This article introduces an integrative method for evaluating mental models and social acceptance of various technologies. Our approach utilizes micro scenarios coupled with visual-spatial mapping, offering a comprehensive perspective that contrasts with traditional methods focused on detailed assessments of limited scenarios. This methodology allows for simultaneous quantitative evaluation of multiple technologies on visio-spatial maps, facilitating a comparative ranking based on diverse criteria and an exploration of the interplay between individual factors and technology attributes in shaping public opinion. Our approach provides a framework for researchers and policymakers to gauge critical issues and to identify factors pivotal to acceptance. We illustrate this methodology with examples from our research, offering practical guidelines and R code to enable others in conducting similar studies. This paper aims to bridge the gap between technological advancement and societal perception, offering a tool for more informed decision-making in the realm of technology development and policy. | 翻訳日:2024-02-05 14:14:12 公開日:2024-02-02 |
# サイド情報を用いたゼロエラー関数計算における量子アドバンテージ Quantum advantage in zero-error function computation with side information ( http://arxiv.org/abs/2402.01549v1 ) ライセンス: Link先を確認 | Ruoyu Meng and Aditya Ramamoorthy | (参考訳) サイド情報を用いたゼロエラー関数計算の問題を考える。
Alice はソース $X$ を持ち、Bob はソース $Y$ と相関しており、古典的または量子的チャネルを介して通信することができる。
Bobはゼロエラーで$f(X,Y)$を計算したい。
我々は、アリスがボブに送らなければならない最小限の情報量をゼロエラーで特徴付けることを目指している。
古典的な設定では、この量は、適切に定義された$m$-instance "confusion graph" の彩色数である$\chi(g^{(m)})$の漸近的な成長に依存する。
本稿では、$G^{(m)}$の構造的特徴を示し、同一の単一インスタンス混同グラフを持つ2つの関数計算シナリオを示す。
しかし、あるケースでは量子伝送を古典的伝送に対して使用するという厳格な利点があるが、もう一方の場合ではそのような利点はない。 We consider the problem of zero-error function computation with side information. Alice has a source $X$ and Bob has correlated source $Y$ and they can communicate via either classical or a quantum channel. Bob wants to calculate $f(X,Y)$ with zero error. We aim to characterize the minimum amount of information that Alice needs to send to Bob for this to happen with zero-error. In the classical setting, this quantity depends on the asymptotic growth of $\chi(G^{(m)})$, the chromatic number of an appropriately defined $m$-instance "confusion graph". In this work we present structural characterizations of $G^{(m)}$ and demonstrate two function computation scenarios that have the same single-instance confusion graph. However, in one case there a strict advantage in using quantum transmission as against classical transmission, whereas there is no such advantage in the other case. | 翻訳日:2024-02-05 14:13:54 公開日:2024-02-02 |
# 住宅短期負荷予測のためのプライバシー保護型分散学習 Privacy-Preserving Distributed Learning for Residential Short-Term Load Forecasting ( http://arxiv.org/abs/2402.01546v1 ) ライセンス: Link先を確認 | Yi Dong, Yingjie Wang, Mariana Gama, Mustafa A. Mustafa, Geert Deconinck, Xiaowei Huang | (参考訳) 電力システムの分野では、負荷予測アプリケーションへの住宅ユーザの関与が増加し、データプライバシに対する懸念が高まっている。
特に、負荷データは、住宅ユーザの日常のルーチンを不注意に明らかにし、彼らの財産のセキュリティにリスクを及ぼす可能性がある。
フェデレーション学習(federated learning, fl)は、生データの交換なしにモデルトレーニングを可能にすることによって、ユーザのプライバシを保護するために使用されているが、これらのflモデルは、勾配からの深い漏洩や中毒攻撃といった、新たな攻撃技術に対する脆弱性を示している。
これらの対策として,マルチパーティ計算暗号技術を活用したSecure-Agg(Secure-Agg)アルゴリズムを用いて,勾配リークのリスクを軽減する。
しかし、secaggの導入は、マルチパーティ計算プロトコルを実行するための追加のサブセンターサーバの配置を必要とするため、計算の複雑さが増し、システムの堅牢性が低下する。
これらの課題に対処するために,我々はマルコフスイッチングに基づく分散トレーニングフレームワークを導入し,その収束は厳密な理論解析によって決定される。
分散マルコフスイッチング(DMS)のトポロジーは、毒殺攻撃に対する強い堅牢性を示している。
実世界の電力系統負荷データを用いたケーススタディにより,提案アルゴリズムの有効性を検証した。
通信の複雑さを著しく低減するだけでなく、従来のFL法と同等の精度を維持し、負荷予測アルゴリズムのスケーラビリティを向上させる。 In the realm of power systems, the increasing involvement of residential users in load forecasting applications has heightened concerns about data privacy. Specifically, the load data can inadvertently reveal the daily routines of residential users, thereby posing a risk to their property security. While federated learning (FL) has been employed to safeguard user privacy by enabling model training without the exchange of raw data, these FL models have shown vulnerabilities to emerging attack techniques, such as Deep Leakage from Gradients and poisoning attacks. To counteract these, we initially employ a Secure-Aggregation (SecAgg) algorithm that leverages multiparty computation cryptographic techniques to mitigate the risk of gradient leakage. However, the introduction of SecAgg necessitates the deployment of additional sub-center servers for executing the multiparty computation protocol, thereby escalating computational complexity and reducing system robustness, especially in scenarios where one or more sub-centers are unavailable. To address these challenges, we introduce a Markovian Switching-based distributed training framework, the convergence of which is substantiated through rigorous theoretical analysis. The Distributed Markovian Switching (DMS) topology shows strong robustness towards the poisoning attacks as well. Case studies employing real-world power system load data validate the efficacy of our proposed algorithm. It not only significantly minimizes communication complexity but also maintains accuracy levels comparable to traditional FL methods, thereby enhancing the scalability of our load forecasting algorithm. | 翻訳日:2024-02-05 14:13:39 公開日:2024-02-02 |
# 欠落データを用いた予測のための適応最適化 Adaptive Optimization for Prediction with Missing Data ( http://arxiv.org/abs/2402.01543v1 ) ライセンス: Link先を確認 | Dimitris Bertsimas, Arthur Delarue, and Jean Pauphilet | (参考訳) 欠落したエントリを持つデータで予測モデルをトレーニングする場合、最も広く使われ、多用途なアプローチは、欠落したエントリを最初に入力し、次に予測を計算するパイプラインテクニックです。
本稿では,データの欠落による予測を2段階適応最適化問題として捉え,回帰係数が観測された特徴の集合に適応する新しいモデルである適応線形回帰モデルを提案する。
いくつかの適応線形回帰モデルは、逐次的ではなくインプテーション則と下流線形回帰モデルを同時に学習することと同値であることを示す。
我々は,非線形モデルへの枠組みを一般化するために,この共役-共役-共役-相反解釈を利用する。
ランダムにデータの欠落が強くない環境では,本手法はサンプルの精度を2~10%向上させる。 When training predictive models on data with missing entries, the most widely used and versatile approach is a pipeline technique where we first impute missing entries and then compute predictions. In this paper, we view prediction with missing data as a two-stage adaptive optimization problem and propose a new class of models, adaptive linear regression models, where the regression coefficients adapt to the set of observed features. We show that some adaptive linear regression models are equivalent to learning an imputation rule and a downstream linear regression model simultaneously instead of sequentially. We leverage this joint-impute-then-regress interpretation to generalize our framework to non-linear models. In settings where data is strongly not missing at random, our methods achieve a 2-10% improvement in out-of-sample accuracy. | 翻訳日:2024-02-05 14:13:13 公開日:2024-02-02 |
# ジオデシック補間によるラベル付きデータ拡張によるタンパク質の折り畳み学習 Learning Collective Variables for Protein Folding with Labeled Data Augmentation through Geodesic Interpolation ( http://arxiv.org/abs/2402.01542v1 ) ライセンス: Link先を確認 | Soojung Yang, Juno Nam, Johannes C. B. Dietschreit, Rafael G\'omez-Bombarelli | (参考訳) 分子動力学(MD)シミュレーションでは、タンパク質の折りたたみのようなまれな事象は、通常、強化されたサンプリング技術によって研究され、その多くは加速が起こる集団変数(CV)の定義に依存する。
表現力のあるCVを持つことは重要であるが、しばしば特定の事象に関する情報の欠如、例えば、展開されたコンフォメーションから折り畳まれたコンフォメーションへの遷移によって妨げられる。
本研究では,タンパク質の折りたたみ遷移に似た測地的補間を生成するため,物理に着想を得た指標を用いたシミュレーションフリーなデータ拡張戦略を提案する。
補間進行パラメータを活用することで,遷移状態データが限定的かつノイズの多い場合に,分類器に基づく手法よりも優れた回帰学習方式をCVモデルに導入する。 In molecular dynamics (MD) simulations, rare events, such as protein folding, are typically studied by means of enhanced sampling techniques, most of which rely on the definition of a collective variable (CV) along which the acceleration occurs. Obtaining an expressive CV is crucial, but often hindered by the lack of information about the particular event, e.g., the transition from unfolded to folded conformation. We propose a simulation-free data augmentation strategy using physics-inspired metrics to generate geodesic interpolations resembling protein folding transitions, thereby improving sampling efficiency without true transition state samples. Leveraging interpolation progress parameters, we introduce a regression-based learning scheme for CV models, which outperforms classifier-based methods when transition state data is limited and noisy | 翻訳日:2024-02-05 14:13:02 公開日:2024-02-02 |
# 人間の行動分析におけるギャップの閉鎖:トリモーダルデータの合成のためのパイプライン Closing the Gap in Human Behavior Analysis: A Pipeline for Synthesizing Trimodal Data ( http://arxiv.org/abs/2402.01537v1 ) ライセンス: Link先を確認 | Christian Stippel, Thomas Heitzinger, Rafael Sterzinger, Martin Kampel | (参考訳) 広汎な機械学習、特にHBA(Human Behavior Analysis)において、RGBはそのアクセシビリティと情報豊かさのために主要なモダリティとなっている。
しかし、その利点と結びつくのは、照明条件への敏感さやプライバシー上の懸念といった課題だ。
これらの脆弱性を克服するひとつの可能性は、異なるモダリティに頼ることだ。
例えば、熱は人間の形をアクセントするのに特に適しており、深度は重要なコンテキスト層を追加します。
既知の利点にもかかわらず、これらのモダリティを統合するHBA固有のデータセットはわずかである。
この不足に対処するため,本研究は,rgb,熱,深さといった,人間中心のデータセットを作成するための新しい生成手法を提案する。
この技術は、RGB画像から得られる人間のセグメンテーションマスクと、自動的に出力される熱的背景と深さ的背景を組み合わせて活用する。
これら2つの成分を用いて,条件付き画像-画像変換を用いた既存のRGBデータから深度および熱的相似情報を合成する。
このアプローチを用いることで、限られたデータ、悪い雷条件、プライバシに敏感な領域の設定のためのモデルのトレーニングに利用できるトリモーダルデータを生成する。 In pervasive machine learning, especially in Human Behavior Analysis (HBA), RGB has been the primary modality due to its accessibility and richness of information. However, linked with its benefits are challenges, including sensitivity to lighting conditions and privacy concerns. One possibility to overcome these vulnerabilities is to resort to different modalities. For instance, thermal is particularly adept at accentuating human forms, while depth adds crucial contextual layers. Despite their known benefits, only a few HBA-specific datasets that integrate these modalities exist. To address this shortage, our research introduces a novel generative technique for creating trimodal, i.e., RGB, thermal, and depth, human-focused datasets. This technique capitalizes on human segmentation masks derived from RGB images, combined with thermal and depth backgrounds that are sourced automatically. With these two ingredients, we synthesize depth and thermal counterparts from existing RGB data utilizing conditional image-to-image translation. By employing this approach, we generate trimodal data that can be leveraged to train models for settings with limited data, bad lightning conditions, or privacy-sensitive areas. | 翻訳日:2024-02-05 14:12:46 公開日:2024-02-02 |
# 実行時系統解析はテストベース問題に対する極端なサブサンプリングを可能にする Runtime phylogenetic analysis enables extreme subsampling for test-based problems ( http://arxiv.org/abs/2402.01610v1 ) ライセンス: Link先を確認 | Alexander Lalejini, Marcos Sanson, Jack Garbus, Matthew Andres Moreno, Emily Dolson | (参考訳) 系統学は進化する個体群の進化の歴史を記述する。
進化的探索アルゴリズムは、候補解の祖先を完璧に追跡し、探索空間を通して集団の軌道を照らすことができる。
しかし、系統解析は通常、探索性能のポストホック研究に限られる。
テストベース問題の解決に向け,実行時の系統解析を利用する新しいサブサンプリング手法であるフィロジェニーインフォームドサブサンプリングを導入する。
具体的には、3つの診断問題とプログラム合成ベンチマークスイートから10個の遺伝的プログラミング(gp)問題について、個体別ランダムサブサンプリングと祖先ベースサブサンプリングの2つの系統的インフォーメーションサブサンプリング法を評価した。
全体として,系統的インフォームドサブサンプリング法は,他のサブサンプリング法が失敗する極端なサブサンプリングレベルでの問題解決に成功した。
例えば、系統的インフォームドサブサンプリング法は、各世代ごとのトレーニングケースを1つ評価する場合、プログラム合成問題をより確実に解決する。
しかし, 中程度のサブサンプリングでは, フィロジェニーインフォームドサブサンプリングはGP問題に対するランダムサブサンプリングに匹敵する性能を示した。
診断実験の結果,系統的インフォームドサブサンプリングはランダムサブサンプリングに比べて多様性維持が向上するが,選択計画によって変化する適合度勾配を迅速に活用する選択計画の能力に与える影響が示された。
フィロジェニーインフォームドサブサンプリング技術の継続的な改良は、多くの高価なフィットネス基準で問題に対処するために進化システムをスケールアップするための有望な新しい方向性を提供する。 A phylogeny describes the evolutionary history of an evolving population. Evolutionary search algorithms can perfectly track the ancestry of candidate solutions, illuminating a population's trajectory through the search space. However, phylogenetic analyses are typically limited to post-hoc studies of search performance. We introduce phylogeny-informed subsampling, a new class of subsampling methods that exploit runtime phylogenetic analyses for solving test-based problems. Specifically, we assess two phylogeny-informed subsampling methods -- individualized random subsampling and ancestor-based subsampling -- on three diagnostic problems and ten genetic programming (GP) problems from program synthesis benchmark suites. Overall, we found that phylogeny-informed subsampling methods enable problem-solving success at extreme subsampling levels where other subsampling methods fail. For example, phylogeny-informed subsampling methods more reliably solved program synthesis problems when evaluating just one training case per-individual, per-generation. However, at moderate subsampling levels, phylogeny-informed subsampling generally performed no better than random subsampling on GP problems. Our diagnostic experiments show that phylogeny-informed subsampling improves diversity maintenance relative to random subsampling, but its effects on a selection scheme's capacity to rapidly exploit fitness gradients varied by selection scheme. Continued refinements of phylogeny-informed subsampling techniques offer a promising new direction for scaling up evolutionary systems to handle problems with many expensive-to-evaluate fitness criteria. | 翻訳日:2024-02-05 14:05:53 公開日:2024-02-02 |
# 効率的な制御手法を用いた産業用マイクログリッドの一次周波数制御のための接続EVグリッドの同時解析 Contingency Analysis of a Grid of Connected EVs for Primary Frequency Control of an Industrial Microgrid Using Efficient Control Scheme ( http://arxiv.org/abs/2402.01608v1 ) ライセンス: Link先を確認 | J.N. Sabhahit, S.S. Solanke, V.K. Jadoun, H. Malik, F.P. Garc\'ia M\'arquez, J.M. Pinar-P\'erez | (参考訳) 輸送部門を支配した内燃機関が1世紀以上続いた後、電気自動車は運転コストの低下やCO2排出量の減少など多くの利点のために、勢いを増しつつあるようだ。
電気自動車(EV)がロードとして利用される場合、EVはロードとソースの両方として動作することができる。
一次周波数制御と混雑管理は,産業用マイクログリッドに付加されるこの技術の2つの重要な特徴である。
産業用マイクログリッドは風力発電所や太陽光発電所、貯蔵システム、負荷など様々なエネルギー源で構成されている。
EVは周波数管理技術として多くの関心を集めている。
グリッドの信頼性はこの迅速な反応に依存します。
本研究では,電気自動車のコンセント,充電状態,EVフリートにおけるEV数の変動について検討し,周波数管理のための制御方式を提案する。
この制御方式は、産業用マイクログリッドが24時間にわたって遭遇する可能性のある様々なシナリオにおいて、一次周波数制御を可能にする。
提案した制御器は、より信頼性の高いシステムを実現するためのシミュレーション結果によって示されるように、産業用マイクログリッドに対する信頼性の高い周波数調整支援を提供する。
しかし、シミュレーションの結果、自動車からグリッドへのアプローチにおいて、EVの数を増やすことで、産業用マイクログリッドの周波数をさらに高めることが示される。 After over a century of internal combustion engines ruling the transport sector, electric vehicles appear to be on the verge of gaining traction due to a slew of advantages, including lower operating costs and lower CO2 emissions. By using the Vehicle-to-Grid (or Grid-to-Vehicle if Electric vehicles (EVs) are utilized as load) approach, EVs can operate as both a load and a source. Primary frequency regulation and congestion management are two essential characteristics of this technology that are added to an industrial microgrid. Industrial Microgrids are made up of different energy sources such as wind farms and PV farms, storage systems, and loads. EVs have gained a lot of interest as a technique for frequency management because of their ability to regulate quickly. Grid reliability depends on this quick reaction. Different contingency, state of charge of the electric vehicles, and a varying number of EVs in an EV fleet are considered in this work, and a proposed control scheme for frequency management is presented. This control scheme enables bidirectional power flow, allowing for primary frequency regulation during the various scenarios that an industrial microgrid may encounter over the course of a 24-h period. The presented controller will provide dependable frequency regulation support to the industrial microgrid during contingencies, as will be demonstrated by simulation results, achieving a more reliable system. However, simulation results will show that by increasing a number of the EVs in a fleet for the Vehicle-to-Grid approach, an industrial microgrid\'s frequency can be enhanced even further. | 翻訳日:2024-02-05 14:05:25 公開日:2024-02-02 |
# 必要なバックトラッキングによる自然対策 Natural Counterfactuals With Necessary Backtracking ( http://arxiv.org/abs/2402.01607v1 ) ライセンス: Link先を確認 | Guang-Yuan Hao, Jiji Zhang, Biwei Huang, Hao Wang, Kun Zhang | (参考訳) 反事実推論は人間の認知において重要であり、特に説明や意思決定において重要である。
ジュデア・パールの影響力のあるアプローチは理論的にはエレガントであるが、その反現実的なシナリオの生成には、現実のシナリオから切り離せない介入を必要とすることが多い。
そこで本研究では, 実世界のデータ分布に関して, 自然の反事実の枠組みと, 自然の反事実を生成する方法を提案する。
提案手法では, 因果的先行変数の変化が現実シナリオからの逸脱を最小限に抑えることができる。
自然の反事実を生成するために,自然性基準によるバックトラッキングの程度を許容しながら制御する革新的な最適化フレームワークを提案する。
実験の結果,本手法の有効性が示された。 Counterfactual reasoning is pivotal in human cognition and especially important for providing explanations and making decisions. While Judea Pearl's influential approach is theoretically elegant, its generation of a counterfactual scenario often requires interventions that are too detached from the real scenarios to be feasible. In response, we propose a framework of natural counterfactuals and a method for generating counterfactuals that are natural with respect to the actual world's data distribution. Our methodology refines counterfactual reasoning, allowing changes in causally preceding variables to minimize deviations from realistic scenarios. To generate natural counterfactuals, we introduce an innovative optimization framework that permits but controls the extent of backtracking with a naturalness criterion. Empirical experiments indicate the effectiveness of our method. | 翻訳日:2024-02-05 14:04:58 公開日:2024-02-02 |
# foundation model sherpas: 知識と推論による基盤モデルを導く Foundation Model Sherpas: Guiding Foundation Models through Knowledge and Reasoning ( http://arxiv.org/abs/2402.01602v1 ) ライセンス: Link先を確認 | Debarun Bhattacharjya, Junkyu Lee, Don Joven Agravante, Balaji Ganesan, Radu Marinescu | (参考訳) 大規模言語モデルのような基礎モデル(FM)は、様々なタスクにおいて顕著なパフォーマンスを示すことによって、AIの分野に革命をもたらした。
しかし、彼らは多くの現実世界のシステムで広く採用されるのを防ぐために、多くの制限を課している。
FMは,自己指導型コーパスの再構築を目的とした損失関数を用いて訓練されているため,モデルの出力が特定のタスクに対するユーザの好みと一致している保証はない。
本稿では,エージェントがFMと対話し,特に知識の増強や推論を通じて,タスクのセットに適した指導を行う,様々なモードをカプセル化する概念的枠組みを提案する。
本フレームワークは,FMの更新,FMのプロンプトの支援,FM出力の評価など,エージェントの役割のカテゴリを解明する。
また,エージェントインタラクションプロトコルに最先端のアプローチをいくつか分類し,エージェントの役割の性質と関与範囲を強調する。
提案するフレームワークは,現実的なAIシステムにおけるFMのパワーをさらに高めるための今後の方向性のガイダンスを提供する。 Foundation models (FMs) such as large language models have revolutionized the field of AI by showing remarkable performance in various tasks. However, they exhibit numerous limitations that prevent their broader adoption in many real-world systems, which often require a higher bar for trustworthiness and usability. Since FMs are trained using loss functions aimed at reconstructing the training corpus in a self-supervised manner, there is no guarantee that the model's output aligns with users' preferences for a specific task at hand. In this survey paper, we propose a conceptual framework that encapsulates different modes by which agents could interact with FMs and guide them suitably for a set of tasks, particularly through knowledge augmentation and reasoning. Our framework elucidates agent role categories such as updating the underlying FM, assisting with prompting the FM, and evaluating the FM output. We also categorize several state-of-the-art approaches into agent interaction protocols, highlighting the nature and extent of involvement of the various agent roles. The proposed framework provides guidance for future directions to further realize the power of FMs in practical AI systems. | 翻訳日:2024-02-05 14:04:45 公開日:2024-02-02 |
# 軌道予測によるハイパーパラメータチューニング:行列センシングにおける確率的プロキシ線形法 Hyperparameter tuning via trajectory predictions: Stochastic prox-linear methods in matrix sensing ( http://arxiv.org/abs/2402.01599v1 ) ライセンス: Link先を確認 | Mengqi Lou and Kabir Aladin Verchand and Ashwin Pananjady | (参考訳) 高パラメータ選択に頑健な非凸最適化のための確率的アルゴリズムを理解したいという欲求に感心し、ノイズによって劣化したランク1のガウス測度から未知のランク1行列を復元する問題に対して、最小バッチの Prox-linear 反復アルゴリズムを解析する。
この手法の誤差を予測する決定論的再帰を導出し、非漸近的枠組みを用いて、この予測が任意のバッチサイズと幅広いステップサイズに対して正確であることを示す。
特に,本手法は確率的ではあるが,ステップサイズを固定した局所初期化から統計的エラーフロアへ線形収束することを示す。
また,本分析では,バッチサイズ,ステップサイズ,ノイズレベルが(線形)収束率および結果の統計的推定誤差にどのように影響するかを明らかにするとともに,決定論的予測を用いてハイパーパラメータチューニング(ステップサイズ,バッチサイズ選択など)を行う方法を示す。
技術的レベルでは、経験的反復の変動が、前回の反復の誤差と共に、決定論的予測の周りでスケールすることを示すことで、分析が可能である。 Motivated by the desire to understand stochastic algorithms for nonconvex optimization that are robust to their hyperparameter choices, we analyze a mini-batched prox-linear iterative algorithm for the problem of recovering an unknown rank-1 matrix from rank-1 Gaussian measurements corrupted by noise. We derive a deterministic recursion that predicts the error of this method and show, using a non-asymptotic framework, that this prediction is accurate for any batch-size and a large range of step-sizes. In particular, our analysis reveals that this method, though stochastic, converges linearly from a local initialization with a fixed step-size to a statistical error floor. Our analysis also exposes how the batch-size, step-size, and noise level affect the (linear) convergence rate and the eventual statistical estimation error, and we demonstrate how to use our deterministic predictions to perform hyperparameter tuning (e.g. step-size and batch-size selection) without ever running the method. On a technical level, our analysis is enabled in part by showing that the fluctuations of the empirical iterates around our deterministic predictions scale with the error of the previous iterate. | 翻訳日:2024-02-05 14:04:27 公開日:2024-02-02 |
# 20年にわたる血圧データから学ぶ:7500万人の患者におけるデモグラフィ特有のパターン Learning from Two Decades of Blood Pressure Data: Demography-Specific Patterns Across 75 Million Patient Encounters ( http://arxiv.org/abs/2402.01598v1 ) ライセンス: Link先を確認 | Seyedeh Somayyeh Mousavi and Yuting Guo and Abeed Sarker and Reza Sameni | (参考訳) 高血圧は依然として世界的な健康上の懸念であり、血圧(bp)動態の効果的なモニタリングと理解を必要としている。
この研究は、高血圧の傾向を理解する上で重要なアプローチであるBP測定から得られる情報の豊富さを掘り下げるものである。
BP変動と様々な要因の関係について多くの研究が報告されている。
本研究では,20年間にわたる7500万件の記録からなる広範なデータセットを活用し,年齢,人種,性別などの人口動態のBP変動を調査し分析するユニークな機会を提供する。
その結果,性別によるBP変動は統計的に有意ではなく,従来の仮定では困難であった。
興味深いことに, 収縮期血圧 (SBP) は年齢とともに常に上昇し, 拡張期血圧 (DBP) は40歳代で顕著なピークを示した。
さらに,本研究では,人種集団におけるbp分布の類似性について検討した。
この包括的調査は、高血圧に関する現在進行中の談話に寄与し、BP変動を理解する上で、多様な人口統計学的要因を検討することの重要性を強調している。
この結果は、特定の人口統計に合わせたパーソナライズされた医療アプローチを示す貴重な洞察を提供する。 Hypertension remains a global health concern with a rising prevalence, necessitating effective monitoring and understanding of blood pressure (BP) dynamics. This study delves into the wealth of information derived from BP measurement, a crucial approach in informing our understanding of hypertensive trends. Numerous studies have reported on the relationship between BP variation and various factors. In this research, we leveraged an extensive dataset comprising 75 million records spanning two decades, offering a unique opportunity to explore and analyze BP variations across demographic features such as age, race, and gender. Our findings revealed that gender-based BP variation was not statistically significant, challenging conventional assumptions. Interestingly, systolic blood pressure (SBP) consistently increased with age, while diastolic blood pressure (DBP) displayed a distinctive peak in the forties age group. Moreover, our analysis uncovered intriguing similarities in the distribution of BP among some of the racial groups. This comprehensive investigation contributes to the ongoing discourse on hypertension and underscores the importance of considering diverse demographic factors in understanding BP variations. Our results provide valuable insights that may inform personalized healthcare approaches tailored to specific demographic profiles. | 翻訳日:2024-02-05 14:04:04 公開日:2024-02-02 |
# 暗黙的神経表現を用いた没入型ビデオ圧縮 Immersive Video Compression using Implicit Neural Representations ( http://arxiv.org/abs/2402.01596v1 ) ライセンス: Link先を確認 | Ho Man Kwan, Fan Zhang, Andrew Gower, David Bull | (参考訳) 暗黙的ニューラルネットワーク表現(inrs)に関する最近の研究は、従来のビデオコンテンツを効率的に表現しエンコーディングする可能性を示している。
本稿では,新しいINRベースの没入型ビデオコーデックであるMV-HiNeRVを提案することにより,初めて没入型(マルチビュー)ビデオにアプリケーションを拡張した。
MV-HiNeRVは、シングルビュービデオ圧縮用に開発された最先端のINRベースのビデオコーデック、HiNeRVの拡張版である。
ビュー毎に異なる機能グリッドのグループを学習するためにモデルを修正し、学習したネットワークパラメータをすべてのビューで共有しました。
これにより、モデルがマルチビュービデオに存在する時空間とビュー間の冗長性を効果的に活用することができる。
提案コーデックはMPEG Immersive Video (MIV) Common Test Conditionsのマルチビューテクスチャと深度ビデオシーケンスを圧縮するために用いられ、VVenCビデオコーデックを用いたMIVテストモデル(TMIV)に対してテストされた。
その結果、MV-HiNeRVの優れた性能が示され、TMIVよりも72.33%のコーディングが向上した。
MV-HiNeRVの実装は、さらなる開発と評価のために公表される。 Recent work on implicit neural representations (INRs) has evidenced their potential for efficiently representing and encoding conventional video content. In this paper we, for the first time, extend their application to immersive (multi-view) videos, by proposing MV-HiNeRV, a new INR-based immersive video codec. MV-HiNeRV is an enhanced version of a state-of-the-art INR-based video codec, HiNeRV, which was developed for single-view video compression. We have modified the model to learn a different group of feature grids for each view, and share the learnt network parameters among all views. This enables the model to effectively exploit the spatio-temporal and the inter-view redundancy that exists within multi-view videos. The proposed codec was used to compress multi-view texture and depth video sequences in the MPEG Immersive Video (MIV) Common Test Conditions, and tested against the MIV Test model (TMIV) that uses the VVenC video codec. The results demonstrate the superior performance of MV-HiNeRV, with significant coding gains (up to 72.33%) over TMIV. The implementation of MV-HiNeRV will be published for further development and evaluation. | 翻訳日:2024-02-05 14:03:44 公開日:2024-02-02 |
# マイクロモーションによる閉じ込められたイオンの暗共鳴スペクトル Dark resonance spectra of trapped ions under the influence of micromotion ( http://arxiv.org/abs/2402.01594v1 ) ライセンス: Link先を確認 | Nicol\'as Adri\'an Nu\~nez Barreto, Muriel Bonetto, Marcelo Alejandro Luda, Cecilia Cormick, Christian Tom\'as Schmiegelow | (参考訳) 我々は,マイクロモーションがラムダ型レベルスキームで捕捉されたイオンのスペクトルに与える影響について検討し,コヒーレント集団トラップによる暗暗共鳴を導いた。
我々は、リング状のポールトラップに閉じ込められたカルシウムイオンを使って、結晶の1つのイオンに対して過剰なマイクロモーションを補償する。
我々は、マイクロモーションがダーク共鳴の形状に影響を与え、駆動周波数の間隔によって「エチョー」の出現を引き起こすことを観察した。
本稿では,原子運動のマイクロモーション変調の振幅を推定するために,測定値によく適合する理論モデルを提案する。
我々は、スペクトルからイオンの有効温度を推定し、クリアなマイクロモーション加熱と十分な過大なマイクロモーションに対する冷却の障害を観察する。 We study the influence of micromotion on the spectrum of trapped ions with a lambda-type level scheme, leading to dark resonances due to coherent population trapping. We work with calcium ions trapped in a ring-shaped Paul trap, in which one can compensate excess micromotion for only one ion of the crystal. We observe that micromotion affects the shapes of the dark resonances and causes the appearance of "echoes" separated by intervals given by the drive frequency. We present a theoretical model that provides good fits to the measurements and can be used to estimate the amplitude of the micromotion modulation of the atomic motion. We estimate an effective temperature of the ions from the spectra and observe clear micromotion heating as well as impaired cooling for sufficiently large excess micromotion. | 翻訳日:2024-02-05 14:03:23 公開日:2024-02-02 |
# 持続可能な職場メンタルヘルスを目指して : 早期介入と支援への新たなアプローチ Towards Sustainable Workplace Mental Health: A Novel Approach to Early Intervention and Support ( http://arxiv.org/abs/2402.01592v1 ) ライセンス: Link先を確認 | David W. Vinson, Mihael Arcan, David-Paul Niland, Fionn Delahunty | (参考訳) アメリカ心理学会の2021年の報告書は、従業員の71%がストレスや緊張を経験していることを示している。
このストレスは職場の疲労と欠勤に大いに寄与し、61%の疲労と16%の病気の日が精神の健康に悪影響を与えている。
雇用主にとっての最大の課題は、従業員が危機点に達するまでメンタルヘルスの問題に気付いていないことが少なく、企業の幸福な利益の活用が制限されることである。
本研究は,実時間支援を前提としたストレス検出アルゴリズムを提案することで,この問題に対処する。
自動チャットボット技術を活用することで、このアルゴリズムはチャットチャットを分析し、言語バイオマーカーに基づいてリアルタイムでパーソナライズされた治療提案を提供することにより、メンタルヘルスレベルを客観的に測定する。
この研究は、これらのイノベーションを現実のコンテキスト内で実践的な学習アプリケーションに統合する可能性を検討するとともに、より広範な従業員エクスペリエンスプラットフォームに統合されたチャットボットスタイルのシステムを導入する。
このプラットフォームは、様々な特徴を包含し、従業員全体の幸福感を高め、リアルタイムでストレスを検知し、積極的に個人と関わり、早期に支援が提供されると22%の増加を示す。
全体として、この研究は、従業員のメンタルヘルスを支援する職場環境の育成の重要性を強調している。 Employee well-being is a critical concern in the contemporary workplace, as highlighted by the American Psychological Association's 2021 report, indicating that 71% of employees experience stress or tension. This stress contributes significantly to workplace attrition and absenteeism, with 61% of attrition and 16% of sick days attributed to poor mental health. A major challenge for employers is that employees often remain unaware of their mental health issues until they reach a crisis point, resulting in limited utilization of corporate well-being benefits. This research addresses this challenge by presenting a groundbreaking stress detection algorithm that provides real-time support preemptively. Leveraging automated chatbot technology, the algorithm objectively measures mental health levels by analyzing chat conversations, offering personalized treatment suggestions in real-time based on linguistic biomarkers. The study explores the feasibility of integrating these innovations into practical learning applications within real-world contexts and introduces a chatbot-style system integrated into the broader employee experience platform. This platform, encompassing various features, aims to enhance overall employee well-being, detect stress in real time, and proactively engage with individuals to improve support effectiveness, demonstrating a 22% increase when assistance is provided early. Overall, the study emphasizes the importance of fostering a supportive workplace environment for employees' mental health. | 翻訳日:2024-02-05 14:03:09 公開日:2024-02-02 |
# BAT:大規模言語モデルによる空間音の推論学習 BAT: Learning to Reason about Spatial Sounds with Large Language Models ( http://arxiv.org/abs/2402.01591v1 ) ライセンス: Link先を確認 | Zhisheng Zheng, Puyuan Peng, Ziyang Ma, Xie Chen, Eunsol Choi, David Harwath | (参考訳) 空間音の推論は人間の基本的なスキルであり、音に基づいて周囲をナビゲートし解釈することができる。
本稿では,バイノーラル音響シーン解析モデルの空間音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせることで,本能力を再現するBATを提案する。
実空間音の既存のデータセットの欠如に対処するため,オーディオセットとサウンドスペース2.0を用いてバイノーラル音声データセットを合成した。
次に,空間音響に基づく質問応答データセットであるSpatialSoundQAを開発し,空間音知覚と推論の様々な側面において,BATを訓練する様々なQAタスクを提供した。
BATの音響フロントエンドエンコーダは、空間音響スペクトログラム変換器(Spatial Audio Spectrogram Transformer、Spatial-AST)と呼ばれる新しい空間オーディオエンコーダであり、音響事象の検出、空間的局所化、距離推定などを通じて高い性能を達成する。
空間ASTをLLaMA-2 7Bモデルと統合することにより、BATは標準的な音事象の局所化と検出(SELD)タスクを超越し、モデルが環境内の音間の関係を推論できるようにする。
本実験は,空間音知覚と推論の両方においてbatの優れた性能を示し,複雑な空間音響環境のナビゲートと解釈におけるllmの可能性を示す。 Spatial sound reasoning is a fundamental human skill, enabling us to navigate and interpret our surroundings based on sound. In this paper we present BAT, which combines the spatial sound perception ability of a binaural acoustic scene analysis model with the natural language reasoning capabilities of a large language model (LLM) to replicate this innate ability. To address the lack of existing datasets of in-the-wild spatial sounds, we synthesized a binaural audio dataset using AudioSet and SoundSpaces 2.0. Next, we developed SpatialSoundQA, a spatial sound-based question-answering dataset, offering a range of QA tasks that train BAT in various aspects of spatial sound perception and reasoning. The acoustic front end encoder of BAT is a novel spatial audio encoder named Spatial Audio Spectrogram Transformer, or Spatial-AST, which by itself achieves strong performance across sound event detection, spatial localization, and distance estimation. By integrating Spatial-AST with LLaMA-2 7B model, BAT transcends standard Sound Event Localization and Detection (SELD) tasks, enabling the model to reason about the relationships between the sounds in its environment. Our experiments demonstrate BAT's superior performance on both spatial sound perception and reasoning, showcasing the immense potential of LLMs in navigating and interpreting complex spatial audio environments. | 翻訳日:2024-02-05 14:02:44 公開日:2024-02-02 |
# NeuroCine:人間の脳活動から映像を復号する NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties ( http://arxiv.org/abs/2402.01590v1 ) ライセンス: Link先を確認 | Jingyuan Sun, Mingxiao Li, Zijiao Chen, Marie-Francine Moens | (参考訳) 人間の脳の視覚処理の複雑さを理解するために、脳の活動からダイナミックな視覚体験を再構築することは、挑戦的で魅力的な取り組みとして現れます。
近年の進歩は、非侵襲的脳記録から静的画像の再構築に成功したが、連続的な脳活動をビデオ形式に翻訳する領域は未検討のままである。
本稿では,ノイズや空間冗長性,時間的遅延といったfmriデータのデコードに関する本質的な課題を対象とする,新たな2相フレームワークであるneurocineを紹介する。
本フレームワークは、コントラスト学習fMRI表現のための空間マスキングと時間補間に基づく拡張と、映像生成のための先行雑音による拡散モデルを提案する。
SSIMが測定した,fMRIデータセットにおける3つの被験者の脳活動の復号化について,各被験者の脳活動の復号化について,それぞれ${20.97\%}$,${31.00\%}$,${12.30\%}$の顕著なマージンで,従来の最先端モデルを上回る有望な結果を示す。
さらに,本モデルが既存の脳構造や機能と一致し,その生物学的妥当性と解釈可能性を示すことが示唆された。 In the pursuit to understand the intricacies of human brain's visual processing, reconstructing dynamic visual experiences from brain activities emerges as a challenging yet fascinating endeavor. While recent advancements have achieved success in reconstructing static images from non-invasive brain recordings, the domain of translating continuous brain activities into video format remains underexplored. In this work, we introduce NeuroCine, a novel dual-phase framework to targeting the inherent challenges of decoding fMRI data, such as noises, spatial redundancy and temporal lags. This framework proposes spatial masking and temporal interpolation-based augmentation for contrastive learning fMRI representations and a diffusion model enhanced by dependent prior noise for video generation. Tested on a publicly available fMRI dataset, our method shows promising results, outperforming the previous state-of-the-art models by a notable margin of ${20.97\%}$, ${31.00\%}$ and ${12.30\%}$ respectively on decoding the brain activities of three subjects in the fMRI dataset, as measured by SSIM. Additionally, our attention analysis suggests that the model aligns with existing brain structures and functions, indicating its biological plausibility and interpretability. | 翻訳日:2024-02-05 14:02:16 公開日:2024-02-02 |
# TrustAgent:エージェント・コンスティチューションによる安全で信頼できるLDMエージェントを目指して TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent Constitution ( http://arxiv.org/abs/2402.01586v1 ) ライセンス: Link先を確認 | Wenyue Hua, Xianjun Yang, Zelong Li, Cheng Wei, Yongfeng Zhang | (参考訳) llmに基づくエージェントの出現は、かなりの注目を集めているが、信頼度は未調査領域である。
エージェントは物理的な環境と直接対話できるので、信頼性と安全性は重要です。
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
本枠組みは, 計画作成前のモデルに安全知識を注入する事前計画戦略, 計画作成時の安全性を高める内計画戦略, 計画後検査による安全性を確保する後計画戦略からなる。
実験により,これらの手法がLLMエージェントの安全性を効果的に高め,潜在的な危険を識別し,防止する方法を実証する。
さらに, 安全性と利便性の複雑な関係, モデルの推論能力と安全エージェントとしての有効性について検討した。
本稿では,LLMをベースとしたエージェントの設計と展開に安全意識と信頼性を組み込むことが,その性能向上だけでなく,人間中心環境への責任ある統合を確実にするためにも不可欠であることを示す。
データとコードはhttps://github.com/agiresearch/trustagentで入手できる。 The emergence of LLM-based agents has garnered considerable attention, yet their trustworthiness remains an under-explored area. As agents can directly interact with the physical environment, their reliability and safety is critical. This paper presents an Agent-Constitution-based agent framework, TrustAgent, an initial investigation into improving the safety dimension of trustworthiness in LLM-based agents. This framework consists of threefold strategies: pre-planning strategy which injects safety knowledge to the model prior to plan generation, in-planning strategy which bolsters safety during plan generation, and post-planning strategy which ensures safety by post-planning inspection. Through experimental analysis, we demonstrate how these approaches can effectively elevate an LLM agent's safety by identifying and preventing potential dangers. Furthermore, we explore the intricate relationships between safety and helpfulness, and between the model's reasoning ability and its efficacy as a safe agent. This paper underscores the imperative of integrating safety awareness and trustworthiness into the design and deployment of LLM-based agents, not only to enhance their performance but also to ensure their responsible integration into human-centric environments. Data and code are available at https://github.com/agiresearch/TrustAgent. | 翻訳日:2024-02-05 14:01:50 公開日:2024-02-02 |
# 系統推定のための音響変化予測の自動化:ツカノアの事例 Automating Sound Change Prediction for Phylogenetic Inference: A Tukanoan Case Study ( http://arxiv.org/abs/2402.01582v1 ) ライセンス: Link先を確認 | Kalvin Chang, Nathaniel R. Robinson, Anna Cai, Ting Chen, Annie Zhang, David R. Mortensen | (参考訳) 本稿では,(1)コーグネート集合とそれぞれの原形と音律,(2)電話から調音特徴へのマッピング,(3)音変化の類型的データベースを与えられた,言語系統推定を部分的に自動化する一連の新しい手法について述べる。
これらの音変化データのニューラルネットワークを、電話間の重み付け距離に訓練し、歴史的原型とその現代子孫間の中間音変化ステップを予測し、パシモニーベースの系統推論アルゴリズムの一部として言語の専門家を置き換える。
ツカノ語の言語に関する最良の実験では、専門家アノテーションを用いた木から一般四重項距離0.12の木を生産し、他の半自動ベースラインよりも大幅に改善した。
ニューラルアプローチとパーシモニーに基づく木予測に対する潜在的な利点と欠点について論じる。
また,自動法則誘導のための最小限の一般化学習器を試作し,専門家の注釈から音声法則を比較検討した。
私たちのコードはhttps://github.com/cmu-llab/aiscpで公開されています。 We describe a set of new methods to partially automate linguistic phylogenetic inference given (1) cognate sets with their respective protoforms and sound laws, (2) a mapping from phones to their articulatory features and (3) a typological database of sound changes. We train a neural network on these sound change data to weight articulatory distances between phones and predict intermediate sound change steps between historical protoforms and their modern descendants, replacing a linguistic expert in part of a parsimony-based phylogenetic inference algorithm. In our best experiments on Tukanoan languages, this method produces trees with a Generalized Quartet Distance of 0.12 from a tree that used expert annotations, a significant improvement over other semi-automated baselines. We discuss potential benefits and drawbacks to our neural approach and parsimony-based tree prediction. We also experiment with a minimal generalization learner for automatic sound law induction, finding it comparably effective to sound laws from expert annotation. Our code is publicly available at https://github.com/cmu-llab/aiscp. | 翻訳日:2024-02-05 14:01:28 公開日:2024-02-02 |
# 教育のためのジェネレーティブAI(GAIED):進歩、機会、課題 Generative AI for Education (GAIED): Advances, Opportunities, and Challenges ( http://arxiv.org/abs/2402.01580v1 ) ライセンス: Link先を確認 | Paul Denny, Sumit Gulwani, Neil T. Heffernan, Tanja K\"aser, Steven Moore, Anna N. Rafferty, Adish Singla | (参考訳) この調査の論文は、neurips 2023 conferenceで著者らが主催したgaied("guide"と発音する)ワークショップから発展したものだ。
研究者,教育者,実践者たちを集結させ,教育向上のための生成型aiの可能性を探るためのコミュニティ構築活動の一環として,gaiedワークショップを組織した。
本稿では,ワークショップ活動の概要と,GAIED領域における今後の研究方向性について紹介する。 This survey article has grown out of the GAIED (pronounced "guide") workshop organized by the authors at the NeurIPS 2023 conference. We organized the GAIED workshop as part of a community-building effort to bring together researchers, educators, and practitioners to explore the potential of generative AI for enhancing education. This article aims to provide an overview of the workshop activities and highlight several future research directions in the area of GAIED. | 翻訳日:2024-02-05 14:01:09 公開日:2024-02-02 |
# パラリンガルはいかにパラリンガル表現か?
音声感情認識における事例研究 How Paralingual are Paralinguistic Representations? A Case Study in Speech Emotion Recognition ( http://arxiv.org/abs/2402.01579v1 ) ライセンス: Link先を確認 | Orchid Chetia Phukan, Gautam Siddharth Kashyap, Arun Balaji Buduru, Rajesh Sharma | (参考訳) 事前学習モデル (PTM) は, 音声感情認識 (SER) の分野で大きく進歩している。
SERはHumanComputer InteractionからHealthcareまで幅広い応用分野である。
近年の研究では、SERの下流モデルの入力特徴として様々なPTM表現を活用している。
パラ言語タスク用に特別に訓練されたPTMは、SERの最先端(SOTA)性能を得た。
しかし、そのようなPTMは多言語環境では評価されておらず、英語のみで実験した。
そこで我々は,複数の言語にまたがるサーに対する副言語的ptm (trillsson) の有効性を評価するために,5つのptm (trillsson, wav2vec2, xls-r, x-vector, whisper) の包括的比較研究を行った。
TRILLssonの表現は全てのPTMの中で最高のパフォーマンスを達成した。
これは、TRILLssonが音声データから様々なパラ言語的特徴を効果的に捉え、SERをより良くすることを示す。
また, TRILLsson表現を用いた下流モデルにより, 様々な多言語データセットの精度でSOTA性能が得られることを示す。 Pre-trained Models (PTMs) have facilitated substantial progress in the field of Speech Emotion Recognition (SER). SER is an area with applications ranging from HumanComputer Interaction to Healthcare. Recent studies have leveraged various PTM representations as input features for downstream models for SER. PTM specifically pre-trained for paralinguistic tasks have obtained state-of-the-art (SOTA) performance for SER. However, such PTM haven't been evaluated for SER in multilingual settings and experimented only with English. So, we fill this gap, by performing a comprehensive comparative study of five PTMs (TRILLsson, wav2vec2, XLS-R, x-vector, Whisper) for assessing the effectiveness of paralingual PTM (TRILLsson) for SER across multiple languages. Representations from TRILLsson achieved the best performance among all the PTMs. This demonstrates that TRILLsson is able to effectively capture the various paralinguistic features from speech data for better SER. We also show that downstream models using TRILLsson representations achieve SOTA performance in terms of accuracy across various multi-lingual datasets. | 翻訳日:2024-02-05 14:01:01 公開日:2024-02-02 |
# twisted unitary $t$-groups による自由量子符号 Free Quantum Codes from Twisted Unitary $t$-groups ( http://arxiv.org/abs/2402.01638v1 ) ライセンス: Link先を確認 | Eric Kubischta, Ian Teixeira | (参考訳) ツイスト付きユニタリ$t$-群は、既約表現によるツイスト化の下でのユニタリ$t$-群の一般化である。
次に、Knill-Laflamme誤差補正条件に表現論的手法を適用し、ねじれたユニタリ$t$-群が距離$d=t+1$の量子符号に自動的に対応することを示す。
これらのコードには多くのトランスバーサルゲートがあり、それらは本質的にフォールトトレラントである。 We introduce twisted unitary $t$-groups, a generalization of unitary $t$-groups under a twisting by an irreducible representation. We then apply representation theoretic methods to the Knill-Laflamme error correction conditions to show that twisted unitary $t$-groups automatically correspond to quantum codes with distance $d=t+1$. By construction these codes have many transversal gates, which are naturally fault tolerant. | 翻訳日:2024-02-05 13:51:59 公開日:2024-02-02 |
# 自動不確実性定量化と可変選択による条件平均と変数推定のためのkNNアルゴリズム kNN Algorithm for Conditional Mean and Variance Estimation with Automated Uncertainty Quantification and Variable Selection ( http://arxiv.org/abs/2402.01635v1 ) ライセンス: Link先を確認 | Marcos Matabuena, Juan C. Vidal, Oscar Hernan Madrid Padilla, Jukka-Pekka Onnela | (参考訳) 本稿では、従来の非パラメトリックkNNモデルのスケーラビリティと適応性を新しい変数選択手法で相乗化するkNNに基づく回帰手法を提案する。
本手法は, 条件平均と確率応答変数の分散を正確に推定し, 様々なシナリオにまたがる条件分布を効果的に特徴づけることに重点を置いている。
kNNの使用により、最適な非パラメトリックレートに従って間隔と統計的精度を予測するためのスケーラブルな計算効率が保証される。
さらに、共変量を考慮したROC曲線推定のための新しいkNN半パラメトリックアルゴリズムを導入する。
パラメータ k をスムースにするための理論的保証付きアルゴリズムを提案し,様々なモデリングタスクにおける従来の kNN 手法に比べて,変数選択の組み込みにより手法の性能が著しく向上する。
低, 中, 高次元共変量空間におけるシミュレーションによるアプローチの検証を行う。
このアルゴリズムの有効性は、2つのケーススタディで示されているように、特にバイオメディカル応用において顕著である。
理論的解析の結果,本手法は従来のknnモデルよりも一貫性と収束率,特に低次元空間における回帰モデルが値を取る場合に注目される。 In this paper, we introduce a kNN-based regression method that synergizes the scalability and adaptability of traditional non-parametric kNN models with a novel variable selection technique. This method focuses on accurately estimating the conditional mean and variance of random response variables, thereby effectively characterizing conditional distributions across diverse scenarios.Our approach incorporates a robust uncertainty quantification mechanism, leveraging our prior estimation work on conditional mean and variance. The employment of kNN ensures scalable computational efficiency in predicting intervals and statistical accuracy in line with optimal non-parametric rates. Additionally, we introduce a new kNN semi-parametric algorithm for estimating ROC curves, accounting for covariates. For selecting the smoothing parameter k, we propose an algorithm with theoretical guarantees.Incorporation of variable selection enhances the performance of the method significantly over conventional kNN techniques in various modeling tasks. We validate the approach through simulations in low, moderate, and high-dimensional covariate spaces. The algorithm's effectiveness is particularly notable in biomedical applications as demonstrated in two case studies. Concluding with a theoretical analysis, we highlight the consistency and convergence rate of our method over traditional kNN models, particularly when the underlying regression model takes values in a low-dimensional space. | 翻訳日:2024-02-05 13:51:51 公開日:2024-02-02 |
# 長尺を超える:あらゆるタイプの未知のハイパーパラメータによるベイズ最適化 Beyond Lengthscales: No-regret Bayesian Optimisation With Unknown Hyperparameters Of Any Type ( http://arxiv.org/abs/2402.01632v1 ) ライセンス: Link先を確認 | Juliusz Ziomek, Masaki Adachi, Michael A. Osborne | (参考訳) ベイズ最適化はガウスのプロセスモデルに適合する必要があり、これは代わりにハイパーパラメータの指定を必要とする。
ガウス過程のハイパーパラメーターに対する一般的に用いられる最大極大推定器は、データが空間を均一に満たす場合に限り一貫したものであり、ベイズ最適化ではそうはならない。
ハイパーパラメータ推定の正確性に関する保証はなく、これらのハイパーパラメータはガウス過程の適合性に大きな影響を与える可能性があるため、未知のハイパーパラメータによるベイズ最適化の理論解析は非常に難しい。
従来提案された非regret特性を持つアルゴリズムは、未知の長さスケールの特別なケースのみを扱うことができ、カーネルヒルベルト空間ノルムを再現し、頻繁なケースにのみ適用できた。
本稿では,任意の形状の未知のハイパーパラメータの場合の非回帰特性を初めて享受するアルゴリズムであるHE-GP-UCBを提案し,ベイズ的および頻繁な設定をサポートする。
我々の証明アイデアは新しく、ベイズ最適化の他の変種にも容易に拡張できる。
我々はアルゴリズムを未知のハイパーパラメータ下での可逆ロバストな最適化設定に拡張することでこれを示す。
最後に, 玩具問題に対して経験的にアルゴリズムを評価し, 最大確率推定値を上回ることができることを示した。 Bayesian optimisation requires fitting a Gaussian process model, which in turn requires specifying hyperparameters - most of the theoretical literature assumes those hyperparameters are known. The commonly used maximum likelihood estimator for hyperparameters of the Gaussian process is consistent only if the data fills the space uniformly, which does not have to be the case in Bayesian optimisation. Since no guarantees exist regarding the correctness of hyperparameter estimation, and those hyperparameters can significantly affect the Gaussian process fit, theoretical analysis of Bayesian optimisation with unknown hyperparameters is very challenging. Previously proposed algorithms with the no-regret property were only able to handle the special case of unknown lengthscales, reproducing kernel Hilbert space norm and applied only to the frequentist case. We propose a novel algorithm, HE-GP-UCB, which is the first algorithm enjoying the no-regret property in the case of unknown hyperparameters of arbitrary form, and which supports both Bayesian and frequentist settings. Our proof idea is novel and can easily be extended to other variants of Bayesian optimisation. We show this by extending our algorithm to the adversarially robust optimisation setting under unknown hyperparameters. Finally, we empirically evaluate our algorithm on a set of toy problems and show that it can outperform the maximum likelihood estimator. | 翻訳日:2024-02-05 13:51:27 公開日:2024-02-02 |
# 分子ハミルトニアンの変分量子固有解法の切断法 Truncation technique for variational quantum eigensolver for Molecular Hamiltonians ( http://arxiv.org/abs/2402.01630v1 ) ライセンス: Link先を確認 | Qidong Xu, Kanav Setia | (参考訳) 変分量子固有解法(VQE)は、近時雑音型中間規模量子(NISQ)デバイスにおいて最も有望な量子アルゴリズムの1つである。
VQEは通常、パラメタライズド量子アンサッツの古典的な最適化を通じて量子ハミルトンの最小エネルギーを見つける。
VQEのボトルネックの1つは、測定される量子回路の数である。
そこで本研究では, 切断されたハミルトニアンを用いて最適化手順を開始し, 作用素分類法によって元のハミルトニアンの最適化に徐々に移行する, 物理的に直感的な切断手法を提案する。
この戦略により、量子コンピュータ上でのハミルトニアンの期待値に対する必要な評価回数を減らすことができる。
我々の戦略に必要な量子リソースの削減は相当であり、おそらくシステムのサイズとともにスケールする。
数値シミュレーションにより, 種々の分子系に対する手法を実証する。 The variational quantum eigensolver (VQE) is one of the most promising quantum algorithms for the near-term noisy intermediate-scale quantum (NISQ) devices. The VQE typically involves finding the minimum energy of a quantum Hamiltonian through classical optimization of a parametrized quantum ansatz. One of the bottlenecks in VQEs is the number of quantum circuits to be measured. In this work, we propose a physically intuitive truncation technique that starts the optimization procedure with a truncated Hamiltonian and then gradually transitions to the optimization for the original Hamiltonian via an operator classification method. This strategy allows us to reduce the required number of evaluations for the expectation value of Hamiltonian on a quantum computer. The reduction in required quantum resources for our strategy is substantial and likely scales with the system size. With numerical simulations, we demonstrate our method for various molecular systems. | 翻訳日:2024-02-05 13:51:04 公開日:2024-02-02 |
# ポジションペーパー:文法規則の一般化と古典的等式を超えた構造的一般化 Position Paper: Generalized grammar rules and structure-based generalization beyond classical equivariance for lexical tasks and transduction ( http://arxiv.org/abs/2402.01629v1 ) ライセンス: Link先を確認 | Mircea Petrache, Shubhendu Trivedi | (参考訳) 構成一般化は、人間の語彙学習と最先端のニューラルネットワークを区別する主な特性の1つである。
本稿では,変換タスクに対する対称性に基づく構成制約のクラスである一般化文法規則(ggrs)の概念を用いて,合成を一般化できるモデルを構築するための汎用的枠組みを提案する。
言語変換の対称性の一般化概念を定式化することに加えて、我々のフレームワークは、多くの既存の作品を特別なケースとして含むのに十分なほど一般的である。
我々は、GGRの実装方法に関するアイデアを提示し、その過程で強化学習やその他の研究分野との関連性を引き出す。 Compositional generalization is one of the main properties which differentiates lexical learning in humans from state-of-art neural networks. We propose a general framework for building models that can generalize compositionally using the concept of Generalized Grammar Rules (GGRs), a class of symmetry-based compositional constraints for transduction tasks, which we view as a transduction analogue of equivariance constraints in physics-inspired tasks. Besides formalizing generalized notions of symmetry for language transduction, our framework is general enough to contain many existing works as special cases. We present ideas on how GGRs might be implemented, and in the process draw connections to reinforcement learning and other areas of research. | 翻訳日:2024-02-05 13:50:49 公開日:2024-02-02 |
# 渦量子状態の空間的相関 Spatial correlations of vortex quantum states ( http://arxiv.org/abs/2402.01627v1 ) ライセンス: Link先を確認 | Eduardo Zubizarreta Casalengua and Fabrice P. Laussy | (参考訳) 異なる量子状態やボース統計やフェルミ統計を用いて渦の空間相関を研究する。
これは、光学渦とマイクロキャビティ・ポラリトンのような凝縮マター、あるいは、数粒子レベルで宇宙空間の磁場を準備および画像化できるプラットフォームの両方に関係している。
本研究は, フォーマリズムの図示として, ボソンの空間凝縮の予期せぬ特徴を明らかにするものであるが, ボソンの両面的な分布は, フェミオンよりも40%以上離れているか, あるいは対向的な空間相関でコヒーレントな状態のように振る舞う。
このような実験は、非制御の極端環境(恒星と核)において、実験室で成功したテクニックをアップグレードする。 We study spatial correlations of vortices in different quantum states or with Bose or Fermi statistics. This is relevant for both optical vortices and condensed-matter ones such as microcavity polaritons, or any platform that can prepare and image fields in space at the few-particle level. While we focus on this particular case for illustration of the formalism, we already reveal unexpected features of spatial condensation whereby bosons exhibit a bimodal distribution of their distances which places them farther apart than fermions in over 40% of the cases, or on the opposite conceal spatial correlations to behave like coherent states. Such experiments upgrade in the laboratory successful techniques in uncontrolled extreme environments (stars and nuclei). | 翻訳日:2024-02-05 13:50:35 公開日:2024-02-02 |
# 量子イマジナリー時間進化による連結非線形Schr\"{o}dinger方程式の解法 Solving coupled Non-linear Schr\"{o}dinger Equations via Quantum Imaginary Time Evolution ( http://arxiv.org/abs/2402.01623v1 ) ライセンス: Link先を確認 | Yang Hong Li, Jim Al-Khalili, Paul Stevenson | (参考訳) 結合された非線形schr\"{o}dinger方程式は、多くの粒子系のダイナミクスを記述する上で重要である。
核ハートリー・フォック方程式の場合、そのような方程式の解として量子虚時発展(ite)アルゴリズムを提案する。
単純化されたスカイム相互作用モデルの下で、酸素-16核の基底状態エネルギーを計算し、その結果が古典的ITTアルゴリズムと一致することを示す。 Coupled non-linear Schr\"{o}dinger equations are crucial in describing dynamics of many particle systems. We present a quantum imaginary time evolution (ITE) algorithm as a solution to such equations in the case of nuclear Hartree-Fock equations. Under a simplified Skyrme interaction model, we calculate the ground state energy of an oxygen-16 nucleus and demonstrate that the result is in agreement with the classical ITE algorithm. | 翻訳日:2024-02-05 13:50:20 公開日:2024-02-02 |
# TravelPlanner: 言語エージェントによる実世界の計画ベンチマーク TravelPlanner: A Benchmark for Real-World Planning with Language Agents ( http://arxiv.org/abs/2402.01622v1 ) ライセンス: Link先を確認 | Jian Xie, Kai Zhang, Jiangjie Chen, Tinghui Zhu, Renze Lou, Yuandong Tian, Yanghua Xiao, Yu Su | (参考訳) 計画はその概念以来、人工知能のコアな追求の一部であるが、初期のaiエージェントは、人間レベルの計画に必要な認知基質の多くが不足しているため、制約のある設定に重点を置いていた。
近年,大規模言語モデル(llms)を活用した言語エージェントが,ツールの使用や推論といった興味深い機能を示している。
これらの言語エージェントは、以前のAIエージェントの範囲外にある、より複雑な設定で計画できるのでしょうか?
本研究を進めるために,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするための様々なツール、細心の注意深い計画の意図と参照計画を提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
言語エージェントはタスクに留まるのに苦労し、適切なツールを使って情報を集め、複数の制約を追跡する。
しかし、そのような複雑な問題に言語エージェントが取り組む可能性は、それ自体は自明な進歩である。
travelplannerは将来の言語エージェントに対して、挑戦的で有意義なテストベッドを提供する。 Planning has been part of the core pursuit for artificial intelligence since its conception, but earlier AI agents mostly focused on constrained settings because many of the cognitive substrates necessary for human-level planning have been lacking. Recently, language agents powered by large language models (LLMs) have shown interesting capabilities such as tool use and reasoning. Are these language agents capable of planning in more complex settings that are out of the reach of prior AI agents? To advance this investigation, we propose TravelPlanner, a new planning benchmark that focuses on travel planning, a common real-world planning scenario. It provides a rich sandbox environment, various tools for accessing nearly four million data records, and 1,225 meticulously curated planning intents and reference plans. Comprehensive evaluations show that the current language agents are not yet capable of handling such complex planning tasks-even GPT-4 only achieves a success rate of 0.6%. Language agents struggle to stay on task, use the right tools to collect information, or keep track of multiple constraints. However, we note that the mere possibility for language agents to tackle such a complex problem is in itself non-trivial progress. TravelPlanner provides a challenging yet meaningful testbed for future language agents. | 翻訳日:2024-02-05 13:50:13 公開日:2024-02-02 |
# 深部モデルゼロ階最適化のための確率的2点法 Stochastic Two Points Method for Deep Model Zeroth-order Optimization ( http://arxiv.org/abs/2402.01621v1 ) ライセンス: Link先を確認 | Yijiang Pang, Jiayu Zhou | (参考訳) 大きな言語モデルのような大きな基盤モデルは、様々なアプリケーションシナリオにおいて非常によく機能しています。
ハードウェアの予算やバックプロパゲーションへのアクセスの欠如により、そのような大型モデルの構築や完全微調整は禁止される。
ゼロ階法はこの課題に取り組む上で有望な方向を提供し、モデルの更新には前方通過のみが必要となる。
本稿では, 勾配自由状態下での効率的な確率的2点(S2P)アプローチを提案する。
一般および緩和された滑らか性仮定の下で、S2Pの理論収束性を示す。
理論的性質は、より高速で安定なS2P変種であるAS2P(Accelerated S2P)にも光を当て、トレーニング中の深層モデルのダイナミクスをより良く表現する新しい収束特性を活用しました。
総合的な実験結果から,as2pは言語モデルを含む大規模深層モデルの目標を最適化するのに非常に効果的であり,様々なモデルタイプやスケールで標準メソッドを上回っており,ほとんどのタスクに対して2ドルの$\times$ のトレーニングスピードアップが達成されている。 Large foundation models, such as large language models, have performed exceptionally well in various application scenarios. Building or fully fine-tuning such large models is usually prohibitive due to either hardware budget or lack of access to backpropagation. The zeroth-order methods offer a promising direction for tackling this challenge, where only forward passes are needed to update the model. This paper introduces an efficient Stochastic Two-Point (S2P) approach within the gradient-free regime. We present the theoretical convergence properties of S2P under the general and relaxed smoothness assumptions. The theoretical properties also shed light on a faster and more stable S2P variant, Accelerated S2P (AS2P), through exploiting our new convergence properties that better represent the dynamics of deep models in training. Our comprehensive empirical results show that AS2P is highly effective in optimizing objectives for large deep models, including language models, and outperforms standard methods across various model types and scales, with 2 $\times$ speed-up in training over most conducted tasks. | 翻訳日:2024-02-05 13:49:53 公開日:2024-02-02 |
# MAGDi:小型言語モデルの推論を改善するマルチエージェント相互作用グラフの構造的蒸留 MAGDi: Structured Distillation of Multi-Agent Interaction Graphs Improves Reasoning in Smaller Language Models ( http://arxiv.org/abs/2402.01620v1 ) ライセンス: Link先を確認 | Justin Chih-Yao Chen, Swarnadeep Saha, Elias Stengel-Eskin, Mohit Bansal | (参考訳) 大規模言語モデル(llm)エージェント間のマルチエージェントインタラクションは、さまざまな推論タスクにおいて大きな改善を示している。
しかし、これらには複数のモデルから複数のラウンドにわたる長い世代があり、費用がかかる。
さらに、これらのマルチエージェントアプローチは、効率的な推論のために最終的な単一モデルを提供しない。
そこで我々は,複数のLDM間の推論相互作用をより小さなLMに構造化した新しい蒸留法MAGDiを紹介する。
magdiは、グラフとしてマルチエージェントインタラクションを表現し、グラフエンコーダでベース学生モデルを強化し、次の予測、正しい推論と間違った推論の対比的損失、相互作用構造をモデル化するためのグラフベースの目的という3つの目的関数を使って知識を蒸留することで、より小さなモデルを教える。
広く使われている7つのコモンセンスと数学推論ベンチマークの実験は、magdiが小さなモデルの推論能力を改善し、単一の教師と複数の教師から蒸留するいくつかの方法よりも優れていることを示している。
さらにmagdiは、教師よりも効率が桁違いに高いことも示している。
我々は,magdiがドメイン外タスクの一般化性を高めること,(2)学生モデルのサイズと強度に正のスケールでスケールすること,(3)自己一貫性を適用した場合に(マルチテアトレーニングを通じて)より大きな改善(モデル多様性に依存する推論技術)を得ること,など,広範な分析を行う。 Multi-agent interactions between Large Language Model (LLM) agents have shown major improvements on diverse reasoning tasks. However, these involve long generations from multiple models across several rounds, making them expensive. Moreover, these multi-agent approaches fail to provide a final, single model for efficient inference. To address this, we introduce MAGDi, a new method for structured distillation of the reasoning interactions between multiple LLMs into smaller LMs. MAGDi teaches smaller models by representing multi-agent interactions as graphs, augmenting a base student model with a graph encoder, and distilling knowledge using three objective functions: next-token prediction, a contrastive loss between correct and incorrect reasoning, and a graph-based objective to model the interaction structure. Experiments on seven widely-used commonsense and math reasoning benchmarks show that MAGDi improves the reasoning capabilities of smaller models, outperforming several methods that distill from a single teacher and multiple teachers. Moreover, MAGDi also demonstrates an order of magnitude higher efficiency over its teachers. We conduct extensive analyses to show that MAGDi (1) enhances the generalizability to out-of-domain tasks, (2) scales positively with the size and strength of the base student model, and (3) obtains larger improvements (via our multi-teacher training) when applying self-consistency - an inference technique that relies on model diversity. | 翻訳日:2024-02-05 13:49:33 公開日:2024-02-02 |
# KB-Plugin:低リソースの知識ベース上でプログラムを誘導する大規模言語モデルのためのプラグイン・アンド・プレイフレームワーク KB-Plugin: A Plug-and-play Framework for Large Language Models to Induce Programs over Low-resourced Knowledge Bases ( http://arxiv.org/abs/2402.01619v1 ) ライセンス: Link先を確認 | Jiajie Zhang, Shulin Cao, Linmei Hu, Ling Feng, Lei Hou, Juanzi Li | (参考訳) プログラムインダクション(pi)は、大規模言語モデル(llm)が複雑な知識集約的な質問に答えるのを助けるために知識ベース(kbs)を使用する有望なパラダイムとなっている。
しかしながら、PIは通常、LLMが与えられたKBのスキーマを認識させるために、多数の並列な質問プログラムペアに依存しているため、注釈付きデータを持たない多くの低リソースKBでは困難である。
そこで我々は,llmが低リソースkbに対してプログラムを誘導できるプラグイン・アンド・プレイフレームワークkb-pluginを提案する。
まず、KB-Pluginは自己教師付き学習を採用し、特定のKBの詳細なスキーマ情報をプラグイン可能なモジュール、すなわちスキーマプラグインにエンコードする。
第2に、KB-PluginはリッチリソースKBからの豊富な注釈付きデータを利用して別のプラグインモジュール、つまりPIプラグインを訓練し、LLMは任意のKBのスキーマプラグインから質問関連スキーマ情報を抽出し、この情報を利用してKB上のプログラムを誘導する。
5つの異種KBQAデータセットの実験により、KB-Pluginは低リソースKBのSoTA PI法と比較して25$\times$小さいバックボーンLPMでより良いあるいは同等のパフォーマンスを達成し、教師付きメソッドのパフォーマンスにもアプローチしている。
私たちのコードとデータはhttps://github.com/thu-keg/kb-pluginで入手できます。 Program induction (PI) has become a promising paradigm for using knowledge bases (KBs) to help large language models (LLMs) answer complex knowledge-intensive questions. Nonetheless, PI typically relies on a large number of parallel question-program pairs to make the LLM aware of the schema of the given KB, and is thus challenging for many low-resourced KBs that lack annotated data. To this end, we propose KB-Plugin, a plug-and-play framework that enables LLMs to induce programs over any low-resourced KB. Firstly, KB-Plugin adopts self-supervised learning to encode the detailed schema information of a given KB into a pluggable module, namely schema plugin. Secondly, KB-Plugin utilizes abundant annotated data from a rich-resourced KB to train another pluggable module, namely PI plugin, which can help the LLM extract question-relevant schema information from the schema plugin of any KB and utilize this information to induce programs over this KB. Experiments on five heterogeneous KBQA datasets show that KB-Plugin achieves better or comparable performance with 25$\times$ smaller backbone LLM compared to SoTA PI methods for low-resourced KBs, and even approaches the performance of supervised methods. Our code and data are available at https://github.com/THU-KEG/KB-Plugin. | 翻訳日:2024-02-05 13:49:07 公開日:2024-02-02 |
# 生成型大言語モデルを操るスタイルベクトル Style Vectors for Steering Generative Large Language Model ( http://arxiv.org/abs/2402.01618v1 ) ライセンス: Link先を確認 | Kai Konen, Sophie Jentzsch, Diaoul\'e Diallo, Peer Sch\"utt, Oliver Bensch, Roxanne El Baff, Dominik Opitz, Tobias Hecking | (参考訳) 本研究では,テキスト生成中に隠れたレイヤのアクティベーションにスタイルベクトルを追加することで,感情や感情,文章スタイルなどの特定のスタイルに対して,大規模言語モデル(LLM)の出力を操る戦略について検討する。
より複雑なトレーニングベースアプローチとは対照的に,入力テキストに対する記録された層アクティベーションから,スタイルベクトルを簡易に計算できることを示す。
一連の実験を通じて,このようなスタイルベクトルを用いたアクティベーションエンジニアリングの有効性を実証し,生成したテキストのスタイルにニュアンス的かつパラメータ可能な方法で影響を与え,それとプロンプトエンジニアリングを区別する。
提案した研究は、より適応的で効果的なAIを活用したインタラクティブシステムを開発するための重要なステップとなる。 This research explores strategies for steering the output of large language models (LLMs) towards specific styles, such as sentiment, emotion, or writing style, by adding style vectors to the activations of hidden layers during text generation. We show that style vectors can be simply computed from recorded layer activations for input texts in a specific style in contrast to more complex training-based approaches. Through a series of experiments, we demonstrate the effectiveness of activation engineering using such style vectors to influence the style of generated text in a nuanced and parameterisable way, distinguishing it from prompt engineering. The presented research constitutes a significant step towards developing more adaptive and effective AI-empowered interactive systems. | 翻訳日:2024-02-05 13:48:38 公開日:2024-02-02 |
# gpベースのロバスト動作計画フレームワークによる未知環境における自律型ロボットのナビゲーションとリカバリ A GP-based Robust Motion Planning Framework for Agile Autonomous Robot Navigation and Recovery in Unknown Environments ( http://arxiv.org/abs/2402.01617v1 ) ライセンス: Link先を確認 | Nicholas Mohammad, Jacob Higgins, Nicola Bezzo | (参考訳) 自律移動ロボットでは、環境やシステムモデルの不確実性が動作計画パイプラインの障害につながり、潜在的な衝突を引き起こす可能性がある。
高いレベルの堅牢な自律性を達成するために、これらのロボットは積極的にそのような失敗を予測し、回復することができるべきである。
そこで本研究では,将来の動作計画失敗のリスクを積極的に検出するガウスプロセス(GP)モデルを提案する。
このリスクが一定の閾値を超えると、同じgpモデルを利用してロボットが目標に向かって継続する安全な状態を見つけるリカバリ動作がトリガーされる。
提案手法はシミュレーションのみで訓練され,さまざまなロボットプラットフォーム上で現実環境に一般化することができる。
シミュレーションと物理実験により、我々のフレームワークは計画立案者の失敗を予測できると同時に、計画立案者の成功の可能性を示すためにロボットを回復できることを示した。 For autonomous mobile robots, uncertainties in the environment and system model can lead to failure in the motion planning pipeline, resulting in potential collisions. In order to achieve a high level of robust autonomy, these robots should be able to proactively predict and recover from such failures. To this end, we propose a Gaussian Process (GP) based model for proactively detecting the risk of future motion planning failure. When this risk exceeds a certain threshold, a recovery behavior is triggered that leverages the same GP model to find a safe state from which the robot may continue towards the goal. The proposed approach is trained in simulation only and can generalize to real world environments on different robotic platforms. Simulations and physical experiments demonstrate that our framework is capable of both predicting planner failures and recovering the robot to states where planner success is likely, all while producing agile motion. | 翻訳日:2024-02-05 13:48:26 公開日:2024-02-02 |
# L2G2G:グラフオートエンコーダを組み込んだスケーラブルなローカル-グローバルネットワーク L2G2G: a Scalable Local-to-Global Network Embedding with Graph Autoencoders ( http://arxiv.org/abs/2402.01614v1 ) ライセンス: Link先を確認 | Ruikang Ouyang, Andrew Elliott, Stratis Limnios, Mihai Cucuringu, Gesine Reinert | (参考訳) 実世界のネットワークを分析するために、グラフ表現学習は人気のあるツールである。
グラフオートエンコーダ(GAE)のようなこれらの手法は通常、損失関数の最小化によって得られる低次元表現(埋め込みとも呼ばれる)に依存し、これらの埋め込みはノード分類やエッジ予測などの下流タスクのためのデコーダとして使用される。
GAEはかなり正確だが、スケーラビリティの問題に悩まされている。
高速化のために、固有ベクトル同期に基づくグラフパッチ埋め込みを組み合わせたlocal2globalアプローチが高速であり、精度が向上した。
本稿では,スケーラビリティを犠牲にすることなくGAE精度を向上させるLocal2Global法であるL2G2Gを提案する。
この改善は、GAEをトレーニングしながら潜在ノード表現を動的に同期させることによって達成される。
また、ローカルなパッチ損失のみをデコーダで処理することでメリットも享受できる。
したがって、各エポックにローカルな埋め込みをアライメントすることは、スケーラビリティを維持しながら、1つのトレーニング後のアライメントよりも多くの情報をグラフから利用します。
我々は,l2g2gが標準のlocal2globalアプローチよりも高い精度を達成し,大規模データセット上で効率的にスケールできることを実例と同様に合成ベンチマークで示す。
巨大で高密度なネットワークでは、遅いがより正確なGAEよりも優れています。 For analysing real-world networks, graph representation learning is a popular tool. These methods, such as a graph autoencoder (GAE), typically rely on low-dimensional representations, also called embeddings, which are obtained through minimising a loss function; these embeddings are used with a decoder for downstream tasks such as node classification and edge prediction. While GAEs tend to be fairly accurate, they suffer from scalability issues. For improved speed, a Local2Global approach, which combines graph patch embeddings based on eigenvector synchronisation, was shown to be fast and achieve good accuracy. Here we propose L2G2G, a Local2Global method which improves GAE accuracy without sacrificing scalability. This improvement is achieved by dynamically synchronising the latent node representations, while training the GAEs. It also benefits from the decoder computing an only local patch loss. Hence, aligning the local embeddings in each epoch utilises more information from the graph than a single post-training alignment does, while maintaining scalability. We illustrate on synthetic benchmarks, as well as real-world examples, that L2G2G achieves higher accuracy than the standard Local2Global approach and scales efficiently on the larger data sets. We find that for large and dense networks, it even outperforms the slow, but assumed more accurate, GAEs. | 翻訳日:2024-02-05 13:48:11 公開日:2024-02-02 |
# Nomic Embed: 再現可能な長文埋め込みのトレーニング Nomic Embed: Training a Reproducible Long Context Text Embedder ( http://arxiv.org/abs/2402.01613v1 ) ライセンス: Link先を確認 | Zach Nussbaum and John X. Morris and Brandon Duderstadt and Andriy Mulyar | (参考訳) この技術レポートでは、OpenAI Ada-002とOpenAI Text-embedding-3-smallの両方をショートおよびロングコンテキストタスクで上回る、完全な再現性、オープンソース、オープンウェイト、オープンデータ、8192コンテキスト長の英語テキスト埋め込みモデルであるnomic-embed-text-v1のトレーニングについて説明する。
トレーニングコードとモデルの重み付けをApache 2ライセンスでリリースしています。
他のオープンソースモデルとは対照的に、2億3500万のキュレートされたテキストペアを持つトレーニングデータローダをリリースし、nomic-embed-text-v1の完全なレプリケーションを可能にします。
モデルはhttps://github.com/nomic-ai/contrastorsで複製できる。 This technical report describes the training of nomic-embed-text-v1, the first fully reproducible, open-source, open-weights, open-data, 8192 context length English text embedding model that outperforms both OpenAI Ada-002 and OpenAI text-embedding-3-small on short and long-context tasks. We release the training code and model weights under an Apache 2 license. In contrast with other open-source models, we release a training data loader with 235 million curated text pairs that allows for the full replication of nomic-embed-text-v1. You can find code and data to replicate the model at https://github.com/nomic-ai/contrastors | 翻訳日:2024-02-05 13:47:49 公開日:2024-02-02 |
# VRを用いた手動物体追跡モデルの訓練のための光リアル合成データの生成 VR-based generation of photorealistic synthetic data for training hand-object tracking models ( http://arxiv.org/abs/2401.17874v2 ) ライセンス: Link先を確認 | Chengyan Zhang, Rahul Chaudhari | (参考訳) 3次元のハンドオブジェクトインタラクション(HOI)を正確に追跡するための教師付き学習モデルは、トレーニングのために大量のアノテートデータを必要とする。
さらに、非専門家が2D画像に3D基底真理(例えば6DoFオブジェクトポーズ)をラベル付けるのは直感的ではない。
これらの問題に対処するため,Blender ソフトウェアに基づく対話型合成データ生成装置 "blender-hoisynth" を提案する。
Blender-hoisynthは、視覚HOIトレーニングデータを生成し、自動的に注釈付けすることができる。
他の競合するアプローチは通常、人間の入力を伴わない合成HOIデータを生成する。
これはいくつかのシナリオで有用であるが、HOIアプリケーションは人間の意図の表現としてHOIを直接制御する必要がある。
blender-hoisynthでは、ユーザーは標準的なバーチャルリアリティーハードウェアを使ってバーチャルハンドでオブジェクトと対話することができる。
合成されたデータは、高度なフォトリアリズムによって特徴づけられ、視覚的に可視かつ物理的にリアルな映像を含み、物体をつかんで3Dで動き回っている。
私たちのデータ生成の有効性を示すために、よく知られたdexycbデータセットのトレーニングデータの大部分をhoisynthデータに置き換え、最先端のhoiリコンストラクションモデルをトレーニングします。
データ置換にもかかわらず,モデル性能の大幅な低下は認められていない。 Supervised learning models for precise tracking of hand-object interactions (HOI) in 3D require large amounts of annotated data for training. Moreover, it is not intuitive for non-experts to label 3D ground truth (e.g. 6DoF object pose) on 2D images. To address these issues, we present "blender-hoisynth", an interactive synthetic data generator based on the Blender software. Blender-hoisynth can scalably generate and automatically annotate visual HOI training data. Other competing approaches usually generate synthetic HOI data compeletely without human input. While this may be beneficial in some scenarios, HOI applications inherently necessitate direct control over the HOIs as an expression of human intent. With blender-hoisynth, it is possible for users to interact with objects via virtual hands using standard Virtual Reality hardware. The synthetically generated data are characterized by a high degree of photorealism and contain visually plausible and physically realistic videos of hands grasping objects and moving them around in 3D. To demonstrate the efficacy of our data generation, we replace large parts of the training data in the well-known DexYCB dataset with hoisynth data and train a state-of-the-art HOI reconstruction model with it. We show that there is no significant degradation in the model performance despite the data replacement. | 翻訳日:2024-02-05 12:02:33 公開日:2024-02-02 |
# 一様PAC保証付き制約付きMDPに対するポリシーグラディエント原始双対アルゴリズム A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with Uniform PAC Guarantees ( http://arxiv.org/abs/2401.17780v2 ) ライセンス: Link先を確認 | Toshinori Kitamura, Tadashi Kozuno, Masahiro Kato, Yuki Ichihara, Soichiro Nishimori, Akiyoshi Sannai, Sho Sonoda, Wataru Kumagai, Yutaka Matsuo | (参考訳) 本研究では,オンライン制約付きマルコフ決定プロセス(cmdp)問題に対する予備的強化学習(rl)アルゴリズムについて検討し,制約を満たしながら帰納を最大化する最適方針を検討する。
広く実用化されているにもかかわらず、この問題に対する原始双対RLアルゴリズムに関する既存の理論的文献は、サブ線形後悔の保証のみを提供し、最適なポリシーへの収束を保証するのに失敗する。
本稿では,一様に近似した正当性(Uniform-PAC)を保証し,最適ポリシへの収束,サブ線形後悔,多項式サンプルの複雑さを目標精度で保証する新アルゴリズムを提案する。
これはオンラインCMDP問題に対する最初のUniform-PACアルゴリズムである。
理論的保証に加えて,既存のアルゴリズムは振動性能と制約違反を示すのに対し,我々のアルゴリズムは最適ポリシーに収束するという単純なCMDPを実証的に示す。 We study a primal-dual reinforcement learning (RL) algorithm for the online constrained Markov decision processes (CMDP) problem, wherein the agent explores an optimal policy that maximizes return while satisfying constraints. Despite its widespread practical use, the existing theoretical literature on primal-dual RL algorithms for this problem only provides sublinear regret guarantees and fails to ensure convergence to optimal policies. In this paper, we introduce a novel policy gradient primal-dual algorithm with uniform probably approximate correctness (Uniform-PAC) guarantees, simultaneously ensuring convergence to optimal policies, sublinear regret, and polynomial sample complexity for any target accuracy. Notably, this represents the first Uniform-PAC algorithm for the online CMDP problem. In addition to the theoretical guarantees, we empirically demonstrate in a simple CMDP that our algorithm converges to optimal policies, while an existing algorithm exhibits oscillatory performance and constraint violation. | 翻訳日:2024-02-05 12:02:13 公開日:2024-02-02 |
# 大規模言語モデルの時代におけるメッセージのコミット Commit Messages in the Age of Large Language Models ( http://arxiv.org/abs/2401.17622v2 ) ライセンス: Link先を確認 | Cristina V. Lopes, Vanessa I. Klotzman, Iris Ma, Iftekar Ahmed | (参考訳) コミットメッセージは、バージョン管理システムに格納されたコードベースの変更の説明である。
コードベースの進化を開発者が理解するのに役立ちます。
しかし、コミットメッセージを書くことは、開発者の間で退屈で一貫性がない可能性がある。
この問題に対処するために、ルールベース、検索ベース、学習ベースのアプローチなど、さまざまな方法でコミットメッセージを自動生成しようと試みている。
大きな言語モデルの進歩は、コミットメッセージを生成する新しい可能性を提供する。
本研究では,コード変更に基づいてコミットメッセージを生成するOpenAIのChatGPTの性能を評価する。
chatgptで得られた結果と、特にコミットデータに基づいてトレーニングされた以前の自動コミットメッセージ生成手法を比較した。
我々のゴールは、大規模事前訓練された言語モデルが定量的かつ質的に許容できるコミットメッセージを生成できる範囲を評価することである。
その結果,ChatGPTは,従来のACMG(Automatic Commit Message Generation)メソッドを桁違いに上回り,一般的には,生成したメッセージは正確かつ高品質であることがわかった。
また、失敗した場合の洞察や分類も提供しています。 Commit messages are explanations of changes made to a codebase that are stored in version control systems. They help developers understand the codebase as it evolves. However, writing commit messages can be tedious and inconsistent among developers. To address this issue, researchers have tried using different methods to automatically generate commit messages, including rule-based, retrieval-based, and learning-based approaches. Advances in large language models offer new possibilities for generating commit messages. In this study, we evaluate the performance of OpenAI's ChatGPT for generating commit messages based on code changes. We compare the results obtained with ChatGPT to previous automatic commit message generation methods that have been trained specifically on commit data. Our goal is to assess the extent to which large pre-trained language models can generate commit messages that are both quantitatively and qualitatively acceptable. We found that ChatGPT was able to outperform previous Automatic Commit Message Generation (ACMG) methods by orders of magnitude, and that, generally, the messages it generates are both accurate and of high-quality. We also provide insights, and a categorization, for the cases where it fails. | 翻訳日:2024-02-05 12:01:55 公開日:2024-02-02 |
# グラフ多相性学習による分子特性予測 Graph Multi-Similarity Learning for Molecular Property Prediction ( http://arxiv.org/abs/2401.17615v2 ) ライセンス: Link先を確認 | Hao Xu, Zhengyang Zhou, Pengyu Hong | (参考訳) 正確な分子特性予測の強化は、効果的で熟練した表現学習に依存する。
分子間の多相性(自己相似性と相対的類似性)を特徴とする多様な分子関係を組み入れることが重要である。
しかし、現在の分子表現学習法は多相性の探索に不足しており、しばしば分子間の関係の複雑さを過小評価する。
さらに、以前の多重相似性アプローチでは、正と負のペアの仕様は、異なる相対的類似性に異なる事前定義された重みを属性付けする必要がある。
本稿では、分子特性予測(graphmsl)フレームワークのためのグラフ多相性学習と、正と負のペアを定義することなく一般化された多相性計量を定式化する新しいアプローチを紹介する。
各化学モダリティ空間(例えば、分子描写像、指紋、nmr、およびスマイル)において、まず自己相似性計量(例えば、アンカー分子と他の分子との相似性)を定義し、次にそれらをペア重み付け関数を介してアンカーの一般化された多相似性計量に変換する。
GraphMSLは、MoneculeNetデータセット間の多重相似性測定の有効性を検証する。
さらに、すべてのモダリティのメトリクスはマルチモーダルな多相同性メトリックに統合され、パフォーマンスを改善する可能性を示す。
さらに、融合関数を変更することでモデルの焦点をリダイレクトまたはカスタマイズすることができる。
最後に、GraphMSLは学習した表現のポストホック分析を通じて薬物発見評価に有効であることを示す。 Enhancing accurate molecular property prediction relies on effective and proficient representation learning. It is crucial to incorporate diverse molecular relationships characterized by multi-similarity (self-similarity and relative similarities) between molecules. However, current molecular representation learning methods fall short in exploring multi-similarity and often underestimate the complexity of relationships between molecules. Additionally, previous multi-similarity approaches require the specification of positive and negative pairs to attribute distinct predefined weights to different relative similarities, which can introduce potential bias. In this work, we introduce Graph Multi-Similarity Learning for Molecular Property Prediction (GraphMSL) framework, along with a novel approach to formulate a generalized multi-similarity metric without the need to define positive and negative pairs. In each of the chemical modality spaces (e.g.,molecular depiction image, fingerprint, NMR, and SMILES) under consideration, we first define a self-similarity metric (i.e., similarity between an anchor molecule and another molecule), and then transform it into a generalized multi-similarity metric for the anchor through a pair weighting function. GraphMSL validates the efficacy of the multi-similarity metric across MoleculeNet datasets. Furthermore, these metrics of all modalities are integrated into a multimodal multi-similarity metric, which showcases the potential to improve the performance. Moreover, the focus of the model can be redirected or customized by altering the fusion function. Last but not least, GraphMSL proves effective in drug discovery evaluations through post-hoc analyses of the learnt representations. | 翻訳日:2024-02-05 12:01:33 公開日:2024-02-02 |
# 効率的な混合整数線形プログラミングのためのカット生成の停止学習 Learning to Stop Cut Generation for Efficient Mixed-Integer Linear Programming ( http://arxiv.org/abs/2401.17527v2 ) ライセンス: Link先を確認 | Haotian Ling, Zhihai Wang, Jie Wang | (参考訳) 混合整数線形プログラム (MILP) の解法において, 切断面 (カット) が重要な役割を担っている。
カットの鍵となる問題は、MILPの解法において重要なカット生成を停止するタイミングである。
しかし、現代のMILP解法の多くは、この問題に対処するためにハードコードなヒューリスティックを用いており、特定のアプリケーションからMILPのパターンを無視する傾向にある。
この課題に対処するために,カット生成停止問題を強化学習問題として定式化し,効果的な停止戦略を学ぶための新しいハイブリッドグラフ表現モデル(hygro)を提案する。
HYGROの魅力的な特徴は、MILPの動的特徴と静的特徴の両方を効果的に捉え、停止戦略の動的決定を可能にすることである。
我々の知る限りでは、HYGROはカット生成停止問題に対処する最初のデータ駆動手法である。
提案手法を現代の解法と統合することにより, HYGROはMILPの解法効率を競争ベースラインと比較して有意に向上し, 最大31%の改善が達成された。 Cutting planes (cuts) play an important role in solving mixed-integer linear programs (MILPs), as they significantly tighten the dual bounds and improve the solving performance. A key problem for cuts is when to stop cuts generation, which is important for the efficiency of solving MILPs. However, many modern MILP solvers employ hard-coded heuristics to tackle this problem, which tends to neglect underlying patterns among MILPs from certain applications. To address this challenge, we formulate the cuts generation stopping problem as a reinforcement learning problem and propose a novel hybrid graph representation model (HYGRO) to learn effective stopping strategies. An appealing feature of HYGRO is that it can effectively capture both the dynamic and static features of MILPs, enabling dynamic decision-making for the stopping strategies. To the best of our knowledge, HYGRO is the first data-driven method to tackle the cuts generation stopping problem. By integrating our approach with modern solvers, experiments demonstrate that HYGRO significantly improves the efficiency of solving MILPs compared to competitive baselines, achieving up to 31% improvement. | 翻訳日:2024-02-05 12:01:07 公開日:2024-02-02 |
# 共有ニューロンを用いたRBF-netを用いた個別マルチトラック応答曲線推定 Individualized Multi-Treatment Response Curves Estimation using RBF-net with Shared Neurons ( http://arxiv.org/abs/2401.16571v3 ) ライセンス: Link先を確認 | Peter Chang, Arkaprava Roy | (参考訳) 不均一な治療効果の推定は、精密医療において重要な問題である。
特定の関心は、いくつかの外部共変量に基づいて異なる治療の差分効果を特定することである。
マルチ処理環境における新しい非パラメトリック処理効果推定法を提案する。
反応曲線の非パラメトリックモデリングは、共有された隠れニューロンを持つ放射基底関数(RBF)-ネットに依存する。
これにより,治療結果間の共通性をモデル化する。
推定と推測スキームはベイズ的枠組みの下で開発され、効率的なマルコフ連鎖モンテカルロアルゴリズムを用いて実装され、解析のあらゆる面で不確実性を適切に調整する。
シミュレーション実験により,本手法の数値性能を実証した。
本手法をMIMICデータに適用し, 在宅中絶患者に対するICU滞在時間と12時間SOFAスコアに対する異なる治療方法の効果に関する興味深い知見を得た。 Heterogeneous treatment effect estimation is an important problem in precision medicine. Specific interests lie in identifying the differential effect of different treatments based on some external covariates. We propose a novel non-parametric treatment effect estimation method in a multi-treatment setting. Our non-parametric modeling of the response curves relies on radial basis function (RBF)-nets with shared hidden neurons. Our model thus facilitates modeling commonality among the treatment outcomes. The estimation and inference schemes are developed under a Bayesian framework and implemented via an efficient Markov chain Monte Carlo algorithm, appropriately accommodating uncertainty in all aspects of the analysis. The numerical performance of the method is demonstrated through simulation experiments. Applying our proposed method to MIMIC data, we obtain several interesting findings related to the impact of different treatment strategies on the length of ICU stay and 12-hour SOFA score for sepsis patients who are home-discharged. | 翻訳日:2024-02-05 12:00:46 公開日:2024-02-02 |
# DiffuserLite: リアルタイム拡散計画に向けて DiffuserLite: Towards Real-time Diffusion Planning ( http://arxiv.org/abs/2401.15443v4 ) ライセンス: Link先を確認 | Zibin Dong, Jianye Hao, Yifu Yuan, Fei Ni, Yitian Wang, Pengyi Li and Yan Zheng | (参考訳) 拡散計画は様々な分野において効果的な意思決定パラダイムとして認識されている。
高品質な長距離軌道を条件付きで生成する能力は、有望な研究方向となる。
しかし,既存の拡散計画手法では,反復サンプリングコストがかかるため,意思決定頻度が低くなっている。
この問題に対処するために、超高速で軽量な拡散計画フレームワークであるDiffuserLiteを紹介します。
DiffuserLiteは計画改善プロセス(PRP)を用いて粗粒度軌道を生成し、冗長な情報のモデリングを大幅に削減し、意思決定頻度を顕著に向上させる。
DiffuserLiteは、従来の主流フレームワークよりも122$Hz(112.7$x高速)の意思決定周波数を実現し、D4RLベンチマークで最先端のパフォーマンスを達成した。
さらに、我々の優れたDiffuserLiteフレームワークは、他の拡散計画アルゴリズムにおける決定頻度を高めるフレキシブルなプラグインとして機能し、将来の作業のための構造設計リファレンスを提供する。
詳細と可視化はhttps://diffuserlite.github.io/で確認できる。 Diffusion planning has been recognized as an effective decision-making paradigm in various domains. The capability of conditionally generating high-quality long-horizon trajectories makes it a promising research direction. However, existing diffusion planning methods suffer from low decision-making frequencies due to the expensive iterative sampling cost. To address this issue, we introduce DiffuserLite, a super fast and lightweight diffusion planning framework. DiffuserLite employs a planning refinement process (PRP) to generate coarse-to-fine-grained trajectories, significantly reducing the modeling of redundant information and leading to notable increases in decision-making frequency. Our experimental results demonstrate that DiffuserLite achieves a decision-making frequency of $122$Hz ($112.7$x faster than previous mainstream frameworks) and reaches state-of-the-art performance on D4RL benchmarks. In addition, our neat DiffuserLite framework can serve as a flexible plugin to enhance decision frequency in other diffusion planning algorithms, providing a structural design reference for future works. More details and visualizations are available at https://diffuserlite.github.io/. | 翻訳日:2024-02-05 12:00:32 公開日:2024-02-02 |
# UNSEE: 教師なしの非コントラスト文の埋め込み UNSEE: Unsupervised Non-contrastive Sentence Embeddings ( http://arxiv.org/abs/2401.15316v3 ) ライセンス: Link先を確認 | \"Omer Veysel \c{C}a\u{g}atan | (参考訳) UNSEE: Unsupervised Non-Contrastive Sentence Embeddingsは、Massive Text EmbeddingベンチマークにおいてSimCSEを上回った新しいアプローチである。
我々の探索は、SimCSEのコントラスト目的を非コントラスト目的に置き換えたときに観察される現象である表現崩壊の課題に対処することから始まる。
この問題に対処するために,ターゲットネットワークと呼ばれる簡単な解を提案し,表現の崩壊を効果的に緩和する。
目標ネットワークの導入により,非一貫性目標の活用,トレーニング安定性の維持,コントラスト目標に匹敵するパフォーマンス向上が実現できます。
本手法は,微調整と最適化により,非コントラスト文の埋め込みにおいてピーク性能を達成した。
この包括的努力により,提案手法の有効性を示す優れた文表現モデルが得られた。 We present UNSEE: Unsupervised Non-Contrastive Sentence Embeddings, a novel approach that outperforms SimCSE in the Massive Text Embedding benchmark. Our exploration begins by addressing the challenge of representation collapse, a phenomenon observed when contrastive objectives in SimCSE are replaced with non-contrastive objectives. To counter this issue, we propose a straightforward solution known as the target network, effectively mitigating representation collapse. The introduction of the target network allows us to leverage non-contrastive objectives, maintaining training stability while achieving performance improvements comparable to contrastive objectives. Our method has achieved peak performance in non-contrastive sentence embeddings through meticulous fine-tuning and optimization. This comprehensive effort has yielded superior sentence representation models, showcasing the effectiveness of our approach. | 翻訳日:2024-02-05 11:59:47 公開日:2024-02-02 |
# 個人化学習者モデリングにおける識別可能性と説明可能性:帰納的パラダイム Towards the Identifiability and Explainability for Personalized Learner Modeling: An Inductive Paradigm ( http://arxiv.org/abs/2309.00300v3 ) ライセンス: Link先を確認 | Jiatong Li, Qi Liu, Fei Wang, Jiayu Liu, Zhenya Huang, Fangzhou Yao, Linbo Zhu, Yu Su | (参考訳) 認知診断(CD)を用いたパーソナライズドラーナーモデリングは,学習者の特徴を行動データから診断することで学習者の認知状態をモデル化することを目的としている。
既存の認知診断モデル(CDM)は、学習者特性と質問パラメータをトレーニング可能な埋め込みと見なし、学習者のパフォーマンス予測を通じて学習する能力応答パラダイムに従う。
しかし,このパラダイムは,学習者の認知状態の定量化やWeb学習サービスの質に有害な,避けられない非識別性や説明可能性の過剰適合問題につながることに気付く。
これらの問題を解決するために,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく識別可能な認知診断フレームワーク(ID-CDF)を提案する。
具体的には,id-cdfの診断モジュールを考案し,帰納的学習を活用し,最適化におけるランダム性を排除し,識別性を保証するとともに,全体応答データ分布と認知状態とのモノトニック性を取得し,説明可能性の過剰化を防止する。
次に,診断精度を確保するために,ID-CDFのためのフレキシブルな予測モジュールを提案する。
さらに,そのユーザビリティを示すために,ID-CDF,すなわちID-CDMの実装を提案する。
異なる特徴を持つ4つの実世界のデータセットに対する大規模な実験は、ID-CDFが診断精度を損なうことなくこの問題に効果的に対処できることを示した。 Personalized learner modeling using cognitive diagnosis (CD), which aims to model learners' cognitive states by diagnosing learner traits from behavioral data, is a fundamental yet significant task in many web learning services. Existing cognitive diagnosis models (CDMs) follow the proficiency-response paradigm that views learner traits and question parameters as trainable embeddings and learns them through learner performance prediction. However, we notice that this paradigm leads to the inevitable non-identifiability and explainability overfitting problem, which is harmful to the quantification of learners' cognitive states and the quality of web learning services. To address these problems, we propose an identifiable cognitive diagnosis framework (ID-CDF) based on a novel response-proficiency-response paradigm inspired by encoder-decoder models. Specifically, we first devise the diagnostic module of ID-CDF, which leverages inductive learning to eliminate randomness in optimization to guarantee identifiability and captures the monotonicity between overall response data distribution and cognitive states to prevent explainability overfitting. Next, we propose a flexible predictive module for ID-CDF to ensure diagnosis preciseness. We further present an implementation of ID-CDF, i.e., ID-CDM, to illustrate its usability. Extensive experiments on four real-world datasets with different characteristics demonstrate that ID-CDF can effectively address the problems without loss of diagnosis preciseness. | 翻訳日:2024-02-05 11:59:34 公開日:2024-02-02 |
# 自然言語定義からの多関係双曲語埋め込み Multi-Relational Hyperbolic Word Embeddings from Natural Language Definitions ( http://arxiv.org/abs/2305.07303v3 ) ライセンス: Link先を確認 | Marco Valentino, Danilo S. Carvalho, Andr\'e Freitas | (参考訳) 自然言語定義は再帰的で自己説明的な意味構造を持ち、潜在空間における明示的な概念的関係と制約を保存できる表現学習法をサポートすることができる。
本稿では,この構造を明示的に活用し,定義から単語埋め込みを導出するマルチリレーショナルモデルを提案する。
辞書から定義項と定義項の相関関係を自動的に抽出することにより,ハイパーボリック空間の翻訳フレームワークを通じて単語埋め込みの問題を定式化し,定義のグローバルな意味構造を捉えるためのプロキシとして利用する方法を示す。
広範な実証分析によって、フレームワークは、制御可能かつ解釈可能なトラバーサルに必要な意味マッピングを維持しながら、望ましい構造的制約を課すのに役立つことが示されている。
さらに,双曲語埋め込みがユークリッド語よりも優れていることを明らかにし,本質的に効率的かつ解釈可能な利点を生かして,最先端のニューラルモデルと比較して,マルチリレーショナルアプローチが競争結果を得ることができることを示す。 Natural language definitions possess a recursive, self-explanatory semantic structure that can support representation learning methods able to preserve explicit conceptual relations and constraints in the latent space. This paper presents a multi-relational model that explicitly leverages such a structure to derive word embeddings from definitions. By automatically extracting the relations linking defined and defining terms from dictionaries, we demonstrate how the problem of learning word embeddings can be formalised via a translational framework in Hyperbolic space and used as a proxy to capture the global semantic structure of definitions. An extensive empirical analysis demonstrates that the framework can help imposing the desired structural constraints while preserving the semantic mapping required for controllable and interpretable traversal. Moreover, the experiments reveal the superiority of the Hyperbolic word embeddings over the Euclidean counterparts and demonstrate that the multi-relational approach can obtain competitive results when compared to state-of-the-art neural models, with the advantage of being intrinsically more efficient and interpretable. | 翻訳日:2024-02-05 11:59:07 公開日:2024-02-02 |
# 放射場スタイライゼーションのための幾何移動 Geometry Transfer for Stylizing Radiance Fields ( http://arxiv.org/abs/2402.00863v2 ) ライセンス: Link先を確認 | Hyunyoung Jung, Seonghyeon Nam, Nikolaos Sarafianos, Sungjoo Yoo, Alexander Sorkine-Hornung, Rakesh Ranjan | (参考訳) 形状と幾何学的パターンは、様式的アイデンティティを定義する上で不可欠である。
しかし、現在の3Dスタイルの転送方式は主に色やテクスチャの転送に重点を置いており、しばしば幾何学的側面を見下ろしている。
本稿では,幾何学的変形を利用した3次元トランスファー手法であるGeometry Transferを紹介する。
この手法は深度マップを用いてスタイルガイドを抽出し、その後、放射場の幾何学をスタイリングする。
さらに,3次元シーンからの幾何学的手がかりを活用し,美的表現力を高め,意図したスタイルをより正確に反映する新しい手法を提案する。
我々の広範な実験により、幾何変換はより広範かつより表現力のあるスタイル化を可能にし、3Dスタイル転送の範囲を大きく広げることを示す。 Shape and geometric patterns are essential in defining stylistic identity. However, current 3D style transfer methods predominantly focus on transferring colors and textures, often overlooking geometric aspects. In this paper, we introduce Geometry Transfer, a novel method that leverages geometric deformation for 3D style transfer. This technique employs depth maps to extract a style guide, subsequently applied to stylize the geometry of radiance fields. Moreover, we propose new techniques that utilize geometric cues from the 3D scene, thereby enhancing aesthetic expressiveness and more accurately reflecting intended styles. Our extensive experiments show that Geometry Transfer enables a broader and more expressive range of stylizations, thereby significantly expanding the scope of 3D style transfer. | 翻訳日:2024-02-05 11:54:24 公開日:2024-02-02 |
# 言語モデルアライメントの効率的かつ厳密な最適化に向けて Towards Efficient and Exact Optimization of Language Model Alignment ( http://arxiv.org/abs/2402.00856v2 ) ライセンス: Link先を確認 | Haozhe Ji, Cheng Lu, Yilin Niu, Pei Ke, Hongning Wang, Jun Zhu, Jie Tang, Minlie Huang | (参考訳) 言語モデルと人間の好みのアライメントは、現実世界のタスクでの使用には不可欠である。
この問題は、初期方針からの逸脱を最小限に抑えた人間の嗜好を反映した期待される報酬を最大化するために、モデルのポリシーを最適化するものとして定式化される。
素直な解決と見なされているが、強化学習(RL)は、効率的な政策改善を妨げる政策更新のばらつきに悩まされている。
近年、嗜好データからポリシーを直接最適化するために、直接選好最適化(DPO)が提案されている。
実装は簡単だが、DPOは、実際に達成されることが保証されていない最適ポリシーに基づいて導出され、意図された解への収束を損なう。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを保証し,RLアルゴリズムに関連する複雑さを回避し,効率的な最適化を可能にすることを証明した。
本手法をdpoと比較し,理論解析と実証分析の両方と比較し,現実的人間嗜好データに対する既存のアプローチよりも,この手法の利点を実証する。 The alignment of language models with human preferences is vital for their application in real-world tasks. The problem is formulated as optimizing the model's policy to maximize the expected reward that reflects human preferences with minimal deviation from the initial policy. While considered as a straightforward solution, reinforcement learning (RL) suffers from high variance in policy updates, which impedes efficient policy improvement. Recently, direct preference optimization (DPO) was proposed to directly optimize the policy from preference data. Though simple to implement, DPO is derived based on the optimal policy that is not assured to be achieved in practice, which undermines its convergence to the intended solution. In this paper, we propose efficient exact optimization (EXO) of the alignment objective. We prove that EXO is guaranteed to optimize in the same direction as the RL algorithms asymptotically for arbitary parametrization of the policy, while enables efficient optimization by circumventing the complexities associated with RL algorithms. We compare our method to DPO with both theoretical and empirical analyses, and further demonstrate the advantages of our method over existing approaches on realistic human preference data. | 翻訳日:2024-02-05 11:54:11 公開日:2024-02-02 |
# CroissantLLM: 真にバイリンガルなフランス語と英語の言語モデル CroissantLLM: A Truly Bilingual French-English Language Model ( http://arxiv.org/abs/2402.00786v2 ) ライセンス: Link先を確認 | Manuel Faysse, Patrick Fernandes, Nuno M. Guerreiro, Ant\'onio Loison, Duarte M. Alves, Caio Corro, Nicolas Boizard, Jo\~ao Alves, Ricardo Rei, Pedro H. Martins, Antoni Bigata Casademunt, Fran\c{c}ois Yvon, Andr\'e F.T. Martins, Gautier Viaud, C\'eline Hudelot, Pierre Colombo | (参考訳) 3Tの英語とフランス語のトークンセットで事前訓練された1.3B言語モデルであるCroissantLLMを導入し、研究と産業コミュニティに、コンシューマグレードのローカルハードウェア上で迅速に動作する高性能で完全にオープンソースなバイリンガルモデルをもたらす。
そこで我々は,英語とフランス語の事前学習データ比率1:1,カスタムトークンエーザ,バイリンガル微調整データセットを用いて,本質的なバイリンガルモデルを訓練するアプローチを開拓した。
特に、手動でキュレートされ、高品質で、さまざまなデータソースを備えたフランスの分割を含むトレーニングデータセットをリリースします。
英語以外でのパフォーマンスを評価するために,分類タスクと生成タスクからなる新しいベンチマークである FrenchBench を構築し,フランス語におけるモデルパフォーマンスの直交的な側面を網羅した。
さらに、透明性に根ざし、さらに大規模な言語モデル研究を促進するために、コードベースと、さまざまなモデルサイズ、トレーニングデータ分散、トレーニングステップ、微調整されたチャットモデル、強力な翻訳モデルにまたがる数十のチェックポイントをリリースします。
私たちはfmtiフレームワークを通じてモデルを評価し、透明性基準の81パーセントを検証することで、ほとんどのオープンイニシアティブのスコアをはるかに超えました。
この研究は、言語モデルにおける多言語性の理解を強化するために、従来の英語中心の作業から切り離されたNLPの景観を豊かにする。 We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T English and French tokens, to bring to the research and industrial community a high-performance, fully open-sourced bilingual model that runs swiftly on consumer-grade local hardware. To that end, we pioneer the approach of training an intrinsically bilingual model with a 1:1 English-to-French pretraining data ratio, a custom tokenizer, and bilingual finetuning datasets. We release the training dataset, notably containing a French split with manually curated, high-quality, and varied data sources. To assess performance outside of English, we craft a novel benchmark, FrenchBench, consisting of an array of classification and generation tasks, covering various orthogonal aspects of model performance in the French Language. Additionally, rooted in transparency and to foster further Large Language Model research, we release codebases, and dozens of checkpoints across various model sizes, training data distributions, and training steps, as well as fine-tuned Chat models, and strong translation models. We evaluate our model through the FMTI framework, and validate 81 % of the transparency criteria, far beyond the scores of even most open initiatives. This work enriches the NLP landscape, breaking away from previous English-centric work in order to strengthen our understanding of multilinguality in language models. | 翻訳日:2024-02-05 11:53:53 公開日:2024-02-02 |
# 3次元ガウス平滑化のための最適投影法 Optimal Projection for 3D Gaussian Splatting ( http://arxiv.org/abs/2402.00752v2 ) ライセンス: Link先を確認 | Letian Huang, Jiayang Bai, Jie Guo, Yanwen Guo | (参考訳) 3D Gaussian Splattingは、リアルタイムなニューラルレンダリングに広く注目され、応用されている。
同時に、ポイントクラウドストレージ、パフォーマンス、スパースビューの堅牢性といった面で、この技術の制限に関する懸念が提起され、様々な改善につながった。
しかし、局所的なアフィン近似がスプレーティング自体に内在する投影誤差や、これらの誤差がフォトリアリスティックレンダリングの品質に与える影響には注目すべき注意が払われていない。
本稿では,投影関数$\phi$の1階テイラー展開の残差誤差を考慮し,3次元ガウス散乱の射影誤差関数に対処する。
この解析は、誤差とガウス平均位置の相関性を確立する。
その後,関数最適化理論を応用し,関数のミニマを解析し,最適ガウススプラッティングと呼ばれるガウススプラッティングに対する最適投影戦略を提供する。
実験的検証により、この投影法はアーティファクトを減少させ、より説得力に富んだレンダリングを実現する。 3D Gaussian Splatting has garnered extensive attention and application in real-time neural rendering. Concurrently, concerns have been raised about the limitations of this technology in aspects such as point cloud storage, performance , and robustness in sparse viewpoints , leading to various improvements. However, there has been a notable lack of attention to the projection errors introduced by the local affine approximation inherent in the splatting itself, and the consequential impact of these errors on the quality of photo-realistic rendering. This paper addresses the projection error function of 3D Gaussian Splatting, commencing with the residual error from the first-order Taylor expansion of the projection function $\phi$. The analysis establishes a correlation between the error and the Gaussian mean position. Subsequently, leveraging function optimization theory, this paper analyzes the function's minima to provide an optimal projection strategy for Gaussian Splatting referred to Optimal Gaussian Splatting. Experimental validation further confirms that this projection methodology reduces artifacts, resulting in a more convincingly realistic rendering. | 翻訳日:2024-02-05 11:53:26 公開日:2024-02-02 |
# Sandra - 説明と状況に基づくニューロシンボリックな共振器 Sandra -- A Neuro-Symbolic Reasoner Based On Descriptions And Situations ( http://arxiv.org/abs/2402.00591v2 ) ライセンス: Link先を確認 | Nicolas Lazzari, Stefano De Giorgis, Aldo Gangemi, Valentina Presutti | (参考訳) 本稿では,ベクトル表現と帰納的推論を組み合わせたニューロシンボリック推論であるsandraについて述べる。
サンドラはオントロジーによって制約されたベクトル空間を構築し、その上で推論を行う。
推論器の幾何学的性質は、ニューラルネットワークとの結合を可能にし、そのギャップと記号的知識表現を橋渡しする。
sandraは、フレームセマンティクスの形式化である、説明と状況(dns)オントロジーデザインパターンに基づいている。
一連の事実(状況)が与えられた場合、不完全な情報が存在する場合でも、可能なすべての視点(記述)を推測することができる。
DnSモデルに関して,本手法が正しいことを証明した。
2つの異なるタスクと標準ベンチマークを実験し、複雑さを増すことなく、sandraを実証した。
(i)すべてのベースラインを上回る
(ii)分類過程において解釈可能性を提供し、
(iii) 事前設計したベクトル空間の制御を可能にする。 This paper presents sandra, a neuro-symbolic reasoner combining vectorial representations with deductive reasoning. Sandra builds a vector space constrained by an ontology and performs reasoning over it. The geometric nature of the reasoner allows its combination with neural networks, bridging the gap with symbolic knowledge representations. Sandra is based on the Description and Situation (DnS) ontology design pattern, a formalization of frame semantics. Given a set of facts (a situation) it allows to infer all possible perspectives (descriptions) that can provide a plausible interpretation for it, even in presence of incomplete information. We prove that our method is correct with respect to the DnS model. We experiment with two different tasks and their standard benchmarks, demonstrating that, without increasing complexity, sandra (i) outperforms all the baselines (ii) provides interpretability in the classification process, and (iii) allows control over the vector space, which is designed a priori. | 翻訳日:2024-02-05 11:53:06 公開日:2024-02-02 |
# 思考の連鎖は最も弱いリンクと同じくらい強い:推論連鎖の検証者のためのベンチマーク A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains ( http://arxiv.org/abs/2402.00559v2 ) ライセンス: Link先を確認 | Alon Jacovi, Yonatan Bitton, Bernd Bohnet, Jonathan Herzig, Or Honovich, Michael Tseng, Michael Collins, Roee Aharoni, Mor Geva | (参考訳) ステップバイステップの回答を提供する言語モデル(例:Chain-of-Thought)は、複雑な推論タスクにおいて顕著なアプローチであり、より正確な推論チェーンがダウンストリームタスクのパフォーマンスを改善するのが一般的である。
最近の論文では、正当性を評価し改善するための推論ステップを検証する自動手法について論じている。
しかし、このような検証方法を徹底的に評価するための詳細なステップレベルのデータセットは使用できず、この方向の進展を妨げている。
Reveal: Reasoning Verification Evaluation(Reveal: Reasoning Verification Evaluation)は、オープンドメイン質問応答設定における複雑な連鎖推論の自動検証をベンチマークする新しいデータセットである。
revealには、関連性の包括的ラベル、エビデンスパスへの帰属、言語モデルの回答における各推論ステップの論理的正当性、幅広いデータセットと最先端言語モデルが含まれる。 Prompting language models to provide step-by-step answers (e.g., "Chain-of-Thought") is the prominent approach for complex reasoning tasks, where more accurate reasoning chains typically improve downstream task performance. Recent literature discusses automatic methods to verify reasoning steps to evaluate and improve their correctness. However, no fine-grained step-level datasets are available to enable thorough evaluation of such verification methods, hindering progress in this direction. We introduce Reveal: Reasoning Verification Evaluation, a new dataset to benchmark automatic verifiers of complex Chain-of-Thought reasoning in open-domain question answering settings. Reveal includes comprehensive labels for the relevance, attribution to evidence passages, and logical correctness of each reasoning step in a language model's answer, across a wide variety of datasets and state-of-the-art language models. | 翻訳日:2024-02-05 11:52:53 公開日:2024-02-02 |
# 並列スパイクユニットを用いたニューラルネットワークの学習 Efficient Training Spiking Neural Networks with Parallel Spiking Unit ( http://arxiv.org/abs/2402.00449v2 ) ライセンス: Link先を確認 | Yang Li, Yinqian Sun, Xiang He, Yiting Dong, Dongcheng Zhao, Yi Zeng | (参考訳) 効率的な並列コンピューティングは、人工知能の進歩において重要な要素となっている。
しかし、この領域におけるスパイキングニューラルネットワーク(SNN)の展開は、本質的に逐次的な計算依存によって妨げられている。
この制約は、前ステップの結果に依存する各ステップの処理の必要性から生じ、SNNモデルの大規模並列コンピューティング環境への適応性を著しく阻害する。
この課題に対処するために,本論文では,革新的なParallel Spiking Unit(PSU)とその2つの派生であるIPSU(IPSU)とRPSU(Reset-aware PSU)を紹介する。
これらの変種は、リセットプロセスを確率的に管理しながら、スパイキングニューロンの漏れた積分と発火機構を巧みに分離する。
スパイキングニューロンモデルの基本計算特性を保存することにより,SNN内の膜電位の同時計算が可能となり,並列スパイク出力の生成が容易になり,計算効率が大幅に向上する。
静的およびシーケンシャルな画像、ダイナミックビジョンセンサー(DVS)データ、および音声データセットを含む、さまざまなデータセットにわたる包括的なテストは、PSUとその変種がパフォーマンスとシミュレーション速度を著しく向上するだけでなく、神経活動の空間性を高めてSNNのエネルギー効率を向上することを示した。
これらの進歩は,高性能並列コンピューティングアプリケーションのSNN展開に革命をもたらす可能性を示している。 Efficient parallel computing has become a pivotal element in advancing artificial intelligence. Yet, the deployment of Spiking Neural Networks (SNNs) in this domain is hampered by their inherent sequential computational dependency. This constraint arises from the need for each time step's processing to rely on the preceding step's outcomes, significantly impeding the adaptability of SNN models to massively parallel computing environments. Addressing this challenge, our paper introduces the innovative Parallel Spiking Unit (PSU) and its two derivatives, the Input-aware PSU (IPSU) and Reset-aware PSU (RPSU). These variants skillfully decouple the leaky integration and firing mechanisms in spiking neurons while probabilistically managing the reset process. By preserving the fundamental computational attributes of the spiking neuron model, our approach enables the concurrent computation of all membrane potential instances within the SNN, facilitating parallel spike output generation and substantially enhancing computational efficiency. Comprehensive testing across various datasets, including static and sequential images, Dynamic Vision Sensor (DVS) data, and speech datasets, demonstrates that the PSU and its variants not only significantly boost performance and simulation speed but also augment the energy efficiency of SNNs through enhanced sparsity in neural activity. These advancements underscore the potential of our method in revolutionizing SNN deployment for high-performance parallel computing applications. | 翻訳日:2024-02-05 11:52:34 公開日:2024-02-02 |
# 画像から画像への生成モデルのための機械学習 Machine Unlearning for Image-to-Image Generative Models ( http://arxiv.org/abs/2402.00351v2 ) ライセンス: Link先を確認 | Guihong Li, Hsiang Hsu, Chun-Fu Chen, Radu Marculescu | (参考訳) マシンアンラーニングは、厳格な規則に従うために、与えられたモデルからデータサンプルを意図的に忘れる新しいパラダイムとして登場した。
しかし、既存の機械学習手法は主に分類モデルに焦点を合わせており、生成モデルに対する未学習の展望は比較的未開拓である。
本論文は,画像から画像への生成モデルのための機械学習の統一フレームワークを提供することにより,このギャップを解消するブリッジとして機能する。
そこで本研究では,厳密な理論解析を基盤とした計算効率の高いアルゴリズムを提案する。
ImageNet-1KとPlaces-365の2つの大規模データセットに関する実証研究は、我々のアルゴリズムが保持サンプルの可用性に依存していないことを示す。
私たちの知る限りでは、この研究は、画像から画像への生成モデルに特化した機械学習の体系的、理論的、経験的探索を表す最初のものである。
私たちのコードはhttps://github.com/jpmorganchase/l2l-generator-unlearningで利用可能です。 Machine unlearning has emerged as a new paradigm to deliberately forget data samples from a given model in order to adhere to stringent regulations. However, existing machine unlearning methods have been primarily focused on classification models, leaving the landscape of unlearning for generative models relatively unexplored. This paper serves as a bridge, addressing the gap by providing a unifying framework of machine unlearning for image-to-image generative models. Within this framework, we propose a computationally-efficient algorithm, underpinned by rigorous theoretical analysis, that demonstrates negligible performance degradation on the retain samples, while effectively removing the information from the forget samples. Empirical studies on two large-scale datasets, ImageNet-1K and Places-365, further show that our algorithm does not rely on the availability of the retain samples, which further complies with data retention policy. To our best knowledge, this work is the first that represents systemic, theoretical, empirical explorations of machine unlearning specifically tailored for image-to-image generative models. Our code is available at https://github.com/jpmorganchase/l2l-generator-unlearning. | 翻訳日:2024-02-05 11:52:11 公開日:2024-02-02 |
# 有効平均場アプローチによる強相互作用量子多体状態の制御 Control of strongly interacting quantum many-body states with an effective mean-field approach ( http://arxiv.org/abs/2402.00349v2 ) ライセンス: Link先を確認 | Muhammad S. Hasan, Thomas Fog\'arty, Jing Li, Andreas Ruschhaupt, Thomas Busch | (参考訳) STA(Shortcut to adiabaticity)は、高忠実度で量子システムを制御できる強力なツールである。
それらは正確に記述でき、不変あるいは自己相似力学を持つ単一粒子系や非相互作用系に対して特にうまく機能する。
しかし、特に大規模システムでは複雑な力学を簡単に記述できないため、強く相関した多体系に対する正確なSTAを見つけることは困難である。
本稿では,4次非線形項による強い相互作用効果を簡潔に捉えた平均場法を用いて,これらのシステムのためのstaの設計手法について概説する。
時間依存トラップ周波数を持つ高調波発振器の場合、平均場アプローチは正確に動作し、文献からよく知られたSTAを復元する。
提案手法のロバスト性を強調するために,非調和ポテンシャルに対して効果的に作用し,他の一般的な制御手法よりも高い忠実性を達成することを示す。 Shortcuts to adiabaticity (STA) are powerful tools that can be used to control quantum systems with high fidelity. They work particularly well for single particle and non-interacting systems which can be described exactly and which possess invariant or self-similar dynamics. However, finding an exact STA for strongly correlated many-body systems is difficult, as their complex dynamics cannot be easily described, especially for larger systems. Here, we outline a method to design STAs for these systems using a mean-field approach that succinctly captures the strong interaction effects through a quartic nonlinear term. We show that for the case of the harmonic oscillator with a time-dependent trap frequency the mean-field approach works exactly and recovers the well-known STA from literature. To highlight the robustness of our approach we also show that it works effectively for anharmonic potentials, achieving higher fidelities than other typical control techniques. | 翻訳日:2024-02-05 11:51:54 公開日:2024-02-02 |
# SmartCooper: アダプティブフュージョンと判断機構を備えた垂直協調知覚 SmartCooper: Vehicular Collaborative Perception with Adaptive Fusion and Judger Mechanism ( http://arxiv.org/abs/2402.00321v2 ) ライセンス: Link先を確認 | Yuang Zhang, Haonan An, Zhengru Fang, Guowen Xu, Yuan Zhou, Xianhao Chen and Yuguang Fang | (参考訳) 近年,コネクテッド・アンド・コネクテッド・オートモーティブ・ビークル(cav)の協調認識による道路安全性向上の可能性から,自動運転が注目されている。
しかしながら、車両の伝送環境における時間変動は、通信資源の動的割り当てを要求する。
さらに、協調知覚の文脈では、すべてのCAVが価値あるデータに貢献しているわけではなく、一部のCAVデータが協調知覚に有害な影響を与えることを認識することが重要である。
本稿では,CAVデータ融合を促進するための通信最適化と判断機構を組み込んだ適応型協調認識フレームワークであるSmartCooperを紹介する。
我々のアプローチは、通信制約を考慮しながら車両の接続を最適化することから始まる。
次に、学習可能なエンコーダを訓練し、チャネル状態情報(CSI)に基づいて圧縮率を動的に調整する。
その後、適応デコーダによって再構成された有害画像データをフィルタリングする判定機構を考案する。
提案アルゴリズムの有効性をOpenCOODプラットフォーム上で評価する。
その結果,非ジュッジャー方式に比べて通信コストが23.10倍に大幅に削減された。
さらに、最先端のスキームと比較して、結合(ap@iou)上の交点の平均精度が7.15\%向上した。 In recent years, autonomous driving has garnered significant attention due to its potential for improving road safety through collaborative perception among connected and autonomous vehicles (CAVs). However, time-varying channel variations in vehicular transmission environments demand dynamic allocation of communication resources. Moreover, in the context of collaborative perception, it is important to recognize that not all CAVs contribute valuable data, and some CAV data even have detrimental effects on collaborative perception. In this paper, we introduce SmartCooper, an adaptive collaborative perception framework that incorporates communication optimization and a judger mechanism to facilitate CAV data fusion. Our approach begins with optimizing the connectivity of vehicles while considering communication constraints. We then train a learnable encoder to dynamically adjust the compression ratio based on the channel state information (CSI). Subsequently, we devise a judger mechanism to filter the detrimental image data reconstructed by adaptive decoders. We evaluate the effectiveness of our proposed algorithm on the OpenCOOD platform. Our results demonstrate a substantial reduction in communication costs by 23.10\% compared to the non-judger scheme. Additionally, we achieve a significant improvement on the average precision of Intersection over Union (AP@IoU) by 7.15\% compared with state-of-the-art schemes. | 翻訳日:2024-02-05 11:51:21 公開日:2024-02-02 |
# フェデレーション学習のためのアナログデジタルスケジューリング:コミュニケーション効率のよいアプローチ Analog-digital Scheduling for Federated Learning: A Communication-Efficient Approach ( http://arxiv.org/abs/2402.00318v2 ) ライセンス: Link先を確認 | Muhammad Faraz Ul Abrar and Nicol\`o Michelusi | (参考訳) ota(over-the-air)計算は、ワイヤレスネットワーク上で機械学習モデルをトレーニングするための通信効率の高い連合学習(fl)パラダイムとして最近登場した。
しかし、その性能は、最悪のSNRを持つデバイスによって制限され、高速でノイズの多い更新をもたらす。
一方、直交リソースブロック(RB)をデジタルチャネルを介して個々のデバイスに割り当てることにより、通信遅延の増加によるノイズ問題を軽減できる。
本稿では,新しいアナログデジタルfl方式であるadflについて述べる。各ラウンドにおいて,パラメータサーバ(ps)は,各デバイスに,その勾配をアナログota方式でアップロードするか,あるいは ‘`digital'方式を用いて直交rb上に量子化勾配を送信するようにスケジュールする。
単一flラウンドに着目し,psにおける推定大域的勾配に対する平均二乗誤差 (mse) の最小化,遅延制約の影響,ディジタルデバイスの最適スケジューリング構成と量子化ビットの生み出す最適スケジューリング問題を提案した。
シミュレーションの結果、ADFLは、OTA方式のほとんどのデバイスをスケジューリングすると同時に、OTA方式とデジタル方式の両方において、OTA方式とデジタルのみ方式を一貫して上回っていることがわかった。 Over-the-air (OTA) computation has recently emerged as a communication-efficient Federated Learning (FL) paradigm to train machine learning models over wireless networks. However, its performance is limited by the device with the worst SNR, resulting in fast yet noisy updates. On the other hand, allocating orthogonal resource blocks (RB) to individual devices via digital channels mitigates the noise problem, at the cost of increased communication latency. In this paper, we address this discrepancy and present ADFL, a novel Analog-Digital FL scheme: in each round, the parameter server (PS) schedules each device to either upload its gradient via the analog OTA scheme or transmit its quantized gradient over an orthogonal RB using the ``digital" scheme. Focusing on a single FL round, we cast the optimal scheduling problem as the minimization of the mean squared error (MSE) on the estimated global gradient at the PS, subject to a delay constraint, yielding the optimal device scheduling configuration and quantization bits for the digital devices. Our simulation results show that ADFL, by scheduling most of the devices in the OTA scheme while also occasionally employing the digital scheme for a few devices, consistently outperforms OTA-only and digital-only schemes, in both i.i.d. and non-i.i.d. settings. | 翻訳日:2024-02-05 11:50:41 公開日:2024-02-02 |
# 次位置予測のための高精度かつ低パラメータ機械学習アーキテクチャ An Accurate and Low-Parameter Machine Learning Architecture for Next Location Prediction ( http://arxiv.org/abs/2402.00306v2 ) ライセンス: Link先を確認 | Calvin Jary and Nafiseh Kahani | (参考訳) 次のロケーション予測は、ユーザの次のロケーションを予測するための分野だ。
そのアプリケーションには、リソース割り当て、サービス品質、エネルギー効率、交通管理が含まれる。
本稿では,エネルギー効率,小型化,低パラメータ機械学習(ML)アーキテクチャを提案する。
これを実現するために、都市全体の完全な人体移動パターンに関する100のハイパーパラメータ実験を行い、最小限のモデルパラメータで精度の高いMLアーキテクチャを正確に決定しました。
公開されたMLアーキテクチャ内のモデルパラメータの数を20200万から200万に削減することに成功しました。
これによりモデルパラメータの合計サイズが791mbから8mbに縮小された。
さらに、トレーニング時間を4倍に短縮し、トレーニングに必要なグラフィック処理ユニット(gpu)メモリを20倍に削減し、全体的な精度を80.16%から82.54%に向上させた。
この改良により、メモリやストレージを多く持たない控えめなベースステーションやエッジデバイスが、提案されたMLアーキテクチャをデプロイして、次のロケーション予測に利用できるようになる。 Next location prediction is a discipline that involves predicting a users next location. Its applications include resource allocation, quality of service, energy efficiency, and traffic management. This paper proposes an energy-efficient, small, and low parameter machine learning (ML) architecture for accurate next location prediction, deployable on modest base stations and edge devices. To accomplish this we ran a hundred hyperparameter experiments on the full human mobility patterns of an entire city, to determine an exact ML architecture that reached a plateau of accuracy with the least amount of model parameters. We successfully achieved a reduction in the number of model parameters within published ML architectures from 202 million down to 2 million. This reduced the total size of the model parameters from 791 MB down to 8 MB. Additionally, this decreased the training time by a factor of four, the amount of graphics processing unit (GPU) memory needed for training by a factor of twenty, and the overall accuracy was increased from 80.16% to 82.54%. This improvement allows for modest base stations and edge devices which do not have a large amount of memory or storage, to deploy and utilize the proposed ML architecture for next location prediction. | 翻訳日:2024-02-05 11:49:34 公開日:2024-02-02 |
# 空間行動単位cuesによる表情認識の誘導 Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues ( http://arxiv.org/abs/2402.00281v2 ) ライセンス: Link先を確認 | Soufiane Belharbi, Marco Pedersoli, Alessandro Lameiras Koerich, Simon Bacon, Eric Granger | (参考訳) 最先端の表情認識(FER)分類器は高い精度を達成するが、エンドユーザーにとって重要な側面である解釈性は欠如している。
基本的表情を認識するために、専門家は一連の空間行動単位を表情に関連付けるコードブックを利用する。
本稿では,同じ専門家の足跡を踏襲し,空間行動単位(aus)を分類器の訓練に明示的に組み込んで深い解釈可能なモデルを構築するための学習戦略を提案する。
特に、このausコードブック、入力画像表現ラベル、および顔ランドマークを用いて、単一のアクションユニットヒートマップを構築し、顔表情画像w.r.tに対する最も識別的な領域を示す。
我々はこの価値ある空間キューを利用して、FERの深い解釈可能な分類器を訓練する。
これは、分類器の空間層の特徴を \aus マップと相関させることによって達成される。
複合損失を用いて、分類器は、オースマップに関連付けられた解釈可能な視覚層毎の注意を与え、専門家の決定過程をシミュレートしながら、画像を正しく分類するように訓練される。
これは、イメージクラス式のみを監督として、追加のマニュアルアノテーションなしで実現できる。
さらに、このメソッドはジェネリックです。
どんなCNNやトランスフォーマーベースのディープ分類器にも、アーキテクチャの変更やトレーニング時間の追加なしに適用することができる。
RAFDB と AFFECTNET データセットの2つの公開ベンチマークに対する広範な評価は、提案手法が分類性能を劣化させることなく階層的解釈性を向上させることができることを示している。
さらに,クラスアクティベーションマッピング手法(CAM)に依存した共通タイプの解釈可能な分類器について検討し,学習手法がCAMの解釈可能性を向上させることを示す。 While state-of-the-art facial expression recognition (FER) classifiers achieve a high level of accuracy, they lack interpretability, an important aspect for end-users. To recognize basic facial expressions, experts resort to a codebook associating a set of spatial action units to a facial expression. In this paper, we follow the same expert footsteps, and propose a learning strategy that allows us to explicitly incorporate spatial action units (aus) cues into the classifier's training to build a deep interpretable model. In particular, using this aus codebook, input image expression label, and facial landmarks, a single action units heatmap is built to indicate the most discriminative regions of interest in the image w.r.t the facial expression. We leverage this valuable spatial cue to train a deep interpretable classifier for FER. This is achieved by constraining the spatial layer features of a classifier to be correlated with \aus map. Using a composite loss, the classifier is trained to correctly classify an image while yielding interpretable visual layer-wise attention correlated with aus maps, simulating the experts' decision process. This is achieved using only the image class expression as supervision and without any extra manual annotations. Moreover, our method is generic. It can be applied to any CNN- or transformer-based deep classifier without the need for architectural change or adding significant training time. Our extensive evaluation on two public benchmarks RAFDB, and AFFECTNET datasets shows that our proposed strategy can improve layer-wise interpretability without degrading classification performance. In addition, we explore a common type of interpretable classifiers that rely on Class-Activation Mapping methods (CAMs), and we show that our training technique improves the CAM interpretability. | 翻訳日:2024-02-05 11:49:17 公開日:2024-02-02 |
# ImageNetにおける線内画像からの3次元画像の幾何学的認識 Geometry aware 3D generation from in-the-wild images in ImageNet ( http://arxiv.org/abs/2402.00225v2 ) ライセンス: Link先を確認 | Qijia Shen, Guangrun Wang | (参考訳) 正確な3dモデルの生成は、従来の3dデータセットからの教師あり学習による明示的な学習を必要とする難しい問題である。
近年の進歩により、2d画像から3dモデルを学ぶことが期待されているが、これらの方法は、各インスタンスやカメラのポーズ情報を含む、構造化されたデータセットに依存することが多い。
さらに、これらのデータセットは、通常、単純な形状のクリーンな背景を含んでおり、取得が高価で一般化が難しいため、これらの方法の適用性が制限される。
これらの制約を克服するために,カメラのポーズ情報のない多様な非構造化画像ネットデータセットから3次元形状を再構成する手法を提案する。
2次元画像から3次元モデルを学習し、StyleGAN2に基づいて生成元バックボーンのアーキテクチャを変更し、高度に多様なデータセットに適応する。
多様なデータのモード崩壊を防止し、トレーニング安定性を向上させるため、マルチビュー識別を提案する。
訓練されたジェネレータは、任意の視点からのレンダリングだけでなく、クラス条件の3Dモデルを生成することができる。
クラス条件生成の結果は,現在の最先端手法よりも大幅に改善した。
さらに、PTIを用いて、単視点画像から3次元図形全体を効率的に再構築することができる。 Generating accurate 3D models is a challenging problem that traditionally requires explicit learning from 3D datasets using supervised learning. Although recent advances have shown promise in learning 3D models from 2D images, these methods often rely on well-structured datasets with multi-view images of each instance or camera pose information. Furthermore, these datasets usually contain clean backgrounds with simple shapes, making them expensive to acquire and hard to generalize, which limits the applicability of these methods. To overcome these limitations, we propose a method for reconstructing 3D geometry from the diverse and unstructured Imagenet dataset without camera pose information. We use an efficient triplane representation to learn 3D models from 2D images and modify the architecture of the generator backbone based on StyleGAN2 to adapt to the highly diverse dataset. To prevent mode collapse and improve the training stability on diverse data, we propose to use multi-view discrimination. The trained generator can produce class-conditional 3D models as well as renderings from arbitrary viewpoints. The class-conditional generation results demonstrate significant improvement over the current state-of-the-art method. Additionally, using PTI, we can efficiently reconstruct the whole 3D geometry from single-view images. | 翻訳日:2024-02-05 11:48:46 公開日:2024-02-02 |
# グローバーの探索アルゴリズムの強化:良い状態の確率を高めるための改良されたアプローチ Enhancing Grover's Search Algorithm: A Modified Approach to Increase the Probability of Good States ( http://arxiv.org/abs/2402.00082v2 ) ライセンス: Link先を確認 | Ismael Abdulrahman | (参考訳) 本稿では,Grover検索アルゴリズムを改良し,アルゴリズムの初期イテレーションにおける良好な状態を見つける可能性を高める。
これは (y+z) 軸のまわりに回転ゲートを組み込むことを提案し、その位相は初期反復時の微分器出力の微分から数学的に決定される。
さらに、連続反復間の振幅の推定増加比に基づいて位相角を調整することにより最適化する。
この結果は、目標状態を特定する確率が高いために、必要なイテレーション数の約25%が減少し、全体のプロセスが高速になることを示す。
これは、シミュレーションに使用されるコンピュータの計算能力を考慮して最大8キュービットのインスタンスを含む、様々なシナリオで観察される。 This article introduces an enhancement to the Grover search algorithm to increase the probability of finding good states in the early iterations of the algorithm. It suggests incorporating a rotation gate around the (y+z)-axis, with its phase determined mathematically from the derivative of the diffuser output during the initial iteration. Furthermore, the phase angles are optimized through adjustments based on the estimated increasing ratio of amplitudes between consecutive iterations. The findings indicate a noteworthy decrease, around 25%, in the required number of iterations to attain a high probability of identifying target states resulting in a faster overall process. This is observed across various scenarios, including instances with up to eight qubits considering the computational capabilities of the computer used for simulation. | 翻訳日:2024-02-05 11:48:23 公開日:2024-02-02 |