このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240627となっている論文です。

PDF登録状況(公開日: 20240627)

TitleAuthorsAbstract論文公表日・翻訳日
# 複雑・工学的問題に対する改良改良型適合度依存性最適化器

Modified-Improved Fitness Dependent Optimizer for Complex and Engineering Problems ( http://arxiv.org/abs/2407.14271v1 )

ライセンス: Link先を確認
Hozan K. Hamarashid, Bryar A. Hassan, Tarik A. Rashid, (参考訳) FDO(Fitness dependent Optimizationr)は、新しいスウォーム知能アルゴリズムの1つである。 近年、FDOはその能力を改善するために何度か拡張されている。 改善の1つは改善FDO(英語版)(IFDO)と呼ばれる。 しかし、研究結果によると、FDOの変種は2つの主要な制限によって制限されている。 第一に、もし採用されるエージェントの数が5以下であれば、アルゴリズムの精度は著しく低下する。 第2に、FDOの有効性は、使用した検索エージェントの量と複雑に結びついている。 これらの制限を克服するため,本研究では,M-IFDOと呼ばれるIFDOの修正版を提案する。 この強化は、スカウトミツバチの位置をIFDOに更新し、スカウトミツバチを移動させ、より良い性能と最適解を得る。 より具体的には、IFDOの2つのパラメータはアライメントと凝集である。 代わりに、Lambdaパラメータはアライメントと凝集の代わりに置き換えられる。 新たに導入されたアルゴリズムの性能を検証するため、M-IFDOは19の基本的なベンチマーク関数、10のIEEE Congress of Evolutionary Computation (CEC-C06 2019)、および5つの実世界の問題でテストされている。 M-IFDOは、5つの最先端アルゴリズムと比較される: 改善された適合性依存最適化(IFDO)、改善された多目的微分進化アルゴリズム(IMODE)、ハイブリッドサンプリング進化戦略(HSES)、線形継承履歴に基づく微分進化のためのパラメータ適応(LSHADE)およびCMA-ES。 検証基準は、アルゴリズムが収束性、メモリ使用量、統計的結果にどの程度達するかに基づいている。 その結果,M-IFDOは,ベンチマーク関数と実世界の5つの問題において,いくつかのケースでライバルを上回っていることがわかった。

Fitness dependent optimizer (FDO) is considered one of the novel swarm intelligent algorithms. Recently, FDO has been enhanced several times to improve its capability. One of the improvements is called improved FDO (IFDO). However, according to the research findings, the variants of FDO are constrained by two primary limitations that have been identified. Firstly, if the number of agents employed falls below five, it significantly diminishes the algorithm's precision. Secondly, the efficacy of FDO is intricately tied to the quantity of search agents utilized. To overcome these limitations, this study proposes a modified version of IFDO, called M-IFDO. The enhancement is conducted by updating the location of the scout bee to the IFDO to move the scout bees to achieve better performance and optimal solutions. More specifically, two parameters in IFDO, which are alignment and cohesion, are removed. Instead, the Lambda parameter is replaced in the place of alignment and cohesion. To verify the performance of the newly introduced algorithm, M-IFDO is tested on 19 basic benchmark functions, 10 IEEE Congress of Evolutionary Computation (CEC-C06 2019), and five real-world problems. M-IFDO is compared against five state-of-the-art algorithms: Improved Fitness Dependent Optimizer (IFDO), Improving Multi-Objective Differential Evolution algorithm (IMODE), Hybrid Sampling Evolution Strategy (HSES), Linear Success-History based Parameter Adaptation for Differential Evolution (LSHADE) and CMA-ES Integrated with an Occasional Restart Strategy and Increasing Population Size and An Iterative Local Search (NBIPOP-aCMAES). The verification criteria are based on how well the algorithm reaches convergence, memory usage, and statistical results. The results show that M-IFDO surpasses its competitors in several cases on the benchmark functions and five real-world problems.
翻訳日:2024-07-28 18:39:09 公開日:2024-06-27
# ViT LoS V2X:6G車両ネットワークの環境対応LOS遮断予測用視覚変換器

ViT LoS V2X: Vision Transformers for Environment-aware LoS Blockage Prediction for 6G Vehicular Networks ( http://arxiv.org/abs/2407.15023v1 )

ライセンス: Link先を確認
Ghazi Gharsallah, Georges Kaddoum, (参考訳) 無線通信技術が第6世代(6G)に進むにつれて、車載ネットワークを実現するための候補として、高周波ミリ波通信(mmWave)が出現している。 高いデータレートと低レイテンシ通信を提供する。 しかし、建物、木、その他の車両などの障害物は信号の減衰と遮断を引き起こし、通信障害を引き起こし、致命的な事故や交通渋滞を引き起こす。 ブロックの予測は信頼性と効率の確保に不可欠である。 さらに、6G技術の出現は、様々なセンサータイプを活用して、高度なセンシング機能を統合することが期待されている。 これらのセンサーは、従来のRFセンサーからカメラ、Lidarセンサーまで、リッチなマルチモーダルデータへのアクセスを提供し、豊富なコンテキスト情報を持つ通信システムを強化することが期待されている。 このマルチモーダルデータを活用することは、ブロック検出の重要なタスクを含む、正確なネットワーク管理決定を行う上で不可欠である。 本稿では、畳み込みニューラルネットワーク(CNN)とカスタマイズされたビジョントランスフォーマー(ViT)を組み合わせて、マルチモーダルデータから重要な情報を効果的に抽出し、車載ネットワークにおけるブロックを予測するディープラーニング(DL)ベースのアプローチを提案する。 提案手法は,CNN と ViT の相乗的強度を利用して,画像やビームベクトルを含む時系列マルチモーダルデータから特徴を抽出する。 抽出した特徴とブロック状態の間の時間的依存関係を将来の時間ステップで捉えるために,GRU(Gated Recurrent Unit)ベースのアーキテクチャを用いる。 その結果,提案手法は精度が高く,最先端のソリューションよりも優れており,9,5 %以上の精度で予測できることがわかった。

As wireless communication technology progresses towards the sixth generation (6G), high-frequency millimeter-wave (mmWave) communication has emerged as a promising candidate for enabling vehicular networks. It offers high data rates and low-latency communication. However, obstacles such as buildings, trees, and other vehicles can cause signal attenuation and blockage, leading to communication failures that can result in fatal accidents or traffic congestion. Predicting blockages is crucial for ensuring reliable and efficient communications. Furthermore, the advent of 6G technology is anticipated to integrate advanced sensing capabilities, utilizing a variety of sensor types. These sensors, ranging from traditional RF sensors to cameras and Lidar sensors, are expected to provide access to rich multimodal data, thereby enriching communication systems with a wealth of additional contextual information. Leveraging this multimodal data becomes essential for making precise network management decisions, including the crucial task of blockage detection. In this paper, we propose a Deep Learning (DL)-based approach that combines Convolutional Neural Networks (CNNs) and customized Vision Transformers (ViTs) to effectively extract essential information from multimodal data and predict blockages in vehicular networks. Our method capitalizes on the synergistic strengths of CNNs and ViTs to extract features from time-series multimodal data, which include images and beam vectors. To capture temporal dependencies between the extracted features and the blockage state at future time steps, we employ a Gated Recurrent Unit (GRU)-based architecture. Our results show that the proposed approach achieves high accuracy and outperforms state-of-the-art solutions, achieving more than $95\%$ accurate predictions.
翻訳日:2024-07-28 18:39:09 公開日:2024-06-27
# モバイルアプリレーティング尺度のフランス語版を用いたmHealthアプリケーションによる健康増進:適応と妥当性の検討

Promoting Health via mHealth Applications Using a French Version of the Mobile App Rating Scale: Adaptation and Validation Study ( http://arxiv.org/abs/2407.17472v1 )

ライセンス: Link先を確認
Ina Saliasi, Prescilla Martinon, Emily Darlington, Colette Smentek, Delphine Tardivo, Denis Bourgeois, Claude Dussart, Florence Carrouel, Laurie Fraticelli, (参考訳) 背景 ここ数十年、スマートフォンユーザーの数とともに、健康行動や健康関連戦略、介入を促進するアプリが増えている。 それでも、アプリ品質の測定および報告の妥当性のプロセスは、医療専門家やエンドユーザにとって不満足であり、公衆衛生上の懸念を表している。 モバイル・アプリケーション・レーティング・スケール(英語: Mobile Application Rating Scale、MARS)は、mHealthアプリケーション機能の評価と比較に科学文献で広く用いられているツールである。 しかし、MARSはフランス文化にも言語にも適応していない。 目的 この研究の目的は、MARSのフランス語版(MARS-F)を翻訳し、適応し、検証することである。 方法 オリジナルのMARSは2人の独立したバイリンガル科学者によって最初にフランス語に翻訳され、共通のバージョンは2人のネイティブ・イングリッシュ・スピーカーによって2度書き直され、最終的に確立されたMARS-Fとなった。 その後、その理解性は6名(研究者3名、博士3名)によって評価され、最終的なMARS-F版が作成された。 2つのバイリンガルレーダがMARSとMARS-Fを用いた63種類のアプリの評価を独立に完了した。 クラス内相関係数を用いてインターレータ信頼性を評価した。 さらに,両尺度の内的整合性と妥当性を評価した。 モッケンスケール解析はMARSとMARS-Fの両方のスケーラビリティを調べるために用いられた。 その結果、MARS-Fは元のMARSとよく一致し、2つのスケールに匹敵する特性を示した。 MARSとMARS-Fの相関係数(r)は0.97から0.99であった。 MARS-F 次元のエンゲージメント (\omega$=0.79), 機能 (\omega$=0.79), 美学 (\omega$=0.78), 情報品質 (\omega$=0.61), 総合 MARS スコア (\omega$=0.86) は良好であった。 モッケンスケール解析により、MARSのスケーラビリティ(Loevinger H=0.37)とMARS-Fのスケーラビリティ(H=0.35)が明らかにされた。 結論 MARS-F は有効なツールであり、フランス語を話す国々でmHealth アプリの品質を評価するために、研究者、医療専門家、公衆衛生当局、関心のある第三者にとって重要な支援となる。

Background In the recent decades, the number of apps promoting health behaviors and health-related strategies and interventions has increased alongside the number of smartphone users. Nevertheless, the validity process for measuring and reporting app quality remains unsatisfactory for health professionals and end users and represents a public health concern. The Mobile Application Rating Scale (MARS) is a tool validated and widely used in the scientific literature to evaluate and compare mHealth app functionalities. However, MARS is not adapted to the French culture nor to the language. Objective This study aims to translate, adapt, and validate the equivalent French version of MARS (ie, MARS-F). Methods The original MARS was first translated to French by two independent bilingual scientists, and their common version was blind back-translated twice by two native English speakers, culminating in a final well-established MARS-F. Its comprehensibility was then evaluated by 6 individuals (3 researchers and 3 nonacademics), and the final MARS-F version was created. Two bilingual raters independently completed the evaluation of 63 apps using MARS and MARS-F. Interrater reliability was assessed using intraclass correlation coefficients. In addition, internal consistency and validity of both scales were assessed. Mokken scale analysis was used to investigate the scalability of both MARS and MARS-F. Results MARS-F had a good alignment with the original MARS, with properties comparable between the two scales. The correlation coefficients (r) between the corresponding dimensions of MARS and MARS-F ranged from 0.97 to 0.99. The internal consistencies of the MARS-F dimensions engagement ($\omega$=0.79), functionality ($\omega$=0.79), esthetics ($\omega$=0.78), and information quality ($\omega$=0.61) were acceptable and that for the overall MARS score ($\omega$=0.86) was good. Mokken scale analysis revealed a strong scalability for MARS (Loevinger H=0.37) and a good scalability for MARS-F (H=0.35). Conclusions MARS-F is a valid tool, and it would serve as a crucial aid for researchers, health care professionals, public health authorities, and interested third parties, to assess the quality of mHealth apps in French-speaking countries.
翻訳日:2024-07-28 18:09:38 公開日:2024-06-27
# RadGradを用いたコンピュータ科学におけるエンゲージメント,多様性,保持性の向上に関する事例研究

Improving engagement, diversity, and retention in computer science with RadGrad: Results of a case study ( http://arxiv.org/abs/2407.17473v1 )

ライセンス: Link先を確認
Philip M. Johnson, Carleton Moore, Peter Leong, Seungoh Paek, (参考訳) RadGradは、ソーシャルネットワーク、学位プランナー、個別の学習計画、真剣なゲームといった機能を組み合わせたアプリケーションを通じて実装されたカリキュラムイニシアチブである。 RadGradは、エンゲージメント、保持、多様性を改善するために、学部のコンピュータサイエンスの学位プログラムにおいて「進歩」と「成功」という伝統的な意味を再定義する。 本稿では、RadGradプロジェクトについて述べ、RadGradが学生のエンゲージメント、多様性、保持に与える影響を評価するための評価研究について述べる。 また、システムの使用による機会と課題も提示します。

RadGrad is a curriculum initiative implemented via an application that combines features of social networks, degree planners, individual learning plans, and serious games. RadGrad redefines traditional meanings of "progress" and "success" in the undergraduate computer science degree program in an attempt to improve engagement, retention, and diversity. In this paper, we describe the RadGrad Project and report on an evaluation study designed to assess the impact of RadGrad on student engagement, diversity, and retention. We also present opportunities and challenges that result from the use of the system.
翻訳日:2024-07-28 18:09:38 公開日:2024-06-27
# My Kind of Woman:Averageness TheoryとEU法を通したAIにおけるジェンダーステレオタイプの分析

"My Kind of Woman": Analysing Gender Stereotypes in AI through The Averageness Theory and EU Law ( http://arxiv.org/abs/2407.17474v1 )

ライセンス: Link先を確認
Miriam Doh, and Anastasia Karagianni, (参考訳) 本研究は,社会的ステレオタイプとアルゴリズム的決定の相互作用に光を当てて,性別分類システムについて考察する。 顔の魅力と性別を識別する人間の能力の関係を示唆する「平均性理論」に基づき、人工知能(AI)システムへの人間の偏見の伝播の可能性を探る。 AIモデルであるStable Diffusion 2.1を利用して、人間の認知の中で観察される性別分類における魅力と精度の相関がAI内で持続するかどうかをテストするために、魅力のさまざまな意味を含むデータセットを作成しました。 以上の結果から,AIシステムは人体力学と同様に,魅力,社会的偏見の反映,アルゴリズム決定におけるステレオタイプに基づく性別分類の精度が変化していることが示唆された。 この発見は、人間の知覚がデータ収集に与える影響を考慮し、AI開発とAIデータトレーニングに対する多分野横断的なアプローチの必要性を強調している。 認知心理学とフェミニズムの法理論を取り入れることで、AIトレーニングに使用されるデータが、AI法とGDPRの範囲内でジェンダーの多様性と公平性をいかに促進するかを検証し、心理的およびフェミニズムの法理論が、AIシステムにおけるジェンダー平等と非差別の保護を確実にするための貴重な洞察を提供するかを再確認する。

This study delves into gender classification systems, shedding light on the interaction between social stereotypes and algorithmic determinations. Drawing on the "averageness theory," which suggests a relationship between a face's attractiveness and the human ability to ascertain its gender, we explore the potential propagation of human bias into artificial intelligence (AI) systems. Utilising the AI model Stable Diffusion 2.1, we have created a dataset containing various connotations of attractiveness to test whether the correlation between attractiveness and accuracy in gender classification observed in human cognition persists within AI. Our findings indicate that akin to human dynamics, AI systems exhibit variations in gender classification accuracy based on attractiveness, mirroring social prejudices and stereotypes in their algorithmic decisions. This discovery underscores the critical need to consider the impacts of human perceptions on data collection and highlights the necessity for a multidisciplinary and intersectional approach to AI development and AI data training. By incorporating cognitive psychology and feminist legal theory, we examine how data used for AI training can foster gender diversity and fairness under the scope of the AI Act and GDPR, reaffirming how psychological and feminist legal theories can offer valuable insights for ensuring the protection of gender equality and non-discrimination in AI systems.
翻訳日:2024-07-28 18:09:38 公開日:2024-06-27
# 畳み込みニューラルネットワークを用いたPWRクルド誘起パワーシフトのデータの駆動予測と不確かさの定量化

Data-Driven Prediction and Uncertainty Quantification of PWR Crud-Induced Power Shift Using Convolutional Neural Networks ( http://arxiv.org/abs/2407.04726v1 )

ライセンス: Link先を確認
Aidan Furlong, Farah Alsafadi, Scott Palmtag, Andrew Godfrey, Xu Wu, (参考訳) クラッド誘導動力シフト(Crud-induced Power Shift, CIPS)の開発は、燃料棒クラッド上のクラッドの開発による加圧水炉の運用上の課題である。 従来開発された予測ツールは通常、基礎物理学に基づいており、計算に高価であり、精度の程度が異なることが示されている。 本研究は、原子炉固有のキャリブレーションを組み込んだ組立レベルでCIPSインスタンスを予測するための、完全にトップダウンのアプローチを提案する。 人工ニューラルネットワークを用いて構築されたこの研究は、入力データのイメージライクなレイアウトを活用するために、三次元畳み込みアプローチを用いている。 分類器として、畳み込みニューラルネットワークモデルは、与えられたアセンブリが、所定のサイクル中に発生する時間だけでなく、CIPSを経験するかどうかを予測する。 このサロゲートモデルは、計算されたコアモデルパラメータとカトーバ原子力発電所のユニット1からの植物データの組み合わせを用いて、訓練と試験の両方を行う。 様々な測定値を用いて評価を行った後、モンテカルロ・ドロップアウトはモデル予測の広範囲な不確実性定量化に使用される。 その結果, この手法は, 限られた計算資源を使用しながら, クリーンサイクルとアクシデントサイクルの両方にわたるアセンブリレベルの分解能でCIPSを予測する上で, 有効な手法である可能性が示唆された。

The development of Crud-Induced Power Shift (CIPS) is an operational challenge in Pressurized Water Reactors that is due to the development of crud on the fuel rod cladding. The available predictive tools developed previously, usually based on fundamental physics, are computationally expensive and have shown differing degrees of accuracy. This work proposes a completely top-down approach to predict CIPS instances on an assembly level with reactor-specific calibration built-in. Built using artificial neural networks, this work uses a three-dimensional convolutional approach to leverage the image-like layout of the input data. As a classifier, the convolutional neural network model predicts whether a given assembly will experience CIPS as well as the time of occurrence during a given cycle. This surrogate model is both trained and tested using a combination of calculated core model parameters and measured plant data from Unit 1 of the Catawba Nuclear Station. After the evaluation of its performance using various metrics, Monte Carlo dropout is employed for extensive uncertainty quantification of the model predictions. The results indicate that this methodology could be a viable approach in predicting CIPS with an assembly-level resolution across both clean and afflicted cycles, while using limited computational resources.
翻訳日:2024-07-22 16:25:52 公開日:2024-06-27
# ニューラルスパイクデータの潜時拡散

Latent Diffusion for Neural Spiking Data ( http://arxiv.org/abs/2407.08751v1 )

ライセンス: Link先を確認
Jaivardhan Kapoor, Auguste Schulz, Julius Vetter, Felix Pei, Richard Gao, Jakob H. Macke, (参考訳) 現代の神経科学のデータセットは、複雑な行動と同時に記録された多くのニューロンの活動との関係に関する前例のない調査を可能にする。 潜在変数モデルは、そのような記録から低次元の埋め込みをうまく取り出すことができるが、現実的なスパイクデータを生成するために、特に振る舞いに依存した方法では、依然として困難である。 本稿では、低次元潜在空間を持つ拡散に基づく生成モデルであるLDNSについて述べる: LDNSは、構造化された状態空間(S4)層を持つオートエンコーダを用いて、離散的な高次元スパイクデータを連続的な時間的潜在空間に投影する。 これらの推論された潜伏剤を用いて、表現的拡散モデル(条件付き拡散モデル)を訓練し、現実的な単一ニューロンと集団スパイキング統計を用いた神経活動のサンプル化を可能にした。 合成データからLDNSを検証し, 潜水構造, 発射速度, スパイキング統計を正確に復元する。 次に,実験音声中の人間の皮質活動を模倣する可変長データを生成することで,その柔軟性を示す。 本研究では, 潜伏状態に依存しない単一ニューロンのダイナミクスを考慮した表現型観測モデルを用いて, LDNSの装備方法を示し, 生成したサンプルのリアリズムをさらに高めている。 最後に、多様な到達行動中に運動皮質活動に訓練された条件付きDNSは、与えられた到達方向または目に見えない到達軌跡の現実的なスパイクデータを生成することができる。 要約すると、LDNSは同時に低次元の潜伏剤の推測と、ニューラルネットワークデータセットの現実的な条件生成を可能にし、実験的に検証可能な仮説をシミュレートするためのさらなる可能性を開く。

Modern datasets in neuroscience enable unprecedented inquiries into the relationship between complex behaviors and the activity of many simultaneously recorded neurons. While latent variable models can successfully extract low-dimensional embeddings from such recordings, using them to generate realistic spiking data, especially in a behavior-dependent manner, still poses a challenge. Here, we present Latent Diffusion for Neural Spiking data (LDNS), a diffusion-based generative model with a low-dimensional latent space: LDNS employs an autoencoder with structured state-space (S4) layers to project discrete high-dimensional spiking data into continuous time-aligned latents. On these inferred latents, we train expressive (conditional) diffusion models, enabling us to sample neural activity with realistic single-neuron and population spiking statistics. We validate LDNS on synthetic data, accurately recovering latent structure, firing rates, and spiking statistics. Next, we demonstrate its flexibility by generating variable-length data that mimics human cortical activity during attempted speech. We show how to equip LDNS with an expressive observation model that accounts for single-neuron dynamics not mediated by the latent state, further increasing the realism of generated samples. Finally, conditional LDNS trained on motor cortical activity during diverse reaching behaviors can generate realistic spiking data given reach direction or unseen reach trajectories. In summary, LDNS simultaneously enables inference of low-dimensional latents and realistic conditional generation of neural spiking datasets, opening up further possibilities for simulating experimentally testable hypotheses.
翻訳日:2024-07-22 13:48:17 公開日:2024-06-27
# モジュラーからエンドツーエンド話者ダイアリゼーションへ

From Modular to End-to-End Speaker Diarization ( http://arxiv.org/abs/2407.08752v1 )

ライセンス: Link先を確認
Federico Landini, (参考訳) 話者ダイアリゼーションは通常、録音中の「誰が話したか」を決定するタスクと呼ばれる。 数年前までは、競合するアプローチはすべてモジュール化されていた。 この枠組みに基づくシステムは、ほとんどのシナリオで最先端のパフォーマンスに達したが、重なり合う音声を扱うのに大きな困難があった。 近年, 話者ダイアリゼーションのすべての側面を単一モデルで処理し, 重なり合う音声の性能を向上させるエンド・ツー・エンドモデルの出現が注目されている。 この論文は、これら2つの傾向の共存期間にまとめられている。 VBxとして知られるxベクトル(ニューラルネットワークで得られた話者埋め込み)のクラスタリングに使用されるベイジアン隠れマルコフモデルに基づくシステムについて述べる。 我々はその利点と限界についてコメントし、異なる関連コーパスで結果を評価する。 次に、エンド・ツー・エンドのニューラルダイアリゼーション(EEND)手法に移行する。 これらのモデルをトレーニングするための大規模なトレーニングセットの必要性と、手動で注釈付きダイアリゼーションデータの不足により、妥協ソリューションは、人工的にトレーニングデータを生成することで構成される。 本稿では,話者の旋回や重なり合いの観点から,実際の会話に類似した合成データを生成する手法について述べる。 本手法は,エンコーダ・デコーダ・アトラクタ(EEND-EDA)を用いたEENDのトレーニングにおいて,従来提案されていた「シミュレート・ミキシング」の手法よりも優れた性能が得られることを示す。 また,DiaPer と呼ばれる新しい EEND ベースのモデルを提案し,EEND-EDA よりも優れた性能が得られることを示す。 最後に、VBxベースのシステムとDiaPerを多種多様なコーパスで比較し、それぞれの手法の利点についてコメントする。

Speaker diarization is usually referred to as the task that determines ``who spoke when'' in a recording. Until a few years ago, all competitive approaches were modular. Systems based on this framework reached state-of-the-art performance in most scenarios but had major difficulties dealing with overlapped speech. More recently, the advent of end-to-end models, capable of dealing with all aspects of speaker diarization with a single model and better performing regarding overlapped speech, has brought high levels of attention. This thesis is framed during a period of co-existence of these two trends. We describe a system based on a Bayesian hidden Markov model used to cluster x-vectors (speaker embeddings obtained with a neural network), known as VBx, which has shown remarkable performance on different datasets and challenges. We comment on its advantages and limitations and evaluate results on different relevant corpora. Then, we move towards end-to-end neural diarization (EEND) methods. Due to the need for large training sets for training these models and the lack of manually annotated diarization data in sufficient quantities, the compromise solution consists in generating training data artificially. We describe an approach for generating synthetic data which resembles real conversations in terms of speaker turns and overlaps. We show how this method generating ``simulated conversations'' allows for better performance than using a previously proposed method for creating ``simulated mixtures'' when training the popular EEND with encoder-decoder attractors (EEND-EDA). We also propose a new EEND-based model, which we call DiaPer, and show that it can perform better than EEND-EDA, especially when dealing with many speakers and handling overlapped speech. Finally, we compare both VBx-based and DiaPer systems on a wide variety of corpora and comment on the advantages of each technique.
翻訳日:2024-07-22 13:48:17 公開日:2024-06-27
# イラン手話認識のためのトランスフォーマーに基づくマルチストリーム手法

A Transformer-Based Multi-Stream Approach for Isolated Iranian Sign Language Recognition ( http://arxiv.org/abs/2407.09544v1 )

ライセンス: Link先を確認
Ali Ghadami, Alireza Taheri, Ali Meghdari, (参考訳) 手話は世界中の何百万人もの人々のコミュニケーションに不可欠な手段であり、彼らの第一言語として機能します。 しかし、ほとんどのコミュニケーションツールは、難聴者や難聴者にとって問題や困難を生じさせるような、話し言葉や書き言葉のために開発されている。 手話認識システムを開発することにより、このコミュニケーションギャップを埋めて、手話を使う人をその表現の主形として利用して、人々や周囲とのコミュニケーションをより良くすることが可能になる。 この認識システムは、医療サービスの質を高め、公共サービスを改善し、聴覚障害者コミュニティに平等な機会を生み出す。 本研究の目的は,イラン手話語をトランスフォーマーなどの最新のディープラーニングツールの助けを借りて認識することである。 使用されるデータセットには、大学などの学術環境で頻繁に使用されるイラン手話101語が含まれている。 このネットワークは、遺伝的アルゴリズムの助けを借りて最適化されたアーリーフュージョンとレイトフュージョントランスフォーマーエンコーダベースのネットワークの組み合わせである。 このネットワークを訓練するために選択された機能には、手と唇のキーポイント、手と手の距離と角度が含まれる。 また、授業のトレーニングモデルに加えて、単語の埋め込みベクトルをマルチタスク学習として使用して、よりスムーズで効率的なトレーニングを行う。 また,単語データセットから生成された文に対して,文翻訳のためのウィンドウ化手法を用いて実験を行った。 最後に,テストデータに対する90.2%の精度を持つ開発モデルの助けを借りて,ユーザにリアルタイムフィードバックを提供する手話学習ソフトウェアを紹介し,この手の手話学習ソフトウェアの有効性と効果,およびフィードバックの影響について調査した。

Sign language is an essential means of communication for millions of people around the world and serves as their primary language. However, most communication tools are developed for spoken and written languages which can cause problems and difficulties for the deaf and hard of hearing community. By developing a sign language recognition system, we can bridge this communication gap and enable people who use sign language as their main form of expression to better communicate with people and their surroundings. This recognition system increases the quality of health services, improves public services, and creates equal opportunities for the deaf community. This research aims to recognize Iranian Sign Language words with the help of the latest deep learning tools such as transformers. The dataset used includes 101 Iranian Sign Language words frequently used in academic environments such as universities. The network used is a combination of early fusion and late fusion transformer encoder-based networks optimized with the help of genetic algorithm. The selected features to train this network include hands and lips key points, and the distance and angle between hands extracted from the sign videos. Also, in addition to the training model for the classes, the embedding vectors of words are used as multi-task learning to have smoother and more efficient training. This model was also tested on sentences generated from our word dataset using a windowing technique for sentence translation. Finally, the sign language training software that provides real-time feedback to users with the help of the developed model, which has 90.2% accuracy on test data, was introduced, and in a survey, the effectiveness and efficiency of this type of sign language learning software and the impact of feedback were investigated.
翻訳日:2024-07-22 13:18:53 公開日:2024-06-27
# カオストラクタの設計:半教師付きアプローチ

Designing Chaotic Attractors: A Semi-supervised Approach ( http://arxiv.org/abs/2407.09545v1 )

ライセンス: Link先を確認
Tempei Kabayama, Yasuo Kuniyoshi, Kazuyuki Aihara, Kohei Nakajima, (参考訳) カオス力学は自然界においてユビキタスであり、工学において有用であるが、幾何学的設計は困難である。 本稿では,スケルトンと呼ばれる周期軌道をテンプレートとして提供することにより,所望の形状のカオスを生成するための貯水池計算手法を提案する。 貯水池の分岐を利用して、意図的に骨格のトレーニングを失敗させ、固有のカオスを明らかにします。 骨格と貯水池の固有の力学との相互作用から生じる、この訓練されていない引き金の出現は、カオスを設計するための新しい半教師付きフレームワークを提供する。

Chaotic dynamics are ubiquitous in nature and useful in engineering, but their geometric design can be challenging. Here, we propose a method using reservoir computing to generate chaos with a desired shape by providing a periodic orbit as a template, called a skeleton. We exploit a bifurcation of the reservoir to intentionally induce unsuccessful training of the skeleton, revealing inherent chaos. The emergence of this untrained attractor, resulting from the interaction between the skeleton and the reservoir's intrinsic dynamics, offers a novel semi-supervised framework for designing chaos.
翻訳日:2024-07-22 13:18:53 公開日:2024-06-27
# 街路画像によるオランダ地区の抑うつと不安リスクの予測

Predicting Depression and Anxiety Risk in Dutch Neighborhoods from Street-View Images ( http://arxiv.org/abs/2407.09547v1 )

ライセンス: Link先を確認
Nin Khodorivsko, Giacomo Spigler, (参考訳) うつ病と不安障害は、世界の人口のかなりの部分に影響を及ぼす精神的な健康上の問題である。 本研究では,オランダの街路ビュー画像(SVI)を用いて,これらの障害の環境関連について検討した。 われわれのデータセットは、GoogleストリートビューからソースされたオランダのSVI9,879個で構成されており、オランダの健康監視局の統計的うつ病と不安リスク指標と組み合わせられている。 この課題に対処するため、既存の2つのニューラルネットワークアーキテクチャであるDeiT BaseとResNet50を洗練しました。 我々の目標は、原画像を用いて、低リスクから高リスクの4段階に分類される地区のリスクレベルを予測することであった。 その結果、DeiT BaseとResNet50はそれぞれ43.43%、43.63%の精度を達成した。 特に、エラーのかなりの部分は、隣接するリスクカテゴリ間のものであり、調整された精度は83.55%と80.38%であった。 また、モデルとDeiTの勾配ロールアウトを用いたSHAP法も実装した。 興味深いことに、SHAPは特定の景観特性を裏付けているが、これらの特徴と異なるうつ病リスクカテゴリーとの相関は明確ではなかった。 勾配のロールアウトは同様に非決定的であった。 しかし,手動による分析により,特定のリスクカテゴリと一貫して関連付けられている景観タイプを同定した。 これらの知見は、様々な景観とメンタルヘルス問題に対する環境リスク要因の相関をモニタリングする上で、これらの手法の可能性を示唆している。 今後の方向性として、オランダ保健監視所のリスクスコアが、時間とともに地域をまたいでどのようにシフトするかを観察するために、これらの手法を採用することを推奨する。

Depression and anxiety disorders are prevalent mental health challenges affecting a substantial segment of the global population. In this study, we explored the environmental correlates of these disorders by analyzing street-view images (SVI) of neighborhoods in the Netherlands. Our dataset comprises 9,879 Dutch SVIs sourced from Google Street View, paired with statistical depression and anxiety risk metrics from the Dutch Health Monitor. To tackle this challenge, we refined two existing neural network architectures, DeiT Base and ResNet50. Our goal was to predict neighborhood risk levels, categorized into four tiers from low to high risk, using the raw images. The results showed that DeiT Base and ResNet50 achieved accuracies of 43.43% and 43.63%, respectively. Notably, a significant portion of the errors were between adjacent risk categories, resulting in adjusted accuracies of 83.55% and 80.38%. We also implemented the SHapley Additive exPlanations (SHAP) method on both models and employed gradient rollout on DeiT. Interestingly, while SHAP underscored specific landscape attributes, the correlation between these features and distinct depression risk categories remained unclear. The gradient rollout findings were similarly non-definitive. However, through manual analysis, we identified certain landscape types that were consistently linked with specific risk categories. These findings suggest the potential of these techniques in monitoring the correlation between various landscapes and environmental risk factors for mental health issues. As a future direction, we recommend employing these methods to observe how risk scores from the Dutch Health Monitor shift across neighborhoods over time.
翻訳日:2024-07-22 13:18:53 公開日:2024-06-27
# バイテンポラル衛星画像からの時間変化説明に向けて

Towards Temporal Change Explanations from Bi-Temporal Satellite Images ( http://arxiv.org/abs/2407.09548v1 )

ライセンス: Link先を確認
Ryo Tsujimoto, Hiroki Ouchi, Hidetaka Kamigaito, Taro Watanabe, (参考訳) 異なる時期に撮影された衛星画像間の時間的変化を説明することは、都市計画や環境モニタリングにおいて重要である。 しかし,手作業による手作業によるデータセット構築にはコストがかかるため,人間とAIのコラボレーションは許容される。 本稿では,衛星画像間の時間的変化を説明するために,LVLM(Large-scale Vision-Language Models)の有用性について検討する。 LVLMは優れた画像キャプションを生成することが知られているが、入力として1つのイメージしか受信しない。 衛星画像のパーパを入力として扱うために,3つのプロンプト手法を提案する。 人間の評価により,ステップ・バイ・ステップの推論に基づく推論の有効性を見出した。

Explaining temporal changes between satellite images taken at different times is important for urban planning and environmental monitoring. However, manual dataset construction for the task is costly, so human-AI collaboration is promissing. Toward the direction, in this paper, we investigate the ability of Large-scale Vision-Language Models (LVLMs) to explain temporal changes between satellite images. While LVLMs are known to generate good image captions, they receive only a single image as input. To deal with a par of satellite images as input, we propose three prompting methods. Through human evaluation, we found the effectiveness of our step-by-step reasoning based prompting.
翻訳日:2024-07-22 13:08:56 公開日:2024-06-27
# Recursive InPainting (RIP) 下での安定拡散はどの程度安定か?

How Stable is Stable Diffusion under Recursive InPainting (RIP)? ( http://arxiv.org/abs/2407.09549v1 )

ライセンス: Link先を確認
Javier Conde, Miguel González, Gonzalo Martínez, Fernando Moral, Elena Merino-Gómez, Pedro Reviriego, (参考訳) 生成人工知能画像モデルは、テキスト・ツー・イメージ生成や、欠落したフラグメントで画像を完成させるインペインティングなどのタスクにおいて、優れたパフォーマンスを実現している。 画像を取り、いくつかの断片を取り除き、塗装を施して復元し、結果を元の画像と比較することにより、正確に塗布性能を測定することができる。 興味深いことに、インペイントは、画像から始めて再帰的に適用でき、一部を取り除き、画像の再構成にインペイントを適用し、再構成された画像に再びインペイント処理を開始する等することができる。 この再帰的に塗布を施すプロセスは、取り除かれた断片やモデルを再構築する能力によって、原画と似ているか、全く異なるイメージにつながる可能性がある。 直感的には、多くの再帰的インペイント操作をしても元のイメージと類似したイメージを復元する能力として理解されている安定性は望ましい特徴であり、インペイントのための追加のパフォーマンス指標として使用できる。 安定性の概念は、生成AIモデルを自身のデータで再帰的に訓練する文脈でも研究されている。 再帰的インペインティング(Recursive inpainting)は、推論のみの再帰的プロセスであり、トレーニング再帰の下で生成AIモデルの振る舞いを研究するための継続的な努力を補完する可能性がある。 本稿では,最も広く用いられている画像モデルである安定拡散モデルについて,再帰的塗布の影響について検討する。 その結果, 再帰的インペイントは画像の崩壊を招き, 非意味な画像に終止符を打つことができ, その結果は, 画像の種類, インペイントマスクのサイズ, イテレーション数など, いくつかの要因に依存することがわかった。

Generative Artificial Intelligence image models have achieved outstanding performance in text-to-image generation and other tasks, such as inpainting that completes images with missing fragments. The performance of inpainting can be accurately measured by taking an image, removing some fragments, performing the inpainting to restore them, and comparing the results with the original image. Interestingly, inpainting can also be applied recursively, starting from an image, removing some parts, applying inpainting to reconstruct the image, and then starting the inpainting process again on the reconstructed image, and so forth. This process of recursively applying inpainting can lead to an image that is similar or completely different from the original one, depending on the fragments that are removed and the ability of the model to reconstruct them. Intuitively, stability, understood as the capability to recover an image that is similar to the original one even after many recursive inpainting operations, is a desirable feature and can be used as an additional performance metric for inpainting. The concept of stability is also being studied in the context of recursive training of generative AI models with their own data. Recursive inpainting is an inference-only recursive process whose understanding may complement ongoing efforts to study the behavior of generative AI models under training recursion. In this paper, the impact of recursive inpainting is studied for one of the most widely used image models: Stable Diffusion. The results show that recursive inpainting can lead to image collapse, so ending with a nonmeaningful image, and that the outcome depends on several factors such as the type of image, the size of the inpainting masks, and the number of iterations.
翻訳日:2024-07-22 13:08:55 公開日:2024-06-27
# CAPM: デュアルネットワークによるMaxpoolベースのCNNの高速かつロバストな検証

CAPM: Fast and Robust Verification on Maxpool-based CNN via Dual Network ( http://arxiv.org/abs/2407.09550v1 )

ライセンス: Link先を確認
Jia-Hau Bai, Chi-Ting Liu, Yu Wang, Fu-Chieh Chang, Pei-Yuan Wu, (参考訳) 本研究は,CPM(Convex Adversarial Polytope for Maxpool-based CNN)を用いて,一般目的最大プール型畳み込みニューラルネットワーク(CNN)の有界摂動下での検証境界を改善する。 最大値関数は、凸緩和法を最大値関数に拡張するために一連のReLU関数として分解される。 実験により、この手法により、最大プールベースのCNNに対する最先端の検証精度が得られ、DeepZ、DeepPoly、PRIMAといった現在の検証手法よりも計算コストがはるかに低いことが示された。 この手法は大規模CNNにも適用可能で、従来の研究では計算に費用がかかることが多かった。 ある状況下では、CAPMは40回、20回、または2倍の速さで、PRIMA/DeepPoly/DeepZと比較して、かなり高い検証バウンダリ(CAPM 98%対PRIMA 76%/DeepPoly 73%/DeepZ 8%)を与える。 さらに、アルゴリズムの時間的複雑さを$O(W^2NK)$、$W$はニューラルネットワークの最大幅、$N$はニューロンの数、$K$はマックスプール層のカーネルのサイズとして示す。

This study uses CAPM (Convex Adversarial Polytope for Maxpool-based CNN) to improve the verified bound for general purpose maxpool-based convolutional neural networks (CNNs) under bounded norm adversarial perturbations. The maxpool function is decomposed as a series of ReLU functions to extend the convex relaxation technique to maxpool functions, by which the verified bound can be efficiently computed through a dual network. The experimental results demonstrate that this technique allows the state-of-the-art verification precision for maxpool-based CNNs and involves a much lower computational cost than current verification methods, such as DeepZ, DeepPoly and PRIMA. This method is also applicable to large-scale CNNs, which previous studies show to be often computationally prohibitively expensive. Under certain circumstances, CAPM is 40-times, 20-times or twice as fast and give a significantly higher verification bound (CAPM 98% vs. PRIMA 76%/DeepPoly 73%/DeepZ 8%) as compared to PRIMA/DeepPoly/DeepZ. Furthermore, we additionally present the time complexity of our algorithm as $O(W^2NK)$, where $W$ is the maximum width of the neural network, $N$ is the number of neurons, and $K$ is the size of the maxpool layer's kernel.
翻訳日:2024-07-22 13:08:55 公開日:2024-06-27
# 強化学習フィードバックを用いた画像生成モデルにおけるステレオタイプバイアスの最小化

Diminishing Stereotype Bias in Image Generation Model using Reinforcemenlent Learning Feedback ( http://arxiv.org/abs/2407.09551v1 )

ライセンス: Link先を確認
Xin Chen, Virgile Foussereau, (参考訳) 本研究では,Reinforcement Learning from Artificial Intelligence Feedback (RLAIF) を用いた画像生成モデルにおける性別バイアスについて,新しいDNO(Denoising Diffusion Policy Optimization)パイプラインを用いて検討する。 事前訓練された安定拡散モデルと高精度な性別分類変換器を用いることで、性別不均衡をシフトするRshiftと男女バランスを達成・維持するR Balanceの2つの報酬関数を導入する。 実験では、画像の品質を損なうことなくバイアスを緩和したり、追加のデータや迅速な修正を必要とすることなく、このアプローチの有効性を実証している。 この研究は、ジェンダーバイアスに焦点を当てながら、AIシステムの様々な形態のバイアスに対処するための基盤を確立し、責任あるAI開発の必要性を強調している。 今後の研究方針には、方法論を他のバイアスタイプに拡張すること、RLAIFパイプラインの堅牢性の向上、AIの公正性と傾斜性をさらに向上させるマルチプロンプト微調整の探求などが含まれる。

This study addresses gender bias in image generation models using Reinforcement Learning from Artificial Intelligence Feedback (RLAIF) with a novel Denoising Diffusion Policy Optimization (DDPO) pipeline. By employing a pretrained stable diffusion model and a highly accurate gender classification Transformer, the research introduces two reward functions: Rshift for shifting gender imbalances, and Rbalance for achieving and maintaining gender balance. Experiments demonstrate the effectiveness of this approach in mitigating bias without compromising image quality or requiring additional data or prompt modifications. While focusing on gender bias, this work establishes a foundation for addressing various forms of bias in AI systems, emphasizing the need for responsible AI development. Future research directions include extending the methodology to other bias types, enhancing the RLAIF pipeline's robustness, and exploring multi-prompt fine-tuning to further advance fairness and inclusivity in AI.
翻訳日:2024-07-22 13:08:55 公開日:2024-06-27
# ChatGPTは心を持っているか?

Does ChatGPT Have a Mind? ( http://arxiv.org/abs/2407.11015v1 )

ライセンス: Link先を確認
Simon Goldstein, Benjamin A. Levinstein, (参考訳) 本稿では,ChatGPT のような大規模言語モデル (LLM) が,信念,願望,意図を包含する真の民間心理学を持っているかどうかに焦点をあてる。 我々は、内部表現と行動のための配置という2つの重要な側面を調査することによって、この問題にアプローチする。 まず, 情報, 因果, 構造, テレオセマンティックな説明を含む様々な哲学的表現理論を調査し, LLMがそれぞれの提案する重要な条件を満たすことを論じる。 これらの主張をサポートするために、機械学習における最近の解釈可能性の研究を取り上げている。 第2に, LLM が行動に頑健な態度を示すか否かを考察する。 LLMの行動配置を評価するために、解釈主義と表現主義という2つの顕著な哲学的伝統を考察する。 LLMが心を持つためのいくつかの基準を満たすことを示す証拠は、特にゲーム理論環境において発見されるが、データは決定的ではないと結論づける。 さらに,LLMの民間心理学に対する懐疑的な問題として,感覚基盤の問題,「確率的オウム」論,記憶に関する懸念などを挙げる。 私たちの論文には3つのメインショットがあります。 まず、LLMは堅牢な内部表現を持つ。 第二に、LSMが堅牢な作用配置を持つかどうかについて、答える自由な疑問がある。 第3に、LLM表現に対する既存の懐疑的な課題は、哲学的な精査を生き残らない。

This paper examines the question of whether Large Language Models (LLMs) like ChatGPT possess minds, focusing specifically on whether they have a genuine folk psychology encompassing beliefs, desires, and intentions. We approach this question by investigating two key aspects: internal representations and dispositions to act. First, we survey various philosophical theories of representation, including informational, causal, structural, and teleosemantic accounts, arguing that LLMs satisfy key conditions proposed by each. We draw on recent interpretability research in machine learning to support these claims. Second, we explore whether LLMs exhibit robust dispositions to perform actions, a necessary component of folk psychology. We consider two prominent philosophical traditions, interpretationism and representationalism, to assess LLM action dispositions. While we find evidence suggesting LLMs may satisfy some criteria for having a mind, particularly in game-theoretic environments, we conclude that the data remains inconclusive. Additionally, we reply to several skeptical challenges to LLM folk psychology, including issues of sensory grounding, the "stochastic parrots" argument, and concerns about memorization. Our paper has three main upshots. First, LLMs do have robust internal representations. Second, there is an open question to answer about whether LLMs have robust action dispositions. Third, existing skeptical challenges to LLM representation do not survive philosophical scrutiny.
翻訳日:2024-07-22 12:29:47 公開日:2024-06-27
# LongLaMP: パーソナライズされた長文生成のためのベンチマーク

LongLaMP: A Benchmark for Personalized Long-form Text Generation ( http://arxiv.org/abs/2407.11016v1 )

ライセンス: Link先を確認
Ishita Kumar, Snigdha Viswanathan, Sushrita Yerra, Alireza Salemi, Ryan A. Rossi, Franck Dernoncourt, Hanieh Deilamsalehy, Xiang Chen, Ruiyi Zhang, Shubham Agarwal, Nedim Lipka, Hamed Zamani, (参考訳) 長文生成は、電子メールの生成やレビューの執筆など、大規模な言語モデルの現実世界のアプリケーションで広く使われているように思われる。 多くの実用アプリケーションにおいて、長文生成の基本的な重要性と普及にもかかわらず、パーソナライズされた生成に関する既存の研究は、非常に短いテキストの生成に焦点を当てている。 これらの制約を克服するために、特定のユーザ向けにパーソナライズされた長文を生成すること、そして、自然に長文の生成を必要とする現実世界のアプリケーションの大部分に実用的に有用である、という、パーソナライズされた長文生成の問題について検討する。 本研究では,長文生成タスクにおけるユーザ固有のパーソナライズの重要性を明らかにし,Long-text Language Model Personalization (LongLaMP)ベンチマークを開発する。 LongLaMPはパーソナライズされた長文生成のための包括的で多様な評価フレームワークを提供する。 ゼロショットおよび微調整言語タスクに対するLongLaMPの広範な実験は、提案したベンチマークの有効性と、多種多様な長文生成タスクを対象としたパーソナライズされた長文生成技術の開発と評価に有用であることを示す。 その結果、多種多様な長文生成タスクにおけるパーソナライズの重要性が浮き彫りになった。 最後に、この重要な問題に他の人が使うためのベンチマークをリリースします。

Long-text generation is seemingly ubiquitous in real-world applications of large language models such as generating an email or writing a review. Despite the fundamental importance and prevalence of long-text generation in many practical applications, existing work on personalized generation has focused on the generation of very short text. To overcome these limitations, we study the problem of personalized long-text generation, that is, generating long-text that is personalized for a specific user while being practically useful for the vast majority of real-world applications that naturally require the generation of longer text. In this work, we demonstrate the importance of user-specific personalization for long-text generation tasks and develop the Long-text Language Model Personalization (LongLaMP) Benchmark. LongLaMP provides a comprehensive and diverse evaluation framework for personalized long-text generation. Extensive experiments on LongLaMP for zero-shot and fine-tuned language tasks demonstrate the effectiveness of the proposed benchmark and its utility for developing and evaluating techniques for personalized long-text generation across a wide variety of long-text generation tasks. The results highlight the importance of personalization across a wide variety of long-text generation tasks. Finally, we release the benchmark for others to use for this important problem.
翻訳日:2024-07-22 12:29:47 公開日:2024-06-27
# 直接逆プロンプト:自己改善生成におけるLLMの識別能力の解析

Direct-Inverse Prompting: Analyzing LLMs' Discriminative Capacity in Self-Improving Generation ( http://arxiv.org/abs/2407.11017v1 )

ライセンス: Link先を確認
Jihyun Janice Ahn, Ryo Kamoi, Lu Cheng, Rui Zhang, Wenpeng Yin, (参考訳) メインストリームLSMの研究は、主に生成能力の向上に重点を置いている。 しかし、最も先進的なLCMでさえ出力の不確実性を経験しており、内容が大幅に変化していないにもかかわらず、異なる実行や入力の微妙な変化に直面した時に、しばしば様々な結果をもたらす。 同一のLLMから同一の入力に対する複数の応答が与えられた場合、我々はLLMの識別能力を活用して、この生成の不確実性を低減し、正しい回答の特定を支援する。 具体的には、2つのベンチマークデータセット上で生成性能を自己改善するために、直接、逆、ハイブリッドの3つの識別プロンプトを提案し、分析する。 私たちの洞察は、どの差別的プロンプトが最も有望か、いつ使うかを明らかにします。 我々の知る限り、この研究はLLMの識別能力を系統的に解析し、生成の不確実性に対処する最初の試みである。

Mainstream LLM research has primarily focused on enhancing their generative capabilities. However, even the most advanced LLMs experience uncertainty in their outputs, often producing varied results on different runs or when faced with minor changes in input, despite no substantial change in content. Given multiple responses from the same LLM to the same input, we advocate leveraging the LLMs' discriminative capability to reduce this generative uncertainty, aiding in identifying the correct answers. Specifically, we propose and analyze three discriminative prompts: direct, inverse, and hybrid, to explore the potential of both closed-source and open-source LLMs in self-improving their generative performance on two benchmark datasets. Our insights reveal which discriminative prompt is most promising and when to use it. To our knowledge, this is the first work to systematically analyze LLMs' discriminative capacity to address generative uncertainty.
翻訳日:2024-07-22 12:29:47 公開日:2024-06-27
# NAOロボットを用いた教室における自閉症学生のサプライズパフォーマンス

Surprising Performances of Students with Autism in Classroom with NAO Robot ( http://arxiv.org/abs/2407.12014v1 )

ライセンス: Link先を確認
Qin Yang, Huan Lu, Dandan Liang, Shengrong Gong, Huanghao Feng, (参考訳) 自閉症は、幼少期から発達障害であり、生涯にわたって持続し、社会的行動に大きな影響を及ぼし、診断された人の学習と社会的スキルの獲得を妨げる。 技術進歩が進むにつれて、自閉症スペクトラム障害(ASD)の教育を支援するために様々な技術が活用され、教育成果と社会的能力の向上が図られている。 自閉症介入に関する多くの研究は、行動療法における社会ロボットの有効性を強調している。 しかし、自閉症児の教室環境へのソーシャルロボットの統合に関する研究は、いまだに少ない。 本稿では,NAOロボットを介する集合教室におけるグループ実験の設計と実装について述べる。 実験では、特別教育教員とNAOロボットが共同で教室活動を行い、教師、ロボット、学生の交流を通じて動的学習環境を育むことを目的とした。 特別教育学校で実施されたこの実験は、ロボット支援教室の拡張を期待する基礎的研究として機能した。 実験結果から, NAOロボットを搭載した教室のASD学生は, 通常の教室に比べて, 優れた成績を示したことが示唆された。 NAOロボットのヒューマノイドの特徴とボディランゲージは,特にタレントショーやコマンドタスクにおいて学生の注意を引いた。 予備的な知見は、NAOロボットは、ASD学生の焦点と教室へのエンゲージメントを著しく向上させ、教育性能を向上し、より良い社会行動を促進することを示唆している。

Autism is a developmental disorder that manifests in early childhood and persists throughout life, profoundly affecting social behavior and hindering the acquisition of learning and social skills in those diagnosed. As technological advancements progress, an increasing array of technologies is being utilized to support the education of students with Autism Spectrum Disorder (ASD), aiming to improve their educational outcomes and social capabilities. Numerous studies on autism intervention have highlighted the effectiveness of social robots in behavioral treatments. However, research on the integration of social robots into classroom settings for children with autism remains sparse. This paper describes the design and implementation of a group experiment in a collective classroom setting mediated by the NAO robot. The experiment involved special education teachers and the NAO robot collaboratively conducting classroom activities, aiming to foster a dynamic learning environment through interactions among teachers, the robot, and students. Conducted in a special education school, this experiment served as a foundational study in anticipation of extended robot-assisted classroom sessions. Data from the experiment suggest that ASD students in classrooms equipped with the NAO robot exhibited notably better performance compared to those in regular classrooms. The humanoid features and body language of the NAO robot captivated the students' attention, particularly during talent shows and command tasks, where students demonstrated heightened engagement and a decrease in stereotypical repetitive behaviors and irrelevant minor movements commonly observed in regular settings. Our preliminary findings indicate that the NAO robot significantly enhances focus and classroom engagement among students with ASD, potentially improving educational performance and fostering better social behaviors.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-27
# The Great AI Witch Hunt:Reviewers Perception and (Mis)Conception of Generative AI in Research Writing

The Great AI Witch Hunt: Reviewers Perception and (Mis)Conception of Generative AI in Research Writing ( http://arxiv.org/abs/2407.12015v1 )

ライセンス: Link先を確認
Hilda Hadan, Derrick Wang, Reza Hadi Mogavi, Joseph Tu, Leah Zhang-Kennedy, Lennart E. Nacke, (参考訳) 研究執筆におけるジェネレーティブAI(GenAI)の利用は急速に増加している。 しかし、ピアレビュアーがどのようにAIによる増補された写本を認識または誤認しているかは明らかでない。 ピアレビューに対するAI強化書き込みの影響を調査するため,トップレベルのHCIカンファレンスの17人のピアレビュアーを対象に,スニペットベースのオンライン調査を実施した。 我々の研究結果は、AIによって強化された文章は可読性、言語多様性、情報性を改善するが、しばしば研究の詳細や著者からの反射的な洞察を欠いていることを示唆している。 審査員は、人間とAIに強化された文章の区別に一貫して苦労したが、彼らの判断は一貫していた。 彼らはAIを活用した文章における「人間の触覚」と主観的な表現の喪失について言及した。 我々は,GenAIに対する個人的偏見に関係なく,応募の公平な評価を促進するレビュアーガイドラインを提唱する。 研究そのものの質は、それを作るツールに関する先入観に拘わらず、レビューにおいて優先されるべきである。 我々は,GenAIの助力を用いても,研究者は執筆プロセスのオーサシップと管理を保たなければならないことを強調する。

Generative AI (GenAI) use in research writing is growing fast. However, it is unclear how peer reviewers recognize or misjudge AI-augmented manuscripts. To investigate the impact of AI-augmented writing on peer reviews, we conducted a snippet-based online survey with 17 peer reviewers from top-tier HCI conferences. Our findings indicate that while AI-augmented writing improves readability, language diversity, and informativeness, it often lacks research details and reflective insights from authors. Reviewers consistently struggled to distinguish between human and AI-augmented writing but their judgements remained consistent. They noted the loss of a "human touch" and subjective expressions in AI-augmented writing. Based on our findings, we advocate for reviewer guidelines that promote impartial evaluations of submissions, regardless of any personal biases towards GenAI. The quality of the research itself should remain a priority in reviews, regardless of any preconceived notions about the tools used to create it. We emphasize that researchers must maintain their authorship and control over the writing process, even when using GenAI's assistance.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-27
# タスク指向会話システムにおけるAPI引数充足のためのLLMフレームワーク

LLM-based Frameworks for API Argument Filling in Task-Oriented Conversational Systems ( http://arxiv.org/abs/2407.12016v1 )

ライセンス: Link先を確認
Jisoo Mok, Mohammad Kachuee, Shuyang Dai, Shayan Ray, Tara Taghavi, Sungroh Yoon, (参考訳) タスク指向の会話エージェントは、ユーザと対話し、外部APIを活用することでそれらを支援する。 典型的なタスク指向の会話システムは、外部APIの選択、引数の充足、応答生成の3つのフェーズに分けられる。 私たちの仕事の焦点は引数フィリングのタスクであり、選択したAPIが要求する引数を正確に提供します。 対話履歴と事前に定義されたAPIスキーマを解釈すると、引数フィリングタスクは、望ましいエージェントアクションを生成するために必要な情報を外部APIに提供することが期待される。 本稿では,Large Language Models (LLMs) のAPI引数充足問題への適用について検討する。 最初の調査では、LLMは引数フィリングをうまく実行し、トレーニングを設計し、フレームワークが応答を基盤にするように促すために、さらなる基盤プロセスが必要です。 提案手法と組み合わせることで, LLMの引数充足性能が顕著に向上し, 自動引数充足フレームワークの構築に向けた新たな手法が確立された。

Task-orientated conversational agents interact with users and assist them via leveraging external APIs. A typical task-oriented conversational system can be broken down into three phases: external API selection, argument filling, and response generation. The focus of our work is the task of argument filling, which is in charge of accurately providing arguments required by the selected API. Upon comprehending the dialogue history and the pre-defined API schema, the argument filling task is expected to provide the external API with the necessary information to generate a desirable agent action. In this paper, we study the application of Large Language Models (LLMs) for the problem of API argument filling task. Our initial investigation reveals that LLMs require an additional grounding process to successfully perform argument filling, inspiring us to design training and prompting frameworks to ground their responses. Our experimental results demonstrate that when paired with proposed techniques, the argument filling performance of LLMs noticeably improves, paving a new way toward building an automated argument filling framework.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-27
# 大規模言語モデルによる文書改善に関するフォローアップ質問

Follow-Up Questions Improve Documents Generated by Large Language Models ( http://arxiv.org/abs/2407.12017v1 )

ライセンス: Link先を確認
Bernadette J Tix, (参考訳) 本研究では,短文文書に対するユーザからの要求に応じて,大規模言語モデルがフォローアップ質問を生成することの影響について検討する。 ユーザは、AIが生成したいドキュメントをリクエストするプロンプトを提供した。 そしてAIは、要求されたドキュメントを生成する前に、ユーザのニーズを明確にするために質問を生成する。 ユーザは質問に回答し、最初のプロンプトと質問と回答の両方を用いて生成されたドキュメントと、最初のプロンプトのみを用いて生成されたドキュメントの間に好みを示し、質問回答プロセスでの経験についてフィードバックした。 本研究は,文書の嗜好と質的ユーザエクスペリエンスの両方において,問合せのメリットを示すものである。

This study investigates the impact of Large Language Models generating follow up questions in response to user requests for short text documents. Users provided prompts requesting documents they would like the AI to produce. The AI then generated questions to clarify the user needs before generating the requested documents. Users answered the questions and then indicated their preference between a document generated using both the initial prompt and the questions and answers, and a document generated using only the initial prompt, and gave feedback about their experience with the question-answering process. The findings of this study show clear benefits to question-asking both in document preference and in the qualitative user experience.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-27
# 公開HateSpeechデータセットの実証評価

Empirical Evaluation of Public HateSpeech Datasets ( http://arxiv.org/abs/2407.12018v1 )

ライセンス: Link先を確認
Sadar Jaf, Basel Barakat, (参考訳) ソーシャルメディアプラットフォームが提供する広範なコミュニケーションメリットにもかかわらず、ユーザの安全を確保するためには、多くの課題に取り組む必要がある。 これらのプラットフォーム上でユーザーが直面する最も重大なリスクの1つは、ヘイトスピーチである。 ソーシャルメディアプラットフォームは、ヘイトスピーチ検出のための機械学習アルゴリズムのトレーニングと評価に使用されるデータセットを生成するために広く利用されている。 しかし、既存の公開データセットには多くの制限があり、これらのアルゴリズムの効果的な訓練を妨げ、不正確なヘイトスピーチ分類につながる。 本研究は,自動ヘイトスピーチ分類によく用いられる複数の公開データセットの包括的評価を提供する。 厳密な分析を通じて、現在のヘイトスピーチデータセットの限界を浮き彫りにした説得力のある証拠を提示する。 さらに、これらのデータセットに固有の強みと弱みを解明するために、さまざまな統計分析を行う。 この研究は、特定されたデータセットの制限に対処することで、ヘイトスピーチ検出のためのより正確で信頼性の高い機械学習モデルの開発を促進することを目的としている。

Despite the extensive communication benefits offered by social media platforms, numerous challenges must be addressed to ensure user safety. One of the most significant risks faced by users on these platforms is targeted hate speech. Social media platforms are widely utilised for generating datasets employed in training and evaluating machine learning algorithms for hate speech detection. However, existing public datasets exhibit numerous limitations, hindering the effective training of these algorithms and leading to inaccurate hate speech classification. This study provides a comprehensive empirical evaluation of several public datasets commonly used in automated hate speech classification. Through rigorous analysis, we present compelling evidence highlighting the limitations of current hate speech datasets. Additionally, we conduct a range of statistical analyses to elucidate the strengths and weaknesses inherent in these datasets. This work aims to advance the development of more accurate and reliable machine learning models for hate speech detection by addressing the dataset limitations identified.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-27
# DIM: 大規模言語モデルによるマルチモーダルエンティティリンクの動的統合

DIM: Dynamic Integration of Multimodal Entity Linking with Large Language Model ( http://arxiv.org/abs/2407.12019v1 )

ライセンス: Link先を確認
Shezheng Song, Shasha Li, Jie Yu, Shan Zhao, Xiaopeng Li, Jun Ma, Xiaodong Liu, Zhuo Li, Xiaoguang Mao, (参考訳) 本研究は,マルチモーダル・エンティティ・リンク(Multimodal Entity Linking)に着目し,知識ベースにおけるエンティティとマルチモーダル情報との言及を一致させたものである。 既存の手法はまだ曖昧な実体表現や限られた画像情報利用といった課題に直面している。 そこで本稿では,ChatGPTを用いた動的エンティティ抽出を提案する。 知識ベース(DIM)とマルチモーダル情報を動的に統合し、視覚的理解にLarge Language Model(LLM)の機能を利用する方法を提案する。 BLIP-2のようなLCMは、画像内のエンティティに関連する情報を抽出し、エンティティ特徴の抽出を改善し、ChatGPTが提供する動的エンティティ表現とリンクさせる。 実験の結果,提案手法は従来の3つのデータセットにおける既存手法よりも優れており,動的に拡張されたデータセット(Wiki+, Rich+, Diverse+)上でSOTA(State-of-the-art)を実現することがわかった。 再現性のために、コードと収集したデータセットは \url{https://github.com/season1blue/DIM} でリリースされます。

Our study delves into Multimodal Entity Linking, aligning the mention in multimodal information with entities in knowledge base. Existing methods are still facing challenges like ambiguous entity representations and limited image information utilization. Thus, we propose dynamic entity extraction using ChatGPT, which dynamically extracts entities and enhances datasets. We also propose a method: Dynamically Integrate Multimodal information with knowledge base (DIM), employing the capability of the Large Language Model (LLM) for visual understanding. The LLM, such as BLIP-2, extracts information relevant to entities in the image, which can facilitate improved extraction of entity features and linking them with the dynamic entity representations provided by ChatGPT. The experiments demonstrate that our proposed DIM method outperforms the majority of existing methods on the three original datasets, and achieves state-of-the-art (SOTA) on the dynamically enhanced datasets (Wiki+, Rich+, Diverse+). For reproducibility, our code and collected datasets are released on \url{https://github.com/season1blue/DIM}.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-27
# 高速大言語モデルデコードのための適応的ドラフト検証

Adaptive Draft-Verification for Efficient Large Language Model Decoding ( http://arxiv.org/abs/2407.12021v1 )

ライセンス: Link先を確認
Xukun Liu, Bowen Lei, Ruqi Zhang, Dongkuan Xu, (参考訳) 大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成し、各トークンはモデルが学習した確率を使って一度に1つずつ予測される。 典型的な自己回帰復号法では、各トークンが生成するモデルに対して、それぞれ別の前方通過が必要であり、計算的に非効率であり、遅延に敏感なシナリオにLSMをデプロイする上での課題を提起する。 現在の復号法の主な制限は、その非効率性とリソース要求に起因する。 既存のアプローチでは、リソース集約的な微調整された小さなモデルを必要とするか、あるいは次のトークンのドラフトを構築するための固定された検索スキームに依存するか、適応性に欠け、異なるモデルやコンテキストをまたいだ一般化に失敗する。 これらの問題に対処するため、我々はADEDと呼ばれる新しい手法を導入し、微調整を必要とせずにLCMデコーディングを高速化する。 私たちのアプローチは、効率を改善するために時間をかけて進化する適応的なドラフト検証プロセスです。 我々は, 3 グラム行列に基づく LLM 表現を用いて, LLM の出力分布を動的に近似し, 復号過程におけるトークン確率の変化に適応できることを示す。 さらに,我々は,LLMの真の出力分布に近い多種多様かつ多種多様であることを保証し,探索と利用を効果的に両立するドラフト構築機構を実装した。 この設計の重要性は、ドラフト分布を適応的に最適化できることにある。 様々なベンチマークデータセットやLLMアーキテクチャに関する広範な実験を通じて、ADEDは高い精度を維持しながらデコードプロセスを著しく加速し、広範囲の実用的なアプリケーションにデプロイするのに適していることを示した。

Large language model (LLM) decoding involves generating a sequence of tokens based on a given context, where each token is predicted one at a time using the model's learned probabilities. The typical autoregressive decoding method requires a separate forward pass through the model for each token generated, which is computationally inefficient and poses challenges for deploying LLMs in latency-sensitive scenarios. The main limitations of current decoding methods stem from their inefficiencies and resource demands. Existing approaches either necessitate fine-tuning smaller models, which is resource-intensive, or rely on fixed retrieval schemes to construct drafts for the next tokens, which lack adaptability and fail to generalize across different models and contexts. To address these issues, we introduce a novel methodology called ADED, which accelerates LLM decoding without requiring fine-tuning. Our approach involves an adaptive draft-verification process that evolves over time to improve efficiency. We utilize a tri-gram matrix-based LLM representation to dynamically approximate the output distribution of the LLM, allowing the model to adjust to changing token probabilities during the decoding process. Additionally, we implement a draft construction mechanism that effectively balances exploration and exploitation, ensuring that the drafts generated are both diverse and close to the true output distribution of the LLM. The importance of this design lies in its ability to optimize the draft distribution adaptively, leading to faster and more accurate decoding. Through extensive experiments on various benchmark datasets and LLM architectures, we demonstrate that ADED significantly accelerates the decoding process while maintaining high accuracy, making it suitable for deployment in a wide range of practical applications.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-27
# AIによるポリシーとエビデンスレビュー(BUMPER)のための理解可能なメッセージングの構築

Building Understandable Messaging for Policy and Evidence Review (BUMPER) with AI ( http://arxiv.org/abs/2407.12812v1 )

ライセンス: Link先を確認
Katherine A. Rosenfeld, Maike Sonnewald, Sonia J. Jindal, Kevin A. McCarthy, Joshua L. Proctor, (参考訳) 本稿では,BUMPER(Building Understandable Messaging for Policy and Evidence Review)において,大規模言語モデル(LLM)を使用するためのフレームワークを紹介する。 LLMは多様なメディアの巨大なデータベースを理解し合成するためのインタフェースを提供することができる。 これは、科学的証拠の政策と行動への翻訳をスーパーチャージャーするエキサイティングな機会を示し、世界中の生活を改善する。 しかしながら、これらのモデルはアクセス、信頼性、説明責任に関する課題も生み出します。 BUMPERフレームワークは、同じ科学者(例えば、個々のコントリビュータ、ラボ、コンソーシアム)によって科学知識ベース(例えば、ドキュメント、コード、調査データ)の上に構築されている。 透明性、スコープ制限、明示的なチェック、不確実性などを通じて信頼性を高めるソリューションに重点を置いています。 LLMは急速に採用され、その結果はよく分かっていない。 このフレームワークは、LLMの信頼性と、高スループットアプリケーションでの使用に関するオープンな疑問に対処する。 麻疹コントロールプログラムを通知するためのモデルとして,健康政策における実例を示す。 この枠組みは、政策立案者にとっての科学的証拠のアクセシビリティと信頼性の促進、研究者にとっての政策関連性と翻訳性への注力、そして最終的には政策決定に使用される科学的知識の影響を増大させ、加速させることができると論じる。

We introduce a framework for the use of large language models (LLMs) in Building Understandable Messaging for Policy and Evidence Review (BUMPER). LLMs are proving capable of providing interfaces for understanding and synthesizing large databases of diverse media. This presents an exciting opportunity to supercharge the translation of scientific evidence into policy and action, thereby improving livelihoods around the world. However, these models also pose challenges related to access, trust-worthiness, and accountability. The BUMPER framework is built atop a scientific knowledge base (e.g., documentation, code, survey data) by the same scientists (e.g., individual contributor, lab, consortium). We focus on a solution that builds trustworthiness through transparency, scope-limiting, explicit-checks, and uncertainty measures. LLMs are rapidly being adopted and consequences are poorly understood. The framework addresses open questions regarding the reliability of LLMs and their use in high-stakes applications. We provide a worked example in health policy for a model designed to inform measles control programs. We argue that this framework can facilitate accessibility of and confidence in scientific evidence for policymakers, drive a focus on policy-relevance and translatability for researchers, and ultimately increase and accelerate the impact of scientific knowledge used for policy decisions.
翻訳日:2024-07-22 08:47:38 公開日:2024-06-27
# テキスト分類のための大規模言語モデルを用いたデータ生成:実証事例

Data Generation using Large Language Models for Text Classification: An Empirical Case Study ( http://arxiv.org/abs/2407.12813v1 )

ライセンス: Link先を確認
Yinheng Li, Rogerio Bonatti, Sara Abdali, Justin Wagle, Kazuhito Koishida, (参考訳) 近年,Large Language Models (LLMs) を用いてモデルトレーニングのための合成データの生成が盛んに行われている。 LLMはリアルなトレーニングデータを生成することができるが、データ生成の有効性は、プロンプトの選択、タスクの複雑さ、生成したデータの質、量、多様性など、さまざまな要因に影響を受けている。 本研究では,テキスト分類タスクにおける合成データの利用にのみ焦点をあてる。 具体的には、合成データに基づいて訓練された自然言語理解(NLU)モデルを用いて、異なる生成手法による合成データの質を評価する。 この研究は、これらの要因の影響を実証分析し、データ生成の実践を改善するためのレコメンデーションを提供する。

Using Large Language Models (LLMs) to generate synthetic data for model training has become increasingly popular in recent years. While LLMs are capable of producing realistic training data, the effectiveness of data generation is influenced by various factors, including the choice of prompt, task complexity, and the quality, quantity, and diversity of the generated data. In this work, we focus exclusively on using synthetic data for text classification tasks. Specifically, we use natural language understanding (NLU) models trained on synthetic data to assess the quality of synthetic data from different generation approaches. This work provides an empirical analysis of the impact of these factors and offers recommendations for better data generation practices.
翻訳日:2024-07-22 08:47:38 公開日:2024-06-27
# FernUni LLM Experimental Infrastructure (FLEXI) -- オープンな大規模言語モデルへのアクセスによる高等教育における実験とイノベーションの実現

FernUni LLM Experimental Infrastructure (FLEXI) -- Enabling Experimentation and Innovation in Higher Education Through Access to Open Large Language Models ( http://arxiv.org/abs/2407.13013v1 )

ライセンス: Link先を確認
Torsten Zesch, Michael Hanses, Niels Seidel, Piush Aggarwal, Dirk Veiel, Claudia de Witt, (参考訳) 高等教育におけるLLMの潜在能力を最大限に活用することは、LLMへのアクセスに関する課題によって妨げられている。 現在議論されている2つの主要なアクセスモードは、クラウドベースの LLM や、ローカルに保守されたオープン LLM を提供することである。 本稿では,ハーゲンのFernUniversit\"atで,FLEXI(FernUni LLM Experimental Infrastructure)というプロジェクト名でオープンLLMインフラストラクチャを確立する現状について述べる。 FLEXIは、高等教育において、ローカルに維持されたオープン LLM の使用を好んで(あるいは反対に)、強く必要な証拠を生み出すことを目的として、教育と研究における実験を可能にする。 本稿は,自前のLLMサーバを実行するかどうかを判断しようとするすべての人たちに対して,実践的なガイダンスを提供する。

Using the full potential of LLMs in higher education is hindered by challenges with access to LLMs. The two main access modes currently discussed are paying for a cloud-based LLM or providing a locally maintained open LLM. In this paper, we describe the current state of establishing an open LLM infrastructure at FernUniversit\"at in Hagen under the project name FLEXI (FernUni LLM Experimental Infrastructure). FLEXI enables experimentation within teaching and research with the goal of generating strongly needed evidence in favor (or against) the use of locally maintained open LLMs in higher education. The paper will provide some practical guidance for everyone trying to decide whether to run their own LLM server.
翻訳日:2024-07-22 08:18:00 公開日:2024-06-27
# GAP9Shield:150GOPSのAI対応超低電力モジュール

GAP9Shield: A 150GOPS AI-capable Ultra-low Power Module for Vision and Ranging Applications on Nano-drones ( http://arxiv.org/abs/2407.13706v1 )

ライセンス: Link先を確認
Hanna Müller, Victor Kartsch, Luca Benini, (参考訳) AIとデジタル信号処理技術の進化と安価なエネルギー効率のプロセッサが組み合わさって、ドローンアプリケーションのためのハードウェアとソフトウェアの開発を推進している。 手のひらに収まるナノドロンは、室内環境に適しており、人間との相互作用にも適しているが、ハードウェアが不足しているため、複雑なタスクに必要な性能が得られないことが多い。 このギャップに対処するため、150GOPS対応のSoCであるGAP9を動力とするナノドロンのモジュールであるGAP9Shieldを提示する。 このシステムには、高解像度撮像のための5MP OV5647カメラ、WiFi-BLE NINAモジュール、障害物回避機能を強化する5D VL53L1ベースのレンジサブシステムが含まれる。 GAP9Shieldは、同じターゲットの最先端システムと比較して20%高いサンプルレート(RGB画像)を提供し、20%の重量削減を提供する。 本稿では,物体検出(YOLO),局所化,マッピングにおいてGAP9のエネルギー効率と処理能力を強調し,100mW未満の電力エンベロープ内および低レイテンシ(オブジェクト検出では17ms)で動作可能であり,新しい世代のナノドロンのアプリケーションにおいてGAP9の変換ポテンシャルを強調した。

The evolution of AI and digital signal processing technologies, combined with affordable energy-efficient processors, has propelled the development of both hardware and software for drone applications. Nano-drones, which fit into the palm of the hand, are suitable for indoor environments and safe for human interaction; however, they often fail to deliver the required performance for complex tasks due to the lack of hardware providing sufficient sensing and computing performance. Addressing this gap, we present the GAP9Shield, a nano-drone-compatible module powered by the GAP9, a 150GOPS-capable SoC. The system also includes a 5MP OV5647 camera for high-definition imaging, a WiFi-BLE NINA module, and a 5D VL53L1-based ranging subsystem, which enhances obstacle avoidance capabilities. In comparison with similarly targeted state-of-the-art systems, GAP9Shield provides a 20% higher sample rate (RGB images) while offering a 20% weight reduction. In this paper, we also highlight the energy efficiency and processing power capabilities of GAP9 for object detection (YOLO), localization, and mapping, which can run within a power envelope of below 100 mW and at low latency (as 17 ms for object detection), highlighting the transformative potential of GAP9 for the new generation of nano-drone applications.
翻訳日:2024-07-22 08:07:30 公開日:2024-06-27
# Meta Large Language Model Compiler: コンパイラ最適化の基礎モデル

Meta Large Language Model Compiler: Foundation Models of Compiler Optimization ( http://arxiv.org/abs/2407.02524v1 )

ライセンス: Link先を確認
Chris Cummins, Volker Seeker, Dejan Grubisic, Baptiste Roziere, Jonas Gehring, Gabriel Synnaeve, Hugh Leather, (参考訳) 大規模言語モデル(LLM)は、様々なソフトウェア工学やコーディングタスクにまたがる顕著な機能を示している。 しかしながら、コード領域におけるそれらのアプリケーションとコンパイラの最適化については、まだ未検討である。 LLMのトレーニングはリソース集約的であり、相当なGPU時間と広範なデータ収集を必要とするため、禁止される可能性がある。 このギャップに対処するために、コード最適化タスク用に特別に設計された、堅牢でオープンに利用可能な事前訓練済みモデルのスイートであるMeta Large Language Model Compiler (LLM Compiler)を紹介します。 Code Llamaの基盤の上に構築されたLLMコンパイラは、コンパイラ中間表現(IR)、アセンブリ言語、最適化テクニックの理解を強化する。 このモデルは、LLVM-IRとアセンブリコードの546億のトークンからなる膨大なコーパスでトレーニングされており、コンパイラの振る舞いを微調整して解釈している。 LLM Compilerは、広範囲の再利用を可能にする商用ライセンス下でリリースされており、70億と13億のパラメーターの2つのサイズで利用できる。 また、コードサイズを最適化し、x86_64とARMアセンブリをLLVM-IRに分解する機能を強化したモデルの微調整版も提示する。 これらは自動調整検索の最適化可能性の77%、分解ラウンドトリップの45%を達成している(14%の正確な一致)。 このリリースは、学術研究者と業界専門家の両方によるコンパイラ最適化のさらなる研究と開発のための、スケーラブルで費用対効果の高い基盤を提供することを目的としている。

Large Language Models (LLMs) have demonstrated remarkable capabilities across a variety of software engineering and coding tasks. However, their application in the domain of code and compiler optimization remains underexplored. Training LLMs is resource-intensive, requiring substantial GPU hours and extensive data collection, which can be prohibitive. To address this gap, we introduce Meta Large Language Model Compiler (LLM Compiler), a suite of robust, openly available, pre-trained models specifically designed for code optimization tasks. Built on the foundation of Code Llama, LLM Compiler enhances the understanding of compiler intermediate representations (IRs), assembly language, and optimization techniques. The model has been trained on a vast corpus of 546 billion tokens of LLVM-IR and assembly code and has undergone instruction fine-tuning to interpret compiler behavior. LLM Compiler is released under a bespoke commercial license to allow wide reuse and is available in two sizes: 7 billion and 13 billion parameters. We also present fine-tuned versions of the model, demonstrating its enhanced capabilities in optimizing code size and disassembling from x86_64 and ARM assembly back into LLVM-IR. These achieve 77% of the optimising potential of an autotuning search, and 45% disassembly round trip (14% exact match). This release aims to provide a scalable, cost-effective foundation for further research and development in compiler optimization by both academic researchers and industry practitioners.
翻訳日:2024-07-04 18:53:35 公開日:2024-06-27
# 潜時統合のための最適輸送法と異種脳活動データへの応用

Optimal Transport for Latent Integration with An Application to Heterogeneous Neuronal Activity Data ( http://arxiv.org/abs/2407.00099v1 )

ライセンス: Link先を確認
Yubai Yuan, Babak Shahbaba, Norbert Fortin, Keiland Cooper, Qing Nie, Annie Qu, (参考訳) 異種データセット間で共有されるタスク固有応答の動的パターンを検出することは、医学や神経科学における多くの科学的応用において不可欠で困難な問題である。 電磁気生理学的データのモチベーション例では、記憶の神経機構を明らかにする上で、継続的な認知的要求や行動に関連する神経活動の動的パターンを特定することが重要である。 クロスオブジェクトの生物学的プロセスを研究する上での最大の課題の1つは、個人間の体系的な異質性は、基礎となる生物学的ダイナミクスを特定するために既存の機械学習手法の力を著しく損なう可能性があることである。 さらに、技術的に挑戦する多くの神経生物学実験は、各被験者に豊富な経時的データが利用できる少数の被験者でのみ実施される。 このような実験のサンプルサイズが小さいほど、被験者間の共通の動的パターンを検出する能力はさらに低下する可能性がある。 本稿では,複雑な生物学的プロセスにおいて共有パターンを抽出する最適輸送に基づく,新しい異種データ統合フレームワークを提案する。 提案手法の主な利点は、抽出した潜時空間情報を被験者間で整列させることにより、信号と無関係な不均一性を低減し、共通パターンの識別における識別能力を高めることである。 本手法は,少数の被験者でも有効であり,アライメントに補助的なマッチング情報を必要としない。 特に,本手法では,被験者の時間的依存を生かしながら,共有パターンのダイナミクスを捉えるために,共通の潜在空間における異種被験者間の縦方向データの整列が可能である。

Detecting dynamic patterns of task-specific responses shared across heterogeneous datasets is an essential and challenging problem in many scientific applications in medical science and neuroscience. In our motivating example of rodent electrophysiological data, identifying the dynamical patterns in neuronal activity associated with ongoing cognitive demands and behavior is key to uncovering the neural mechanisms of memory. One of the greatest challenges in investigating a cross-subject biological process is that the systematic heterogeneity across individuals could significantly undermine the power of existing machine learning methods to identify the underlying biological dynamics. In addition, many technically challenging neurobiological experiments are conducted on only a handful of subjects where rich longitudinal data are available for each subject. The low sample sizes of such experiments could further reduce the power to detect common dynamic patterns among subjects. In this paper, we propose a novel heterogeneous data integration framework based on optimal transport to extract shared patterns in complex biological processes. The key advantages of the proposed method are that it can increase discriminating power in identifying common patterns by reducing heterogeneity unrelated to the signal by aligning the extracted latent spatiotemporal information across subjects. Our approach is effective even with a small number of subjects, and does not require auxiliary matching information for the alignment. In particular, our method can align longitudinal data across heterogeneous subjects in a common latent space to capture the dynamics of shared patterns while utilizing temporal dependency within subjects.
翻訳日:2024-07-04 06:30:11 公開日:2024-06-27
# 暗黙のデモによるインテクスト学習の促進

Enhancing In-Context Learning via Implicit Demonstration Augmentation ( http://arxiv.org/abs/2407.00100v1 )

ライセンス: Link先を確認
Xiaoling Zhou, Wei Ye, Yidong Wang, Chaoya Jiang, Zhemg Lee, Rui Xie, Shikun Zhang, (参考訳) インコンテキスト学習(ICL)の出現により、大きな事前学習された言語モデル(PLM)は、パラメータを更新することなく、未確認入力の予測を行うことができる。 その可能性にもかかわらず、ICLの有効性はデモの質、量、置換に大きく依存しており、通常、準最適で不安定な性能に繋がる。 本稿では,この課題に初めて挑戦する。 具体的には、その深い特徴分布を活用することで、デモの表現を豊かにすることから始めます。 次に, 拡張コピーの数が無限大に近づくと, 拡張は, 特定の統計特性と統合された新規なロジット校正機構とほぼ等しいことを理論的に明らかにする。 この知見は、多種多様なPLMやタスクにおける平均および最悪の精度を大幅に向上させる、単純かつ高効率な手法をもたらす。 さらに,提案手法は,様々な実演,置換,テンプレート間の性能のばらつきを効果的に低減し,不均衡なクラス分布に対処する能力を示す。

The emergence of in-context learning (ICL) enables large pre-trained language models (PLMs) to make predictions for unseen inputs without updating parameters. Despite its potential, ICL's effectiveness heavily relies on the quality, quantity, and permutation of demonstrations, commonly leading to suboptimal and unstable performance. In this paper, we tackle this challenge for the first time from the perspective of demonstration augmentation. Specifically, we start with enriching representations of demonstrations by leveraging their deep feature distribution. We then theoretically reveal that when the number of augmented copies approaches infinity, the augmentation is approximately equal to a novel logit calibration mechanism integrated with specific statistical properties. This insight results in a simple yet highly efficient method that significantly improves the average and worst-case accuracy across diverse PLMs and tasks. Moreover, our method effectively reduces performance variance among varying demonstrations, permutations, and templates, and displays the capability to address imbalanced class distributions.
翻訳日:2024-07-04 06:30:11 公開日:2024-06-27
# 並列確率勾配Descenceへのハイブリッドアプローチ

Hybrid Approach to Parallel Stochastic Gradient Descent ( http://arxiv.org/abs/2407.00101v1 )

ライセンス: Link先を確認
Aakash Sudhirbhai Vora, Dhrumil Chetankumar Joshi, Aksh Kantibhai Patel, (参考訳) Stochastic Gradient Descentは、大規模なデータセットを使用して、トレーニング時間を短縮するためにモデルをトレーニングする。 その上に、複数のワーカノードを並列に使用してニューラルネットワークを効率的にトレーニングする方法として、並列処理が広く使用されている。 データ並列性に対する同期と非同期のアプローチは、ほとんどのシステムで並列にモデルをトレーニングするために使われます。 しかし、どちらも欠点がある。 本稿では、ニューラルネットワークをトレーニングするために、同期と非同期の両アプローチのハイブリッドであるデータ並列性に対する第3のアプローチを提案する。 しきい値関数が適切に選択され、すべてのパラメータアグリゲーションが非同期から同期に徐々にシフトすると、所定の時間内に、我々のハイブリッドアプローチが非同期と同期の両方のアプローチより優れていることを示す。

Stochastic Gradient Descent is used for large datasets to train models to reduce the training time. On top of that data parallelism is widely used as a method to efficiently train neural networks using multiple worker nodes in parallel. Synchronous and asynchronous approach to data parallelism is used by most systems to train the model in parallel. However, both of them have their drawbacks. We propose a third approach to data parallelism which is a hybrid between synchronous and asynchronous approaches, using both approaches to train the neural network. When the threshold function is selected appropriately to gradually shift all parameter aggregation from asynchronous to synchronous, we show that in a given time period our hybrid approach outperforms both asynchronous and synchronous approaches.
翻訳日:2024-07-04 06:30:11 公開日:2024-06-27
# 品質駆動型データ選択によるカリキュラム学習

Curriculum Learning with Quality-Driven Data Selection ( http://arxiv.org/abs/2407.00102v1 )

ライセンス: Link先を確認
Biao Wu, Fang Meng, Ling Chen, (参考訳) OpenAIのGPT-4で実証された印象的なマルチモーダル機能は、MLLM(Multimodal Large Language Models)の開発に多大な関心を集めている。 機械学習による命令追従データを用いたMLLMの視覚的インストラクションチューニングにより,様々なタスクにおけるゼロショット機能の向上が示されている。 MLLMにおけるデータ選択の現在の方法論は、単一で信頼性の低いスコアや、選択のための下流タスクに頼っていることが多いため、時間を要するため、選択した評価データセットに過度に適合する可能性がある。 これらの制約を緩和するために,画像-テキスト相関とモデルパープレキシティを利用して,様々な品質のデータを評価し,選択する新しいデータ選択手法を提案する。 このアプローチは、これらの2つの属性の異なる分布を利用し、データ品質を2次元空間にマッピングすることで、この分布内の位置に基づいてデータの選択を可能にする。 この空間を利用することで、プロンプトとして使用されるタスクタイプ設定がデータ品質に与える影響を分析することができる。 さらに、この空間は、カリキュラム学習を容易にするために、様々な品質の多段階のサブセットを構築するために使用できる。 本研究は,各種データセットを対象とした総合的な実験を含む。 その結果、完全なデータセットを使用する場合と比較して、一般的に評価される5つの機能において、大幅な拡張が強調された。 私たちのコード、データ、モデルは、次のように公開されています。

The impressive multimodal capabilities demonstrated by OpenAI's GPT-4 have generated significant interest in the development of Multimodal Large Language Models (MLLMs). Visual instruction tuning of MLLMs with machine-generated instruction-following data has shown to enhance zero-shot capabilities across various tasks. However, there has been limited exploration into controlling the quality of the instruction data.Current methodologies for data selection in MLLMs often rely on single, unreliable scores or use downstream tasks for selection, which is time-consuming and can lead to potential overfitting on the chosen evaluation datasets. To mitigate these limitations, we propose a novel data selection methodology that utilizes image-text correlation and model perplexity to evaluate and select data of varying quality. This approach leverages the distinct distribution of these two attributes, mapping data quality into a two-dimensional space that allows for the selection of data based on their location within this distribution. By utilizing this space, we can analyze the impact of task type settings, used as prompts, on data quality. Additionally, this space can be used to construct multi-stage subsets of varying quality to facilitate curriculum learning. Our research includes comprehensive experiments conducted on various datasets. The results emphasize substantial enhancements in five commonly assessed capabilities compared to using the complete dataset. Our codes, data, and models are publicly available at: \url{https://anonymous.4open.science/r/EHIT-31B4}
翻訳日:2024-07-04 06:30:11 公開日:2024-06-27
# AIによる皮膚がん診断 : Grad-CAMと解釈可能性向上のためのエキスパートアノテーション

AI-Driven Skin Cancer Diagnosis: Grad-CAM and Expert Annotations for Enhanced Interpretability ( http://arxiv.org/abs/2407.00104v1 )

ライセンス: Link先を確認
Iván Matas, Carmen Serrano, Francisca Silva, Amalia Serrano, Tomás Toledo-Pastrana, Begoña Acha, (参考訳) テレダーマトロジーによるBCC診断の解釈支援を提供するためのAIツールが開発され、参照を高速化し、リソース利用を最適化する。 一方、BCC/NonのBCC分類を正当化するために、画像にはメインのBCC皮膚内視鏡パターンが認められる。 第2に、一般的なXAI Grad-CAMに基づいて、臨床にインスパイアされた視覚的説明が、診断に関係した特徴がある場所で開発されている。 BCCの皮膚内視鏡的特徴には確固たる根拠がないため、期待最大化法(EM)に基づくアルゴリズムを用いて4人の皮膚科医の診断から基準基準が推測される。 以上の結果より, 早期BCC検出と皮膚科医への紹介に有効な方法として, 分類精度と解釈可能性に大きな改善が認められた。 BCC/非BCC分類は90%の精度を達成した。 臨床に着想を得たXAIでは,臨床に有用なBCCパターンが99%の精度で検出された。 臨床にインスパイアされた視覚XAIの結果は、手動分割された臨床特徴におけるGrad-CAM正規化値の平均は0.57であり、この領域以外では0.16である。 これは、モデルがBCCパターンの領域を正確に識別するのに苦労していることを示している。 これらの結果は、AIツールが有用な説明を提供する能力を証明する。

An AI tool has been developed to provide interpretable support for the diagnosis of BCC via teledermatology, thus speeding up referrals and optimizing resource utilization. The interpretability is provided in two ways: on the one hand, the main BCC dermoscopic patterns are found in the image to justify the BCC/Non BCC classification. Secondly, based on the common visual XAI Grad-CAM, a clinically inspired visual explanation is developed where the relevant features for diagnosis are located. Since there is no established ground truth for BCC dermoscopic features, a standard reference is inferred from the diagnosis of four dermatologists using an Expectation Maximization (EM) based algorithm. The results demonstrate significant improvements in classification accuracy and interpretability, positioning this approach as a valuable tool for early BCC detection and referral to dermatologists. The BCC/non-BCC classification achieved an accuracy rate of 90%. For Clinically-inspired XAI results, the detection of BCC patterns useful to clinicians reaches 99% accuracy. As for the Clinically-inspired Visual XAI results, the mean of the Grad-CAM normalized value within the manually segmented clinical features is 0.57, while outside this region it is 0.16. This indicates that the model struggles to accurately identify the regions of the BCC patterns. These results prove the ability of the AI tool to provide a useful explanation.
翻訳日:2024-07-04 06:30:11 公開日:2024-06-27
# 薬物副作用予測のための複数Kronecker RLS融合型リンク伝播

Multiple Kronecker RLS fusion-based link propagation for drug-side effect prediction ( http://arxiv.org/abs/2407.00105v1 )

ライセンス: Link先を確認
Yuqing Qian, Ziyu Zheng, Prayag Tiwari, Yijie Ding, Quan Zou, (参考訳) 薬物副作用の予測は薬理学の分野で重要な研究領域となっている。 薬物の使用が増加し続ければ、それらに関連する潜在的なリスクを理解し緩和することの重要性も増す。 現在、研究者は薬物副作用を予測するデータ駆動方式に転換している。 薬物側の効果予測はリンク予測の問題であり、関連するデータは様々な観点から説明することができる。 このようなデータを処理するために、MKronRLSF-LP(Multiple Kronecker RLS fusion-based link propagation)と呼ばれるマルチビュー手法を提案する。 MKronRLSF-LPは、マルチビュー設定においてコンセンサスパーティションと複数のグラフラプラシアン制約を見つけることで、Kron-RLSを拡張する。 これらのマルチビュー設定はどちらも、より高品質な結果に寄与します。 薬物副作用データセットに関する大規模な実験が実施されており、我々の実験結果から、我々のアプローチが効果的で堅牢であることを示す証拠が得られている。

Drug-side effect prediction has become an essential area of research in the field of pharmacology. As the use of medications continues to rise, so does the importance of understanding and mitigating the potential risks associated with them. At present, researchers have turned to data-driven methods to predict drug-side effects. Drug-side effect prediction is a link prediction problem, and the related data can be described from various perspectives. To process these kinds of data, a multi-view method, called Multiple Kronecker RLS fusion-based link propagation (MKronRLSF-LP), is proposed. MKronRLSF-LP extends the Kron-RLS by finding the consensus partitions and multiple graph Laplacian constraints in the multi-view setting. Both of these multi-view settings contribute to a higher quality result. Extensive experiments have been conducted on drug-side effect datasets, and our empirical results provide evidence that our approach is effective and robust.
翻訳日:2024-07-04 06:30:11 公開日:2024-06-27
# アンラーニング:アンラーニングは先進的生成AIにおけるコンテンツ規制に十分ではない

UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI ( http://arxiv.org/abs/2407.00106v1 )

ライセンス: Link先を確認
Ilia Shumailov, Jamie Hayes, Eleni Triantafillou, Guillermo Ortiz-Jimenez, Nicolas Papernot, Matthew Jagielski, Itay Yona, Heidi Howard, Eugene Bagdasaryan, (参考訳) Exact Unlearningは、ユーザーが要求に応じて機械学習モデルからデータを抽出できるプライバシーメカニズムとして最初に導入された。 間もなく、正確な未学習に関連する非現実的なコストを軽減するために、不正確なスキームが提案された。 より最近のアンラーニングは、不寛容な知識を取り除くアプローチとしてしばしば議論され、すなわち、ライセンスされていない著作権、不正確な情報、悪意のある情報など、モデルが保持すべきでないという知識である。 モデルが特定の悪意のある機能を持っていなければ、関連する悪意のある目的には使用できない、というのが約束だ。 本稿では,Large Language Models(LLM)におけるアンラーニングのパラダイムを再考し,文脈内学習から生じる不整合性を明らかにする。 アンラーニングはトレーニングフェーズの効果的な制御メカニズムであり得るが、モデルが推論中に不寛容な行動を起こすのを防ぐことはできない。 非学習の概念を導入し、未学習の知識がコンテキスト内で再導入され、まるで忘れられた知識を知っているかのように振る舞うことができるモデルを効果的に表現する。 その結果、不寛容な知識に対するコンテンツフィルタリングは必要であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分である、と論じる。 本稿では,現代LLMにおける未学習の実現可能性について論じるとともに,より広範な意味について考察する。

Exact unlearning was first introduced as a privacy mechanism that allowed a user to retract their data from machine learning models on request. Shortly after, inexact schemes were proposed to mitigate the impractical costs associated with exact unlearning. More recently unlearning is often discussed as an approach for removal of impermissible knowledge i.e. knowledge that the model should not possess such as unlicensed copyrighted, inaccurate, or malicious information. The promise is that if the model does not have a certain malicious capability, then it cannot be used for the associated malicious purpose. In this paper we revisit the paradigm in which unlearning is used for in Large Language Models (LLMs) and highlight an underlying inconsistency arising from in-context learning. Unlearning can be an effective control mechanism for the training phase, yet it does not prevent the model from performing an impermissible act during inference. We introduce a concept of ununlearning, where unlearned knowledge gets reintroduced in-context, effectively rendering the model capable of behaving as if it knows the forgotten knowledge. As a result, we argue that content filtering for impermissible knowledge will be required and even exact unlearning schemes are not enough for effective content regulation. We discuss feasibility of ununlearning for modern LLMs and examine broader implications.
翻訳日:2024-07-04 06:30:11 公開日:2024-06-27
# WineGraph:食べ物とワインのペアリングのためのグラフ表現

WineGraph: A Graph Representation For Food-Wine Pairing ( http://arxiv.org/abs/2407.00107v1 )

ライセンス: Link先を確認
Zuzanna Gawrysiak, Agata Żywot, Agnieszka Ławrynowicz, (参考訳) We present WineGraph, a extended version of FlavorGraph, a heterogeneous graph in the structure。 この統合により、味覚とソムリエ定義規則に基づく食品とワインのペアリングが可能になる。 50万件のレビューと13万件以上のエントリを持つワインレビューデータセットからなる食品データセットを活用し、食品とワインの両方の味覚記述子を計算した。 この情報はその後、食品をワインと組み合わせ、FravorGraphを付加データと組み合わせるために利用された。 その結果、補足情報を得るための異種グラフの可能性が示され、ワインのペアリングに有益であることが証明された。

We present WineGraph, an extended version of FlavorGraph, a heterogeneous graph incorporating wine data into its structure. This integration enables food-wine pairing based on taste and sommelier-defined rules. Leveraging a food dataset comprising 500,000 reviews and a wine reviews dataset with over 130,000 entries, we computed taste descriptors for both food and wine. This information was then utilised to pair food items with wine and augment FlavorGraph with additional data. The results demonstrate the potential of heterogeneous graphs to acquire supplementary information, proving beneficial for wine pairing.
翻訳日:2024-07-04 06:30:11 公開日:2024-06-27
# サブタイリングの専門シナリオにおける文脈機械翻訳の一事例

A Case Study on Contextual Machine Translation in a Professional Scenario of Subtitling ( http://arxiv.org/abs/2407.00108v1 )

ライセンス: Link先を確認
Sebastian Vincent, Charlotte Prescott, Chris Bayliss, Chris Oakley, Carolina Scarton, (参考訳) フィルムメタデータなどのテキスト外のコンテキストを機械翻訳(MT)パイプラインに組み込むことは、最近の研究で自動評価によって示されるように、翻訳品質を向上させることができる。 しかし、こうしたシステムによる産業への影響はいまだに証明されていない。 本稿では,テレビ字幕翻訳の専門的シナリオにおけるMTのメリットを,テキスト外文脈の活用が後編集に与える影響に焦点をあてた産業ケーススタディについて報告する。 その結果、文脈認識モデルであるMCCueの出力を非文脈モデルと比較すると、文脈関連エラーが著しく少ないことがわかった。 また, MTにおける文脈の不適切さを, MTで一貫して観察される重要なギャップとして強調し, 完全文脈的MTにおける更なる作業の動機を強めた。

Incorporating extra-textual context such as film metadata into the machine translation (MT) pipeline can enhance translation quality, as indicated by automatic evaluation in recent work. However, the positive impact of such systems in industry remains unproven. We report on an industrial case study carried out to investigate the benefit of MT in a professional scenario of translating TV subtitles with a focus on how leveraging extra-textual context impacts post-editing. We found that post-editors marked significantly fewer context-related errors when correcting the outputs of MTCue, the context-aware model, as opposed to non-contextual models. We also present the results of a survey of the employed post-editors, which highlights contextual inadequacy as a significant gap consistently observed in MT. Our findings strengthen the motivation for further work within fully contextual MT.
翻訳日:2024-07-04 06:30:11 公開日:2024-06-27
# Chat AI: HPCベースのサービスのためのシームレススラムネイティブソリューション

Chat AI: A Seamless Slurm-Native Solution for HPC-Based Services ( http://arxiv.org/abs/2407.00110v1 )

ライセンス: Link先を確認
Ali Doosthosseini, Jonathan Decker, Hendrik Nolte, Julian M. Kunkel, (参考訳) 大規模言語モデル(LLM)の採用が増加し、効率的でセキュアでプライベートなサービスインフラストラクチャの必要性が高まっている。 最先端GPUを備えた高性能コンピューティング(HPC)システムは、LLMのトレーニングに適しているが、彼らのバッチスケジューリングパラダイムは、AIアプリケーションのリアルタイム配信をサポートするように設計されていない。 一方、クラウドシステムはWebサービスには適しているが、一般的にクラスタの計算能力、特に最適な推論速度に必要な、高価で少ないハイエンドGPUにアクセスできない。 我々は,HPCシステム上で多数のAIモデルを実行するスケーラブルなバックエンドにセキュアにアクセス可能な,クラウドVM上で動作するWebサービスによる実装を備えたアーキテクチャを提案する。 LLMをホストするHPCインフラを使用したWebサービスを提供することで、地域の大学や研究センターの信頼された環境を活用し、商用LLMサービスに代わるプライベートでセキュアな代替手段を提供する。 我々のソリューションはSlurmとネイティブに統合されており、HPCクラスタへのシームレスなデプロイを可能にし、通常のSlurmワークロードと並行して実行できると同時に、Slurmが生成するスケジュールのギャップを活用しています。 HPCシステムのセキュリティを確保するため、SSH ForceCommandディレクティブを用いてロバストなサーキットブレーカーを構築する。 プロダクションサービスとしてシステムをデプロイし、ソースコードをhttps://github.com/gwdg/chat-aiで公開しました。

The increasing adoption of large language models (LLMs) has created a pressing need for an efficient, secure and private serving infrastructure, which allows researchers to run open-source or custom fine-tuned LLMs and ensures users that their data remains private and is not stored without their consent. While high-performance computing (HPC) systems equipped with state-of-the-art GPUs are well-suited for training LLMs, their batch scheduling paradigm is not designed to support real-time serving of AI applications. Cloud systems, on the other hand, are well suited for web services but commonly lack access to the computational power of clusters, especially expensive and scarce high-end GPUs, which are required for optimal inference speed. We propose an architecture with an implementation consisting of a web service that runs on a cloud VM with secure access to a scalable backend running a multitude of AI models on HPC systems. By offering a web service using our HPC infrastructure to host LLMs, we leverage the trusted environment of local universities and research centers to offer a private and secure alternative to commercial LLM services. Our solution natively integrates with Slurm, enabling seamless deployment on HPC clusters and is able to run side by side with regular Slurm workloads, while utilizing gaps in the schedule created by Slurm. In order to ensure the security of the HPC system, we use the SSH ForceCommand directive to construct a robust circuit breaker, which prevents successful attacks on the web-facing server from affecting the cluster. We have successfully deployed our system as a production service, and made the source code available at https://github.com/gwdg/chat-ai
翻訳日:2024-07-04 06:30:11 公開日:2024-06-27
# 微調整小言語モデルによるLigand-Protein相互作用親和性の正確な予測

Accurate Prediction of Ligand-Protein Interaction Affinities with Fine-Tuned Small Language Models ( http://arxiv.org/abs/2407.00111v1 )

ライセンス: Link先を確認
Ben Fauber, (参考訳) 薬物標的相互作用(DTI)と呼ばれるリガンド-タンパク質相互作用(LPI)親和性の正確な予測について述べる。 ゼロショット設定において,リガンド-タンパク質相互作用に関連するアフィニティ値の高精度な予測を行った。 リガンドのSMILES文字列とタンパク質のアミノ酸配列のみをモデル入力として用いた。 本研究は,機械学習(ML)と自由エネルギー摂動(FEP+)によるリガンド-タンパク質相互作用親和性の範囲を正確に予測する手法よりも明らかに改善したことを示す。

We describe the accurate prediction of ligand-protein interaction (LPI) affinities, also known as drug-target interactions (DTI), with instruction fine-tuned pretrained generative small language models (SLMs). We achieved accurate predictions for a range of affinity values associated with ligand-protein interactions on out-of-sample data in a zero-shot setting. Only the SMILES string of the ligand and the amino acid sequence of the protein were used as the model inputs. Our results demonstrate a clear improvement over machine learning (ML) and free-energy perturbation (FEP+) based methods in accurately predicting a range of ligand-protein interaction affinities, which can be leveraged to further accelerate drug discovery campaigns against challenging therapeutic targets.
翻訳日:2024-07-04 06:30:11 公開日:2024-06-27
# 多粒性プロンプトによる個人化フェデレーション連続学習

Personalized Federated Continual Learning via Multi-granularity Prompt ( http://arxiv.org/abs/2407.00113v1 )

ライセンス: Link先を確認
Hao Yu, Xin Yang, Xin Gao, Yan Kang, Hao Wang, Junbo Zhang, Tianrui Li, (参考訳) Personalized Federated Continual Learning (PFCL)は、知識の共有とパーソナライズにおいて大きな課題をもたらす新しい実践シナリオである。 PFCLは,グローバルな空間時間的視点でサーバ集約を行うための知識融合だけでなく,局所的な要求に応じて各クライアントのモデル改善も必要である。 従来の手法では、PFL(Personalized Federated Learning)やFCL(Federated Continual Learning)は、空間的時間的破滅的フォーミング(Spatial-Temporal Catastrophic Forgetting、STCF)を克服し、粗大な人間の認知メカニズムによって一般知識を自身に導入するために用いられる知識の多粒性表現を見落としている。 さらに、パーソナライズされた共有知識をより効果的に提供し、独自の目的を達成する。 そこで本研究では,多粒性プロンプト(multi-granularity prompt)と呼ばれる,共通モデル学習プロセスを通じて得られた粗粒大域的プロンプトと,一般化表現のパーソナライズに使用される局所的プロンプトを提案する。 前者は空間的忘れることなく共有グローバルな知識を効率的に伝達することに焦点を当て、後者は時間的忘れを克服するためにパーソナライズされたローカルな知識の特定の学習を強調する。 さらに,異なるクライアントから抽出したグローバルなプロンプトの知識を集約するための選択的プロンプト融合機構を設計する。 粗粒度知識の排他的融合により、クライアント間の共通知識の伝達と洗練を実現し、パーソナライズの性能をさらに向上する。 広範囲にわたる実験により,STCFの対処における提案手法の有効性と,パーソナライズされた性能の向上が示された。 私たちのコードはhttps://github.com/SkyOfBeginning/FedMGP.comで利用可能です。

Personalized Federated Continual Learning (PFCL) is a new practical scenario that poses greater challenges in sharing and personalizing knowledge. PFCL not only relies on knowledge fusion for server aggregation at the global spatial-temporal perspective but also needs model improvement for each client according to the local requirements. Existing methods, whether in Personalized Federated Learning (PFL) or Federated Continual Learning (FCL), have overlooked the multi-granularity representation of knowledge, which can be utilized to overcome Spatial-Temporal Catastrophic Forgetting (STCF) and adopt generalized knowledge to itself by coarse-to-fine human cognitive mechanisms. Moreover, it allows more effectively to personalized shared knowledge, thus serving its own purpose. To this end, we propose a novel concept called multi-granularity prompt, i.e., coarse-grained global prompt acquired through the common model learning process, and fine-grained local prompt used to personalize the generalized representation. The former focuses on efficiently transferring shared global knowledge without spatial forgetting, and the latter emphasizes specific learning of personalized local knowledge to overcome temporal forgetting. In addition, we design a selective prompt fusion mechanism for aggregating knowledge of global prompts distilled from different clients. By the exclusive fusion of coarse-grained knowledge, we achieve the transmission and refinement of common knowledge among clients, further enhancing the performance of personalization. Extensive experiments demonstrate the effectiveness of the proposed method in addressing STCF as well as improving personalized performance. Our code now is available at https://github.com/SkyOfBeginning/FedMGP.
翻訳日:2024-07-04 06:20:13 公開日:2024-06-27
# OmniJARVIS:Unified Vision-Language-Action Tokenizationにより、オープンワールドのインストラクションフォローエージェントが実現

OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents ( http://arxiv.org/abs/2407.00114v1 )

ライセンス: Link先を確認
Zihao Wang, Shaofei Cai, Zhancun Mu, Haowei Lin, Ceyao Zhang, Xuejie Liu, Qing Li, Anji Liu, Xiaojian Ma, Yitao Liang, (参考訳) OmniJARVISは、オープンワールドマインクラフトにおけるオープンワールドインストラクションフォローエージェントのための新しいビジョンランゲージ・アクション(VLA)モデルである。 OmniJARVISは、個別のコントローラにテキストの目標を出力するか、直接制御コマンドを生成する以前の作業と比較して、マルチモーダルインタラクションデータの統一トークン化を通じて、強力な推論と効率的な意思決定機能の両方を保証するための、別の方法を模索している。 まず,行動軌跡の離散化トークンを生成する行動エンコーダを自己指導的に学習する手法を提案する。 これらの追加の行動トークンは、事前訓練されたマルチモーダル言語モデル(MLM)の語彙に拡張される。 このエンコーダを用いて、タスク命令、記憶、思考、観察、テキスト応答、行動軌跡などを含む長期的マルチモーダル相互作用を統一トークンシーケンスにまとめ、自己回帰変換器でモデル化する。 意味論的に意味のある行動トークンのおかげで、結果として得られるVLAモデルであるOmniJARVISは(チェーン・オブ・シンクタンクを作成)、計画を立て、質問に答え、(ILポリシーデコーダの行動トークンを作成する)行動を起こすことができる。 OmniJARVISは、オープンワールドMinecraftにおける、原子的、プログラム的、そしてオープンなタスクの包括的なコレクション上で優れたパフォーマンスを示す。 我々の分析は、相互作用データの形成、統一トークン化、およびそのスケーリングポテンシャルにおける重要な設計原則をさらに明らかにしている。

We present OmniJARVIS, a novel Vision-Language-Action (VLA) model for open-world instruction-following agents in open-world Minecraft. Compared to prior works that either emit textual goals to separate controllers or produce the control command directly, OmniJARVIS seeks a different path to ensure both strong reasoning and efficient decision-making capabilities via unified tokenization of multimodal interaction data. First, we introduce a self-supervised approach to learn a behavior encoder that produces discretized tokens for behavior trajectories $\tau$ = {$o_0$, $a_0$, $\dots$} and an imitation learning (IL) policy decoder conditioned on these tokens. These additional behavior tokens will be augmented to the vocabulary of pretrained Multimodal Language Models (MLMs). With this encoder, we then pack long-term multimodal interactions involving task instructions, memories, thoughts, observations, textual responses, behavior trajectories, etc. into unified token sequences and model them with autoregressive transformers. Thanks to the semantically meaningful behavior tokens, the resulting VLA model, OmniJARVIS, can reason (by producing chain-of-thoughts), plan, answer questions, and act (by producing behavior tokens for the IL policy decoder). OmniJARVIS demonstrates excellent performances on a comprehensive collection of atomic, programmatic, and open-ended tasks in open-world Minecraft. Our analysis further unveils the crucial design principles in interaction data formation, unified tokenization, and its scaling potentials.
翻訳日:2024-07-04 06:20:13 公開日:2024-06-27
# インスタンス温度知識蒸留

Instance Temperature Knowledge Distillation ( http://arxiv.org/abs/2407.00115v1 )

ライセンス: Link先を確認
Zhengbo Zhang, Yuxi Zhou, Jia Gong, Jun Liu, Zhigang Tu, (参考訳) 知識蒸留(KD)は,教師ネットワークから移行した知識を段階的に学習することで,学生ネットワークの性能を向上させる。 既存の学習方法は、KDの異なる学習段階において、学生ネットワークが様々な学習困難に適応できるように、動的に温度調整を行う。 KDは連続的なプロセスであるが、温度を調整する際、これらの手法は現在の学習段階における操作の即時的な利点のみを考慮し、将来の効果を考慮しない。 この問題に対処するため、温度調整を逐次意思決定タスクとして定式化し、RLKDと呼ばれる強化学習に基づく手法を提案する。 重要なことは、エージェントがより情報的な行動(例えば温度調整)を行えるように、新しい状態表現を設計することである。 KD設定による遅延報酬問題に対処するため,ケース報酬校正手法を提案する。 さらに,有効な探索戦略を考案し,有効なインスタンス温度調整ポリシーを学習できるようにする。 本フレームワークは,様々なKDメソッドに挿入可能なプラグイン・アンド・プレイ技術として機能し,画像分類とオブジェクト検出の両タスクにおいて,その有効性を検証する。 私たちのコードはhttps://github.com/Zhengbo-Zhang/ITKDにあります。

Knowledge distillation (KD) enhances the performance of a student network by allowing it to learn the knowledge transferred from a teacher network incrementally. Existing methods dynamically adjust the temperature to enable the student network to adapt to the varying learning difficulties at different learning stages of KD. KD is a continuous process, but when adjusting the temperature, these methods consider only the immediate benefits of the operation in the current learning phase and fail to take into account its future returns. To address this issue, we formulate the adjustment of temperature as a sequential decision-making task and propose a method based on reinforcement learning, termed RLKD. Importantly, we design a novel state representation to enable the agent to make more informed action (i.e. instance temperature adjustment). To handle the problem of delayed rewards in our method due to the KD setting, we explore an instance reward calibration approach. In addition,we devise an efficient exploration strategy that enables the agent to learn valuable instance temperature adjustment policy more efficiently. Our framework can serve as a plug-and-play technique to be inserted into various KD methods easily, and we validate its effectiveness on both image classification and object detection tasks. Our code is at https://github.com/Zhengbo-Zhang/ITKD
翻訳日:2024-07-04 06:20:13 公開日:2024-06-27
# 機械学習が質量分析に到達:焦点を絞った視点

Machine learning meets mass spectrometry: a focused perspective ( http://arxiv.org/abs/2407.00117v1 )

ライセンス: Link先を確認
Daniil A. Boiko, Valentine P. Ananikov, (参考訳) 質量分析法 (Mass Spectrometry) は、医学、生命科学、化学、触媒、工業製品の品質管理などの分野で広く用いられている方法である。 特にクロマトグラフィーやイオン移動法、タンデム質量分析実験の一部と組み合わせた場合)と、測定あたりの大量のデータである。 テラバイトスケールは質量分析によって容易に到達できる。 その結果、質量分析法は高いレベルのデータ消失の課題に直面している。 研究者たちは、しばしば無視して、質量分析実験が提供する豊富な情報にアクセスできなくなります。 機械学習の手法の開発によって、これらのデータの可能性を解き放つ機会が生まれ、これまでアクセス不能だった発見が可能になる。 本論では,新世代の手法における質量分析データ分析の再評価に注目し,特に電顕イオン化による問題に関連する分野における重要な課題について述べる。 機械学習のさらなる応用は、計測のための新たな要件(スループットと情報密度の向上、価格の削減、自動化フレンドリなソフトウェアの開発)を提起し、一度満たされれば、この分野は大きな変革を経験する可能性がある、と私たちは主張する。

Mass spectrometry is a widely used method to study molecules and processes in medicine, life sciences, chemistry, catalysis, and industrial product quality control, among many other applications. One of the main features of some mass spectrometry techniques is the extensive level of characterization (especially when coupled with chromatography and ion mobility methods, or a part of tandem mass spectrometry experiment) and a large amount of generated data per measurement. Terabyte scales can be easily reached with mass spectrometry studies. Consequently, mass spectrometry has faced the challenge of a high level of data disappearance. Researchers often neglect and then altogether lose access to the rich information mass spectrometry experiments could provide. With the development of machine learning methods, the opportunity arises to unlock the potential of these data, enabling previously inaccessible discoveries. The present perspective highlights reevaluation of mass spectrometry data analysis in the new generation of methods and describes significant challenges in the field, particularly related to problems involving the use of electrospray ionization. We argue that further applications of machine learning raise new requirements for instrumentation (increasing throughput and information density, decreasing pricing, and making more automation-friendly software), and once met, the field may experience significant transformation.
翻訳日:2024-07-04 06:20:13 公開日:2024-06-27
# 効率的なマルチモーダルモデルから世界モデルへ:サーベイ

From Efficient Multimodal Models to World Models: A Survey ( http://arxiv.org/abs/2407.00118v1 )

ライセンス: Link先を確認
Xinji Mai, Zeng Tao, Junxiong Lin, Haoran Wang, Yang Chang, Yanlan Kang, Yan Wang, Wenqiang Zhang, (参考訳) マルチモーダル大規模モデル(MLM)は、強力な大規模言語モデルとマルチモーダル学習を組み合わせて、さまざまなデータモダリティにわたる複雑なタスクを実行することで、重要な研究対象となっている。 本稿では,MLMの最近の発展と課題を概観し,人工知能の実現と世界モデルへの道筋として,その可能性を強調した。 本稿では、M-COT(Multimodal Chain of Thought)、Multimodal Instruction Tuning(M-IT)、Multimodal In-Context Learning(M-ICL)といった重要な技術の概要を紹介する。 さらに,マルチモーダルモデルの基本技術と特異技術の両方について論じ,それらの応用,入出力モダリティ,設計特性について述べる。 大幅な進歩にもかかわらず、統一されたマルチモーダルモデルの開発はいまだ解明されていない。 我々は,世界シミュレーション能力を高めるために3次元生成と具体的インテリジェンスの統合について議論し,推論と意思決定を改善するための外部ルールシステムの導入を提案する。 最後に、これらの課題に対処し、分野を前進させるための今後の研究方針について概説する。

Multimodal Large Models (MLMs) are becoming a significant research focus, combining powerful large language models with multimodal learning to perform complex tasks across different data modalities. This review explores the latest developments and challenges in MLMs, emphasizing their potential in achieving artificial general intelligence and as a pathway to world models. We provide an overview of key techniques such as Multimodal Chain of Thought (M-COT), Multimodal Instruction Tuning (M-IT), and Multimodal In-Context Learning (M-ICL). Additionally, we discuss both the fundamental and specific technologies of multimodal models, highlighting their applications, input/output modalities, and design characteristics. Despite significant advancements, the development of a unified multimodal model remains elusive. We discuss the integration of 3D generation and embodied intelligence to enhance world simulation capabilities and propose incorporating external rule systems for improved reasoning and decision-making. Finally, we outline future research directions to address these challenges and advance the field.
翻訳日:2024-07-04 06:20:13 公開日:2024-06-27
# 会話におけるマルチモーダル感情認識のための高能率長距離遅延グラフニューラルネットワーク

Efficient Long-distance Latent Relation-aware Graph Neural Network for Multi-modal Emotion Recognition in Conversations ( http://arxiv.org/abs/2407.00119v1 )

ライセンス: Link先を確認
Yuntao Shou, Wei Ai, Jiayi Du, Tao Meng, Haiyan Liu, (参考訳) 会話におけるマルチモーダル感情認識(MERC)の課題は,会話の多モーダル情報に基づいて各発話の真の感情状態を分析することである。 既存の手法では、グラフニューラルネットワーク(GNN)を使用して会話関係をモデル化し、文脈的潜在意味関係をキャプチャする。 しかし、GNNの複雑さのため、既存の手法では長距離発話間の潜在的な依存関係を効果的に捉えられず、MERCの性能が制限される。 本稿では,会話におけるマルチモーダル感情認識のための多モーダルグラフニューラルネットワーク(ELR-GNN)を提案する。 具体的には、まず、Bio-LSTMへの入力として、事前抽出されたテキスト、ビデオ、オーディオ機能を使用し、文脈意味情報をキャプチャし、低レベル発話機能を得る。 そして,低レベル発話機能を用いて対話型感情相互作用グラフを構築する。 長距離発話間の潜在的な依存関係を効率よく把握するために,拡張一般化されたフォワードプッシュアルゴリズムを用いて,大域的発話間の感情伝播を事前計算し,異なる発話間の潜在的な意味的関連を抽出する感情的関係認識演算子を設計する。 さらに、早期融合と適応後期融合機構を組み合わせることで、話者関係情報と文脈間の潜伏依存性情報を融合する。 最後に、高レベルな談話機能を取得し、感情予測のためにMLPに供給する。 ELR-GNN はベンチマークデータセット IEMOCAP と MELD に対して,それぞれ 52 % と 35 % の動作時間を短縮し,最先端の性能を達成している。

The task of multi-modal emotion recognition in conversation (MERC) aims to analyze the genuine emotional state of each utterance based on the multi-modal information in the conversation, which is crucial for conversation understanding. Existing methods focus on using graph neural networks (GNN) to model conversational relationships and capture contextual latent semantic relationships. However, due to the complexity of GNN, existing methods cannot efficiently capture the potential dependencies between long-distance utterances, which limits the performance of MERC. In this paper, we propose an Efficient Long-distance Latent Relation-aware Graph Neural Network (ELR-GNN) for multi-modal emotion recognition in conversations. Specifically, we first use pre-extracted text, video and audio features as input to Bi-LSTM to capture contextual semantic information and obtain low-level utterance features. Then, we use low-level utterance features to construct a conversational emotion interaction graph. To efficiently capture the potential dependencies between long-distance utterances, we use the dilated generalized forward push algorithm to precompute the emotional propagation between global utterances and design an emotional relation-aware operator to capture the potential semantic associations between different utterances. Furthermore, we combine early fusion and adaptive late fusion mechanisms to fuse latent dependency information between speaker relationship information and context. Finally, we obtain high-level discourse features and feed them into MLP for emotion prediction. Extensive experimental results show that ELR-GNN achieves state-of-the-art performance on the benchmark datasets IEMOCAP and MELD, with running times reduced by 52\% and 35\%, respectively.
翻訳日:2024-07-04 06:20:13 公開日:2024-06-27
# 機械学習とディープラーニング技術を用いたWebベースマラリア自動検出システム

Automated Web-Based Malaria Detection System with Machine Learning and Deep Learning Techniques ( http://arxiv.org/abs/2407.00120v1 )

ライセンス: Link先を確認
Abraham G Taye, Sador Yemane, Eshetu Negash, Yared Minwuyelet, Moges Abebe, Melkamu Hunegnaw Asmare, (参考訳) マラリア原虫は、世界的な健康上の重荷となり、広範囲の苦しみと死亡を引き起こしている。 マラリアの感染を正確に検出することは、効果的な治療と管理に不可欠である。 しかし、既存の自動検出技術では精度と一般化性に限界がある。 多くの研究は、より包括的なアプローチを探求することなく、特定の特徴に焦点を当ててきた。 本稿では,従来のCNNとVGG19,InceptionV3,Xceptionなどの転写学習モデルを用いて,マラリア感染細胞分類の深層学習手法を定式化した。 モデルはNIHデータセットを使用してトレーニングされ、精度、精度、リコール、F1スコアなど、さまざまなパフォーマンスメトリクスを使用してテストされた。 その結果,深部CNNは97%,Xceptionは95%と高い精度を示した。 機械学習モデルSVMの精度は83%、Inception-V3の精度は94%だった。 さらに、このシステムはWebインターフェースを通じてアクセス可能で、ユーザーはマラリア検出のために血液スミア画像をアップロードすることができる。

Malaria parasites pose a significant global health burden, causing widespread suffering and mortality. Detecting malaria infection accurately is crucial for effective treatment and control. However, existing automated detection techniques have shown limitations in terms of accuracy and generalizability. Many studies have focused on specific features without exploring more comprehensive approaches. In our case, we formulate a deep learning technique for malaria-infected cell classification using traditional CNNs and transfer learning models notably VGG19, InceptionV3, and Xception. The models were trained using NIH datasets and tested using different performance metrics such as accuracy, precision, recall, and F1-score. The test results showed that deep CNNs achieved the highest accuracy -- 97%, followed by Xception with an accuracy of 95%. A machine learning model SVM achieved an accuracy of 83%, while an Inception-V3 achieved an accuracy of 94%. Furthermore, the system can be accessed through a web interface, where users can upload blood smear images for malaria detection.
翻訳日:2024-07-04 06:20:13 公開日:2024-06-27
# グラファイト・ファンクション・コールモデル:グラニュラータスクのマルチタスク学習による機能呼び出し能力の導入

Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks ( http://arxiv.org/abs/2407.00121v1 )

ライセンス: Link先を確認
Ibrahim Abdelaziz, Kinjal Basu, Mayank Agarwal, Sadhana Kumaravel, Matthew Stallone, Rameswar Panda, Yara Rizk, GP Bhargav, Maxwell Crouse, Chulaka Gunasekara, Shajith Ikbal, Sachin Joshi, Hima Karanam, Vineet Kumar, Asim Munawar, Sumit Neelam, Dinesh Raghu, Udit Sharma, Adriana Meza Soria, Dheeraj Sreedhar, Praveen Venkateswaran, Merve Unuvar, David Cox, Salim Roukos, Luis Lastras, Pavan Kapanipathi, (参考訳) 大規模言語モデル(LLM)は、SWE-BenchやAgent-Benchのような、多面的かつ挑戦的なベンチマークのパフォーマンスで示されるように、エージェントシステムのバックボーンとして機能する、という大きな可能性を最近示している。 しかし、自律エージェントとしてのLLMの真の可能性を実現するには、複雑なタスクを完了させるためには、外部ツールやアプリケーションプログラムインターフェース(API)を識別、呼び出し、操作することを学ぶ必要がある。 これらのタスクを合わせて関数呼び出しと呼ぶ。 LLMに関数呼び出し機能を持たせることで、データベースや知識ソースの現在の情報やドメイン固有の情報へのアクセスや、Pythonインタプリタや電卓などのツールで確実に実行できるタスクをアウトソースするといった、数多くのメリットがもたらされます。 LLMでの関数呼び出しには大きな進歩があったが、GPT、Claude、GeminiといったプロプライエタリなLLMと同等に動作するオープンモデルはまだ数多く存在する。 そこで本研究では,GRANITE-20B-FUNCTIONCALLINGモデルをApache 2.0ライセンス下で導入する。 このモデルは、Nested Function Calling、Function Chaining、Parallel Function、Function Name Detection、パラメータ値ペア検出、Next-Best Function、Response Generationといった、関数呼び出しを含む7つの基本的なタスクに基づいて、マルチタスクトレーニングアプローチを使用してトレーニングされる。 本稿では、GRANITE-20B-FUNCTIONCALLINGを15以上のベストプロプライエタリかつオープンなモデルと比較し、複数のドメイン外のデータセットの総合評価を行う。 GRANITE-20B-FUNCTIONCALLINGは、バークレー・ファンクション・コール・リーダーボードの全てのオープンモデルの中で最高のパフォーマンスを提供する。 その結果,GRANITE-20B-FUNCTIONCALLINGは7つの異なる評価データセットにおいて,複数のタスクに対してより一般化可能であることがわかった。

Large language models (LLMs) have recently shown tremendous promise in serving as the backbone to agentic systems, as demonstrated by their performance in multi-faceted, challenging benchmarks like SWE-Bench and Agent-Bench. However, to realize the true potential of LLMs as autonomous agents, they must learn to identify, call, and interact with external tools and application program interfaces (APIs) to complete complex tasks. These tasks together are termed function calling. Endowing LLMs with function calling abilities leads to a myriad of advantages, such as access to current and domain-specific information in databases and knowledge sources, and the ability to outsource tasks that can be reliably performed by tools, e.g., a Python interpreter or calculator. While there has been significant progress in function calling with LLMs, there is still a dearth of open models that perform on par with proprietary LLMs like GPT, Claude, and Gemini. Therefore, in this work, we introduce the GRANITE-20B-FUNCTIONCALLING model under an Apache 2.0 license. The model is trained using a multi-task training approach on seven fundamental tasks encompassed in function calling, those being Nested Function Calling, Function Chaining, Parallel Functions, Function Name Detection, Parameter-Value Pair Detection, Next-Best Function, and Response Generation. We present a comprehensive evaluation on multiple out-of-domain datasets comparing GRANITE-20B-FUNCTIONCALLING to more than 15 other best proprietary and open models. GRANITE-20B-FUNCTIONCALLING provides the best performance among all open models on the Berkeley Function Calling Leaderboard and fourth overall. As a result of the diverse tasks and datasets used for training our model, we show that GRANITE-20B-FUNCTIONCALLING has better generalizability on multiple tasks in seven different evaluation datasets.
翻訳日:2024-07-04 06:20:13 公開日:2024-06-27
# 拡散モデルにおける離散プロンプト最適化について

On Discrete Prompt Optimization for Diffusion Models ( http://arxiv.org/abs/2407.01606v1 )

ライセンス: Link先を確認
Ruochen Wang, Ting Liu, Cho-Jui Hsieh, Boqing Gong, (参考訳) 本稿では,テキストから画像への拡散モデルにおいて,高速な最適化を実現するための第1の勾配ベースフレームワークを提案する。 言語空間上の離散的な最適化問題として,プロンプトエンジニアリングを定式化する。 1) ドメイン空間: ドメインを言語空間全体に設定することは、最適化プロセスに重大な困難をもたらす。 2) テキストグラディエント: 拡散モデルと非微分可能な埋め込みルックアップテーブルの推論ステップをバックプロパゲートする必要があるため, テキスト勾配の効率的な計算は困難である。 問題の定式化以外にも、当社の主な技術的貢献は、上記の課題の解決にあります。 まず、ユーザ入力に最も関連性の高い単語のみからなる動的に生成されたコンパクトなサブ空間のファミリーを設計し、ドメイン空間を著しく制限する。 第2に、“ショートカットテキストグラディエント”を導入します。これは、一定のメモリとランタイムで取得可能な、テキスト勾配を効果的に置き換えるものです。 多様なソース(DiffusionDB, ChatGPT, COCO)から収集したプロンプトの実証評価により,テキスト・ツー・イメージ拡散モデルにより生成した画像の忠実さを著しく向上させるプロンプト(プロンプトの強化)や破壊(逆アタック)の発見が可能であることが示唆された。

This paper introduces the first gradient-based framework for prompt optimization in text-to-image diffusion models. We formulate prompt engineering as a discrete optimization problem over the language space. Two major challenges arise in efficiently finding a solution to this problem: (1) Enormous Domain Space: Setting the domain to the entire language space poses significant difficulty to the optimization process. (2) Text Gradient: Efficiently computing the text gradient is challenging, as it requires backpropagating through the inference steps of the diffusion model and a non-differentiable embedding lookup table. Beyond the problem formulation, our main technical contributions lie in solving the above challenges. First, we design a family of dynamically generated compact subspaces comprised of only the most relevant words to user input, substantially restricting the domain space. Second, we introduce "Shortcut Text Gradient" -- an effective replacement for the text gradient that can be obtained with constant memory and runtime. Empirical evaluation on prompts collected from diverse sources (DiffusionDB, ChatGPT, COCO) suggests that our method can discover prompts that substantially improve (prompt enhancement) or destroy (adversarial attack) the faithfulness of images generated by the text-to-image diffusion model.
翻訳日:2024-07-03 20:02:00 公開日:2024-06-27
# 深部クリックスルーレート予測のためのデータ拡張によるマルチエポック学習

Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction ( http://arxiv.org/abs/2407.01607v1 )

ライセンス: Link先を確認
Zhongxiang Fan, Zhaocheng Liu, Jian Liang, Dongying Kong, Han Li, Peng Jiang, Shuang Li, Kun Gai, (参考訳) 本稿では,Click-Through Rate (CTR)モデルにおいて,第2のエポック開始時に顕著に性能が低下する1エピックオーバーフィッティング現象について検討する。 広範な研究にもかかわらず、従来のワンエポックアプローチに対するマルチエポックトレーニングの有効性は明らかになっていない。 そこで本研究では,高次元データ空間に起因した埋め込み層の過度な適合を主要な課題として挙げる。 そこで本研究では,既存の深層CTRモデルにシームレスに統合し,再学習におけるジレンマの「鍛造あるいは過剰適合」処理や,破滅的忘れの問題に対処する可能性のある,非連続的および連続的な学習シナリオに適した,新しい,データ拡張によるマルチエポックラーニング(MEDA)フレームワークを提案する。 MEDAは、後続のトレーニングデータやMLP(Multi-Layer Perceptron)レイヤへの埋め込み層の依存性を減らして過度な適合を最小化し、様々な埋め込み空間でMLPをトレーニングすることでデータ拡張を実現する。 以上の結果から,事前学習したMLP層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上させることが確認された。 この適応性は、MLP層が絶対位置ではなく埋め込み間の相対関係に焦点を当てたマッチング関数を学ぶ際に果たす役割を裏付けている。 我々の知る限り、MEDAは深部CTR予測モデルに適した最初のマルチエポックトレーニング戦略である。 我々は,複数の公共およびビジネスデータセットに対する広範な実験を行い,従来の単一エポックトレーニングよりもデータ拡張と優越性の有効性を十分に実証した。 さらに、MEDAは現実世界のオンライン広告システムに多大な利益をもたらしている。

This paper investigates the one-epoch overfitting phenomenon in Click-Through Rate (CTR) models, where performance notably declines at the start of the second epoch. Despite extensive research, the efficacy of multi-epoch training over the conventional one-epoch approach remains unclear. We identify the overfitting of the embedding layer, caused by high-dimensional data sparsity, as the primary issue. To address this, we introduce a novel and simple Multi-Epoch learning with Data Augmentation (MEDA) framework, suitable for both non-continual and continual learning scenarios, which can be seamlessly integrated into existing deep CTR models and may have potential applications to handle the "forgetting or overfitting" dilemma in the retraining and the well-known catastrophic forgetting problems. MEDA minimizes overfitting by reducing the dependency of the embedding layer on subsequent training data or the Multi-Layer Perceptron (MLP) layers, and achieves data augmentation through training the MLP with varied embedding spaces. Our findings confirm that pre-trained MLP layers can adapt to new embedding spaces, enhancing performance without overfitting. This adaptability underscores the MLP layers' role in learning a matching function focused on the relative relationships among embeddings rather than their absolute positions. To our knowledge, MEDA represents the first multi-epoch training strategy tailored for deep CTR prediction models. We conduct extensive experiments on several public and business datasets, and the effectiveness of data augmentation and superiority over conventional single-epoch training are fully demonstrated. Besides, MEDA has exhibited significant benefits in a real-world online advertising system.
翻訳日:2024-07-03 20:02:00 公開日:2024-06-27
# Deriva-ML: 再現可能な機械学習モデルに対する継続的FAIRnessアプローチ

Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models ( http://arxiv.org/abs/2407.01608v1 )

ライセンス: Link先を確認
Zhiwei Li, Carl Kesselman, Mike D'Arch, Michael Pazzani, Benjamin Yizing Xu, (参考訳) 人工知能(AI)と機械学習(ML)がeScienceアプリケーション [9]でますます使われています。 これらのアプローチは大きな可能性を秘めているが、MLベースのアプローチは、トレーニングやモデルの検証に使用されるデータの不正な管理や誤用によって、しばしば不正確または再現不可能な結果に悩まされることが文献で示されている [12, 15]。 ML結果の正しさに対する高品質なデータの必要性の認識は、モデル開発から高品質なデータセットの作成に中心的な焦点を移し、モデルをトレーニングし検証するデータ中心のMLアプローチにつながった[14,20]。 しかし、eScience問題に対するMLソリューションを探求し評価するためのデータ中心のアプローチには、限られたツールや方法がある。 本稿では、ML用データはすべて発見可能で、アクセス可能で、相互運用可能で、再利用可能な(FAIR [26])という原則に基づくデータ管理ツールが、MLアプリケーションで使用されるデータ品質を大幅に改善できることを示す。 これらのツールをMLベースのeScience調査のライフサイクル全体に適用するベストプラクティスと組み合わせることで、eScienceチームが正しい再現可能なMLソリューションを作成する能力を大幅に改善できます。 本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。

Increasingly, artificial intelligence (AI) and machine learning (ML) are used in eScience applications [9]. While these approaches have great potential, the literature has shown that ML-based approaches frequently suffer from results that are either incorrect or unreproducible due to mismanagement or misuse of data used for training and validating the models [12, 15]. Recognition of the necessity of high-quality data for correct ML results has led to data-centric ML approaches that shift the central focus from model development to creation of high-quality data sets to train and validate the models [14, 20]. However, there are limited tools and methods available for data-centric approaches to explore and evaluate ML solutions for eScience problems which often require collaborative multidisciplinary teams working with models and data that will rapidly evolve as an investigation unfolds [1]. In this paper, we show how data management tools based on the principle that all of the data for ML should be findable, accessible, interoperable and reusable (i.e. FAIR [26]) can significantly improve the quality of data that is used for ML applications. When combined with best practices that apply these tools to the entire life cycle of an ML-based eScience investigation, we can significantly improve the ability of an eScience team to create correct and reproducible ML solutions. We propose an architecture and implementation of such tools and demonstrate through two use cases how they can be used to improve ML-based eScience investigations.
翻訳日:2024-07-03 20:02:00 公開日:2024-06-27
# マイクロサービスシステムにおける障害診断: 総合的な調査と分析

Failure Diagnosis in Microservice Systems: A Comprehensive Survey and Analysis ( http://arxiv.org/abs/2407.01710v1 )

ライセンス: Link先を確認
Shenglin Zhang, Sibo Xia, Wenzhao Fan, Binpeng Shi, Xiao Xiong, Zhenyu Zhong, Minghua Ma, Yongqian Sun, Dan Pei, (参考訳) 現代のマイクロサービスシステムは、高いスケーラビリティ、柔軟性、拡張性のために広く採用されています。 しかし、独立デプロイメント、分散化、頻繁な動的相互作用の特徴は、カスケード障害のリスクも伴うため、正確な故障診断と迅速なシステム回復が困難である。 これらの問題は、運用効率とユーザエクスペリエンスに大きな影響を与えます。 マイクロサービスシステムの安定性と信頼性を高める上で、障害診断の重要な役割を認識した研究者は、広範な研究を行い、一連の重要な成果を上げた。 本調査は, 基礎概念, 研究枠組み, 問題ステートメントの概観を含む, 2003年から現在までの94論文の総括的レビューと一次分析を行う。 これらの知見は、研究者が障害診断における最新の研究の進歩を理解するのを助けることを目的としている。 公開されているデータセット、ツールキット、評価メトリクスもコンパイルされ、実践者がさまざまなテクニックを選択し、検証するのを支援し、現在のプラクティスを超えてドメインを前進させる基盤を提供する。

Modern microservice systems have gained widespread adoption due to their high scalability, flexibility, and extensibility. However, the characteristics of independent deployment, decentralization, and frequent dynamic interactions also introduce the risk of cascading failures, making it challenging to achieve accurate failure diagnosis and rapid system recovery. These issues severely impact operation efficiency and user experience. Recognizing the crucial role of failure diagnosis in enhancing the stability and reliability of microservice systems, researchers have conducted extensive studies and achieved a series of significant outcomes. This survey provides a comprehensive review and primary analysis of 94 papers from 2003 to the present, including an overview of the fundamental concepts, a research framework, and problem statements. These insights aim to help researchers understand the latest research progress in failure diagnosis. Publicly available datasets, toolkits, and evaluation metrics are also compiled to assist practitioners in selecting and validating various techniques, providing a foundation to advance the domain beyond current practices.
翻訳日:2024-07-03 19:32:46 公開日:2024-06-27
# 適応最適化アルゴリズムのためのフレキシブルな精度指向ディープラーニングモジュール推論遅延予測フレームワークを目指して

Towards A Flexible Accuracy-Oriented Deep Learning Module Inference Latency Prediction Framework for Adaptive Optimization Algorithms ( http://arxiv.org/abs/2312.06440v2 )

ライセンス: Link先を確認
Jingran Shen, Nikos Tziritas, Georgios Theodoropoulos, (参考訳) ディープラーニングの急速な開発により、クラウドやエッジ上のアプリケーションがますます多くなり、大きなDNN(Deep Neural Network)モデルを使用してタスクの実行効率と意思決定品質を改善する傾向にある。 メモリ制約のため、モデルは通常、圧縮、プルーニング、パーティショニングアルゴリズムを使用して最適化され、リソース制約のあるデバイスにデプロイできる。 計算プラットフォームの条件が動的に変化するにつれて、デプロイされた最適化アルゴリズムはそのソリューションに適応すべきである。 これらの解の頻繁な評価をタイムリーに行うために、RM(Regression Models)は一般的に、DNNモジュールの推論遅延などの関連する解品質指標を予測するために訓練される。 既存の予測フレームワークでは、異なるRMトレーニングワークフローを指定しているが、いずれのフレームワークも、入力パラメータ(例えば、バッチサイズ、デバイス利用率)と選択したRMの異なるモジュールに対する柔軟な設定を許可していない。 本稿では,ディープラーニングモジュール推論遅延予測フレームワークを提案する。 i) DNNモジュールごとに複数の異なるRM(例えば畳み込み層)を自己生成データセットでトレーニングするために、カスタマイズ可能な入力パラメータのセットをホストする。 二 予測時間/空間消費を極力低く保ちつつ、可能な限り全体的な予測精度を高めるための訓練されたRMのセットを自動的に選択すること。 さらに、MEDN(Multi-task Encoder-Decoder Network)と呼ばれる新しいRMが代替ソリューションとして提案されている。 総合的な実験結果から,MEDNは高速かつ軽量であり,総合的な予測精度とR2乗値を達成することができることがわかった。 時間/空間効率のオートセレクションアルゴリズムは、MEDNのシングルセレクション方式と比較して、全体の精度を2.5%、R-2乗を0.39%向上させる。

With the rapid development of Deep Learning, more and more applications on the cloud and edge tend to utilize large DNN (Deep Neural Network) models for improved task execution efficiency as well as decision-making quality. Due to memory constraints, models are commonly optimized using compression, pruning, and partitioning algorithms to become deployable onto resource-constrained devices. As the conditions in the computational platform change dynamically, the deployed optimization algorithms should accordingly adapt their solutions. To perform frequent evaluations of these solutions in a timely fashion, RMs (Regression Models) are commonly trained to predict the relevant solution quality metrics, such as the resulted DNN module inference latency, which is the focus of this paper. Existing prediction frameworks specify different RM training workflows, but none of them allow flexible configurations of the input parameters (e.g., batch size, device utilization rate) and of the selected RMs for different modules. In this paper, a deep learning module inference latency prediction framework is proposed, which i) hosts a set of customizable input parameters to train multiple different RMs per DNN module (e.g., convolutional layer) with self-generated datasets, and ii) automatically selects a set of trained RMs leading to the highest possible overall prediction accuracy, while keeping the prediction time / space consumption as low as possible. Furthermore, a new RM, namely MEDN (Multi-task Encoder-Decoder Network), is proposed as an alternative solution. Comprehensive experiment results show that MEDN is fast and lightweight, and capable of achieving the highest overall prediction accuracy and R-squared value. The Time/Space-efficient Auto-selection algorithm also manages to improve the overall accuracy by 2.5% and R-squared by 0.39%, compared to the MEDN single-selection scheme.
翻訳日:2024-07-02 15:37:58 公開日:2024-06-27
# CVPR 2024 PBDLチャレンジの実施報告

Technique Report of CVPR 2024 PBDL Challenges ( http://arxiv.org/abs/2406.10744v2 )

ライセンス: Link先を確認
Ying Fu, Yu Li, Shaodi You, Boxin Shi, Jose Alvarez, Coert van Gemeren, Linwei Chen, Yunhao Zou, Zichun Wang, Yichen Li, Yuze Han, Yingkai Zhang, Jianan Wang, Qinglin Liu, Wei Yu, Xiaoqian Lv, Jianing Li, Shengping Zhang, Xiangyang Ji, Yuanpei Chen, Yuhan Zhang, Weihang Peng, Liwen Zhang, Zhe Xu, Dingyong Gou, Cong Li, Senyan Xu, Yunkang Zhang, Siyuan Jiang, Xiaoqiang Lu, Licheng Jiao, Fang Liu, Xu Liu, Lingling Li, Wenping Ma, Shuyuan Yang, Haiyang Xie, Jian Zhao, Shihuang Huang, Peng Cheng, Xi Shen, Zheng Wang, Shuai An, Caizhi Zhu, Xuelong Li, Tao Zhang, Liang Li, Yu Liu, Chenggang Yan, Gengchen Zhang, Linyan Jiang, Bingyi Song, Zhuoyu An, Haibo Lei, Qing Luo, Jie Song, Yuan Liu, Qihang Li, Haoyuan Zhang, Lingfeng Wang, Wei Chen, Aling Luo, Cheng Li, Jun Cao, Shu Chen, Zifei Dou, Xinyu Liu, Jing Zhang, Kexin Zhang, Yuting Yang, Xuejian Gou, Qinliang Wang, Yang Liu, Shizhan Zhao, Yanzhao Zhang, Libo Yan, Yuwei Guo, Guoxin Li, Qiong Gao, Chenyue Che, Long Sun, Xiang Chen, Hao Li, Jinshan Pan, Chuanlong Xie, Hongming Chen, Mingrui Li, Tianchen Deng, Jingwei Huang, Yufeng Li, Fei Wan, Bingxin Xu, Jian Cheng, Hongzhe Liu, Cheng Xu, Yuxiang Zou, Weiguo Pan, Songyin Dai, Sen Jia, Junpei Zhang, Puhua Chen, Qihang Li, (参考訳) 物理に基づくビジョンとディープラーニングの交わりは、コンピュータビジョン技術の進歩にエキサイティングなフロンティアをもたらす。 物理の原理を活用して、深層学習モデルの情報提供と強化を行うことで、より堅牢で正確な視覚システムを開発することができる。 物理に基づくビジョンは、画像から形状、反射率、光の分布、中性などのシーン特性を復元する過程を反転させることを目的としている。 近年、ディープラーニングは様々な視覚タスクに有望な改善を示しており、物理に基づく視覚と組み合わせることで、これらのアプローチは視覚システムの堅牢性と精度を高めることができる。 CVPR 2024ワークショップで行われたPBDL 2024チャレンジの結果を要約する。 課題は8つのトラックで構成され、低光強調と検出、ハイダイナミックレンジ(HDR)イメージングに焦点を当てた。 本報告では,各トラックの目的,方法論,成果を詳述し,最高性能のソリューションとその革新的なアプローチについて述べる。

The intersection of physics-based vision and deep learning presents an exciting frontier for advancing computer vision technologies. By leveraging the principles of physics to inform and enhance deep learning models, we can develop more robust and accurate vision systems. Physics-based vision aims to invert the processes to recover scene properties such as shape, reflectance, light distribution, and medium properties from images. In recent years, deep learning has shown promising improvements for various vision tasks, and when combined with physics-based vision, these approaches can enhance the robustness and accuracy of vision systems. This technical report summarizes the outcomes of the Physics-Based Vision Meets Deep Learning (PBDL) 2024 challenge, held in CVPR 2024 workshop. The challenge consisted of eight tracks, focusing on Low-Light Enhancement and Detection as well as High Dynamic Range (HDR) Imaging. This report details the objectives, methodologies, and results of each track, highlighting the top-performing solutions and their innovative approaches.
翻訳日:2024-07-02 13:21:08 公開日:2024-06-27
# ニューラルネットワークのセマンティックフレームワーク

A Semantic Framework for Neural-Symbolic Computing ( http://arxiv.org/abs/2212.12050v3 )

ライセンス: Link先を確認
Simon Odense, Artur d'Avila Garcez, (参考訳) AI、ニューラルネットワーク、シンボリックシステムに対する2つのアプローチは、AI問題に対して非常に成功したことが証明されている。 しかし、人間のような知能に必要な一般的な推論能力は達成できなかった。 これは、それぞれのアプローチに固有の弱点があるためである、と論じられている。 幸いにも、これらの弱点は補完的なもので、ニューラルネットワークが抱える問題や逆転に象徴的なシステムが対応している。 ニューラルシンボリックAIの分野は、ニューラルネットワークとシンボリックAIを統合システムに組み合わせることで、この非対称性を活用しようとする。 これはしばしば、記号的知識をニューラルネットワークに符号化することで実現されている。 残念なことに、多くの異なる方法が提案されているが、それらを比較するためのエンコーディングの共通定義は存在しない。 我々は、ニューラルシンボリックAIのセマンティックフレームワークを導入して、この問題の是正を目指している。 このフレームワークの様々な形態の知識表現とニューラルネットワークのニューラルエンコーディングへの応用例と証明を多数提供している。 これらは、当初、異なるアプローチで、すべて、ニューラルネットワークの象徴的AIのセマンティックエンコーディングと呼ばれるフレームワークの正式な定義に該当することが示されている。

Two approaches to AI, neural networks and symbolic systems, have been proven very successful for an array of AI problems. However, neither has been able to achieve the general reasoning ability required for human-like intelligence. It has been argued that this is due to inherent weaknesses in each approach. Luckily, these weaknesses appear to be complementary, with symbolic systems being adept at the kinds of things neural networks have trouble with and vice-versa. The field of neural-symbolic AI attempts to exploit this asymmetry by combining neural networks and symbolic AI into integrated systems. Often this has been done by encoding symbolic knowledge into neural networks. Unfortunately, although many different methods for this have been proposed, there is no common definition of an encoding to compare them. We seek to rectify this problem by introducing a semantic framework for neural-symbolic AI, which is then shown to be general enough to account for a large family of neural-symbolic systems. We provide a number of examples and proofs of the application of the framework to the neural encoding of various forms of knowledge representation and neural network. These, at first sight disparate approaches, are all shown to fall within the framework's formal definition of what we call semantic encoding for neural-symbolic AI.
翻訳日:2024-07-01 22:29:40 公開日:2024-06-27
# ソフトウェアセキュリティの新しい時代 - 大規模言語モデルと形式的検証による自己修復ソフトウェアを目指して

A New Era in Software Security: Towards Self-Healing Software via Large Language Models and Formal Verification ( http://arxiv.org/abs/2305.14752v2 )

ライセンス: Link先を確認
Norbert Tihanyi, Ridhi Jain, Yiannis Charalambous, Mohamed Amine Ferrag, Youcheng Sun, Lucas C. Cordeiro, (参考訳) 本稿では,Large Language Models(LLM)とFormal Verification戦略を組み合わせたソフトウェア脆弱性の自動修復手法を提案する。 当初は、脆弱性を特定し、反例を抽出するために境界モデルチェック(BMC)を使用しました。 これらの反例は、数学的証明と脆弱性のスタックトレースによってサポートされている。 特別に設計されたプロンプトを用いて、元のソースコードと識別された脆弱性を組み合わせ、そのスタックトレースと、行番号とエラータイプを指定する逆例を含む。 この組み合わせた情報はLLMに送られ、コードを修正するように指示される。 その後、新しいコードがBMCを使用して再検証され、修正が成功する。 我々は、ESBMC-AIフレームワークを概念実証として、よく認識され、業界に受け入れられたSMTベースのコンテキスト境界モデルチェッカー(ESBMC)と、トレーニング済みのトランスフォーマーモデルを利用して、Cプログラム、特に重要なソフトウェアコンポーネントのエラーを検出し、修正する。 我々は,各脆弱性分類を用いて,FormAIデータセットからランダムに選択された5万個のCプログラムに対するアプローチを評価した。 本研究は,バッファオーバーフローや演算オーバーフロー,ポインタ参照障害などの問題を高精度に検出および修正するESBMC-AIの機能を示すものである。 ESBMC-AIは先駆的なイニシアチブで、LCMとBMCの技術を統合することで、ソフトウェア開発ライフサイクルにおける継続的インテグレーションとデプロイメント(CI/CD)プロセスへの潜在的な統合を提供します。

This paper introduces an innovative approach that combines Large Language Models (LLMs) with Formal Verification strategies for automatic software vulnerability repair. Initially, we employ Bounded Model Checking (BMC) to identify vulnerabilities and extract counterexamples. These counterexamples are supported by mathematical proofs and the stack trace of the vulnerabilities. Using a specially designed prompt, we combine the original source code with the identified vulnerability, including its stack trace and counterexample that specifies the line number and error type. This combined information is then fed into an LLM, which is instructed to attempt to fix the code. The new code is subsequently verified again using BMC to ensure the fix succeeded. We present the ESBMC-AI framework as a proof of concept, leveraging the well-recognized and industry-adopted Efficient SMT-based Context-Bounded Model Checker (ESBMC) and a pre-trained transformer model to detect and fix errors in C programs, particularly in critical software components. We evaluated our approach on 50,000 C programs randomly selected from the FormAI dataset with their respective vulnerability classifications. Our results demonstrate ESBMC-AI's capability to automate the detection and repair of issues such as buffer overflow, arithmetic overflow, and pointer dereference failures with high accuracy. ESBMC-AI is a pioneering initiative, integrating LLMs with BMC techniques, offering potential integration into the continuous integration and deployment (CI/CD) process within the software development lifecycle.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-27
# NISQデバイス上で非アーベル異性体を実演する一提案

A proposal to demonstrate non-abelian anyons on a NISQ device ( http://arxiv.org/abs/2306.13129v3 )

ライセンス: Link先を確認
Jovan Jovanović, Carolin Wille, Daan Timmers, Steven H. Simon, (参考訳) 本研究では,非アベリア異性体をNISQデバイス上で実現するための提案を提案する。 特に、量子二重モデル $D(D_4)$ の実装の可能性について検討する。 そこで本研究では,電子回路の操作と測定を劇的に単純化する手法を提案する。 現実的なノイズモデルを用いた数値シミュレーションでは、現在のNISQ技術は、非アベリア異性体のシグネチャを、ブレイドの非可換性のような要素的性質を超えて探すことができることが示唆されている。 特に、モデルの全モジュラーデータを実験的に測定することは可能であると結論付けている。

In this work we present a proposal for realising non-Abelian anyons on a NISQ device. In particular we explore the feasibility of implementing the quantum double model $D(D_4)$. We propose techniques to drastically simplify the circuits for the manipulation and measurements of anyons. Numerical simulations with realistic noise models suggest that current NISQ technology is capable of probing signatures of non-Abelian anyons far beyond elemental properties such as the non-commutativity of braids. In particular, we conclude that experimentally measuring the full modular data of the model is feasible.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-27
# AIのための新しいノルムを作る

Shaping New Norms for AI ( http://arxiv.org/abs/2307.08564v2 )

ライセンス: Link先を確認
Andrea Baronchelli, (参考訳) 人工知能(AI)が私たちの生活にますます統合されるにつれて、新しい規範の必要性は緊急である。 しかし、AIは標準形成の特徴的な時間よりもはるかに速いペースで進化し、我々の社会に前例のない挑戦を巻き起こしている。 本稿では,AIを取り巻く規範形成のプロセスの重要度について考察する。 したがって、これらの規範が何であるべきかではなく、どのように新しい規範が確立されるかに焦点を当てている。 標準形成プロセスの中央集権化や分散化に基づいて異なるシナリオを区別し、形式的な当局や非公式な機関によって新しい規範が形成される場合、あるいはボトムアップ的な方法で自発的に出現する場合を分析する。 後者では、LLMが観測したいくつかの新しい規範について論じているChatGPTとの会話を報告している。 本記事では,AIの普及拡大に対する社会の反応を理解するための解釈ツールを読者に提供することを目的としている。 AIが将来の社会規範の形成にどのような影響を及ぼすかについての展望は、オープンで包括的で透明な公開談話において、オープンな社会が正式な審議プロセスを維持することの重要性を強調している。

As Artificial Intelligence (AI) becomes increasingly integrated into our lives, the need for new norms is urgent. However, AI evolves at a much faster pace than the characteristic time of norm formation, posing an unprecedented challenge to our societies. This paper examines possible criticalities of the processes of norm formation surrounding AI. Thus, it focuses on how new norms can be established, rather than on what these norms should be. It distinguishes different scenarios based on the centralisation or decentralisation of the norm formation process, analysing the cases where new norms are shaped by formal authorities, informal institutions, or emerge spontaneously in a bottom-up fashion. On the latter point, the paper reports a conversation with ChatGPT in which the LLM discusses some of the emerging norms it has observed. Far from seeking exhaustiveness, this article aims to offer readers interpretive tools to understand society's response to the growing pervasiveness of AI. An outlook on how AI could influence the formation of future social norms emphasises the importance for open societies to anchor their formal deliberation process in an open, inclusive, and transparent public discourse.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-27
# クロスキャビティ系における原子を用いた普遍量子計算

Universal quantum computation using atoms in cross-cavity systems ( http://arxiv.org/abs/2308.14881v2 )

ライセンス: Link先を確認
Luiz O. R. Solak, Daniel Z. Rossatto, Celso J. Villas-Boas, (参考訳) 量子ゲートは量子回路の構成要素であり、量子情報処理の基盤となっている。 本研究では,CNOT (Universal two-) と 3-qubit (quantum Fredkin) の両ゲートの1段階実装を,$\Lambda$-type 3-level 原子に結合したクロスキャビティ構成で理論的に検討する。 高協力性体制内では、入力光パルスの2モードの単一光子の明るい暗黒状態を含む原子状態依存の$\pi$相ゲートを示す。 これにより、原子による光状態の制御が可能であり、その逆も可能である。 その結果、これらの量子ゲートは、それぞれ電磁誘導透過現象とオートラー・タウナス分裂に起因する弱結合状態と強結合状態のいずれにおいても、最先端パラメータを用いて高い確率で実装可能であることが示唆された。 この作業は、単純なリソースを使って単一のステップで量子ゲートを実装する方法を舗装するだけでなく、回路内で基本ゲートをチェーンする必要性を回避し、普遍的な量子計算を実現するためのクロスキャビティシステムの可能性も支持している。

Quantum gates are the building blocks of quantum circuits, which in turn are the cornerstones of quantum information processing. In this work, we theoretically investigate a single-step implementation of both a universal two- (CNOT) and three-qubit (quantum Fredkin) gates in a cross-cavity setup coupled to a $\Lambda$-type three-level atom. Within a high-cooperativity regime, the system exhibits an atomic-state-dependent $\pi$-phase gate involving the two-mode single-photon bright and dark states of the input light pulses. This allows for the controlled manipulation of light states by the atom and vice versa. Our results indicate these quantum gates can be implemented with high probability of success using the state-of-the-art parameters, either for the weak- or strong-coupling regime, where the quantum interference is due to an electromagnetically-induced-transparency-like phenomenon and the Autler-Townes splitting, respectively. This work not only paves the way for implementing quantum gates in a single step using simple resources, thus avoiding the need to chain basic gates together in a circuit, but it also endorses the potential of cross-cavity systems for realizing universal quantum computation.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-27
# 大規模非構造化法文書における階層型ニューラルネットワークによる分類と説明

A Hierarchical Neural Framework for Classification and its Explanation in Large Unstructured Legal Documents ( http://arxiv.org/abs/2309.10563v3 )

ライセンス: Link先を確認
Nishchal Prasad, Mohand Boughanem, Taoufik Dkaki, (参考訳) 自動的法的判断予測とその説明は、何万語を超える長い事例文書の問題に悩まされ、一般に、一様でない構造を持つ。 このような文書から判断を予測し、それらの説明を抽出することは、より構造的な注釈のない文書において難しい課題となる。 我々は、この問題を「注釈付き法律文書」と定義し、MEScと呼ばれる深層学習に基づく分類フレームワークを用いて、構造情報の欠如とその長大性を探究し、「マルチステージエンコーダベースの監視付きクラスタリング(Supervised with-clustering)」を判断する。 本稿では,複数ビリオンパラメータ(GPT-Neo,GPT-J)を用いたLLMの法文への適応性とそのドメイン内移行学習能力について検討する。 これと同時に、MEScのパフォーマンスと適応性、および最後のレイヤからの埋め込みの組み合わせの影響を比較します。 このような階層モデルに対しては, ORSE (Occlusion sensitivity-based Relevant Sentence Extractor) という説明抽出アルゴリズムも提案する。 これらの手法を探索し,インド,欧州連合,米国からの法的文書に関する広範な実験およびアブレーション研究により,ILDCデータセットとLexGLUEデータセットのサブセットを用いて,それらの有効性を検証した。 MEScで適用されたORSEは、ベースライン説明可能性スコアよりも50%高い平均ゲインを達成する。

Automatic legal judgment prediction and its explanation suffer from the problem of long case documents exceeding tens of thousands of words, in general, and having a non-uniform structure. Predicting judgments from such documents and extracting their explanation becomes a challenging task, more so on documents with no structural annotation. We define this problem as "scarce annotated legal documents" and explore their lack of structural information and their long lengths with a deep-learning-based classification framework which we call MESc; "Multi-stage Encoder-based Supervised with-clustering"; for judgment prediction. We explore the adaptability of LLMs with multi-billion parameters (GPT-Neo, and GPT-J) to legal texts and their intra-domain(legal) transfer learning capacity. Alongside this, we compare their performance and adaptability with MESc and the impact of combining embeddings from their last layers. For such hierarchical models, we also propose an explanation extraction algorithm named ORSE; Occlusion sensitivity-based Relevant Sentence Extractor; based on the input-occlusion sensitivity of the model, to explain the predictions with the most relevant sentences from the document. We explore these methods and test their effectiveness with extensive experiments and ablation studies on legal documents from India, the European Union, and the United States with the ILDC dataset and a subset of the LexGLUE dataset. MESc achieves a minimum total performance gain of approximately 2 points over previous state-of-the-art proposed methods, while ORSE applied on MESc achieves a total average gain of 50% over the baseline explainability scores.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-27
# 最適, 再構成可能, 可変解拡散モデリングのためのスタックブルおよびスキップブルLEGOれんがの学習

Learning Stackable and Skippable LEGO Bricks for Efficient, Reconfigurable, and Variable-Resolution Diffusion Modeling ( http://arxiv.org/abs/2310.06389v3 )

ライセンス: Link先を確認
Huangjie Zheng, Zhendong Wang, Jianbo Yuan, Guanghan Ning, Pengcheng He, Quanzeng You, Hongxia Yang, Mingyuan Zhou, (参考訳) 拡散モデルはフォトリアリスティックな画像を生成するのに優れるが、トレーニングとサンプリングの両方においてかなりの計算コストがかかる。 様々な手法がこれらの計算課題に対処する一方で、探索の少ない問題は、反復的な改善のために効率的で適応可能なネットワークバックボーンを設計することである。 U-NetやVision Transformerのような現在のオプションは、しばしばリソース集約のディープネットワークに依存しており、可変解像度またはトレーニングで使用されるよりも小さなネットワークで画像を生成するのに必要な柔軟性を欠いている。 本研究は,ローカル・フィーチャー・エンリッチメントとグローバル・コンテント・オーケストレーションをシームレスに統合したLEGOブロックを紹介した。 これらのブロックを積み重ねて、テスト時間再構成可能な拡散バックボーンを作成することで、レンガの選択的スキップによりサンプリングコストを削減し、トレーニングデータよりも高解像度の画像を生成することができる。 LEGOブロックは、ローカルリージョンをMLPで豊かにし、Transformerブロックを使用して変換すると同時に、すべてのブロックにわたって一貫したフル解像度のイメージを維持します。 実験により,LEGOれんがの訓練効率の向上,収束の迅速化,画像の可変分解能の向上,生成性能の向上が示された。 さらに、LEGOは他の方法と比較してサンプリング時間を著しく短縮し、拡散モデルの有用な拡張として確立する。 私たちのコードとプロジェクトページはhttps://jegzheng.github.io/LEGODiffusion.orgで公開されています。

Diffusion models excel at generating photo-realistic images but come with significant computational costs in both training and sampling. While various techniques address these computational challenges, a less-explored issue is designing an efficient and adaptable network backbone for iterative refinement. Current options like U-Net and Vision Transformer often rely on resource-intensive deep networks and lack the flexibility needed for generating images at variable resolutions or with a smaller network than used in training. This study introduces LEGO bricks, which seamlessly integrate Local-feature Enrichment and Global-content Orchestration. These bricks can be stacked to create a test-time reconfigurable diffusion backbone, allowing selective skipping of bricks to reduce sampling costs and generate higher-resolution images than the training data. LEGO bricks enrich local regions with an MLP and transform them using a Transformer block while maintaining a consistent full-resolution image across all bricks. Experimental results demonstrate that LEGO bricks enhance training efficiency, expedite convergence, and facilitate variable-resolution image generation while maintaining strong generative performance. Moreover, LEGO significantly reduces sampling time compared to other methods, establishing it as a valuable enhancement for diffusion models. Our code and project page are available at https://jegzheng.github.io/LEGODiffusion.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-27
# フィンテック応用のための2目的パレート最適フラッド防止ルールの探索について

On Finding Bi-objective Pareto-optimal Fraud Prevention Rule Sets for Fintech Applications ( http://arxiv.org/abs/2311.00964v3 )

ライセンス: Link先を確認
Chengyao Wen, Yin Lou, (参考訳) ルールは直感的なif-then構造のおかげで非常に解釈可能であるため、フィンテックの機関では不正防止の判断に広く使われている。 実際には、2段階の不正防止決定ルールの枠組みが一般的に大規模なフィンテック機関で採用されており、ステージ1は潜在的に大きなルールプールを生成し、ステージ2はいくつかの基準(典型的には精度とリコールに基づく)に基づいて洗練されたルールサブセットを作成することを目的としている。 本稿では,この2段階フレームワークの柔軟性と有効性の向上に焦点をあて,両目的空間(精度やリコールなど)における高品質なルールサブセットの発見に留意する。 この目的のために、我々はまずSpectralRulesと呼ばれる新しいアルゴリズムを導入し、高い多様性を持つステージ1におけるルールのプールを直接生成する。 このような多様性が最終ルールサブセットの品質を改善することを実証的に見出す。 さらに,Paretoの最適性の概念を取り入れた第1段階と第2段階の中間段階を導入し,Paretoフロントを構成する非支配的なルールサブセットの集合を見つけることを目的とする。 この中間段階は選択基準を大幅に単純化し、ステージ2の柔軟性を高める。 この中間段階において、我々はPORSと呼ばれるヒューリスティックなフレームワークを提案し、PORSのコアがフロント(SSF)におけるソリューション選択の問題であることを確認した。 本研究では,SSF問題を体系的に分類し,パブリック・プロプライエタリ・データセットとプロプライエタリ・データセットの両方で様々なSSF手法を徹底的に評価する。 Alipay内の2つの実際のアプリケーションシナリオにおいて、提案した手法の利点を既存の作業に対して示す。

Rules are widely used in Fintech institutions to make fraud prevention decisions, since rules are highly interpretable thanks to their intuitive if-then structure. In practice, a two-stage framework of fraud prevention decision rule set mining is usually employed in large Fintech institutions; Stage 1 generates a potentially large pool of rules and Stage 2 aims to produce a refined rule subset according to some criteria (typically based on precision and recall). This paper focuses on improving the flexibility and efficacy of this two-stage framework, and is concerned with finding high-quality rule subsets in a bi-objective space (such as precision and recall). To this end, we first introduce a novel algorithm called SpectralRules that directly generates a compact pool of rules in Stage 1 with high diversity. We empirically find such diversity improves the quality of the final rule subset. In addition, we introduce an intermediate stage between Stage 1 and 2 that adopts the concept of Pareto optimality and aims to find a set of non-dominated rule subsets, which constitutes a Pareto front. This intermediate stage greatly simplifies the selection criteria and increases the flexibility of Stage 2. For this intermediate stage, we propose a heuristic-based framework called PORS and we identify that the core of PORS is the problem of solution selection on the front (SSF). We provide a systematic categorization of the SSF problem and a thorough empirical evaluation of various SSF methods on both public and proprietary datasets. On two real application scenarios within Alipay, we demonstrate the advantages of our proposed methodology over existing work.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-27
# 塑性損失の説明としての曲率の方向性

Directions of Curvature as an Explanation for Loss of Plasticity ( http://arxiv.org/abs/2312.00246v3 )

ライセンス: Link先を確認
Alex Lewandowski, Haruto Tanaka, Dale Schuurmans, Marlos C. Machado, (参考訳) 可塑性の喪失は、ニューラルネットワークが新しい経験から学ぶ能力を失う現象である。 いくつかの問題設定で経験的に観察されているにもかかわらず、可塑性の喪失につながるメカニズムについてはほとんど理解されていない。 本稿では, ニューラルネットワークはトレーニング中に曲率の方向を逸脱し, 可塑性の喪失は曲率の減少に起因するという一貫した説明を与える。 このような主張を支援するため,MNIST, CIFAR-10, ImageNet を用いた連続学習課題における可塑性損失の系統的研究を行った。 その結果, 曲がり方向の喪失は塑性の喪失と一致し, 以前の説明ではすべての環境において塑性の喪失を説明するには不十分であることが示唆された。 最後に, 可塑性損失を緩和する正則化器も曲率を保ち, 検討した問題設定において有効であることを示す単純な分布正則化器を動機付けていることを示す。

Loss of plasticity is a phenomenon in which neural networks lose their ability to learn from new experience. Despite being empirically observed in several problem settings, little is understood about the mechanisms that lead to loss of plasticity. In this paper, we offer a consistent explanation for loss of plasticity: Neural networks lose directions of curvature during training and that loss of plasticity can be attributed to this reduction in curvature. To support such a claim, we provide a systematic investigation of loss of plasticity across continual learning tasks using MNIST, CIFAR-10 and ImageNet. Our findings illustrate that loss of curvature directions coincides with loss of plasticity, while also showing that previous explanations are insufficient to explain loss of plasticity in all settings. Lastly, we show that regularizers which mitigate loss of plasticity also preserve curvature, motivating a simple distributional regularizer that proves to be effective across the problem settings we considered.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-27
# SO(3)対称性破れ項によるヤオ・リーモデルの非エルミート一般化

Non-Hermitian generalizations of the Yao-Lee model augmented by SO(3)-symmetry-breaking terms ( http://arxiv.org/abs/2401.08568v2 )

ライセンス: Link先を確認
Ipsita Mandal, (参考訳) 種々のSO(3)対称性破壊項で補足されたヤオ・リーモデルの非エルミート版について検討し、モデルの可解性を維持する。 親モデルはマヨラナのフェルミオンの3つの種を包含し、ハニカム格子上の2次元キタエフモデルの延長として機能する。 非エルミート結合は、システムが環境に結合されたときに一般的な状況を表すため、散逸する。 得られた固有値スペクトルと固有モードは、非エルミート皮膚効果と同様に例外点の豊富な構造を示す。 このようなエキゾチックな振舞いを、いくつかの代表的なパラメーターレジームで表します。

We investigate non-Hermitian versions of the Yao-Lee model, supplemented by various kinds of SO(3)-symmetry-breaking terms, preserving the solvability of the model. The parent model hosts three species of Majorana fermions, thereby serving as an extension of the two-dimensional Kitaev model on the honeycomb lattice. The non-Hermitian couplings represent generic situations when the system is coupled to the environment and, thus, undergoes dissipation. The resulting eigenvalue spectrum and the eigenmodes show a rich structure of exceptional points as well as non-Hermitian skin effects. We chart out such exotic behaviour for some representative parameter regimes.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-27
# 等変対称性の破れ集合

Equivariant Symmetry Breaking Sets ( http://arxiv.org/abs/2402.02681v2 )

ライセンス: Link先を確認
YuQing Xie, Tess Smidt, (参考訳) 等価ニューラルネットワーク(ENN)は、基礎となる対称性を含むアプリケーションに非常に効果的であることが示されている。 建設によって、ENNはより高い対称性の入力を与えられた低い対称性の出力を生成できない。 しかし、対称性の破れは多くの物理系で起こり、初期の高度対称状態からより対称性の低い安定状態が得られるかもしれない。 したがって、我々は、ENNの対称性を体系的に破る方法を理解することが不可欠である。 本研究では,自発対称性の破れに対処する新しい対称性の破れの枠組みを提案する。 我々は、我々のアプローチが一般であり、任意の群の下での同値に適用可能であることを強調する。 これを実現するために、対称破れ集合(SBS)の概念を導入する。 既存のネットワークを再設計するのではなく、入力と出力の対称性に基づいて、ネットワークに供給する対称性を破るオブジェクトのセットを設計する。 これらの集合に同値を定義する自然な方法があることを示し、追加の制約を与える。 これらのセットのサイズを最小化することは、データ効率に等しい。 これらの集合を最小化することは、よく研究された群論問題に変換され、点群に対するこの問題に対する解を集計する。 最後に、我々のアプローチが実際にどのように機能しているかを示すために、対称性の破れのいくつかの例を示す。

Equivariant neural networks (ENNs) have been shown to be extremely effective in applications involving underlying symmetries. By construction ENNs cannot produce lower symmetry outputs given a higher symmetry input. However, symmetry breaking occurs in many physical systems and we may obtain a less symmetric stable state from an initial highly symmetric one. Hence, it is imperative that we understand how to systematically break symmetry in ENNs. In this work, we propose a novel symmetry breaking framework that is fully equivariant and is the first which fully addresses spontaneous symmetry breaking. We emphasize that our approach is general and applicable to equivariance under any group. To achieve this, we introduce the idea of symmetry breaking sets (SBS). Rather than redesign existing networks, we design sets of symmetry breaking objects which we feed into our network based on the symmetry of our inputs and outputs. We show there is a natural way to define equivariance on these sets, which gives an additional constraint. Minimizing the size of these sets equates to data efficiency. We prove that minimizing these sets translates to a well studied group theory problem, and tabulate solutions to this problem for the point groups. Finally, we provide some examples of symmetry breaking to demonstrate how our approach works in practice.
翻訳日:2024-07-01 21:44:37 公開日:2024-06-27
# 絡み合いの運命

The Fate of Entanglement ( http://arxiv.org/abs/2402.06677v3 )

ライセンス: Link先を確認
Gilles Parez, William Witczak-Krempa, (参考訳) 量子絡み合いは、基本的に粒子間の非局所的な相関である。 最も単純な実現法では、ある粒子の計測は、その粒子の分離に関係なく、パートナーの事前の測定によって影響を受ける。 複数の粒子に対して、純粋に集団的な絡み合いが存在するが、理論上でさえ、その検出は際立った未解決の問題である。 ここでは, システムの典型的な進化において, 加熱, 時間的変化, あるいはその部分の分離によって, あらゆる形態の多部絡み合いが完全に消失することを示す。 これらの結果は、物理的状態の空間における絡み合いのない大陸の性質に従い、非常に一般性を持つ。 我々はこれらの現象を、平衡から外れたフラストレーションの分子量子マグネットで説明する。 対照的に、粒子が電子のようなフェルミオンである場合、二部量子相関を保護する別の絡み合いの概念が存在する。 しかし、真に集合的なフェルミオンの絡み合いは典型的な進化の間に消え、ボゾン系と同じ運命を共有する。 これらの発見は、量子物質やアーキテクチャにおける絡み合いの構造に関する基本的な知識を与え、その操作の道を開いた。

Quantum entanglement is a fundamentally non-local correlation between particles. In its simplest realisation, a measurement on one particle is affected by a prior measurement on its partner, irrespective of their separation. For multiple particles, purely collective types of entanglement exist but their detection, even theoretically, remains an outstanding open question. Here, we show that all forms of multipartite entanglement entirely disappear during the typical evolution of a system as it heats up, evolves in time, or as its parts become separated. These results follow from the nature of the entanglement-free continent in the space of physical states, and hold in great generality. We illustrate these phenomena with a frustrated molecular quantum magnet in and out of equilibrium. In contrast, if the particles are fermions, such as electrons, another notion of entanglement exists that protects bipartite quantum correlations. However, truly collective fermionic entanglement disappears during typical evolution, thus sharing the same fate as in bosonic systems. These findings provide fundamental knowledge about the structure of entanglement in quantum matter and architectures, paving the way for its manipulation.
翻訳日:2024-07-01 21:44:37 公開日:2024-06-27
# FishNet:低コスト魚種推定のためのディープニューラルネットワーク

FishNet: Deep Neural Networks for Low-Cost Fish Stock Estimation ( http://arxiv.org/abs/2403.10916v2 )

ライセンス: Link先を確認
Moseli Mots'oehli, Anton Nikolaev, Wawan B. IGede, John Lynham, Peter J. Mous, Peter Sadowski, (参考訳) 魚の在庫評価は、しばしば、時間と費用のかかる分類の専門家による手動の魚の数え方にかかわる。 そこで我々は,低コストのデジタルカメラで撮影された画像から分類分類と魚の大きさ推定を行うコンピュータビジョンシステム「フィッシュネット」を提案する。 このシステムはまずMask R-CNNを用いて物体の検出とセグメンテーションを行い、おそらく異なる種からなる複数の魚を含む画像から個々の魚を識別する。 次に、各魚種を分類し、その長さを別の機械学習モデルを用いて予測する。 モデルの開発には,163種の1.2万魚を含む30万枚の手書き画像を用いて,10cmから250cmまでの長さのデータセットを用いて,高品質なトレーニングデータをキュレートするためのアノテーションと品質管理手法を適用した。 その結果,本研究では,魚の捕集作業において92%の団結が達成され,魚種別では89%のトポ-1分類精度,魚長推定タスクでは2.3cmの平均絶対誤差が達成された。

Fish stock assessment often involves manual fish counting by taxonomy specialists, which is both time-consuming and costly. We propose FishNet, an automated computer vision system for both taxonomic classification and fish size estimation from images captured with a low-cost digital camera. The system first performs object detection and segmentation using a Mask R-CNN to identify individual fish from images containing multiple fish, possibly consisting of different species. Then each fish species is classified and the length is predicted using separate machine learning models. To develop the model, we use a dataset of 300,000 hand-labeled images containing 1.2M fish of 163 different species and ranging in length from 10cm to 250cm, with additional annotations and quality control methods used to curate high-quality training data. On held-out test data sets, our system achieves a 92% intersection over union on the fish segmentation task, a 89% top-1 classification accuracy on single fish species classification, and a 2.3cm mean absolute error on the fish length estimation task.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-27
# LlamaFactory: 100以上の言語モデルの統一されたファインチューニング

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models ( http://arxiv.org/abs/2403.13372v4 )

ライセンス: Link先を確認
Yaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo, Zhangchi Feng, Yongqiang Ma, (参考訳) 下流タスクに大規模言語モデル(LLM)を適用するためには、効率的な微調整が不可欠である。 しかし、異なるモデルでこれらのメソッドを実装するには、自明な努力が必要である。 LlamaFactoryは、最先端の効率的なトレーニング方法を統合した統合フレームワークである。 組み込みのWeb UI LlamaBoardをコーディングすることなく、100以上のLLMの微調整を柔軟にカスタマイズできるソリューションを提供する。 言語モデリングとテキスト生成タスクにおけるフレームワークの有効性と有効性を実証的に検証する。 https://github.com/hiyouga/LLaMA-Factoryで公開され、25,000以上の星と3000のフォークを受け取った。

Efficient fine-tuning is vital for adapting large language models (LLMs) to downstream tasks. However, it requires non-trivial efforts to implement these methods on different models. We present LlamaFactory, a unified framework that integrates a suite of cutting-edge efficient training methods. It provides a solution for flexibly customizing the fine-tuning of 100+ LLMs without the need for coding through the built-in web UI LlamaBoard. We empirically validate the efficiency and effectiveness of our framework on language modeling and text generation tasks. It has been released at https://github.com/hiyouga/LLaMA-Factory and received over 25,000 stars and 3,000 forks.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-27
# 有害な有害コンテンツに対するターゲットスパン検出

Target Span Detection for Implicit Harmful Content ( http://arxiv.org/abs/2403.19836v2 )

ライセンス: Link先を確認
Nazanin Jafari, James Allan, Sheikh Muhammad Sarwar, (参考訳) ヘイトスピーチのターゲットを特定することは、そのようなスピーチの性質を把握し、究極的には、オンラインフォーラムにおける攻撃的投稿の検出を改善するための重要なステップである。 オンラインプラットフォーム上で有害なコンテンツは、特に、明示的なターゲット名ではなく、ステレオタイプの特徴を使用するような、脆弱で保護されたグループをターゲットにする場合には、暗黙の言語を使用する。 本研究では,より微妙なヘイトスピーチの認識と,デジタルプラットフォーム上での有害コンテンツの検出の促進に不可欠な,ヘイトスピーチの暗黙のターゲットを特定することに焦点を当てた。 明示的に述べられていなくても、ターゲットを特定することを目的とした新しいタスクを定義します。 この課題に対処するために、ターゲットをSBIC、DynaHate、IHCの3つの顕著な暗黙のヘイトスピーチデータセットで収集し、アノテートする。 統合したコレクションを Implicit-Target-Span と呼びます。 このコレクションは、人間のアノテーションとLLM(Large Language Models)に基づくスコアの一致による革新的なプーリング手法を用いて実現されている。 実験の結果,Implicit-Target-Spanはターゲットスパン検出法に挑戦的なテストベッドを提供することがわかった。

Identifying the targets of hate speech is a crucial step in grasping the nature of such speech and, ultimately, in improving the detection of offensive posts on online forums. Much harmful content on online platforms uses implicit language especially when targeting vulnerable and protected groups such as using stereotypical characteristics instead of explicit target names, making it harder to detect and mitigate the language. In this study, we focus on identifying implied targets of hate speech, essential for recognizing subtler hate speech and enhancing the detection of harmful content on digital platforms. We define a new task aimed at identifying the targets even when they are not explicitly stated. To address that task, we collect and annotate target spans in three prominent implicit hate speech datasets: SBIC, DynaHate, and IHC. We call the resulting merged collection Implicit-Target-Span. The collection is achieved using an innovative pooling method with matching scores based on human annotations and Large Language Models (LLMs). Our experiments indicate that Implicit-Target-Span provides a challenging test bed for target span detection methods.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-27
# 超伝導量子回路用低損失液体金属配線

Low-loss liquid metal interconnects for superconducting quantum circuits ( http://arxiv.org/abs/2404.00770v2 )

ライセンス: Link先を確認
Zhancheng Yao, Martin Sandberg, David W. Abraham, David J. Bishop, (参考訳) 超伝導量子コンピューティングチップを用いたモジュラーアーキテクチャの構築は、量子ビットのスケーラビリティを実現する手段の1つであり、個々の量子ビットモジュールのスクリーニング、選択、置換、および大型量子システムへの統合を可能にする。 しかし、コンパクトアーキテクチャにおけるモジュールの非破壊的な置換は依然として課題である。 液体金属、特にガリウム合金は、固体ガルバニック配線の代替品である。 これは、自己修復、自己調整、その他の望ましい流動性によって動機付けられ、ミリケルビン系でシステム全体を操作した後でも、室温でのモジュールの非破壊的な置換を可能にする可能性がある。 本研究では,コプラナー導波路共振器 (CPWR) をガリウム合金液滴で相互接続し,100万近い内部品質因子を達成し,連続固体CPWRと同等の性能を示す。 ガリウム合金の室温における望ましい流動特性とコンパクトな設計を活用して, 液体金属で実現可能なモジュラー量子系を構想する。

Building a modular architecture with superconducting quantum computing chips is one of the means to achieve qubit scalability, allowing the screening, selection, replacement, and integration of individual qubit modules into large quantum systems. However, the nondestructive replacement of modules within a compact architecture remains a challenge. Liquid metals, specifically gallium alloys, can be alternatives to solid-state galvanic interconnects. This is motivated by their self-healing, self-aligning, and other desirable fluidic properties, potentially enabling the nondestructive replacement of modules at room temperatures, even after operating the entire system at millikelvin regimes. In this study, we present coplanar waveguide resonators (CPWRs) interconnected by gallium alloy droplets, achieving high internal quality factors up to nearly one million and demonstrating performance on par with the continuous solid-state CPWRs. Leveraging the desirable fluidic properties of gallium alloys at room temperature and their compact design, we envision a modular quantum system enabled by liquid metals.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-27
# 記号型プロンプトプログラム探索:効率的なコンパイル時プロンプト最適化のための構造認識アプローチ

Symbolic Prompt Program Search: A Structure-Aware Approach to Efficient Compile-Time Prompt Optimization ( http://arxiv.org/abs/2404.02319v2 )

ライセンス: Link先を確認
Tobias Schnabel, Jennifer Neville, (参考訳) 検索拡張生成などの最近のLLMアプリケーションでは、プロンプト自体がプログラムになっている。 これらの設定では、プロンプトプログラムは異なるユーザクエリやデータインスタンスで繰り返し呼び出される。 大きな課題は、このようなプロンプトプログラムを最適化することである。 最近の研究は主に単純なプロンプトプログラムに焦点を当てているか、あるいはプロンプトプログラムの一般的な構造が固定されていると仮定している。 本稿では,プロンプトプログラムのコンパイル時最適化のためのシンボリック・プロンプト・プログラム検索を行うSAMMOを紹介する。 SAMMOはシンボルレベルでプロンプトプログラムを表現し、最適化中に検索できる豊富な変換セットを可能にする。 SAMMO は従来の手法を一般化し,(1) 命令チューニング,(2) RAG パイプラインチューニング,(3) プロンプト圧縮における複雑なプロンプトの性能を向上させる。 すべてのコードはhttps://github.com/microsoft/sammoで公開しています。

In many modern LLM applications, such as retrieval augmented generation, prompts have become programs themselves. In these settings, prompt programs are repeatedly called with different user queries or data instances. A big practical challenge is optimizing such prompt programs. Recent work has mostly focused on either simple prompt programs or assumed that the general structure of a prompt program is fixed. We introduce SAMMO, a framework to perform symbolic prompt program search for compile-time optimizations of prompt programs. SAMMO represents prompt programs on a symbolic level which allows for a rich set of transformations that can be searched over during optimization. We show that SAMMO generalizes previous methods and improves the performance of complex prompts on (1) instruction tuning, (2) RAG pipeline tuning, and (3) prompt compression, across several different LLMs. We make all code available open-source at https://github.com/microsoft/sammo .
翻訳日:2024-07-01 21:25:00 公開日:2024-06-27
# 不完全データによる条件モニタリング:統合的変分オートエンコーダと距離メトリックフレームワーク

Condition Monitoring with Incomplete Data: An Integrated Variational Autoencoder and Distance Metric Framework ( http://arxiv.org/abs/2404.05891v2 )

ライセンス: Link先を確認
Maryam Ahang, Mostafa Abbasi, Todd Charter, Homayoun Najjaran, (参考訳) 産業システムの状況監視は安全と維持計画の確保に不可欠であるが, 故障サンプルの限定的あるいは非存在的利用により, 現実の環境において顕著な課題が生じる。 本稿では,未確認データに対する故障検出と条件モニタリングのための新しい手法を提案することにより,この問題に対する革新的な解決策を提案する。 ゼロショット学習にインスパイアされたアプローチを採用することで、障害を特定し、さまざまな運用条件に相対的な健康指標を割り当てることができる。 通常、通常のオペレーションに関するデータや、妥協された条件に関するデータ、深刻な障害の非常に少ない(もしあれば)サンプルがあります。 我々は変分オートエンコーダを用いて、以前に見られた新しい未知条件の確率分布をキャプチャする。 潜伏空間における正常な操作基準分布から各試料の偏差を比較することにより、健康状態を決定する。 故障は、健康指標のしきい値を確立することで検出され、そのモデルが重大で見えない断層を高い精度で識別することができる。 我々は,実行時から障害時までのIMS対応データセットを用いて,そのアプローチを検証し,他の手法と比較する。 本モデルにより得られた健康指標は,本手法の堅牢性と信頼性を実証し,確立されたベアリング着用の記述モデルと密に一致した。 これらの知見は,産業領域における障害検出能力の向上における方法論の可能性を強調し,安全プロトコルの強化とメンテナンスの最適化に寄与する。

Condition monitoring of industrial systems is crucial for ensuring safety and maintenance planning, yet notable challenges arise in real-world settings due to the limited or non-existent availability of fault samples. This paper introduces an innovative solution to this problem by proposing a new method for fault detection and condition monitoring for unseen data. Adopting an approach inspired by zero-shot learning, our method can identify faults and assign a relative health index to various operational conditions. Typically, we have plenty of data on normal operations, some data on compromised conditions, and very few (if any) samples of severe faults. We use a variational autoencoder to capture the probabilistic distribution of previously seen and new unseen conditions. The health status is determined by comparing each sample's deviation from a normal operation reference distribution in the latent space. Faults are detected by establishing a threshold for the health indexes, allowing the model to identify severe, unseen faults with high accuracy, even amidst noise. We validate our approach using the run-to-failure IMS-bearing dataset and compare it with other methods. The health indexes generated by our model closely match the established descriptive model of bearing wear, attesting to the robustness and reliability of our method. These findings highlight the potential of our methodology in augmenting fault detection capabilities within industrial domains, thereby contributing to heightened safety protocols and optimized maintenance practices.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-27
# スワップASAPリピータチェーンのノイズ--正確な解析、分布、厳密な近似について

On noise in swap ASAP repeater chains: exact analytics, distributions and tight approximations ( http://arxiv.org/abs/2404.07146v2 )

ライセンス: Link先を確認
Kenneth Goodenough, Tim Coopmans, Don Towsley, (参考訳) 損失は量子ネットワークにおける絡み合いの分布の主要なボトルネックの1つであり、量子リピータの実装によって克服できる。 量子リピータ鎖の最も基本的な形は、交換ASAPリピータ鎖である。 このようなリレーダチェーンでは、2つの隣接リンクが生成されると、基本リンクが確率的に生成され、決定的にスワップされる。 各絡み合った状態が交換されるのを待っているとき、デコヒーレンスを経験し、チェーンの終端ノード間の絡み合った状態の忠実さをランダム変数に変換する。 リピータ連鎖が成長するにつれて(平均的な)忠実さを完全に特徴づけることは、まだ未解決の問題である。 ここでは、等間隔リピータの場合を解析的に調べ、最大25セグメントまでの忠実度の全モーメントについて正確な解析式を求める。 これらの式は生成関数の項で一般解を与えることにより得られる; マクロリン級数の n 項が n 個のセグメントの忠実さのモーメントを生じる関数。 本手法は,モンテカルロシミュレーションの必要性を排除し,カットオフパラメータの高速な最適化を可能にする。 さらに、指数的に厳密な平均忠実度を簡易に近似し、最大10個のセグメントに対して、提供された忠実度の完全な分布を求める。 本研究では,分散エンタングルメントを量子鍵分布に用いた場合の秘密鍵レートを,結合法と非結合法の両方で解析的に算出する。 続く研究では、統計物理学におけるモデルとの接続を利用して、不均一な多重粒子の場合の関心量の数値計算を行う。

Losses are one of the main bottlenecks for the distribution of entanglement in quantum networks, which can be overcome by the implementation of quantum repeaters. The most basic form of a quantum repeater chain is the swap ASAP repeater chain. In such a repeater chain, elementary links are probabilistically generated and deterministically swapped as soon as two adjacent links have been generated. As each entangled state is waiting to be swapped, decoherence is experienced, turning the fidelity of the entangled state between the end nodes of the chain into a random variable. Fully characterizing the (average) fidelity as the repeater chain grows is still an open problem. Here, we analytically investigate the case of equally-spaced repeaters, where we find exact analytic formulae for all moments of the fidelity up to 25 segments. We obtain these formulae by providing a general solution in terms of a generating function; a function whose n'th term in its Maclaurin series yields the moments of the fidelity for n segments. We generalize this approaches as well to a global cut-off policy -- a method for increasing fidelity at the cost of longer entanglement delivery times -- allowing for fast optimization of the cut-off parameter by eliminating the need for Monte Carlo simulation. We furthermore find simple approximations of the average fidelity that are exponentially tight, and, for up to 10 segments, the full distribution of the delivered fidelity. We use this to analytically calculate the secret-key rate when the distributed entanglement is used for quantum-key distribution, both with and without binning methods. In follow-up work we exploit a connection to a model in statistical physics to numerically calculate quantities of interest for the inhomogeneous multipartite case.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-27
# AI駆動推論法則推論のためのソフトウェアエンジニアリング手法

Software Engineering Methods For AI-Driven Deductive Legal Reasoning ( http://arxiv.org/abs/2404.09868v2 )

ライセンス: Link先を確認
Rohan Padhye, (参考訳) 近年,学習済みの大規模言語モデル (LLM) などの生成人工知能(AI)技術の普及により,計算法における新たなフロンティアが開きつつある。 発展のエキサイティングな領域は、法規や契約法に固有の帰納的規則に基づく推論を自動化するためにAIを使用することである。 本稿では,LLMを自然言語入力による自然言語プログラムのインタプリタとして扱うことにより,このような自動推論法則をソフトウェア工学のレンズから見ることができることを論じる。 我々は、AIによる複雑な法令の法的推論を強化し、突然変異誘導型サンプル生成やメタモルフィックプロパティベースのテストのような自動メタ推論における新しいアプリケーションをアンロックするために、原則化されたソフトウェアエンジニアリング技術を適用する方法を示す。

The recent proliferation of generative artificial intelligence (AI) technologies such as pre-trained large language models (LLMs) has opened up new frontiers in computational law. An exciting area of development is the use of AI to automate the deductive rule-based reasoning inherent in statutory and contract law. This paper argues that such automated deductive legal reasoning can now be viewed from the lens of software engineering, treating LLMs as interpreters of natural-language programs with natural-language inputs. We show how it is possible to apply principled software engineering techniques to enhance AI-driven legal reasoning of complex statutes and to unlock new applications in automated meta-reasoning such as mutation-guided example generation and metamorphic property-based testing.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-27
# バイアス軽減と精度向上のための逆例の利用

Utilizing Adversarial Examples for Bias Mitigation and Accuracy Enhancement ( http://arxiv.org/abs/2404.11819v2 )

ライセンス: Link先を確認
Pushkar Shukla, Dhruv Srikanth, Lee Cohen, Matthew Turk, (参考訳) 本稿では,コンピュータビジョンモデルにおけるバイアスを軽減するための新しい手法を提案する。 反事実は、DNNモデルのバイアスを分析し、対処するために使われてきたが、反事実そのものは、しばしばバイアス付き生成モデルから生成される。 この問題に対処するために、フェアモデルトレーニングの対物として、深層ニューラルネットワークを欺くが人間ではない逆画像を用いることを提案する。 提案手法は,カリキュラム学習フレームワークと詳細な逆数損失を組み合わせることで,逆数例を用いてモデルを微調整する。 学習データに逆画像を組み込むことで,パイプライン内のバイアスが伝播するのを防ぐことを目指している。 我々は,定性評価と定量的評価を併用し,従来の方法と比較してバイアス緩和と精度の向上を実証した。 定性的に,本研究の結果から,モデルによる決定は感度属性に依存せず,モデルが感度属性と分類変数の関係をよりよく歪めていることが明らかとなった。

We propose a novel approach to mitigate biases in computer vision models by utilizing counterfactual generation and fine-tuning. While counterfactuals have been used to analyze and address biases in DNN models, the counterfactuals themselves are often generated from biased generative models, which can introduce additional biases or spurious correlations. To address this issue, we propose using adversarial images, that is images that deceive a deep neural network but not humans, as counterfactuals for fair model training. Our approach leverages a curriculum learning framework combined with a fine-grained adversarial loss to fine-tune the model using adversarial examples. By incorporating adversarial images into the training data, we aim to prevent biases from propagating through the pipeline. We validate our approach through both qualitative and quantitative assessments, demonstrating improved bias mitigation and accuracy compared to existing methods. Qualitatively, our results indicate that post-training, the decisions made by the model are less dependent on the sensitive attribute and our model better disentangles the relationship between sensitive attributes and classification variables.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-27
# インストラクショナルビデオにおけるステップ差

Step Differences in Instructional Video ( http://arxiv.org/abs/2404.16222v2 )

ライセンス: Link先を確認
Tushar Nagarajan, Lorenzo Torresani, (参考訳) ユーザビデオと参照ハウツービデオを比較することは、ユーザの進捗に合わせてパーソナライズされたアシストを提供するAR/VR技術にとって重要な要件である。 しかし、言語ベースの支援に対する現在のアプローチは、単一のビデオに関する質問に答えることしかできない。 本論文では,まず,既存のステップアノテーションと付随するナレーションを活用することで,ハウト100Mからビデオのペアを含む大量の視覚的チューニングデータを自動生成し,さらにビデオ条件付き言語モデルを訓練して,複数の生動画を共同で解析する手法を提案する。 本モデルでは,これらの違いの重大さに基づいて,ビデオペアとランキングビデオの差分を同定し,複数のビデオに対して一般的な推論を行うための有望な能力を示す。 プロジェクトページ: https://github.com/facebookresearch/stepdiff

Comparing a user video to a reference how-to video is a key requirement for AR/VR technology delivering personalized assistance tailored to the user's progress. However, current approaches for language-based assistance can only answer questions about a single video. We propose an approach that first automatically generates large amounts of visual instruction tuning data involving pairs of videos from HowTo100M by leveraging existing step annotations and accompanying narrations, and then trains a video-conditioned language model to jointly reason across multiple raw videos. Our model achieves state-of-the-art performance at identifying differences between video pairs and ranking videos based on the severity of these differences, and shows promising ability to perform general reasoning over multiple videos. Project page: https://github.com/facebookresearch/stepdiff
翻訳日:2024-07-01 21:15:15 公開日:2024-06-27
# Guylingo:Guyana Creole Corpora(英語)

Guylingo: The Republic of Guyana Creole Corpora ( http://arxiv.org/abs/2405.03832v2 )

ライセンス: Link先を確認
Christopher Clarke, Roland Daynauth, Charlene Wilkinson, Hubert Devonish, Jason Mars, (参考訳) 主要言語は、しばしばかなりの注意と資源を享受するが、世界中の言語多様性は、同じレベルの計算支援を欠く、より小さく、先住民的、地域言語を含む。 そのような地域の一つがカリブ海である。 一般的に「英語」と名付けられているが、元カリブ海地域は英語と共に繁栄するクレオール語が多数存在する。 本稿では,ガイアナの文化的に豊かな国で最も広く話されている言語であるクレオール語(グアーン英語・レキシコンクレオール語)の領域におけるNLP研究を促進するために設計された包括的コーパスであるGuylingoを紹介する。 我々はまず,この多言語コーパスの収集とデジタル化のための枠組みについて概説する。 次に、クレオールにおける機械翻訳のためのNLPモデルの訓練と評価の課題を示す。 最後に、カリブ海における公用語としてのクレオール語の公式導入を促進するため、最近のNLPの進歩によってもたらされる特異な機会について論じる。

While major languages often enjoy substantial attention and resources, the linguistic diversity across the globe encompasses a multitude of smaller, indigenous, and regional languages that lack the same level of computational support. One such region is the Caribbean. While commonly labeled as "English speaking", the ex-British Caribbean region consists of a myriad of Creole languages thriving alongside English. In this paper, we present Guylingo: a comprehensive corpus designed for advancing NLP research in the domain of Creolese (Guyanese English-lexicon Creole), the most widely spoken language in the culturally rich nation of Guyana. We first outline our framework for gathering and digitizing this diverse corpus, inclusive of colloquial expressions, idioms, and regional variations in a low-resource language. We then demonstrate the challenges of training and evaluating NLP models for machine translation in Creole. Lastly, we discuss the unique opportunities presented by recent NLP advancements for accelerating the formal adoption of Creole languages as official languages in the Caribbean.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-27
# 目標を評価せずにマルコフ連鎖モンテカルロ:補助変数アプローチ

Markov chain Monte Carlo without evaluating the target: an auxiliary variable approach ( http://arxiv.org/abs/2406.05242v2 )

ライセンス: Link先を確認
Wei Yuan, Guanyang Wang, (参考訳) サンプリングタスクでは、ターゲット分布を正規化定数まで知ることが一般的である。 しかし、多くの状況において、正規化されていない分布を評価することはコストがかかるか不可能である。 この問題は、背の高いデータセットのベイズ後部からのサンプリングや「二重に抽出可能な」分布のようなシナリオで発生する。 本稿では,交換アルゴリズム,PoissonMH,TunaMHなど,一見異なるマルコフ連鎖モンテカルロ(MCMC)アルゴリズムが,単純な共通手順で統一可能であることを観察することから始める。 次に、この手順を新しいフレームワークに拡張し、提案ステップと受入拒否ステップの両方で補助変数を使用できるようにします。 我々は,新たなフレームワークの理論を開発し,それを既存のアルゴリズムに適用し,その結果を簡素化し拡張する。 このフレームワークからいくつかの新しいアルゴリズムが登場し、合成データセットと実データセットの両方でパフォーマンスが改善された。

In sampling tasks, it is common for target distributions to be known up to a normalising constant. However, in many situations, evaluating even the unnormalised distribution can be costly or infeasible. This issue arises in scenarios such as sampling from the Bayesian posterior for tall datasets and the 'doubly-intractable' distributions. In this paper, we begin by observing that seemingly different Markov chain Monte Carlo (MCMC) algorithms, such as the exchange algorithm, PoissonMH, and TunaMH, can be unified under a simple common procedure. We then extend this procedure into a novel framework that allows the use of auxiliary variables in both the proposal and acceptance-rejection steps. We develop the theory of the new framework, applying it to existing algorithms to simplify and extend their results. Several new algorithms emerge from this framework, with improved performance demonstrated on both synthetic and real datasets.
翻訳日:2024-07-01 21:05:30 公開日:2024-06-27
# 高レベル合成による電子設計自動化のためのクロスモーダルプログラム表現学習

Cross-Modality Program Representation Learning for Electronic Design Automation with High-Level Synthesis ( http://arxiv.org/abs/2406.09606v2 )

ライセンス: Link先を確認
Zongyue Qin, Yunsheng Bai, Atefeh Sohrabizadeh, Zijian Ding, Ziniu Hu, Yizhou Sun, Jason Cong, (参考訳) 近年、ディープラーニングや自律運転などのアプリケーションで、ドメイン固有アクセラレータ(DSA)が人気を集めている。 DSA設計を容易にするため、プログラマは高レベル合成(HLS)を使用して、C/C++で書かれた高レベル記述を低レベルなハードウェア記述言語でコンパイルし、最終的に回路上でDSAを合成する。 しかし、高品質なHLS設計を作成するには、特に「textit{pragmas}」と表されるマイクロアーキテクチャ決定において、重要なドメイン知識が必要である。 したがって、HLS設計の品質を予測するために機械学習の助けを借りてそのような決定を自動化し、元のコードとプラグマからなるプログラムをより深く理解する必要がある。 当然、これらのプログラムはシーケンスデータと見なすことができる。 さらに、これらのプログラムをコンパイルして制御データフローグラフ(CDFG)に変換することもできる。 しかし、既存の作品は両方のモダリティを活用できないか、その2つを浅いあるいは粗い方法で組み合わせることができない。 本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互作用できるモデルであるProgSGを提案する。 ラベル付き設計の不足を軽減するため,コンパイラのデータフロー解析タスクのスイートに基づいて事前学習手法を提案する。 実験の結果、ProgSG は設計性能予測の RMSE を最大で 22\% まで下げ、平均で $1.10\times$ と $1.26\times$ (最大 8.17\times$ と $113.31\times$) を HARP と AutoDSE と比較してそれぞれ性能改善したことを示している。

In recent years, domain-specific accelerators (DSAs) have gained popularity for applications such as deep learning and autonomous driving. To facilitate DSA designs, programmers use high-level synthesis (HLS) to compile a high-level description written in C/C++ into a design with low-level hardware description languages that eventually synthesize DSAs on circuits. However, creating a high-quality HLS design still demands significant domain knowledge, particularly in microarchitecture decisions expressed as \textit{pragmas}. Thus, it is desirable to automate such decisions with the help of machine learning for predicting the quality of HLS designs, requiring a deeper understanding of the program that consists of original code and pragmas. Naturally, these programs can be considered as sequence data. In addition, these programs can be compiled and converted into a control data flow graph (CDFG). But existing works either fail to leverage both modalities or combine the two in shallow or coarse ways. We propose ProgSG, a model that allows interaction between the source code sequence modality and the graph modality in a deep and fine-grained way. To alleviate the scarcity of labeled designs, a pre-training method is proposed based on a suite of compiler's data flow analysis tasks. Experimental results show that ProgSG reduces the RMSE of design performance predictions by up to $22\%$, and identifies designs with an average of $1.10\times$ and $1.26\times$ (up to $8.17\times$ and $13.31\times$) performance improvement in design space exploration (DSE) task compared to HARP and AutoDSE, respectively.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-27
# 数学テキストからの定義抽出のための細調整BERT

Fine-Tuning BERTs for Definition Extraction from Mathematical Text ( http://arxiv.org/abs/2406.13827v2 )

ライセンス: Link先を確認
Lucy Horowitz, Ryan Hathaway, (参考訳) 本稿では,LaTeXで書かれた数学英語から「定義抽出」を行うために,事前学習した3つのBERTモデルを微調整した。 これは二項分類問題として示され、文が数学的項の定義を含むか、そうでないかのいずれかである。 私たちは、これらのモデルを微調整してテストするために、2つのオリジナルのデータセットである"Chicago"と"TAC"を使用しました。 また、2021年にVanetikとLitvakが発表したデータセットであるWFMALLもテストしました。 その結果,高性能のSentence-BERT変換器モデルでは,全体の精度,リコール,精度を最良に評価し,計算労力の少ない先行モデルに匹敵する結果が得られた。

In this paper, we fine-tuned three pre-trained BERT models on the task of "definition extraction" from mathematical English written in LaTeX. This is presented as a binary classification problem, where either a sentence contains a definition of a mathematical term or it does not. We used two original data sets, "Chicago" and "TAC," to fine-tune and test these models. We also tested on WFMALL, a dataset presented by Vanetik and Litvak in 2021 and compared the performance of our models to theirs. We found that a high-performance Sentence-BERT transformer model performed best based on overall accuracy, recall, and precision metrics, achieving comparable results to the earlier models with less computational effort.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-27
# Bioptic - ターゲット非依存の効率に基づく小型分子検索エンジン

Bioptic -- A Target-Agnostic Efficacy-Based Small Molecules Search Engine ( http://arxiv.org/abs/2406.14572v2 )

ライセンス: Link先を確認
Vlad Vinogradov, Ivan Izmailov, Simon Steshin, Kong T. Nguyen, (参考訳) 近年の仮想スクリーニングの成功は、大規模なモデルと広範な化学ライブラリーによって実現されている。 しかし、これらの要素を組み合わせることは難しい。モデルが大きくなればなるほど、実行コストが高くなり、超大規模なライブラリが実現不可能になる。 そこで我々は, 分子探索モデルを構築し, 類似の生物活性を持つ構造的に異なる分子を探索する方法について検討した。 我々は、プロセッサ最適化SIMD命令に基づいて高速検索システムの設計にベストプラクティスを用いており、超大型の40B Enamine REALライブラリを100倍のリコール率で表示することができる。 我々は、新しい分子の速度性能と検索品質の両面において、我々のモデルと最先端モデルを広範囲にベンチマークした。

Recent successes in virtual screening have been made possible by large models and extensive chemical libraries. However, combining these elements is challenging: the larger the model, the more expensive it is to run, making ultra-large libraries unfeasible. To address this, we developed a target-agnostic, efficacy-based molecule search model, which allows us to find structurally dissimilar molecules with similar biological activities. We used the best practices to design fast retrieval system, based on processor-optimized SIMD instructions, enabling us to screen the ultra-large 40B Enamine REAL library with 100\% recall rate. We extensively benchmarked our model and several state-of-the-art models for both speed performance and retrieval quality of novel molecules.
翻訳日:2024-07-01 19:01:16 公開日:2024-06-27
# 多重蛍光画像における細胞の特徴抽出のための半教師付き変異オートエンコーダ

Semi-supervised variational autoencoder for cell feature extraction in multiplexed immunofluorescence images ( http://arxiv.org/abs/2406.15727v2 )

ライセンス: Link先を確認
Piumi Sandarenu, Julia Chen, Iveta Slapetova, Lois Browne, Peter H. Graham, Alexander Swarbrick, Ewan K. A. Millar, Yang Song, Erik Meijering, (参考訳) デジタルイメージング技術の進歩は、細胞レベルでの腫瘍ミクロ環境と特定の免疫フェノタイプ間の相互作用を可視化し識別するために、多重免疫蛍光(mIF)画像を使うことへの関心を高めている。 現在最先端の多重蛍光画像解析パイプラインは、単純な統計的および機械学習ベースのツールを用いて生成された形態的および染色強度に基づくメトリクスによって特徴づけられる細胞の特徴表現に依存している。 しかし、これらの方法は細胞の複雑な表現を生成できない。 我々は,mIF画像中のセルの特徴を抽出するために,潜伏部分空間を用いた教師付き変分オートエンコーダを用いた深層学習に基づくセル特徴抽出モデルを提案する。 乳がん患者の1,093個の組織マイクロアレイコアから抽出した44,000個以上の多重多重蛍光細胞像のコホートを用いて細胞表現型分類を行い,本モデルの有効性を実証した。

Advancements in digital imaging technologies have sparked increased interest in using multiplexed immunofluorescence (mIF) images to visualise and identify the interactions between specific immunophenotypes with the tumour microenvironment at the cellular level. Current state-of-the-art multiplexed immunofluorescence image analysis pipelines depend on cell feature representations characterised by morphological and stain intensity-based metrics generated using simple statistical and machine learning-based tools. However, these methods are not capable of generating complex representations of cells. We propose a deep learning-based cell feature extraction model using a variational autoencoder with supervision using a latent subspace to extract cell features in mIF images. We perform cell phenotype classification using a cohort of more than 44,000 multiplexed immunofluorescence cell image patches extracted across 1,093 tissue microarray cores of breast cancer patients, to demonstrate the success of our model against current and alternative methods.
翻訳日:2024-07-01 19:01:16 公開日:2024-06-27
# ベル対ベル:量子不完全性をめぐる戦い

Bell vs Bell: a ding-dong battle over quantum incompleteness ( http://arxiv.org/abs/2406.19426v1 )

ライセンス: Link先を確認
Michael J. W. Hall, (参考訳) 決定論(あるいは量子力学の不完全性)は局所性と完全相関から導かれるか。 1964年の論文で、ジョン・ベルは量子力学が局所的に隠された変数と相容れないという最初のデモンストレーションを行った。 それ以来、彼が決定論の仮定に頼っていたのか、それとも1981年の論文で主張されたように、局所性や完全相関の仮定から決定論を導いたのかという激しい議論が激化した。 本稿では, 簡単な例と厳密な結果を通じて, 議論に明瞭さをもたらすことを目的とする。 量子的および古典的な反例を通じて、ベルの1964年の論文(パラメータ独立)と一致する最も弱い統計形式は、決定論の導出には不十分である、と最初に回想されている。 その後、彼の主張を支持するために、ベルがアインシュタイン=ローゼン=ポドルスキーの不完全性論争に訴えたことを批判的に評価する。 この議論は2つの論理的ギャップを露呈する反例を通して、それ自体が不完全であることを示している。 しかし、これらのギャップを強い `counterfactual' 現実の基準で閉じることで、量子不完全性、決定性、パラメータ独立性のそれぞれを厳密に導出することができ、この意味でベルの主張を正当化する。 量子解釈の結果について概説する。

Does determinism (or even the incompleteness of quantum mechanics) follow from locality and perfect correlations? In a 1964 paper John Bell gave the first demonstration that quantum mechanics is incompatible with local hidden variables. Since then a vigorous debate has rung out over whether he relied on an assumption of determinism or instead, as he later claimed in a 1981 paper, derived determinism from assumptions of locality and perfect correlation. This paper aims to bring clarity to the debate via simple examples and rigorous results. It is first recalled, via quantum and classical counterexamples, that the weakest statistical form of locality consistent with Bell's 1964 paper (parameter independence) is insufficient for the derivation of determinism. Attention is then turned to critically assess Bell's appealing to the Einstein-Rosen-Podolsky incompleteness argument to support his claim. It is shown this argument is itself incomplete, via counterexamples that expose two logical gaps. However, closing these gaps via a strong ``counterfactual'' reality criterion enables a rigorous derivation of each of quantum incompleteness, determinism and parameter independence, and in this sense justifies Bell's claim. Consequences for quantum interpretations are briefly discussed.
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# 射影測定によるディラックフェルミオンからの放射

Radiation from Dirac fermions caused by a projective measurement ( http://arxiv.org/abs/2406.19429v1 )

ライセンス: Link先を確認
P. O. Kazinski, V. A. Ryakin, P. S. Shevchenko, (参考訳) 射影測定によるディラック粒子からの光子の放射理論を開発した。 ディラックフェルミオンが特定の状態で測定され、その後に光子が記録された一連の事象を記録できる包含確率の明示的な表現が導出される。 刺激や自然放射線も考慮されている。 いずれの場合も、測定による放射の特性は、エッジや遷移放射線の特性に類似していることが示されている。 単一粒子からの励起放射の場合、その波動関数は荷電流体としてコヒーレントに光子を生成する。 自然放射線の場合、光子の放射は不整合であり、すなわち、粒子波パケットの点からの放射の確率が加算される。 ディラック粒子の波動関数のダイナミクスと崩壊を追尾するために, 測定による励起放射を用いることができる。 測定時間の有限性を考慮に入れた体系的な手順を示す。 測定による放射線は硬質光子の源として使用できるが、測定時間の有限性は放射光子のエネルギーに上限を課し、測定時間は放射生成時間よりも小さく、後者は光子エネルギーに逆比例しなければならない。 超相対論的限界では、放射線生成時間はかなり大きい。 自由ディラック粒子の状態の測定による放射線のいくつかの例を詳細に研究した。 すなわち、ダイラック粒子の一般的な初期状態に対するスピンプロジェクション、運動量、座標の測定による放射を精査する。 ビーム中の非相関粒子と絡み合った粒子の特定の場合を考える。

The theory of radiation of photons from Dirac particles caused by a projective measurement is developed. The explicit expressions for the inclusive probability to record a chain of events that the Dirac fermion had been measured in a certain state and after that the photon was recorded are derived. Stimulated and spontaneous radiations are considered. It is shown that in both cases the properties of radiation due to measurement resembles the properties of edge or transition radiation. In the case of stimulated radiation from a single particle, its wave function creates photons coherently as a charged fluid, i.e., the amplitudes of radiation from the points of the particle wave packet are summed. In the case of spontaneous radiation, the radiation of photons is incoherent, i.e., the probabilities of radiation from the points of the particle wave packet are added up. It is shown that stimulated radiation due to measurement can be used to trace the dynamics and collapse of the wave function of the Dirac particle. A systematic procedure taking into account a finiteness of the measurement time is presented. It is established that radiation due to measurement can be used as a source of hard photons, but the finiteness of the measurement time imposes an upper bound on the energy of radiated photons: the measurement time must be smaller than the radiation formation time, the latter being in inverse proportion to the photon energy. In the ultrarelativistic limit, the radiation formation time can be rather large. Several examples of radiation due to measurement of the state of free Dirac particles are investigated in detail. Namely, we scrutinize the radiation due to measurement of the spin projection, of the momentum, and of the coordinate for a general initial state of Dirac particles. The particular cases of uncorrelated and entangled particles in the beam are considered.
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# 暗号化メッセージングのためのプライベート階層ガバナンス

Private Hierarchical Governance for Encrypted Messaging ( http://arxiv.org/abs/2406.19433v1 )

ライセンス: Link先を確認
Armin Namavari, Barry Wang, Sanketh Menda, Ben Nassi, Nirvan Tyagi, James Grimmelmann, Amy Zhang, Thomas Ristenpart, (参考訳) 憎しみ、嫌がらせ、その他のオンラインの虐待によって引き起こされる害の増加は、階層的なガバナンスを探求する主要なプラットフォームを動機付けている。 コミュニティが指定メンバーにモデレーションとリーダーシップの義務を負わせるようにすることを目的としているが、一方で、メンバーはプラットフォームに問題をエスカレートすることができる。 しかし、これらの有望なアプローチは、コミュニティコンテンツがプラットフォームに公開される平文設定でのみ検討されている。 エンド・ツー・エンド・暗号化(E2EE)メッセージングをプライバシとして利用するオンラインコミュニティの巨大で増え続けている中で、階層的なガバナンスを実現するにはどうすればよいのかは不明だ。 民間階層型ガバナンスシステムを提案する。 これらは、平文設定と同じレベルのコミュニティガバナンスを可能にすると同時に、プラットフォームに報告されていないコンテンツとガバナンスアクションの暗号化プライバシを維持します。 我々は、暗号化されたメッセージプロトコルの上にガバナンスロジックを追加する階層化されたアプローチをとっており、メッセージ層セキュリティ(MLS)プロトコルの拡張が、リッチなガバナンスポリシーの集合を達成するのにいかに十分かを示す。 当社のアプローチでは,PhysicKitと呼ばれる平文システムからインスピレーションを得て,新たなガバナンス機能の迅速なプロトタイプを開発者が実現しています。 我々は,コンテンツベースのコミュニティとプラットフォームモデレーション,コミュニティモデレーターの選挙,虐待的ユーザを排除するための投票などをサポートする,MlsGovというプロトタイプE2EEメッセージングシステムを構築している。

The increasing harms caused by hate, harassment, and other forms of abuse online have motivated major platforms to explore hierarchical governance. The idea is to allow communities to have designated members take on moderation and leadership duties; meanwhile, members can still escalate issues to the platform. But these promising approaches have only been explored in plaintext settings where community content is public to the platform. It is unclear how one can realize hierarchical governance in the huge and increasing number of online communities that utilize end-to-end encrypted (E2EE) messaging for privacy. We propose private hierarchical governance systems. These should enable similar levels of community governance as in plaintext settings, while maintaining cryptographic privacy of content and governance actions not reported to the platform. We design the first such system, taking a layered approach that adds governance logic on top of an encrypted messaging protocol; we show how an extension to the message layer security (MLS) protocol suffices for achieving a rich set of governance policies. Our approach allows developers to rapidly prototype new governance features, taking inspiration from a plaintext system called PolicyKit. We build a prototype E2EE messaging system called MlsGov that supports content-based community and platform moderation, elections of community moderators, votes to remove abusive users, and more.
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# 軽量予測型3次元ガウスプレート

Lightweight Predictive 3D Gaussian Splats ( http://arxiv.org/abs/2406.19434v1 )

ライセンス: Link先を確認
Junli Cao, Vidit Goel, Chaoyang Wang, Anil Kag, Ju Hu, Sergei Korolev, Chenfanfu Jiang, Sergey Tulyakov, Jian Ren, (参考訳) ガウススプラッターを用いた3次元オブジェクトやシーンの最近のアプローチは、様々なプラットフォームやデバイスでレンダリング速度が向上していることを示している。 このような表現のレンダリングは非常に効率的であるが、保存と送信は違法に高価であることが多い。 大規模なシーンを表現するためには、数百万の3Dガウシアンを保存し、ディスクスペースを占有する必要があることが多い。 ディスクサイズとレンダリング品質のバランスを保ち、視覚的品質を著しく低下させるソリューションが提案されている。 そこで本研究では,従来の3次元ガウスプレートと比較した場合,ハードドライブのフットプリントを劇的に削減し,品質を向上する新しい表現を提案する。 他のコンパクトなソリューションと比較すると,ストレージを大幅に削減した高品質なレンダリングが可能で,モバイルデバイス上でリアルタイムに効率的に動作することが可能です。 私たちのキーとなる観察は、シーンの近くの点は、同様の表現を共有できるということです。 したがって、3Dポイントの小さな比率しか保存する必要がなくなる。 親点と呼ばれる点を同定する手法を導入する。 子どものポイントと呼ばれる捨てられたポイントと属性は、小さなMLPによって効率的に予測できる。

Recent approaches representing 3D objects and scenes using Gaussian splats show increased rendering speed across a variety of platforms and devices. While rendering such representations is indeed extremely efficient, storing and transmitting them is often prohibitively expensive. To represent large-scale scenes, one often needs to store millions of 3D Gaussians, occupying gigabytes of disk space. This poses a very practical limitation, prohibiting widespread adoption.Several solutions have been proposed to strike a balance between disk size and rendering quality, noticeably reducing the visual quality. In this work, we propose a new representation that dramatically reduces the hard drive footprint while featuring similar or improved quality when compared to the standard 3D Gaussian splats. When compared to other compact solutions, ours offers higher quality renderings with significantly reduced storage, being able to efficiently run on a mobile device in real-time. Our key observation is that nearby points in the scene can share similar representations. Hence, only a small ratio of 3D points needs to be stored. We introduce an approach to identify such points which are called parent points. The discarded points called children points along with attributes can be efficiently predicted by tiny MLPs.
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# AI生成画像検出のための正当性検査

A Sanity Check for AI-generated Image Detection ( http://arxiv.org/abs/2406.19435v1 )

ライセンス: Link先を確認
Shilin Yan, Ouxiang Li, Jiayin Cai, Yanbin Hao, Xiaolong Jiang, Yao Hu, Weidi Xie, (参考訳) 生成モデルの急速な発展に伴い、AI生成コンテンツを認識することは、産業とアカデミックの両方から注目を集めている。 本稿では,「AI生成画像検出の課題が解決されたかどうか」について,正当性チェックを行う。 まず、人間の知覚に本当に難しいAI生成画像からなるChameleonデータセットを紹介します。 既存の手法の一般化を定量化するために,Chameleonデータセット上で,既製のAI生成画像検出器を9つ評価した。 分析すると、ほぼすべてのモデルが、AI生成した画像を実際のものとして分類する。 その後,複数の専門家が同時に視覚的アーティファクトやノイズパターンを抽出するAI生成画像検出器(AID)を提案する。 具体的には、高レベルのセマンティクスをキャプチャするために、CLIPを用いて視覚埋め込みを計算する。 第二に、画像内の最高周波数パッチと最低周波数パッチを選択し、低レベルのパッチワイド特徴を計算し、低レベルのアーティファクト(例えばノイズパターン、アンチエイリアスなど)によってAI生成画像を検出することを目的としている。 AIGCDetectBenchmarkやGenImageなど、既存のベンチマークで評価しながらも、AI生成画像を検出する問題は解決できないものの、最先端のメソッドに+3.5%と+4.6%の改善が達成され、提案したChameleonベンチマークでも有望な結果が得られる。 データセット、コード、プレトレインモデルはhttps://github.com/shilinyan99/AIDE.comで公開される。

With the rapid development of generative models, discerning AI-generated content has evoked increasing attention from both industry and academia. In this paper, we conduct a sanity check on "whether the task of AI-generated image detection has been solved". To start with, we present Chameleon dataset, consisting AIgenerated images that are genuinely challenging for human perception. To quantify the generalization of existing methods, we evaluate 9 off-the-shelf AI-generated image detectors on Chameleon dataset. Upon analysis, almost all models classify AI-generated images as real ones. Later, we propose AIDE (AI-generated Image DEtector with Hybrid Features), which leverages multiple experts to simultaneously extract visual artifacts and noise patterns. Specifically, to capture the high-level semantics, we utilize CLIP to compute the visual embedding. This effectively enables the model to discern AI-generated images based on semantics or contextual information; Secondly, we select the highest frequency patches and the lowest frequency patches in the image, and compute the low-level patchwise features, aiming to detect AI-generated images by low-level artifacts, for example, noise pattern, anti-aliasing, etc. While evaluating on existing benchmarks, for example, AIGCDetectBenchmark and GenImage, AIDE achieves +3.5% and +4.6% improvements to state-of-the-art methods, and on our proposed challenging Chameleon benchmarks, it also achieves the promising results, despite this problem for detecting AI-generated images is far from being solved. The dataset, codes, and pre-train models will be published at https://github.com/shilinyan99/AIDE.
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# PT対称性磁石のクラマース非線形性

Kramers Nonlinearity in PT Symmetric Magnets ( http://arxiv.org/abs/2406.19444v1 )

ライセンス: Link先を確認
Oles Matsyshyn, Ying Xiong, Justin C. W. Song, (参考訳) クラーマーの退化は電子材料のスペクトルにおいて重要な役割を果たす。 ここでは、スペクトル特性を超えて、クラーマーの縮退はPT対称磁石の非線形応答において重要な役割を果たすと論じる。 特に、非退化PT対称材料において消滅するクラマーズ縮退の存在によってのみ生じる二階クラマーズ非線形性のクラスを明らかにする。 クラマーズ非線形性は、PT関係のクラマーズ状態の間の円二色性に依存し、縮退したバンド構造の量子幾何学を追跡できる。 我々は, 反強磁性MnBi$_2$Te$_4$の非線形偏極応答において, その反強磁性秩序を識別できるクラマース非線形配位子を発見した。 これはクラマーズ対を診断し、内部のクラマーズ自由度に対処するための新しい手段を提供する。

Kramers degeneracies play an essential role in the spectrum of electronic materials. Here we argue that beyond spectral properties, Kramers degeneracy plays a critical role in the nonlinear response of PT symmetric magnets. In particular, we uncover a class of second-order Kramers nonlinearities that only arise in the presence of Kramers degeneracy, vanishing in non-degenerate PT symmetric materials. Kramers nonlinearties depend on a circular dichroism between PT related Kramers states and enable to trace out the quantum geometry of the degenerate band structure. We find pronounced Kramers nonlinearitites in the nonlinear polarization responses of even layer antiferromagnetic MnBi$_2$Te$_4$ that enable to identify its antiferromagnetic order. This provides novel means for diagnosing Kramers pairs and addressing the internal Kramers degree of freedom.
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# 量子参照フレーム変換の下での絡み合いとサブシステムコヒーレンスの和は不変である

The sum of entanglement and subsystem coherence is invariant under quantum reference frame transformations ( http://arxiv.org/abs/2406.19448v1 )

ライセンス: Link先を確認
Carlo Cepollaro, Ali Akil, Paweł Cieśliński, Anne-Catherine de la Hamette, Časlav Brukner, (参考訳) 量子参照フレーム(QRF)に関する最近の研究は、重ね合わせと絡み合いがQRF変換の下で変化する性質であることを実証している。 量子情報処理におけるそれらの有用性を考えると、単に視点の変化がこれらの資源をいかに生み出すか、あるいは減らすかを理解することが重要である。 ここでは、QRF変換の下での絡み合いとサブシステムコヒーレンスの間のトレードオフを、2対の測度に対する和の保存定理の形で見出す。 さらに、可能な手段のペアについては、より弱いトレードオフが見られます。 最後に、ベルの不等式違反に対するこの相互作用の意味を議論し、QRFの任意の選択に対して、違反の原因となる量子資源が存在することを明確にする。 これらの発見は、QRFの量子情報理論的な側面をよりよく理解し、量子理論と量子重力の両方における将来の探索の基礎を提供する。

Recent work on quantum reference frames (QRFs) has demonstrated that superposition and entanglement are properties that change under QRF transformations. Given their utility in quantum information processing, it is important to understand how a mere change of perspective can produce or reduce these resources. Here we find a trade-off between entanglement and subsystem coherence under a QRF transformation, in the form of a conservation theorem for their sum, for two pairs of measures. Moreover, we find a weaker trade-off for any possible pair of measures. Finally, we discuss the implications of this interplay for violations of Bell's inequalities, clarifying that for any choice of QRF, there is a quantum resource responsible for the violation. These findings contribute to a better understanding of the quantum information theoretic aspects of QRFs, offering a foundation for future exploration in both quantum theory and quantum gravity.
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# 1D ANNNI鎖における局所的フラストレーションと非局所的フラストレーションの相互作用 I -- 偶数の場合

Interplay between local and non-local frustration in the 1D ANNNI chain I -- The even case ( http://arxiv.org/abs/2406.19449v1 )

ライセンス: Link先を確認
Gianpaolo Torre, Alberto Giuseppe Catalano, Sven Benjamin Kožić, Fabio Franchini, Salvatore Marco Giampaolo, (参考訳) 本研究では, 近接相互作用と隣り合う相互作用の競合による局所的なフラストレーションを多量に有するパラダイム的ANNNIモデルの解析により, 1次元スピン鎖における異なる音源間の競合の影響を考察する。 さらに, 適切な境界条件を適用することで, 非集中的な位相的フラストレーションを付加することができる。 周期的境界条件を4で割り切れず、絡み合いエントロピーをプローブとして用いることで、モデルの1つのフェーズにおいて、基底状態が2つの(ほぼ)独立励起をホストするものとして特徴づけられることを示す。 したがって、異なるタイプのフラストレーション間の興味深い相互作用を示すだけでなく、それに対する非自明な準粒子解釈も提案できる。

We consider the effects of the competition between different sources of frustration in 1D spin chains through the analysis of the paradigmatic ANNNI model, which possesses an extensive amount of frustration of local origin due to the competition between nearest and next-to-nearest neighbor interactions. An additional, non-extensive amount of topological frustration can be added by applying suitable boundary conditions, and we show that this seemingly subdominant contribution significantly affects the model. Choosing periodic boundary conditions with an {\it even} number of sites not divisible by 4 and using the entanglement entropy as a probe, we demonstrate that in one of the model's phases, the ground state can be characterized as hosting two (almost) independent excitations. Thus, not only do we show an intriguing interplay between different types of frustration, but also manage to propose a non-trivial quasi-particle interpretation for it.
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# 一般化された$W$状態におけるマジック相転移と非局所的複雑性

Magic phase transition and non-local complexity in generalized $W$ State ( http://arxiv.org/abs/2406.19457v1 )

ライセンス: Link先を確認
A. G. Catalano, J. Odavić, G. Torre, A. Hamma, F. Franchini, S. M. Giampaolo, (参考訳) 我々は、SRE(Stabilizer Renyi Entropy)を用いて、これまでの標準記述から外れた量子相転移を特徴づけ、したがって、その非安定化特性と絡み合いの間の相互作用の観点から説明できる。 考察中の遷移は、一意な基底状態を持つ領域と、有限かつ反対の(集中的な)モータを持つ状態で広がる退化基底状態多様体を持つ領域を分離する。 SREは交差点に跳躍し、絡み合いエントロピーは連続的であることを示す。 さらに、クリフォード回路写像を利用することで、観測されたSREのジャンプを標準状態と一般化された$W$状態の間の有限モータとを接続する。 このマッピングにより、SREの不連続性を解析的に定量化することができる。

We employ the Stabilizer Renyi Entropy (SRE) to characterize a quantum phase transition that has so far eluded any standard description and can thus now be explained in terms of the interplay between its non-stabilizer properties and entanglement. The transition under consideration separates a region with a unique ground state from one with a degenerate ground state manifold spanned by states with finite and opposite (intensive) momenta. We show that SRE has a jump at the crossing points, while the entanglement entropy remains continuous. Moreover, by leveraging on a Clifford circuit mapping, we connect the observed jump in SRE to that occurring between standard and generalized $W$-states with finite momenta. This mapping allows us to quantify the SRE discontinuity analytically.
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# トモグラフィ特徴量を用いた効率的な大規模3次元地図登録

Efficient and Distributed Large-Scale 3D Map Registration using Tomographic Features ( http://arxiv.org/abs/2406.19461v1 )

ライセンス: Link先を確認
Halil Utku Unlu, Anthony Tzes, Prashanth Krishnamurthy, Farshad Khorrami, (参考訳) 資源効率,分散,最小パラメータ化された3次元マップマッチングとマージアルゴリズムを提案する。 提案アルゴリズムは,重力配向局所写像の水平断面の2次元投影によるトモグラフィ特性を利用し,これらの投影スライスを任意の高さ差でマッチングすることにより,効率よく並列化可能な4自由度推定を可能にする。 提案するアルゴリズムは、メモリ使用量と実行時間の桁違いに、最先端の機能抽出と登録パイプラインを改善する。 この3次元マップマージ方式の効率性について実験的に検討した。

A robust, resource-efficient, distributed, and minimally parameterized 3D map matching and merging algorithm is proposed. The suggested algorithm utilizes tomographic features from 2D projections of horizontal cross-sections of gravity-aligned local maps, and matches these projection slices at all possible height differences, enabling the estimation of four degrees of freedom in an efficient and parallelizable manner. The advocated algorithm improves state-of-the-art feature extraction and registration pipelines by an order of magnitude in memory use and execution time. Experimental studies are offered to investigate the efficiency of this 3D map merging scheme.
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# 多体不手目指数

Many-body Fu-Kane-Mele index ( http://arxiv.org/abs/2406.19463v1 )

ライセンス: Link先を確認
Sven Bachmann, Alex Bols, Mahsa Rahnama, (参考訳) 電荷保存と時間反転対称性を持つ2次元フェルミオン格子系の安定短距離絡み合った状態に対して$\mathbb{Z}_2$-valued indexを定義する。 インデックスは、システムを通して$\pi$-fluxを挿入した状態である 'fluxon' が、クラマーズ対の一部として時間反転の下で変換された場合、その非自明な値を取る。 この指数は自由フェルミオンのFu-Kane-Mele指数を相互作用系に拡張する。

We define a $\mathbb{Z}_2$-valued index for stably short-range entangled states of two-dimensional fermionic lattice systems with charge conservation and time reversal symmetry. The index takes its non-trivial value precisely if the `fluxon', the state obtained by inserting a $\pi$-flux through the system, transforms under time reversal as part of a Kramers pair. This index extends the Fu-Kane-Mele index of free fermions to interacting systems.
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# ManiWAV: アプリ内オーディオ・ビジュアルデータからロボットの操作を学習する

ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data ( http://arxiv.org/abs/2406.19464v1 )

ライセンス: Link先を確認
Zeyi Liu, Cheng Chi, Eric Cousineau, Naveen Kuppuswamy, Benjamin Burchfiel, Shuran Song, (参考訳) 音声信号は、ロボットのインタラクションや接触によるオブジェクト特性に関する豊富な情報を提供する。 これらの情報は、特に視覚情報が曖昧で不完全である場合に、接触に富むロボット操作スキルの習得を驚くほど容易にする。 しかし、ロボット操作における音声データの使用は、マイクをロボットまたは物体に取り付けることで収集された遠隔操作デモに制限されており、ロボット学習パイプラインにおける使用を著しく制限している。 そこで本研究では,同期音声と視覚フィードバックによる実演の収集を行う「アー・イン・ハンド(ear-in-hand)」データ収集装置「ManiWAV」と,実演から直接ロボット操作ポリシーを学習するための対応するポリシーインターフェースについて紹介する。 我々は,接触イベントやモードを受動的に感知するか,物体表面物質や状態を積極的に感知する必要がある4つの接触リッチな操作タスクを通じて,システムの性能を実証する。 また,本システムでは,多種多様な人体実験から学習することで,未確認環境への一般化が可能であることを示す。 プロジェクトウェブサイト:https://mani-wav.github.io/

Audio signals provide rich information for the robot interaction and object properties through contact. These information can surprisingly ease the learning of contact-rich robot manipulation skills, especially when the visual information alone is ambiguous or incomplete. However, the usage of audio data in robot manipulation has been constrained to teleoperated demonstrations collected by either attaching a microphone to the robot or object, which significantly limits its usage in robot learning pipelines. In this work, we introduce ManiWAV: an 'ear-in-hand' data collection device to collect in-the-wild human demonstrations with synchronous audio and visual feedback, and a corresponding policy interface to learn robot manipulation policy directly from the demonstrations. We demonstrate the capabilities of our system through four contact-rich manipulation tasks that require either passively sensing the contact events and modes, or actively sensing the object surface materials and states. In addition, we show that our system can generalize to unseen in-the-wild environments, by learning from diverse in-the-wild human demonstrations. Project website: https://mani-wav.github.io/
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# 大規模言語モデルは高品質な特許請求を生成できるか?

Can Large Language Models Generate High-quality Patent Claims? ( http://arxiv.org/abs/2406.19465v1 )

ライセンス: Link先を確認
Lekang Jiang, Caiqi Zhang, Pascal A Scherz, Stephan Goetz, (参考訳) 大規模言語モデル(LLM)は、様々なテキスト生成タスクにおいて例外的な性能を示してきたが、高度に構造化された正確な言語を提供する特許領域では未探索のままである。 本稿では,特許クレーム生成における現在のLCMの性能を評価するためのデータセットを構築した。 以上の結果から,特許明細書に基づくクレーム生成は,従来の要約による研究よりも優れていたことが示唆された。 興味深いことに、現在の特許固有のLLMは最先端の一般LLMよりもはるかにパフォーマンスが悪く、将来のドメイン内LLMの研究の必要性を強調している。 LLMは高品質な第一独立クレームを生成できるが、その後の従属クレームでは顕著に性能が低下する。 さらに、微調整は発明者の特徴、概念的明確性、特徴連鎖の完全性を高めることができる。 試験されたLCMのうち、GPT-4は、より優れた機能カバレッジ、概念的明確性、技術的コヒーレンスを備えた、特許専門家による包括的な人的評価において、最高の性能を示す。 これらの機能にもかかわらず、厳格な特許審査をパスし、法的堅牢性を確保するためには、包括的な修正と修正が必要である。

Large language models (LLMs) have shown exceptional performance across various text generation tasks but remain under-explored in the patent domain, which offers highly structured and precise language. This paper constructs a dataset to investigate the performance of current LLMs in patent claim generation. Our results demonstrate that generating claims based on patent descriptions outperforms previous research relying on abstracts. Interestingly, current patent-specific LLMs perform much worse than state-of-the-art general LLMs, highlighting the necessity for future research on in-domain LLMs. We also find that LLMs can produce high-quality first independent claims, but their performances markedly decrease for subsequent dependent claims. Moreover, fine-tuning can enhance the completeness of inventions' features, conceptual clarity, and feature linkage. Among the tested LLMs, GPT-4 demonstrates the best performance in comprehensive human evaluations by patent experts, with better feature coverage, conceptual clarity, and technical coherence. Despite these capabilities, comprehensive revision and modification are still necessary to pass rigorous patent scrutiny and ensure legal robustness.
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# 局所的に異なる頻度のアイテムセットマイニングプロトコルに対するデータポジショニング攻撃

Data Poisoning Attacks to Locally Differentially Private Frequent Itemset Mining Protocols ( http://arxiv.org/abs/2406.19466v1 )

ライセンス: Link先を確認
Wei Tong, Haoyu Chen, Jiacheng Niu, Sheng Zhong, (参考訳) ローカルディファレンシャルプライバシ(LDP)は、信頼できないデータコレクタが、プライバシに違反することなく、ユーザのデータを集約する方法を提供する。 周波数推定、頻繁なアイテムセットマイニング、機械学習など、LDPの保護の下で、さまざまなプライバシー保護データ分析タスクが研究されている。 プライバシー保護の特性にもかかわらず、最近の研究はデータ中毒攻撃に対する特定のLDPプロトコルの脆弱性を実証している。 しかし、既存のデータ中毒攻撃は、周波数推定や平均/分散推定など、LDPの基本統計に焦点が当てられている。 重要なデータ分析タスクとして, LDPの頻繁なアイテムセットマイニングの安全性については, まだ十分に検討されていない。 本稿では, LDPの頻繁なマイニングプロトコルに対する, 新規かつ実用的なデータ中毒攻撃を提示することによって, この問題に対処することを目的とする。 構成可能な攻撃操作を備えた統合攻撃フレームワークを導入することで、我々のデータ中毒攻撃は、最先端のLPP頻繁なマイニングプロトコルをうまく操作することができ、同様の構造を持つ他のプロトコルに適応する可能性がある。 我々は,提案した攻撃と4つのベースライン攻撃を比較するために,3つのデータセットに関する広範な実験を行った。 その結果、脅威の深刻さと、提案した攻撃の有効性が示された。

Local differential privacy (LDP) provides a way for an untrusted data collector to aggregate users' data without violating their privacy. Various privacy-preserving data analysis tasks have been studied under the protection of LDP, such as frequency estimation, frequent itemset mining, and machine learning. Despite its privacy-preserving properties, recent research has demonstrated the vulnerability of certain LDP protocols to data poisoning attacks. However, existing data poisoning attacks are focused on basic statistics under LDP, such as frequency estimation and mean/variance estimation. As an important data analysis task, the security of LDP frequent itemset mining has yet to be thoroughly examined. In this paper, we aim to address this issue by presenting novel and practical data poisoning attacks against LDP frequent itemset mining protocols. By introducing a unified attack framework with composable attack operations, our data poisoning attack can successfully manipulate the state-of-the-art LDP frequent itemset mining protocols and has the potential to be adapted to other protocols with similar structures. We conduct extensive experiments on three datasets to compare the proposed attack with four baseline attacks. The results demonstrate the severity of the threat and the effectiveness of the proposed attack.
翻訳日:2024-07-01 18:51:19 公開日:2024-06-27
# 量子幾何学のパラメータ空間に対する$N$-bein形式

$N$-bein formalism for the parameter space of quantum geometry ( http://arxiv.org/abs/2406.19468v1 )

ライセンス: Link先を確認
Jorge Romero, Carlos A. Velasquez, J David Vergara, (参考訳) この研究は、量子幾何学テンソルを一般化する幾何学的対象を導入し、これを$N$-beinと呼ぶ。 カルタン形式で用いられるヴィエルベイン (orthonormal frame) と類似して、$N$-bein は量子幾何学テンソルの ``square root'' のように振る舞う。 これを用いて、連続する2つのパラメータの変動の後、ある状態から別の状態へ移動する可能性を測定する2つの状態の量子幾何テンソルを示す。 この新しいテンソルは、その反対称部分を通してそのような変動の可換性を決定する。 さらに、ベリー接続とは異なる接続を定義し、それを$N$-beinと組み合わせることで、ビアンキの恒等性を満足するトーションと曲率 \`{a} la Cartan の概念を導入することができる。 さらに、ねじれは前述の2状態量子幾何テンソルの反対称部分と一致しており、パラメータ変動の可換性に関連している。 また、微分形式を用いて形式論を記述し、新しい幾何学的対象の物理的解釈について論じる。 さらに、この研究で導入された幾何量から構築された異なるゲージ不変量を定義し、結果として新しい物理観測可能量が得られる。 最後に、これらの概念を説明するための2つの例を示す:調和振動子と一般化振動子。 新たなテンソルは、他の方法では利用できない量子状態間の相関関係を定量化することを発見した。

This work introduces a geometrical object that generalizes the quantum geometric tensor; we call it $N$-bein. Analogous to the vielbein (orthonormal frame) used in the Cartan formalism, the $N$-bein behaves like a ``square root'' of the quantum geometric tensor. Using it, we present a quantum geometric tensor of two states that measures the possibility of moving from one state to another after two consecutive parameter variations. This new tensor determines the commutativity of such variations through its anti-symmetric part. In addition, we define a connection different from the Berry connection, and combining it with the $N$-bein allows us to introduce a notion of torsion and curvature \`{a} la Cartan that satisfies the Bianchi identities. Moreover, the torsion coincides with the anti-symmetric part of the two-state quantum geometric tensor previously mentioned, and thus, it is related to the commutativity of the parameter variations. We also describe our formalism using differential forms and discuss the possible physical interpretations of the new geometrical objects. Furthermore, we define different gauge invariants constructed from the geometrical quantities introduced in this work, resulting in new physical observables. Finally, we present two examples to illustrate these concepts: a harmonic oscillator and a generalized oscillator, both immersed in an electric field. We found that the new tensors quantify correlations between quantum states that were unavailable by other methods.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# 回答順の変更は MMLU の精度を低下させる

Changing Answer Order Can Decrease MMLU Accuracy ( http://arxiv.org/abs/2406.19470v1 )

ライセンス: Link先を確認
Vipul Gupta, David Pantoja, Candace Ross, Adina Williams, Megan Ung, (参考訳) 大規模言語モデル(LLM)が普及するにつれて、これらのモデルの評価やモデル機能の理解には特別なベンチマークが不可欠になっている。 最も一般的には、複数のサブタスクの平均的なテスト精度を使用して、リーダーボード上のモデルをランク付けし、どのモデルが私たちの目的に最適なのかを判断します。 本稿では,広く利用されている複数選択質問応答データセットMMLUにおける精度測定の堅牢性について検討する。 回答ラベルの内容をシャッフルすると、すべてのモデルがMMLUの精度を低下させるが、全てのモデルが等しく敏感であるわけではない。 これらの結果から,各モデルがランダムな確率で正解する事例の割合も考慮し,標準手法であるリーダボードテストに適応できる可能性が示唆された。

As large language models (LLMs) have grown in prevalence, particular benchmarks have become essential for the evaluation of these models and for understanding model capabilities. Most commonly, we use test accuracy averaged across multiple subtasks in order to rank models on leaderboards, to determine which model is best for our purposes. In this paper, we investigate the robustness of the accuracy measurement on a widely used multiple choice question answering dataset, MMLU. When shuffling the answer label contents, we find that all explored models decrease in accuracy on MMLU, but not every model is equally sensitive. These findings suggest a possible adjustment to the standard practice of leaderboard testing, where we additionally consider the percentage of examples each model answers correctly by random chance.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# 非凸高次元確率最適化のための非滑らかおよび非ユークリッド近位項をもつ確率的一階法

Stochastic First-Order Methods with Non-smooth and Non-Euclidean Proximal Terms for Nonconvex High-Dimensional Stochastic Optimization ( http://arxiv.org/abs/2406.19475v1 )

ライセンス: Link先を確認
Yue Xie, Jiawen Bi, Hongcheng Liu, (参考訳) 非凸問題が確率性によって複雑になるとき、確率的一階法のサンプル複雑性は問題次元に線形に依存することがあるが、これは大規模問題では望ましくない。 本研究では,非凸最適化のための次元非感性確率的一階法(DISFOMs)を提案する。 我々のアルゴリズムは、近距離項として非ユークリッドおよび非滑らか距離関数を許容する。 軽度の仮定では、勾配を推定するためにミニバッチを使用する DISFOM は、$ \mathcal{O} ( (\log d) / \epsilon^4 ) $ のサンプル複雑性を楽しみ、$\epsilon$-定常点を得る。 さらに、分散還元を用いた DisFOM がこの境界を $\mathcal{O} ( (\log d)^{2/3}/\epsilon^{10/3} )$ とし、おそらく最もよく知られたサンプルの複雑さを$d$ で表す。 非滑らか距離関数の2つの選択肢を提供し、どちらも近位ステップに対する閉形式解を可能にする。 提案手法の寸法不感性を示す数値実験を行った。

When the nonconvex problem is complicated by stochasticity, the sample complexity of stochastic first-order methods may depend linearly on the problem dimension, which is undesirable for large-scale problems. In this work, we propose dimension-insensitive stochastic first-order methods (DISFOMs) to address nonconvex optimization with expected-valued objective function. Our algorithms allow for non-Euclidean and non-smooth distance functions as the proximal terms. Under mild assumptions, we show that DISFOM using minibatches to estimate the gradient enjoys sample complexity of $ \mathcal{O} ( (\log d) / \epsilon^4 ) $ to obtain an $\epsilon$-stationary point. Furthermore, we prove that DISFOM employing variance reduction can sharpen this bound to $\mathcal{O} ( (\log d)^{2/3}/\epsilon^{10/3} )$, which perhaps leads to the best-known sample complexity result in terms of $d$. We provide two choices of the non-smooth distance functions, both of which allow for closed-form solutions to the proximal step. Numerical experiments are conducted to illustrate the dimension insensitive property of the proposed frameworks.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# トラベリングウェーブパラメトリック増幅器とコンバータ

A Traveling-Wave Parametric Amplifier and Converter ( http://arxiv.org/abs/2406.19476v1 )

ライセンス: Link先を確認
M. Malnou, B. T. Miller, J. A. Estrada, K. Genter, K. Cicak, J. D. Teufel, J. Aumentado, F. Lecocq, (参考訳) 高忠実度量子ビット測定は、全ての量子コンピューティングアーキテクチャにおいて重要な要素である。 超伝導系では、量子ビットは通常、室温電子に到達する前に増幅しなければならないマイクロ波トーンの弱い読み出し共振器を探索することによって測定される。 超伝導パラメトリック増幅器は、主にノイズ性能が低く、量子限界に近づいたため、チェーンの最初の増幅器として広く採用されている。 しかし、アイソレータや循環器は、測定チェーンに信号をルーティングし、量子ビットを増幅ノイズから保護する必要がある。 これらの商用コンポーネントは広帯域で非常に簡単に使用できるが、その固有の損失、サイズ、磁気シールド要件は全体的な測定効率に影響を与えるとともに、大規模超伝導量子コンピュータにおけるスケーラブルな読み出しの可能性を制限している。 ここでは、超伝導量子ビットを持つチップに集積可能な、単一でコンパクトな非磁性回路において、ブロードバンド前方増幅と後方分離の両方を実現するパラメトリック増幅器を示す。 これは、前方伝播信号の移動波パラメトリック増幅と後方伝播信号の周波数変換による分離をサポートする非線形伝送線路に依存している。 この種の移動波パラメトリック増幅器とコンバータは、超伝導量子コンピュータの規模を拡大する際に、読み出しハードウェアのオーバーヘッドを減らすことができる。

High-fidelity qubit measurement is a critical element of all quantum computing architectures. In superconducting systems, qubits are typically measured by probing a readout resonator with a weak microwave tone which must be amplified before reaching the room temperature electronics. Superconducting parametric amplifiers have been widely adopted as the first amplifier in the chain, primarily because of their low noise performance, approaching the quantum limit. However, they require isolators and circulators to route signals up the measurement chain, as well as to protect qubits from amplified noise. While these commercial components are wideband and very simple to use, their intrinsic loss, size, and magnetic shielding requirements impact the overall measurement efficiency while also limiting prospects for scalable readout in large-scale superconducting quantum computers. Here we demonstrate a parametric amplifier that achieves both broadband forward amplification and backward isolation in a single, compact, non-magnetic circuit that could be integrated on chip with superconducting qubits. It relies on a nonlinear transmission line which supports traveling-wave parametric amplification of forward propagating signals, and isolation via frequency conversion of backward propagating signals. This kind of traveling-wave parametric amplifier and converter is poised to reduce the readout hardware overhead when scaling up the size of superconducting quantum computers.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# 信念マップを用いた多エージェント協調ゲーム

Multi-agent Cooperative Games Using Belief Map Assisted Training ( http://arxiv.org/abs/2406.19477v1 )

ライセンス: Link先を確認
Qinwei Huang, Chen Luo, Alex B. Wu, Simon Khan, Hai Li, Qinru Qiu, (参考訳) マルチエージェントシステムでは、エージェントがメッセージパッシングシステムを使用して意思決定やコラボレーションのグローバルな状況認識を得るために、ローカルな観察を共有できる。 メッセージの送信方法、メッセージのエンコード方法、受信したメッセージの活用方法は、エージェント間のコラボレーションの有効性に直接的な影響を与える。 強化学習(RL)を用いたマルチエージェント協調ゲームのトレーニングでは,エージェントポリシとともにメッセージパッシングシステムを最適化する必要がある。 これにより、モデルの複雑さが増大し、学習の収束とパフォーマンスに大きな課題が生じる。 この問題に対処するために,神経象徴的信念マップを利用してトレーニングを強化するBelief-map Assisted Multi-Adnt System (BAMS)を提案する。 信念マップは、エージェントの隠れた状態をデコードし、エージェントの環境と他のエージェントの状態に対する理解の象徴的な表現を提供する。 シンボリック表現の単純さは、基礎となる真理情報と信念の収集と比較を可能にし、学習のためのさらなるフィードバックのチャンネルを提供する。 RLの報酬から得られる散発的フィードバックや遅延フィードバックと比較して、信念マップからのフィードバックはより一貫性があり信頼性が高い。 BAMSを使用するエージェントは、より効果的なメッセージパッシングネットワークを学習し、お互いをよりよく理解し、結果として、マップの複雑さの異なる協調捕食者や獲物ゲームにおいて、より優れたパフォーマンスを実現し、以前のマルチエージェントメッセージパッシングモデルと比較することができる。 シミュレーションの結果、BAMSはトレーニングのエポックを66倍に減らし、BAMSモデルを適用するエージェントは平均34.62倍のステップでゲームを完成させた。

In a multi-agent system, agents share their local observations to gain global situational awareness for decision making and collaboration using a message passing system. When to send a message, how to encode a message, and how to leverage the received messages directly affect the effectiveness of the collaboration among agents. When training a multi-agent cooperative game using reinforcement learning (RL), the message passing system needs to be optimized together with the agent policies. This consequently increases the model's complexity and poses significant challenges to the convergence and performance of learning. To address this issue, we propose the Belief-map Assisted Multi-agent System (BAMS), which leverages a neuro-symbolic belief map to enhance training. The belief map decodes the agent's hidden state to provide a symbolic representation of the agent's understanding of the environment and other agent's status. The simplicity of symbolic representation allows the gathering and comparison of the ground truth information with the belief, which provides an additional channel of feedback for the learning. Compared to the sporadic and delayed feedback coming from the reward in RL, the feedback from the belief map is more consistent and reliable. Agents using BAMS can learn a more effective message passing network to better understand each other, resulting in better performance in a cooperative predator and prey game with varying levels of map complexity and compare it to previous multi-agent message passing models. The simulation results showed that BAMS reduced training epochs by 66\%, and agents who apply the BAMS model completed the game with 34.62\% fewer steps on average.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# 機械翻訳におけるスパース回帰

Sparse Regression for Machine Translation ( http://arxiv.org/abs/2406.19478v1 )

ライセンス: Link先を確認
Ergun Biçici, (参考訳) 我々は、トランスダクティブ回帰手法を用いて、与えられた並列コーパスのソースとターゲットの特徴のマッピングを学習し、これらのマッピングを使用して機械翻訳出力を生成する。 スパースに観測された特徴集合間のマッピングを、$L_2$正規化回帰に対して学習するために、$L_1$正規化回帰(\textit{lasso})の有効性を示す。 トレーニングインスタンスの適切な選択は、限られた計算リソースと期待される精度レベルで、正確な特徴マッピングを学習する上で重要な役割を果たす。 本稿では,トレーニングセットのソースと対象範囲を改善するために,適切な特徴マッピングを学習する上で重要な役割を担う,トレーニングインスタンスの適切な選択のための‘textit{dice} インスタンス選択方法を紹介した。 L_1$正規化回帰は回帰測定とグラフ復号を用いた翻訳実験の両方において$L_2$正規化回帰よりも優れた性能を示すことを示す。 我々はドイツ語から英語へ、スペイン語から英語へ翻訳する際の励みとなる結果を提示する。 また、フレーズベースのデコーダのフレーズテーブルを回帰モデルで見つけたマッピングに置き換えた結果を示す。

We use transductive regression techniques to learn mappings between source and target features of given parallel corpora and use these mappings to generate machine translation outputs. We show the effectiveness of $L_1$ regularized regression (\textit{lasso}) to learn the mappings between sparsely observed feature sets versus $L_2$ regularized regression. Proper selection of training instances plays an important role to learn correct feature mappings within limited computational resources and at expected accuracy levels. We introduce \textit{dice} instance selection method for proper selection of training instances, which plays an important role to learn correct feature mappings for improving the source and target coverage of the training set. We show that $L_1$ regularized regression performs better than $L_2$ regularized regression both in regression measurements and in the translation experiments using graph decoding. We present encouraging results when translating from German to English and Spanish to English. We also demonstrate results when the phrase table of a phrase-based decoder is replaced with the mappings we find with the regression model.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# xTower: 翻訳エラーの説明と修正のための多言語LLM

xTower: A Multilingual LLM for Explaining and Correcting Translation Errors ( http://arxiv.org/abs/2406.19482v1 )

ライセンス: Link先を確認
Marcos Treviso, Nuno M. Guerreiro, Sweta Agrawal, Ricardo Rei, José Pombal, Tania Vaz, Helena Wu, Beatriz Silva, Daan van Stigt, André F. T. Martins, (参考訳) 機械翻訳(MT)システムは、ベンチマークでますます強力なパフォーマンスを達成する一方で、しばしばエラーや異常を伴う翻訳を生成する。 これらのエラーを理解することは、翻訳の品質とユーザエクスペリエンスを改善するのに役立つ可能性がある。 本稿では,T TowerBase上に構築されたオープンな大規模言語モデル(LLM)であるxTowerを紹介する。 xTower が生成した説明の質を内在的・外因的両評価により評価する。 専門家の翻訳者に2つの次元にわたる説明の質を評価するよう依頼する: 誤りに対する関連性は説明され、誤りの理解と翻訳品質の改善に役立ちます。 本研究は, 翻訳品質の大幅な向上を図りながら, 翻訳訂正のための様々な実験装置でxTowerを試験する。 以上の結果から,xTowerが自動翻訳の可塑性かつ有用な説明を生成できるだけでなく,修正翻訳の提案にも活用できる可能性が示唆された。

While machine translation (MT) systems are achieving increasingly strong performance on benchmarks, they often produce translations with errors and anomalies. Understanding these errors can potentially help improve the translation quality and user experience. This paper introduces xTower, an open large language model (LLM) built on top of TowerBase designed to provide free-text explanations for translation errors in order to guide the generation of a corrected translation. The quality of the generated explanations by xTower are assessed via both intrinsic and extrinsic evaluation. We ask expert translators to evaluate the quality of the explanations across two dimensions: relatedness towards the error span being explained and helpfulness in error understanding and improving translation quality. Extrinsically, we test xTower across various experimental setups in generating translation corrections, demonstrating significant improvements in translation quality. Our findings highlight xTower's potential towards not only producing plausible and helpful explanations of automatic translations, but also leveraging them to suggest corrected translations.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# GAPNet:頸動脈分節に対する解剖学的制約付き顆粒度注意ネットワーク

GAPNet: Granularity Attention Network with Anatomy-Prior-Constraint for Carotid Artery Segmentation ( http://arxiv.org/abs/2406.19485v1 )

ライセンス: Link先を確認
Lin Zhang, Chenggang Lu, Xin-yang Shi, Caifeng Shan, Jiong Zhang, Da Chen, Laurent D. Cohen, (参考訳) 動脈硬化症は慢性進行性疾患であり、主に動脈壁に影響する。 心臓血管疾患の主要な原因の1つである。 Magnetic Resonance (MR) Black-blood vessel wall imaging (BB-VWI) は血管疾患の診断において重要な知見である。 しかし、頸部の複雑な解剖は、特に動脈硬化のような変化を伴う周囲の組織と頸動脈(CA)を区別する上で困難である。 これらの問題に対処するため,我々は新しい幾何学的先行推定法であるGAPNetを提案する。

Atherosclerosis is a chronic, progressive disease that primarily affects the arterial walls. It is one of the major causes of cardiovascular disease. Magnetic Resonance (MR) black-blood vessel wall imaging (BB-VWI) offers crucial insights into vascular disease diagnosis by clearly visualizing vascular structures. However, the complex anatomy of the neck poses challenges in distinguishing the carotid artery (CA) from surrounding structures, especially with changes like atherosclerosis. In order to address these issues, we propose GAPNet, which is a consisting of a novel geometric prior deduced from.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# LoPT:パラメータ効率の良い言語モデルのための低ランクプロンプトチューニング

LoPT: Low-Rank Prompt Tuning for Parameter Efficient Language Models ( http://arxiv.org/abs/2406.19486v1 )

ライセンス: Link先を確認
Shouchang Guo, Sonam Damani, Keng-hao Chang, (参考訳) プロンプトチューニングでは、プリフィックスまたは接尾辞テキストがプロンプトに追加され、プレフィックス/接尾辞の埋め込み(ソフトプロンプト)またはトークンインデックス(ハードプロンプト)が最適化され、特定のタスクの言語モデルをより制御できるようになる。 このアプローチは手作りのプロンプトエンジニアリングや明示的なモデル微調整を必要としない。 プロンプトチューニングは、所望の出力を生成するために言語モデルの部分的な入力を最適化するので、モデルファインチューニングよりもはるかにパラメータ効率が高い。 本研究では,言語モデルが特定のタスクでうまく機能するのに必要なトレーニング可能なパラメータの量を,さらに削減することを目的としている。 高速なプロンプト最適化を実現するプロンプトの低ランクモデルであるローランクプロンプトチューニング(LoPT)を提案する。 提案手法は、トレーニング可能なパラメータの数を5倍に減らしながら、フルパラメータのプロンプトチューニングに類似した結果を示す。 また、10倍から20倍のパラメータを必要とする最先端のメソッドと比較して有望な結果も提供する。

In prompt tuning, a prefix or suffix text is added to the prompt, and the embeddings (soft prompts) or token indices (hard prompts) of the prefix/suffix are optimized to gain more control over language models for specific tasks. This approach eliminates the need for hand-crafted prompt engineering or explicit model fine-tuning. Prompt tuning is significantly more parameter-efficient than model fine-tuning, as it involves optimizing partial inputs of language models to produce desired outputs. In this work, we aim to further reduce the amount of trainable parameters required for a language model to perform well on specific tasks. We propose Low-rank Prompt Tuning (LoPT), a low-rank model for prompts that achieves efficient prompt optimization. The proposed method demonstrates similar outcomes to full parameter prompt tuning while reducing the number of trainable parameters by a factor of 5. It also provides promising results compared to the state-of-the-art methods that would require 10 to 20 times more parameters.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# シャドウを解き放つ! ネットスパイの世界を探る

Unraveling Shadows: Exploring the Realm of Elite Cyber Spies ( http://arxiv.org/abs/2406.19489v1 )

ライセンス: Link先を確認
Fatemeh Khoda Parast, (参考訳) 2015年にカスパースキー研究所が発見した高度な永続的脅威である方程式群は、レジンのマルウェアの調査中に検出された。 アメリカ合衆国国家安全保障局(NSA)に委託されたEquation Groupの手法は、以前発見された脅威よりも先進的なものである。 2015年に特定されたにもかかわらず、彼らの戦術、技術、手順に関する詳細な研究は限られている。 本研究は, グループによって残されている遺物について検討し, それらの高度な方法を明らかにするとともに, セキュリティシステムによる検出を回避すべく, これらの遺物に埋め込まれた防御機構を解析する。 さらに、グループの高度な攻撃戦略を効果的に対処するために、デジタルシステムスタックの様々なレベルでソリューションが提案されている。

The Equation Group, an advanced persistent threat identified by Kaspersky's Research Lab in 2015, was detected during the investigation of the Regin malware. Attributed to the United States National Security Agency, the Equation Group's techniques are more advanced than previously discovered threats. Despite being identified in 2015, detailed studies of their tactics, techniques, and procedures have been limited. This research examines the artifacts left by the group, revealing their advanced methodologies and analyzing the defensive mechanisms embedded within these artifacts designed to avoid detection by security systems. Additionally, solutions are proposed at various levels of the digital systems stack to counter the group's sophisticated attack strategies effectively.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# 視床下部の高分解能セグメンテーションとそのサブリージョンによるセグメンテーションモデルの訓練

High-resolution segmentations of the hypothalamus and its subregions for training of segmentation models ( http://arxiv.org/abs/2406.19492v1 )

ライセンス: Link先を確認
Livia Rodrigues, Martina Bocchetta, Oula Puonti, Douglas Greve, Ana Carolina Londe, Marcondes França, Simone Appenzeller, Leticia Rittner, Juan Eugenio Iglesias, (参考訳) 磁気共鳴イメージング(MRI)における脳構造のセグメンテーションは、容積分析や形状解析などの異なる分析の前提条件であるため、非常に関連性の高い神経イメージングのトピックである。 自動セグメンテーションは、時間を要する手動セグメンテーションと比較して、より大きなコホートにおける脳構造の研究を促進する。 しかし、ほとんどの自動手法の開発は、大規模で手動の注釈付きデータセットに依存しており、これらの手法の一般化性が制限されている。 近年,合成画像を用いた新しい技術が登場し,手動アノテーションの必要性が減っている。 ここでは、HELM, hypothalamic ex vivo Label Mapsという、人工データを用いたセグメンテーション法の開発に使用できる10個の半球から利用可能な超高解像度の生体外MRIから構築されたラベルマップからなるデータセットを提供する。 ラベルマップは、視床下部領域のマニュアルラベルと脳の残りの部分の自動セグメンテーションを組み合わせたもので、脳全体をシミュレートするためにミラーされている。 また、このデータセットは、手作業でセグメンテーションされた後、他の構造を含む将来のプロジェクトをサポートすることができるので、事前処理された生体外スキャンも提供します。

Segmentation of brain structures on magnetic resonance imaging (MRI) is a highly relevant neuroimaging topic, as it is a prerequisite for different analyses such as volumetry or shape analysis. Automated segmentation facilitates the study of brain structures in larger cohorts when compared with manual segmentation, which is time-consuming. However, the development of most automated methods relies on large and manually annotated datasets, which limits the generalizability of these methods. Recently, new techniques using synthetic images have emerged, reducing the need for manual annotation. Here we provide HELM, Hypothalamic ex vivo Label Maps, a dataset composed of label maps built from publicly available ultra-high resolution ex vivo MRI from 10 whole hemispheres, which can be used to develop segmentation methods using synthetic data. The label maps are obtained with a combination of manual labels for the hypothalamic regions and automated segmentations for the rest of the brain, and mirrored to simulate entire brains. We also provide the pre-processed ex vivo scans, as this dataset can support future projects to include other structures after these are manually segmented.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# 人工システムのSAPPhIREモデル作成のための検索補助生成ツールの開発と評価

Development and Evaluation of a Retrieval-Augmented Generation Tool for Creating SAPPhIRE Models of Artificial Systems ( http://arxiv.org/abs/2406.19493v1 )

ライセンス: Link先を確認
Anubhab Majumder, Kausik Bhattacharya, Amaresh Chakrabarti, (参考訳) SAPPhIRE因果関係モデルを用いたシステム表現は,設計・分析支援に有用である。 しかしながら、人工または生物学的システムのSAPPhIREモデルを作成することは、人間の専門家がシステムがどのように機能するかに関する複数の技術資料から技術知識を抽出する必要がある努力集約的なプロセスである。 本研究では,因果関係のSAPPhIREモデルを用いて,大規模言語モデル(LLM)を用いてシステムの構造記述を作成する方法について検討する。 本稿では,2部研究の第2部として,人工システムのSAPPhIRE構造に関する情報を生成するための検索・拡張生成(RAG)ツールを提案する。

Representing systems using the SAPPhIRE causality model is found useful in supporting design-by-analogy. However, creating a SAPPhIRE model of artificial or biological systems is an effort-intensive process that requires human experts to source technical knowledge from multiple technical documents regarding how the system works. This research investigates how to leverage Large Language Models (LLMs) in creating structured descriptions of systems using the SAPPhIRE model of causality. This paper, the second part of the two-part research, presents a new Retrieval-Augmented Generation (RAG) tool for generating information related to SAPPhIRE constructs of artificial systems and reports the results from a preliminary evaluation of the tool's success - focusing on the factual accuracy and reliability of outcomes.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# 大規模言語モデルにおけるインクルーシティ:科学的抽象化におけるパーソナリティ特性とジェンダーバイアス

Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts ( http://arxiv.org/abs/2406.19497v1 )

ライセンス: Link先を確認
Naseela Pervez, Alexander J. Titus, (参考訳) 大規模言語モデル(LLM)は、論文の一貫性を高めるために、科学的および学術的な執筆を支援するために、ますます活用されている。 これまでの研究では、LCM出力に存在するステレオタイプとバイアスを強調し、これらのモデルが人間の物語スタイルや潜在的な性別バイアスと一致しているかを評価する必要性を強調している。 本研究では,3つの著名なLCM – Claude 3 Opus, Mistral AI Large, Gemini 1.5 Flash – のアライメントを評価する。 テキストから語彙的・心理的・社会的特徴を抽出するために,言語質問・単語数(LIWC)フレームワークを用いる。 以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。 本研究は,学術談話における傾倒を促進するために,書体スタイルの多様性を維持するLLMの開発の重要性を強調した。

Large language models (LLMs) are increasingly utilized to assist in scientific and academic writing, helping authors enhance the coherence of their articles. Previous studies have highlighted stereotypes and biases present in LLM outputs, emphasizing the need to evaluate these models for their alignment with human narrative styles and potential gender biases. In this study, we assess the alignment of three prominent LLMs - Claude 3 Opus, Mistral AI Large, and Gemini 1.5 Flash - by analyzing their performance on benchmark text-generation tasks for scientific abstracts. We employ the Linguistic Inquiry and Word Count (LIWC) framework to extract lexical, psychological, and social features from the generated texts. Our findings indicate that, while these models generally produce text closely resembling human authored content, variations in stylistic features suggest significant gender biases. This research highlights the importance of developing LLMs that maintain a diversity of writing styles to promote inclusivity in academic discourse.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# VRによる遠隔監視のためのステレオビジョン型ロボット

Stereo Vision Based Robot for Remote Monitoring with VR Support ( http://arxiv.org/abs/2406.19498v1 )

ライセンス: Link先を確認
Mohamed Fazil M. S., Arockia Selvakumar A., Daniel Schilberg, (参考訳) マシンビジョンシステムは、視覚監視システムにおいて重要な役割を担っている。 ステレオビジョンと機械学習の助けを借りて、人間のような視覚システムと環境に対する振る舞いを模倣することができる。 本稿では,クラウドサーバとインターネットデバイスを用いて遠隔地を監視できる立体視型3自由度ロボットを提案する。 3DOFロボットは、人間のような頭部の動き、すなわちヨー、ピッチ、ロール、そして3Dステレオビデオを生成してリアルタイムにストリーミングする。 このビデオストリームは、VRボックスをサポートする汎用インターネットデバイス、すなわちスマートフォンを通じてユーザに1対1のリアルタイム3D体験を与え、ユーザの頭部の動きをリアルタイムにロボットに転送する。 このロボットは、ディープニューラルネットワークを使って、動く物体や顔の追跡もできるので、スタンドアロンの監視ロボットになる。 ユーザーは、特定の対象を選択して、空間内で監視することができる。 ステレオビジョンにより、検出された異なる物体の深度情報を追跡でき、その距離で人間の興味のある物体を追跡し、クラウドに送信することができる。 ステレオビジョン、ロボット工学、機械学習に基づく監視システムの機能を示す、フル動作プロトタイプが開発されている。

The machine vision systems have been playing a significant role in visual monitoring systems. With the help of stereovision and machine learning, it will be able to mimic human-like visual system and behaviour towards the environment. In this paper, we present a stereo vision based 3-DOF robot which will be used to monitor places from remote using cloud server and internet devices. The 3-DOF robot will transmit human-like head movements, i.e., yaw, pitch, roll and produce 3D stereoscopic video and stream it in Real-time. This video stream is sent to the user through any generic internet devices with VR box support, i.e., smartphones giving the user a First-person real-time 3D experience and transfers the head motion of the user to the robot also in Real-time. The robot will also be able to track moving objects and faces as a target using deep neural networks which enables it to be a standalone monitoring robot. The user will be able to choose specific subjects to monitor in a space. The stereovision enables us to track the depth information of different objects detected and will be used to track human interest objects with its distances and sent to the cloud. A full working prototype is developed which showcases the capabilities of a monitoring system based on stereo vision, robotics, and machine learning.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# グラフ表現を用いた強化学習を用いた対話エージェントの知識獲得

Knowledge acquisition for dialogue agents using reinforcement learning on graph representations ( http://arxiv.org/abs/2406.19500v1 )

ライセンス: Link先を確認
Selene Baez Santamaria, Shihan Wang, Piek Vossen, (参考訳) 本研究は,初等訓練以上の知識基盤を増強するための人工エージェントを開発する。 エージェントは他のエージェントとの対話に積極的に参加し、戦略的に新しい情報を取得する。 エージェントは、その知識をRDF知識グラフとしてモデル化し、会話を通じて獲得した新しい信念を統合する。 対話における応答は、これらの新しい統合された信念に関するグラフパターンを識別することによって生成される。 ユーザからの明示的なフィードバックに頼らずに、強化学習を用いてポリシーを学習し、対話中に効果的なグラフパターンを選択することができることを示す。 本研究は,ユーザを効果的な情報源として活用するための概念実証である。

We develop an artificial agent motivated to augment its knowledge base beyond its initial training. The agent actively participates in dialogues with other agents, strategically acquiring new information. The agent models its knowledge as an RDF knowledge graph, integrating new beliefs acquired through conversation. Responses in dialogue are generated by identifying graph patterns around these new integrated beliefs. We show that policies can be learned using reinforcement learning to select effective graph patterns during an interaction, without relying on explicit user feedback. Within this context, our study is a proof of concept for leveraging users as effective sources of information.
翻訳日:2024-07-01 18:41:35 公開日:2024-06-27
# 命題プローブを用いた言語モデルにおける潜在世界状態のモニタリング

Monitoring Latent World States in Language Models with Propositional Probes ( http://arxiv.org/abs/2406.19501v1 )

ライセンス: Link先を確認
Jiahai Feng, Stuart Russell, Jacob Steinhardt, (参考訳) 言語モデルは、バイアス、梅毒、バックドア、その他入力コンテキストに対する不誠実な応答につながる傾向に影響を受けやすい。 言語モデルの内部状態の解釈は、不誠実な振る舞いを監視し、修正するのに役立ちます。 我々は、言語モデルが潜在世界モデルにおける入力コンテキストを表現していると仮定し、この潜在世界状態を活性化から抽出しようと試みる。 我々は、語彙情報のためのトークンを合成的にプローブし、それらを世界国家を表す論理命題に結合する「命題プローブ」で実施する。 例えば、入力コンテキスト「グレッグは看護師だ。ローラは物理学者だ」とすると、モデルのアクティベーションから命題「WorksAs(Greg, nurse)」と「WorksAs(Laura, physicist)」をデコードする。 鍵となるのは、有界トークンが高い類似性('Greg' と 'Nurse')を持つが、非有界トークンはそうでない('Greg' と 'physicist')「結合部分空間」を同定することである。 有限個の述語と性質を持つ閉世界における命題プローブの検証を行う。 単純なテンプレート化された文脈で訓練されているにもかかわらず、命題プローブは、短編として書き直され、スペイン語に翻訳された文脈に一般化する。 さらに、言語モデルが入力コンテキスト – インジェクション、バックドアアタック、ジェンダーバイアス – に対して不誠実に応答する3つの設定では、デコードされた命題が忠実であることが分かりました。 これは、言語モデルは、しばしば忠実な世界モデルをエンコードするが、それを不誠実にデコードし、LMを監視するためのより良い解釈可能性ツールの探索を動機付けていることを示唆している。

Language models are susceptible to bias, sycophancy, backdoors, and other tendencies that lead to unfaithful responses to the input context. Interpreting internal states of language models could help monitor and correct unfaithful behavior. We hypothesize that language models represent their input contexts in a latent world model, and seek to extract this latent world state from the activations. We do so with 'propositional probes', which compositionally probe tokens for lexical information and bind them into logical propositions representing the world state. For example, given the input context ''Greg is a nurse. Laura is a physicist.'', we decode the propositions ''WorksAs(Greg, nurse)'' and ''WorksAs(Laura, physicist)'' from the model's activations. Key to this is identifying a 'binding subspace' in which bound tokens have high similarity (''Greg'' and ''nurse'') but unbound ones do not (''Greg'' and ''physicist''). We validate propositional probes in a closed-world setting with finitely many predicates and properties. Despite being trained on simple templated contexts, propositional probes generalize to contexts rewritten as short stories and translated to Spanish. Moreover, we find that in three settings where language models respond unfaithfully to the input context -- prompt injections, backdoor attacks, and gender bias -- the decoded propositions remain faithful. This suggests that language models often encode a faithful world model but decode it unfaithfully, which motivates the search for better interpretability tools for monitoring LMs.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# 複雑な推論を実現するための内部知識を活用する大規模言語モデルの検討

Investigating How Large Language Models Leverage Internal Knowledge to Perform Complex Reasoning ( http://arxiv.org/abs/2406.19502v1 )

ライセンス: Link先を確認
Miyoung Ko, Sue Hyun Park, Joonsuk Park, Minjoon Seo, (参考訳) 大幅な進歩にもかかわらず、大規模言語モデル(LLM)が推論に知識をどのように利用するかについては、限定的な理解がある。 そこで本研究では,複雑な実世界の質問をグラフに分解し,各質問を探索に必要な背景知識の親ノードを持つノードとして表現する手法を提案する。 DepthQAデータセットを開発し、質問を3つの深さに分解する。 一 概念的知識を思い出すこと。 二 手続き的知識を適用すること、及び 三 戦略知識の分析。 階層グラフに基づいて、より単純なサブプロブレムと複雑な問題に対するLLMの性能の相違点、前方の相違点を定量化する。 LLMは複雑な質問に答えるが、より単純な質問で苦労する。 我々の分析では、より小さなモデルはより大きなモデルよりも多くの相違があることが示されている。 さらに、単純な問題から複雑な問題まで、マルチターンインタラクションを通じてモデルを導くことで、モデルのサイズをまたいだパフォーマンスが向上し、知識推論における構造化中間ステップの重要性が強調される。 この研究はLLM推論の理解を深め、その問題解決能力を改善する方法を提案する。

Despite significant advancements, there is a limited understanding of how large language models (LLMs) utilize knowledge for reasoning. To address this, we propose a method that deconstructs complex real-world questions into a graph, representing each question as a node with parent nodes of background knowledge needed to solve the question. We develop the DepthQA dataset, deconstructing questions into three depths: (i) recalling conceptual knowledge, (ii) applying procedural knowledge, and (iii) analyzing strategic knowledge. Based on a hierarchical graph, we quantify forward discrepancy, discrepancies in LLMs' performance on simpler sub-problems versus complex questions. We also measure backward discrepancy, where LLMs answer complex questions but struggle with simpler ones. Our analysis shows that smaller models have more discrepancies than larger models. Additionally, guiding models from simpler to complex questions through multi-turn interactions improves performance across model sizes, highlighting the importance of structured intermediate steps in knowledge reasoning. This work enhances our understanding of LLM reasoning and suggests ways to improve their problem-solving abilities.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# 時間構造爆発による因果発見の有限サンプル性能の向上

Improving Finite Sample Performance of Causal Discovery by Exploiting Temporal Structure ( http://arxiv.org/abs/2406.19503v1 )

ライセンス: Link先を確認
Christine W Bang, Janine Witte, Ronja Foraita, Vanessa Didelez, (参考訳) 因果発見の方法は、データ駆動方式で因果構造を特定することを目的としている。 既存のアルゴリズムは不安定で統計的誤差に敏感であることが知られており、生物医学や疫学のデータではほとんど使われていない。 本稿では,時間的構造,いわゆる階層的背景知識を効率的に活用し,因果構造を推定するアルゴリズムを提案する。 階層化されたバックグラウンド知識は、例えばコホートやレジストリデータから簡単に利用できる。 効率的に使用すると、アルゴリズムは統計的誤差に対してより堅牢になり、最終的には有限サンプルの精度を高める。 アルゴリズムを記述し、その進捗状況を説明する。 さらに,本アルゴリズムの望ましい特性の例として,形式的証明を提供し,広範なシミュレーション研究で実証実験を行った。 本研究は, 食生活, 身体活動, その他の生活習慣要因の相互関係について, 子どものコホート研究から得られたデータにアルゴリズムを適用した。

Methods of causal discovery aim to identify causal structures in a data driven way. Existing algorithms are known to be unstable and sensitive to statistical errors, and are therefore rarely used with biomedical or epidemiological data. We present an algorithm that efficiently exploits temporal structure, so-called tiered background knowledge, for estimating causal structures. Tiered background knowledge is readily available from, e.g., cohort or registry data. When used efficiently it renders the algorithm more robust to statistical errors and ultimately increases accuracy in finite samples. We describe the algorithm and illustrate how it proceeds. Moreover, we offer formal proofs as well as examples of desirable properties of the algorithm, which we demonstrate empirically in an extensive simulation study. To illustrate its usefulness in practice, we apply the algorithm to data from a children's cohort study investigating the interplay of diet, physical activity and other lifestyle factors for health outcomes.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# 生成言語モデルは多文化的か? : ChatGPTを用いたハウサ文化と感情に関する研究

Are Generative Language Models Multicultural? A Study on Hausa Culture and Emotions using ChatGPT ( http://arxiv.org/abs/2406.19504v1 )

ライセンス: Link先を確認
Ibrahim Said Ahmad, Shiran Dudy, Resmi Ramachandranpillai, Kenneth Church, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、様々な目的やオーディエンスのためのコンテンツを生成するために広く使われている。 しかし、これらのモデルは、特に低リソース言語において、ユーザの文化的、感情的な多様性を反映していないかもしれない。 本稿では,ChatGPTがハウサの文化と感情をどのように表現しているかを検討する。 我々は,ChatGPTが生成した回答と,母国語話者が提供した回答とを,文化的に関連のある37の質問に対して比較した。 我々は感情分析を用いて実験を行い、人間とChatGPTの反応のアライメントを測定するために2つの類似度指標を適用した。 また,ChatGPT反応に対する評価やフィードバックも収集した。 以上の結果から,ChatGPTは人間の反応とある程度の類似性を持っているが,ハウサ文化と感情に対する知識と認識のギャップやバイアスも示している。 我々は方法論と分析の意義と限界について議論し、低リソース言語におけるLLMの性能と評価を改善する方法について提案する。

Large Language Models (LLMs), such as ChatGPT, are widely used to generate content for various purposes and audiences. However, these models may not reflect the cultural and emotional diversity of their users, especially for low-resource languages. In this paper, we investigate how ChatGPT represents Hausa's culture and emotions. We compare responses generated by ChatGPT with those provided by native Hausa speakers on 37 culturally relevant questions. We conducted experiments using emotion analysis and applied two similarity metrics to measure the alignment between human and ChatGPT responses. We also collected human participants ratings and feedback on ChatGPT responses. Our results show that ChatGPT has some level of similarity to human responses, but also exhibits some gaps and biases in its knowledge and awareness of the Hausa culture and emotions. We discuss the implications and limitations of our methodology and analysis and suggest ways to improve the performance and evaluation of LLMs for low-resource languages.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# どんなモデルでもDPウェイトで個人化できるの?(動画あり)

Too Good to be True? Turn Any Model Differentially Private With DP-Weights ( http://arxiv.org/abs/2406.19507v1 )

ライセンス: Link先を確認
David Zagardo, (参考訳) ノイズレベルが高すぎるか、モデルの有用性を損なうか、プライバシを損なう過度に低すぎるか、といったことを知るために、DP-SGD(Fariially Private Stochastic Gradient Descent)を使用してマシンラーニングモデルをトレーニングしたことを想像してください。 恐ろしいリアライゼーションがヒットします。スクラッチから長いトレーニングプロセスを開始する必要があります。 しかし、もしこのトレーニングの悪夢を回避できたらどうだろう? 本研究では,学習後のモデルの重みに差分プライバシーノイズを適用する,画期的なアプローチを提案する。 本稿では,本手法のプライバシ境界に対する包括的数学的証明と,そのプライバシ保証の検証に形式的手法を使用し,メンバシップ推論攻撃とパフォーマンス評価を用いてその有効性を実証的に評価する。 この方法では、単一のトレーニングを実行し、続いてホット後のノイズ調整を行い、最適なプライバシユーティリティトレードオフを実現する。 我々は,本モデルと従来のDP-SGDモデルを比較し,統計的に類似した性能とプライバシ保証が得られることを示した。 本研究は,学習後ノイズアプリケーションの有効性を検証し,微調整による差分プライバシーパラメータの大幅な削減と柔軟性を期待し,現実のシナリオに差分プライベートモデルを配置する現実的な代替手段であることを示す。

Imagine training a machine learning model with Differentially Private Stochastic Gradient Descent (DP-SGD), only to discover post-training that the noise level was either too high, crippling your model's utility, or too low, compromising privacy. The dreaded realization hits: you must start the lengthy training process from scratch. But what if you could avoid this retraining nightmare? In this study, we introduce a groundbreaking approach (to our knowledge) that applies differential privacy noise to the model's weights after training. We offer a comprehensive mathematical proof for this novel approach's privacy bounds, use formal methods to validate its privacy guarantees, and empirically evaluate its effectiveness using membership inference attacks and performance evaluations. This method allows for a single training run, followed by post-hoc noise adjustments to achieve optimal privacy-utility trade-offs. We compare this novel fine-tuned model (DP-Weights model) to a traditional DP-SGD model, demonstrating that our approach yields statistically similar performance and privacy guarantees. Our results validate the efficacy of post-training noise application, promising significant time savings and flexibility in fine-tuning differential privacy parameters, making it a practical alternative for deploying differentially private models in real-world scenarios.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# 言語モデルを用いたコードリンティング

Code Linting using Language Models ( http://arxiv.org/abs/2406.19508v1 )

ライセンス: Link先を確認
Darren Holden, Nafiseh Kahani, (参考訳) コードリンタは、システムのソースコードの潜在的な問題(例えば、メモリリーク)を検出することによって、高品質なソフトウェアシステムの開発において重要な役割を果たす。 それらの利点にもかかわらず、コードリンタは言語固有のもので、特定の種類の問題に焦点を合わせ、スピードの利害で偽陽性になる傾向がある。 本稿では,大規模言語モデルを用いて,より汎用的なコードlinterを開発できるかどうかについて検討する。 このようなlinterは言語に依存しず、さまざまなイシュータイプをカバーし、高速を維持することが期待されている。 これを実現するために、コードスニペットの大規模なデータセットと関連する問題を収集しました。 次に、収集したデータセットに基づいて、言語モデルを選択し、2つの分類器を訓練した。 1つはバイナリ分類器で、コードが問題があるかどうかを検知し、もう1つは問題の種類を特定するマルチラベル分類器である。 広範にわたる実験により, 大規模言語モデルに基づくlinterは, バイナリ分類器では84.9%, マルチラベル分類器では83.6%の精度が得られることを示した。

Code linters play a crucial role in developing high-quality software systems by detecting potential problems (e.g., memory leaks) in the source code of systems. Despite their benefits, code linters are often language-specific, focused on certain types of issues, and prone to false positives in the interest of speed. This paper investigates whether large language models can be used to develop a more versatile code linter. Such a linter is expected to be language-independent, cover a variety of issue types, and maintain high speed. To achieve this, we collected a large dataset of code snippets and their associated issues. We then selected a language model and trained two classifiers based on the collected datasets. The first is a binary classifier that detects if the code has issues, and the second is a multi-label classifier that identifies the types of issues. Through extensive experimental studies, we demonstrated that the developed large language model-based linter can achieve an accuracy of 84.9% for the binary classifier and 83.6% for the multi-label classifier.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# 大規模言語モデル (CVLLM: Captioning Visualizations with Large Language Models) : チュートリアル

Captioning Visualizations with Large Language Models (CVLLM): A Tutorial ( http://arxiv.org/abs/2406.19512v1 )

ライセンス: Link先を確認
Giuseppe Carenini, Jordon Johnson, Ali Salamatian, (参考訳) 可視化の自動キャプションは新しいものではないが、大規模言語モデル(LLM)の最近の進歩は、エキサイティングな新しい可能性を開く。 本稿では,インフォメーションビジュアライゼーション(インフォメーションビジュアライゼーション)の原則とキャプションにおける過去の成果を概観した上で,ニューラルモデルと汎用LLMで使用されるトランスフォーマーアーキテクチャを紹介する。 次に、それらの最近のアプリケーションをInfoVisで議論し、キャプションに焦点を当てます。 また、この分野における将来的な方向性についても検討する。

Automatically captioning visualizations is not new, but recent advances in large language models(LLMs) open exciting new possibilities. In this tutorial, after providing a brief review of Information Visualization (InfoVis) principles and past work in captioning, we introduce neural models and the transformer architecture used in generic LLMs. We then discuss their recent applications in InfoVis, with a focus on captioning. Additionally, we explore promising future directions in this field.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# 人間の知覚における色モデルと視覚的色差の比較分析

Comparative Analysis Of Color Models For Human Perception And Visual Color Difference ( http://arxiv.org/abs/2406.19520v1 )

ライセンス: Link先を確認
Aruzhan Burambekova, Pakizar Shamoi, (参考訳) 色は人間の経験に不可欠なものであり、感情、決定、知覚に影響を与える。 本稿では,色モデルと人間の視覚知覚とのアライメントの比較分析を行った。 この研究は、RGB、HSV、HSL、XYZ、CIELAB、CIELUVなどの色モデルを評価し、人間の色知覚の正確性を評価する。 視覚色の違いを正確に反映する能力と、人間の目と互換性のあるパレット抽出の優位性に基づいて、各モデルを評価した。 画像処理では,デジタルデザインから品質管理に至るまで,色差の正確な評価が不可欠である。 現在の色差測定基準は、人々が色を見る方法と必ずしも一致せず、微妙な違いを正確に判断する問題を引き起こします。 異なる色モデルと人間の視覚的知覚がどのように一致しているかを理解することは、画像処理、デジタルメディア、デザインにおいて様々な用途において重要である。

Color is integral to human experience, influencing emotions, decisions, and perceptions. This paper presents a comparative analysis of various color models' alignment with human visual perception. The study evaluates color models such as RGB, HSV, HSL, XYZ, CIELAB, and CIELUV to assess their effectiveness in accurately representing how humans perceive color. We evaluate each model based on its ability to accurately reflect visual color differences and dominant palette extraction compatible with the human eye. In image processing, accurate assessment of color difference is essential for applications ranging from digital design to quality control. Current color difference metrics do not always match how people see colors, causing issues in accurately judging subtle differences. Understanding how different color models align with human visual perception is crucial for various applications in image processing, digital media, and design.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# 科学的応用のための信頼性の高いエッジ機械学習ハードウェア

Reliable edge machine learning hardware for scientific applications ( http://arxiv.org/abs/2406.19522v1 )

ライセンス: Link先を確認
Tommaso Baldi, Javier Campos, Ben Hawks, Jennifer Ngadiuba, Nhan Tran, Daniel Diaz, Javier Duarte, Ryan Kastner, Andres Meza, Melissa Quinnan, Olivia Weng, Caleb Geniesse, Amir Gholami, Michael W. Mahoney, Vladimir Loncar, Philip Harris, Joshua Agar, Shuyu Qin, (参考訳) 極端なデータレートの科学実験は、効率的なMLエッジ処理を必要とする大量のデータを生成する。 実験ソフトウェアフレームワークにおける性能検証のためのビット精度関数シミュレーションの実現、これらのMLモデルが極端な量子化とプルーニングの下で堅牢であることの検証、効率的なフォールトトレランスのための超微細モデル検査を可能にする。 極端実験環境において、そのような厳密なレイテンシ、リソース、パワー、および領域要件の下で、科学的エッジで信頼性のあるアルゴリズムを開発し、検証するためのアプローチについて議論する。 本研究では,ロバストなアルゴリズム開発のためのメトリクス,予備結果の提示,緩和戦略について検討し,これらと今後の研究の方向性を,科学的発見を加速するための自律的な科学実験手法の開発という長期的な目標に向けて展望する。

Extreme data rate scientific experiments create massive amounts of data that require efficient ML edge processing. This leads to unique validation challenges for VLSI implementations of ML algorithms: enabling bit-accurate functional simulations for performance validation in experimental software frameworks, verifying those ML models are robust under extreme quantization and pruning, and enabling ultra-fine-grained model inspection for efficient fault tolerance. We discuss approaches to developing and validating reliable algorithms at the scientific edge under such strict latency, resource, power, and area requirements in extreme experimental environments. We study metrics for developing robust algorithms, present preliminary results and mitigation strategies, and conclude with an outlook of these and future directions of research towards the longer-term goal of developing autonomous scientific experimentation methods for accelerated scientific discovery.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# ランダム森林を用いた確率的エージェントモデルに基づくベイズ校正

Bayesian calibration of stochastic agent based model via random forest ( http://arxiv.org/abs/2406.19524v1 )

ライセンス: Link先を確認
Connor Robertson, Cosmin Safta, Nicholson Collier, Jonathan Ozik, Jaideep Ray, (参考訳) エージェントベースモデル(ABM)は、多様な個人間の相互作用や環境を明確に説明することにより、疫学におけるアウトブレイクと介入をモデル化するための優れたフレームワークを提供する。 しかしながら、これらのモデルは通常確率的かつ高度にパラメータ化されており、予測性能の正確な校正が必要である。 エージェントの現実的な数を考慮し、確率性を適切に説明する場合、この高次元キャリブレーションは計算的に禁止される。 本稿では,無作為林をベースとした代理モデルを用いてABMの評価を高速化し,CityCOVIDという疫学的ABMをMCMC(Markov chain Monte Carlo)を介して校正する手法を提案する。 この技術は、最初に、主成分分析(PCA)による時間分解と感度分析による次元減少を探索することで、CityCOVIDの関心事、すなわち入院と死亡に関する文脈で概説される。 校正問題は提示され、2020年3月から6月にかけてシカゴの新型コロナウイルス(COVID-19)の入院と死亡数に最適なサンプルが生成される。 これらの結果は過去のベイズ校正 (IMABC) 結果と比較され, その予測性能は, 計算量削減による性能向上を示す。

Agent-based models (ABM) provide an excellent framework for modeling outbreaks and interventions in epidemiology by explicitly accounting for diverse individual interactions and environments. However, these models are usually stochastic and highly parametrized, requiring precise calibration for predictive performance. When considering realistic numbers of agents and properly accounting for stochasticity, this high dimensional calibration can be computationally prohibitive. This paper presents a random forest based surrogate modeling technique to accelerate the evaluation of ABMs and demonstrates its use to calibrate an epidemiological ABM named CityCOVID via Markov chain Monte Carlo (MCMC). The technique is first outlined in the context of CityCOVID's quantities of interest, namely hospitalizations and deaths, by exploring dimensionality reduction via temporal decomposition with principal component analysis (PCA) and via sensitivity analysis. The calibration problem is then presented and samples are generated to best match COVID-19 hospitalization and death numbers in Chicago from March to June in 2020. These results are compared with previous approximate Bayesian calibration (IMABC) results and their predictive performance is analyzed showing improved performance with a reduction in computation.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# TocBERT:双方向変換器を用いた医用文書構造抽出

TocBERT: Medical Document Structure Extraction Using Bidirectional Transformers ( http://arxiv.org/abs/2406.19526v1 )

ライセンス: Link先を確認
Majd Saleh, Sarra Baghdadi, Stéphane Paquelet, (参考訳) テキストセグメンテーションは自然言語処理(NLP)の分野で最も重要な分野である。 情報検索や文書要約といったいくつかのNLP下流タスクにおいて重要な役割を果たす。 本研究では,双方向変換器を用いたテキストのセグメンテーションのための新しい解であるTocBERTを提案する。 TocBERTは、セマンティックな表現からタイトルとサブタイトルを検出することを訓練された教師付きソリューションである。 このタスクは、名前付きエンティティ認識(NER)問題として定式化された。 この手法は、MIMIC-IIIデータセットの放電サマリーを分割するためにBio-ClinicalBERTモデルを微調整した医療用テキストセグメンテーションのユースケースに適用されている。 TocBERTの性能は250音の人間ラベル付き真実コーパスで評価されている。 F1スコアは線形テキストセグメンテーション問題で84.6%、階層テキストセグメンテーション問題で72.8%に達した。 これは、特に字幕と字幕の区別において、慎重に設計されたルールベースのソリューションよりも優れていた。

Text segmentation holds paramount importance in the field of Natural Language Processing (NLP). It plays an important role in several NLP downstream tasks like information retrieval and document summarization. In this work, we propose a new solution, namely TocBERT, for segmenting texts using bidirectional transformers. TocBERT represents a supervised solution trained on the detection of titles and sub-titles from their semantic representations. This task was formulated as a named entity recognition (NER) problem. The solution has been applied on a medical text segmentation use-case where the Bio-ClinicalBERT model is fine-tuned to segment discharge summaries of the MIMIC-III dataset. The performance of TocBERT has been evaluated on a human-labeled ground truth corpus of 250 notes. It achieved an F1-score of 84.6% when evaluated on a linear text segmentation problem and 72.8% on a hierarchical text segmentation problem. It outperformed a carefully designed rule-based solution, particularly in distinguishing titles from subtitles.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# 大規模言語モデルによる映像コンテンツ分析支援 : 抑うつ映像の探索的研究

Using Large Language Models to Assist Video Content Analysis: An Exploratory Study of Short Videos on Depression ( http://arxiv.org/abs/2406.19528v1 )

ライセンス: Link先を確認
Jiaying Liu, Yunlong Wang, Yao Lyu, Yiheng Su, Shuo Niu, Xuhai "Orson" Xu, Yan Zhang, (参考訳) コンテンツ分析にLLM(Large Language Models)を活用することへの関心が高まっているが、近年の研究は主にテキストベースのコンテンツに焦点を当てている。 本研究は,LLMを用いたマルチモーダルコンテンツ分析の新たなワークフローに続く事例研究を行い,映像コンテンツ分析を支援するLLMの可能性を探るものである。 このワークフローには、コードブックの設計、プロンプトエンジニアリング、LLM処理、人的評価が含まれる。 我々は,LLMアノテーションを構造化した形で作成し,LLM推論と透明性をよりよく理解するために,LLM記述を生成するための説明プロンプトを戦略的に構築した。 LLMのビデオアノテーション機能をテストするために,25本のYouTubeショートビデオから抽出した203個のキーフレームを分析した。 LLMアノテーションを2人の人間コーダのアノテーションと比較したところ、LLMアノテーションは感情やジャンルのアノテーションよりもオブジェクトやアクティビティのアノテーションの方が精度が高いことがわかった。 さらに,ビデオアノテートにおけるLDMの機能の可能性と限界を明らかにした。 この結果に基づき、今後の研究の機会と課題、ワークフローの改善について検討する。 また,LLM支援映像解析に基づく今後の研究に関する倫理的懸念についても論じる。

Despite the growing interest in leveraging Large Language Models (LLMs) for content analysis, current studies have primarily focused on text-based content. In the present work, we explored the potential of LLMs in assisting video content analysis by conducting a case study that followed a new workflow of LLM-assisted multimodal content analysis. The workflow encompasses codebook design, prompt engineering, LLM processing, and human evaluation. We strategically crafted annotation prompts to get LLM Annotations in structured form and explanation prompts to generate LLM Explanations for a better understanding of LLM reasoning and transparency. To test LLM's video annotation capabilities, we analyzed 203 keyframes extracted from 25 YouTube short videos about depression. We compared the LLM Annotations with those of two human coders and found that LLM has higher accuracy in object and activity Annotations than emotion and genre Annotations. Moreover, we identified the potential and limitations of LLM's capabilities in annotating videos. Based on the findings, we explore opportunities and challenges for future research and improvements to the workflow. We also discuss ethical concerns surrounding future studies based on LLM-assisted video analysis.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# オフ・ポリティクス評価のためのフォワードとバック・ステートの抽象化

Forward and Backward State Abstractions for Off-policy Evaluation ( http://arxiv.org/abs/2406.19531v1 )

ライセンス: Link先を確認
Meiling Hao, Pingfan Su, Liyuan Hu, Zoltan Szabo, Qingyuan Zhao, Chengchun Shi, (参考訳) オフポリシー評価(OPE)は、デプロイ前にターゲットポリシーの影響をオフラインに評価するために重要である。 本稿は,OPEの文脈における政策学習のために設計された抽象概念について述べる。 私たちの貢献は3倍です。 i) OPEの学習状態抽象化の中心となる無関係条件の集合を定義する。 (II) 観測されたMDPに基づいて, 時間反転マルコフ決定過程(MDP)を構築して得られたQ-関数の不適合性と限界値サンプリング比を実現するための十分な条件を導出する。 3) 原状態空間をより小さな空間に順次投影し, 高濃度から生じるOPEのサンプル複雑性を大幅に単純化する新しい2段階手順を提案する。

Off-policy evaluation (OPE) is crucial for evaluating a target policy's impact offline before its deployment. However, achieving accurate OPE in large state spaces remains challenging.This paper studies state abstractions-originally designed for policy learning-in the context of OPE. Our contributions are three-fold: (i) We define a set of irrelevance conditions central to learning state abstractions for OPE. (ii) We derive sufficient conditions for achieving irrelevance in Q-functions and marginalized importance sampling ratios, the latter obtained by constructing a time-reversed Markov decision process (MDP) based on the observed MDP. (iii) We propose a novel two-step procedure that sequentially projects the original state space into a smaller space, which substantially simplify the sample complexity of OPE arising from high cardinality.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# 最大独立集合問題に対するデータレス2次ニューラルネットワーク

Dataless Quadratic Neural Networks for the Maximum Independent Set Problem ( http://arxiv.org/abs/2406.19532v1 )

ライセンス: Link先を確認
Ismail Alkhouri, Cedric Le Denmat, Yingjie Li, Cunxi Yu, Jia Liu, Rongrong Wang, Alvaro Velasquez, (参考訳) 組合せ最適化(CO)は、様々な重要な問題に対処する上で重要な役割を担っている。 近年の深層学習手法の進歩を踏まえ、NP-hard MIS問題に対処するために、教師付き学習と強化学習に根ざしたデータ駆動学習アプローチの活用に向けた取り組みが進められている。 しかしながら、これらのアプローチはラベル付きデータセットに依存し、弱い一般化を示し、しばしば問題固有のヒューリスティックに依存している。 近年、組合せ最適化問題に対処するために、ReLUベースのデータレスニューラルネットワークが導入された。 本稿では,MIS問題に対する連続的な2次緩和を特徴とする,データレス2次ニューラルネットワークの新たな定式化を提案する。 特に,MISインスタンスをトレーニング可能なエンティティとして扱うことにより,トレーニングデータの必要性を解消する。 より具体的には、MISインスタンスのグラフ構造と制約を使用して、ニューラルネットワークの構造とパラメータを定義し、固定入力でトレーニングすることで問題に対する解決策を提供する。 ADAMのような勾配に基づく最適化アルゴリズムを採用し、効率の良いオフザヘルフGPU並列実装を活用することで、直感的かつ効果的なアプローチは、最先端の学習ベース手法と比較して、競争力や優れたパフォーマンスを示す。 このアプローチのもう1つの大きな利点は、厳密でヒューリスティックな解法とは異なり、我々の手法の実行時間は、エッジの数ではなくグラフ内のノード数でしかスケールしないことである。

Combinatorial Optimization (CO) plays a crucial role in addressing various significant problems, among them the challenging Maximum Independent Set (MIS) problem. In light of recent advancements in deep learning methods, efforts have been directed towards leveraging data-driven learning approaches, typically rooted in supervised learning and reinforcement learning, to tackle the NP-hard MIS problem. However, these approaches rely on labeled datasets, exhibit weak generalization, and often depend on problem-specific heuristics. Recently, ReLU-based dataless neural networks were introduced to address combinatorial optimization problems. This paper introduces a novel dataless quadratic neural network formulation, featuring a continuous quadratic relaxation for the MIS problem. Notably, our method eliminates the need for training data by treating the given MIS instance as a trainable entity. More specifically, the graph structure and constraints of the MIS instance are used to define the structure and parameters of the neural network such that training it on a fixed input provides a solution to the problem, thereby setting it apart from traditional supervised or reinforcement learning approaches. By employing a gradient-based optimization algorithm like ADAM and leveraging an efficient off-the-shelf GPU parallel implementation, our straightforward yet effective approach demonstrates competitive or superior performance compared to state-of-the-art learning-based methods. Another significant advantage of our approach is that, unlike exact and heuristic solvers, the running time of our method scales only with the number of nodes in the graph, not the number of edges.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# 重み付き円核融合:異なる物体検出結果から円の表現を組み込む

Weighted Circle Fusion: Ensembling Circle Representation from Different Object Detection Results ( http://arxiv.org/abs/2406.19540v1 )

ライセンス: Link先を確認
Jialin Yue, Tianyuan Yao, Ruining Deng, Quan Liu, Juming Xiong, Haichun Yang, Yuankai Huo, (参考訳) 近年、医療画像研究において球状物体(糸球体、細胞、核など)の同定を改善する方法として円表現が登場している。 従来のバウンディングボックスベースのオブジェクト検出では、複数のモデルからの結果を組み合わせることで、特にリアルタイム処理が重要でない場合、精度が向上する。 残念なことに、この広く採用されている戦略は円表現を組み合わせるために簡単には利用できない。 本稿では,様々な円検出モデルから予測をマージする簡単な手法であるWeighted Circle Fusion (WCF)を提案する。 提案手法では,各有界円に関連付けられた信頼度を利用して平均円を生成する。 本手法は, スライド画像全体(WSI)における物体検出における球状検出のための独自のデータセットについて, 徹底的な評価を行う。 その結果,既存のアンサンブル法と比較して,それぞれ5%の成績を示した。 さらに、重み付き円核融合法は、医用画像における物体検出の精度を向上するだけでなく、特に偽検出を減少させ、今後の研究や病理画像解析への応用に期待できる方向を示す。

Recently, the use of circle representation has emerged as a method to improve the identification of spherical objects (such as glomeruli, cells, and nuclei) in medical imaging studies. In traditional bounding box-based object detection, combining results from multiple models improves accuracy, especially when real-time processing isn't crucial. Unfortunately, this widely adopted strategy is not readily available for combining circle representations. In this paper, we propose Weighted Circle Fusion (WCF), a simple approach for merging predictions from various circle detection models. Our method leverages confidence scores associated with each proposed bounding circle to generate averaged circles. Our method undergoes thorough evaluation on a proprietary dataset for glomerular detection in object detection within whole slide imaging (WSI). The findings reveal a performance gain of 5 %, respectively, compared to existing ensemble methods. Furthermore, the Weighted Circle Fusion technique not only improves the precision of object detection in medical images but also notably decreases false detections, presenting a promising direction for future research and application in pathological image analysis.
翻訳日:2024-07-01 18:31:50 公開日:2024-06-27
# 量子ネットワークを用いた曲線時空における量子論のテスト

Testing quantum theory on curved space-time with quantum networks ( http://arxiv.org/abs/2406.19533v1 )

ライセンス: Link先を確認
Johannes Borregaard, Igor Pikovski, (参考訳) 量子技術は自然の基本的なテストに新たな機会をもたらす。 量子物理学と一般相対性理論の相互作用を、まだ実証的な証拠のない物理学の分野として探究する可能性がある。 ここでは、このインターフェースをテストするために、量子ネットワークが新しいウィンドウを開くことを示す。 原子や原子のような系間の光子を介する絡み合いを、時間拡散誘起絡み合いと干渉変調の探索に利用する方法を実証する。 鍵となるのは重力場の時計間の非局所的な測定であり、直接光子干渉または補助的絡み合いによって達成できる。 結果として得られる可観測性は、異なる適切な時間の間の干渉に依存し、量子論と一般相対性理論の両方を考慮すると説明できる。 提案プロトコルは、kmスケール分離以降のクロック干渉計測を可能にする。 我々の研究は、曲線化された時空における量子理論の最初の実験のための現実的な実験経路を示し、量子ネットワークの新しい科学的機会を開放する。

Quantum technologies present new opportunities for fundamental tests of nature. One potential application is to probe the interplay between quantum physics and general relativity - a field of physics with no empirical evidence yet. Here we show that quantum networks open a new window to test this interface. We demonstrate how photon mediated entanglement between atomic or atom-like systems can be used to probe time-dilation induced entanglement and interference modulation. Key are non-local measurements between clocks in a gravitational field, which can be achieved either through direct photon interference or by using auxiliary entanglement. The resulting observable depends on the interference between different proper times, and can only be explained if both quantum theory and general relativity are taken into account. The proposed protocol enables clock interferometry on km-scale separations and beyond. Our work thus shows a realistic experimental route for a first test of quantum theory on curved space-time, opening up new scientific opportunities for quantum networks.
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# 意味的パーシングにおけるオントロジーギャップの扱い

Handling Ontology Gaps in Semantic Parsing ( http://arxiv.org/abs/2406.19537v1 )

ライセンス: Link先を確認
Andrea Bacciu, Marco Damonte, Marco Basaldella, Emilio Monti, (参考訳) ニューラルセマンティックパーシング(NSP)モデルの大多数は、そのようなモデルがターゲットシンボル(クローズドワールドの仮定)で表現できる概念以外は存在しないと仮定して開発されている。 この仮定は、知識の欠如を認めるのではなく、幻覚的なアウトプットを生成する。 幻覚は、ユーザに対する誤った、あるいは潜在的に攻撃的な反応を引き起こす可能性がある。 したがって、信頼できるNSPベースの質問応答エージェントを構築するには、この行動を防ぐメカニズムが不可欠である。 そこで我々は,NSPモデル幻覚を刺激し解析するための一般的な設定であるHalucination Simulation Framework (HSF)を提案する。 このフレームワークは任意の NSP タスクにクローズドオントロジーで適用することができる。 提案するフレームワークとKQA Proをベンチマークデータセットとして,幻覚検出のための最先端技術を評価する。 次に、NSPモデルの計算グラフを利用して、オントロジーギャップやドメイン外発話の存在下でのNSP幻覚を検出し、NSPエラーを認識し、F1スコアを約21、約24%、約1%改善する新しい幻覚検出戦略を提案する。 これは、オントロジーギャップを認識する問題に対処する閉オントロジー NSP における最初の研究である。 コードとチェックポイントはhttps://github.com/amazon-science/handling-ontology-gaps-in-semantic-parsingで公開しています。

The majority of Neural Semantic Parsing (NSP) models are developed with the assumption that there are no concepts outside the ones such models can represent with their target symbols (closed-world assumption). This assumption leads to generate hallucinated outputs rather than admitting their lack of knowledge. Hallucinations can lead to wrong or potentially offensive responses to users. Hence, a mechanism to prevent this behavior is crucial to build trusted NSP-based Question Answering agents. To that end, we propose the Hallucination Simulation Framework (HSF), a general setting for stimulating and analyzing NSP model hallucinations. The framework can be applied to any NSP task with a closed-ontology. Using the proposed framework and KQA Pro as the benchmark dataset, we assess state-of-the-art techniques for hallucination detection. We then present a novel hallucination detection strategy that exploits the computational graph of the NSP model to detect the NSP hallucinations in the presence of ontology gaps, out-of-domain utterances, and to recognize NSP errors, improving the F1-Score respectively by ~21, ~24% and ~1%. This is the first work in closed-ontology NSP that addresses the problem of recognizing ontology gaps. We release our code and checkpoints at https://github.com/amazon-science/handling-ontology-gaps-in-semantic-parsing.
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# 文脈事項:時間的質問回答システムにおける文脈情報の影響に関する実証的研究

Context Matters: An Empirical Study of the Impact of Contextual Information in Temporal Question Answering Systems ( http://arxiv.org/abs/2406.19538v1 )

ライセンス: Link先を確認
Dan Schumacher, Fatemeh Haji, Tara Grey, Niharika Bandlamudi, Nupoor Karnik, Gagana Uday Kumar, Jason Cho-Yu Chiang, Paul Rad, Nishant Vishwamitra, Anthony Rios, (参考訳) 大規模言語モデル(LLM)は、歴史的事象分析や時間に敏感な情報検索といったタスクに不可欠な時間的推論に苦しむことが多い。 進歩にも拘わらず、最先端のモデルでは、特に無関係や騒々しい状況に直面した場合、時間的情報を扱うのが苦手である。 本稿では, 時間的質問応答(TQA)システムにおいて, 関連性, 関連性, 変更性, 文脈性など, 様々な文脈タイプで訓練された頑健さを実証的に検証することによって, このギャップを解消する。 以上の結果から,これらのコンテキストの混合によるトレーニングにより,モデルの堅牢性と精度が向上することが示唆された。 さらに,質問に対する文脈の位置が性能に大きく影響し,質問優先の位置がより良い結果をもたらすことを示した。 我々は、コンテキストリッチなTQAデータセットであるContextAQAとContextTQEを導入し、堅牢なTQAモデルをトレーニングするための包括的な評価とガイドラインを提供する。 我々の研究は、多種多様かつ潜在的に敵対的な情報に対するLCM堅牢性を高めるために、信頼性と文脈に配慮した時間的QAシステムの開発の基礎を築いた。

Large language models (LLMs) often struggle with temporal reasoning, crucial for tasks like historical event analysis and time-sensitive information retrieval. Despite advancements, state-of-the-art models falter in handling temporal information, especially when faced with irrelevant or noisy contexts. This paper addresses this gap by empirically examining the robustness of temporal question-answering (TQA) systems trained on various context types, including relevant, irrelevant, slightly altered, and no context. Our findings indicate that training with a mix of these contexts enhances model robustness and accuracy. Additionally, we show that the position of context relative to the question significantly impacts performance, with question-first positioning yielding better results. We introduce two new context-rich TQA datasets, ContextAQA and ContextTQE, and provide comprehensive evaluations and guidelines for training robust TQA models. Our work lays the foundation for developing reliable and context-aware temporal QA systems, with broader implications for enhancing LLM robustness against diverse and potentially adversarial information.
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# Demarked: 対音声・解毒・メッセージ管理による虐待的音声モデレーションの強化戦略

Demarked: A Strategy for Enhanced Abusive Speech Moderation through Counterspeech, Detoxification, and Message Management ( http://arxiv.org/abs/2406.19543v1 )

ライセンス: Link先を確認
Seid Muhie Yimam, Daryna Dementieva, Tim Fischer, Daniil Moskovskiy, Naquee Rizwan, Punyajoy Saha, Sarthak Roy, Martin Semmann, Alexander Panchenko, Chris Biemann, Animesh Mukherjee, (参考訳) デジタル暴力を標的とする最近のEU規制など、国家やソーシャルメディアプラットフォームが課した規制にもかかわらず、乱用コンテンツは重要な課題として持続している。 既存のアプローチは主に、アウトライト・ブロッキングや禁止のようなバイナリ・ソリューションに依存しているが、虐待的スピーチの複雑な性質に対処することができない。 そこで本研究では,4つの側面に基づく乱用音声の解法という,より包括的なアプローチを提案する。 (i)重度尺度 二 標的の存在 (三)文脈尺度 (4) 法的規模 -- と、デトキシフィケーション、対言生成、ブロック、あるいは最終措置として人間の介入など、より多くの選択肢を提案すること。 様々な司法、プラットフォーム、研究論文にわたる虐待的言論規則の徹底的な分析を通じて、予防措置のギャップを強調し、その多面的表現に対抗するための適切な前向きなステップを提唱する。 本研究は,ネット上での虐待的スピーチを効果的に解決するための今後の戦略を明らかにすることを目的としている。

Despite regulations imposed by nations and social media platforms, such as recent EU regulations targeting digital violence, abusive content persists as a significant challenge. Existing approaches primarily rely on binary solutions, such as outright blocking or banning, yet fail to address the complex nature of abusive speech. In this work, we propose a more comprehensive approach called Demarcation scoring abusive speech based on four aspect -- (i) severity scale; (ii) presence of a target; (iii) context scale; (iv) legal scale -- and suggesting more options of actions like detoxification, counter speech generation, blocking, or, as a final measure, human intervention. Through a thorough analysis of abusive speech regulations across diverse jurisdictions, platforms, and research papers we highlight the gap in preventing measures and advocate for tailored proactive steps to combat its multifaceted manifestations. Our work aims to inform future strategies for effectively addressing abusive speech online.
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# GitHub上のコード生成のための大規模言語モデルはどこにあるのか?

Where Are Large Language Models for Code Generation on GitHub? ( http://arxiv.org/abs/2406.19544v1 )

ライセンス: Link先を確認
Xiao Yu, Lei Liu, Xing Hu, Jacky Wai Keung, Jin Liu, Xin Xia, (参考訳) ソフトウェア開発におけるLarge Language Models(LLM)の利用の増加は、彼らが生成するコードの品質を評価する研究者から大きな注目を集めている。 しかし、研究の多くはHumanEvalのような制御されたデータセットに焦点を当てており、開発者はLLMのコード生成機能をどのように活用するかを適切に表現したり、実際の開発シナリオにおいてLLMの生成するコードの特徴を明らかにすることができない。 このギャップを埋めるために,本研究では,LLM生成コードの特徴と,GitHubにホストされている対応するプロジェクトについて検討した。 1) ChatGPTとCopilotは、GitHub上でコードを生成するのに最も頻繁に使用される。 対照的に、GitHub上の他のLLMによって生成されるコードはほとんどない。 2) ChatGPT/Copilot生成コードを含むプロジェクトは、個人または小規模チームが主導する、小さく、あまり知られていないことが多い。 それにもかかわらず、ほとんどのプロジェクトは継続的に進化し、改善しています。 (3) ChatGPT/Copilotは主に、データ処理と変換のためにPython、Java、TypeScriptスクリプトを生成するために使用される。 C/C++とJavaScriptのコード生成は、アルゴリズムとデータ構造の実装とユーザーインターフェイスのコードに焦点を当てている。 ほとんどのChatGPT/Copilot生成コードスニペットは比較的短く、複雑さが低い。 (4) 人書きコードと比べ、ChatGPT/Copilot生成コードは少数のプロジェクトで存在し、一般的には変更が少ない。 さらに、バグによる修正は、さまざまな言語でわずか3%から8%まで、さらに少ない。 (5) ChatGPT/Copilot生成コードに関するほとんどのコメントは詳細な情報がなく、しばしばプロンプトや人間の修正、テストステータスに言及せずにコードの起源を記述しているだけである。 これらの知見に基づき、研究者や実践者への影響について論じる。

The increasing use of Large Language Models (LLMs) in software development has garnered significant attention from researchers assessing the quality of the code they generate. However, much of the research focuses on controlled datasets such as HumanEval, which fail to adequately represent how developers actually utilize LLMs' code generation capabilities or clarify the characteristics of LLM-generated code in real-world development scenarios. To bridge this gap, our study investigates the characteristics of LLM-generated code and its corresponding projects hosted on GitHub. Our findings reveal several key insights: (1) ChatGPT and Copilot are the most frequently utilized for generating code on GitHub. In contrast, there is very little code generated by other LLMs on GitHub. (2) Projects containing ChatGPT/Copilot-generated code are often small and less known, led by individuals or small teams. Despite this, most projects are continuously evolving and improving. (3) ChatGPT/Copilot is mainly utilized for generating Python, Java, and TypeScript scripts for data processing and transformation. C/C++ and JavaScript code generation focuses on algorithm and data structure implementation and user interface code. Most ChatGPT/Copilot-generated code snippets are relatively short and exhibit low complexity. (4) Compared to human-written code, ChatGPT/Copilot-generated code exists in a small proportion of projects and generally undergoes fewer modifications. Additionally, modifications due to bugs are even fewer, ranging from just 3% to 8% across different languages. (5) Most comments on ChatGPT/Copilot-generated code lack detailed information, often only stating the code's origin without mentioning prompts, human modifications, or testing status. Based on these findings, we discuss the implications for researchers and practitioners.
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# 会話における社会的意味検出のための機械生成規則の活用

Leveraging Machine-Generated Rationales to Facilitate Social Meaning Detection in Conversations ( http://arxiv.org/abs/2406.19545v1 )

ライセンス: Link先を確認
Ritam Dutt, Zhen Wu, Kelly Shi, Divyanshu Sheth, Prakhar Gupta, Carolyn Penstein Rose, (参考訳) 本稿では,会話における暗黙的に符号化された社会的意味の検出を容易にするために,Large Language Models(LLM)を利用した一般化可能な分類手法を提案する。 我々は、視覚的手がかりと社会的意味を結び付ける推論のテキスト的説明を抽出するために、多面的プロンプトを設計する。 これらの抽出された説明や合理性は、会話の理解と伝達を容易にするために会話テキストの拡張として機能する。 2,340以上の実験結果から, 有意な有意な有意な影響が示された。 本研究は,2つの社会的意味検出タスクに対して,ドメイン内分類,ゼロショット,少数ショットドメイン転送に有効である。

We present a generalizable classification approach that leverages Large Language Models (LLMs) to facilitate the detection of implicitly encoded social meaning in conversations. We design a multi-faceted prompt to extract a textual explanation of the reasoning that connects visible cues to underlying social meanings. These extracted explanations or rationales serve as augmentations to the conversational text to facilitate dialogue understanding and transfer. Our empirical results over 2,340 experimental settings demonstrate the significant positive impact of adding these rationales. Our findings hold true for in-domain classification, zero-shot, and few-shot domain transfer for two different social meaning detection tasks, each spanning two different corpora.
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# ASCENT: 学習とモンテカルロ木探索によるパワーサイドチャネルレジリエンスの増幅

ASCENT: Amplifying Power Side-Channel Resilience via Learning & Monte-Carlo Tree Search ( http://arxiv.org/abs/2406.19549v1 )

ライセンス: Link先を確認
Jitendra Bhandari, Animesh Basak Chowdhury, Ozgur Sinanoglu, Siddharth Garg, Ramesh Karri, Johann Knechtel, (参考訳) パワーサイドチャネル (PSC) 解析は、暗号ハードウェアのセキュア化に重要である。 以前の技術では、チップ設計自動化から得られるゲートレベルのネットリストの確保に重点を置いており、設計自動化プロセスから生じるセキュリティの複雑さと潜在的な副作用をすべて無視していた。 つまり、自動化は伝統的にパワー、パフォーマンス、およびエリア(PPA)を優先し、セキュリティをサイドラインする。 我々は,PSC対策の全体的レジリエンスを高めるため,論理合成段階を改良する「セキュリティファースト」アプローチを提案する。 私たちはASCENTという学習と探索に基づくフレームワークを紹介します。 一 設計後PSC評価の時間を大幅に短縮し、 (ii)Security-vs-PPA設計空間を探求する。 したがって、ASCENTは多数の候補ネットリストの効率的な探索を可能にし、通常のPA最適化ネットリストと比較してPSCレジリエンスが改善される。 ASCENTは従来のPSC分析より120倍高速で、最先端PSC対策のPSCレジリエンスは3.11倍向上する

Power side-channel (PSC) analysis is pivotal for securing cryptographic hardware. Prior art focused on securing gate-level netlists obtained as-is from chip design automation, neglecting all the complexities and potential side-effects for security arising from the design automation process. That is, automation traditionally prioritizes power, performance, and area (PPA), sidelining security. We propose a "security-first" approach, refining the logic synthesis stage to enhance the overall resilience of PSC countermeasures. We introduce ASCENT, a learning-and-search-based framework that (i) drastically reduces the time for post-design PSC evaluation and (ii) explores the security-vs-PPA design space. Thus, ASCENT enables an efficient exploration of a large number of candidate netlists, leading to an improvement in PSC resilience compared to regular PPA-optimized netlists. ASCENT is up to 120x faster than traditional PSC analysis and yields a 3.11x improvement for PSC resilience of state-of-the-art PSC countermeasures
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# 微調整基礎モデルにおける無害拒絶の再考

Rethinking harmless refusals when fine-tuning foundation models ( http://arxiv.org/abs/2406.19552v1 )

ライセンス: Link先を確認
Florin Pop, Judd Rosenblatt, Diogo Schwerz de Lucena, Michael Vaiana, (参考訳) 本稿では,Large Language Models (LLMs) における微調整が,望ましくない振る舞いを隠蔽するだけでなく,効果的に軽減する方法について検討する。 このような動作を誘発する半現実的なロールプレイング演習のレンズを通して, 微調整後のLSMの応答ダイナミクスについて検討する。 提案手法では,CoT(Chain-of-Thought)推論モデルの作成と,推論トレースと結果出力のコヒーレンス解析を行う。 特に、我々は「emph{reason-based deception(emph{reason-based deception)」と呼び、モデルが推論トレースの生成を止めるか、最終的なアウトプットの非倫理的な性質を満たすように倫理的な推論トレースを生成する。 さらに,マルチターンインタラクションの出力における望ましくない動作の発生を抑制するための応答戦略(政治的拒絶対明示的反感)の有効性について検討した。 以上の結果から, 明示的な反感は, 望ましくない出力の継続を防ぎ, 理性に基づく騙しをほとんど排除し, モデル微調整における現在の実践に挑戦する上で, 丁寧な拒絶を著しく上回っていることが明らかとなった。 そこで,本論文の主な貢献は,(1)新しい種類の隠蔽行動である理性に基づく騙しを定義し,研究すること,(2)反証が拒絶よりも有害な要求に対してより堅牢な応答モデルを提供することを示すこと,そして,微調整アプローチにおける応答戦略の再考の必要性を明らかにすることである。

In this paper, we investigate the degree to which fine-tuning in Large Language Models (LLMs) effectively mitigates versus merely conceals undesirable behavior. Through the lens of semi-realistic role-playing exercises designed to elicit such behaviors, we explore the response dynamics of LLMs post fine-tuning interventions. Our methodology involves prompting models for Chain-of-Thought (CoT) reasoning and analyzing the coherence between the reasoning traces and the resultant outputs. Notably, we identify a pervasive phenomenon we term \emph{reason-based deception}, where models either stop producing reasoning traces or produce seemingly ethical reasoning traces that belie the unethical nature of their final outputs. We further examine the efficacy of response strategies (polite refusal versus explicit rebuttal) in curbing the occurrence of undesired behavior in subsequent outputs of multi-turn interactions. Our findings reveal that explicit rebuttals significantly outperform polite refusals in preventing the continuation of undesired outputs and nearly eliminate reason-based deception, challenging current practices in model fine-tuning. Accordingly, the two key contributions of this paper are (1) defining and studying reason-based deception, a new type of hidden behavior, and (2) demonstrating that rebuttals provide a more robust response model to harmful requests than refusals, thereby highlighting the need to reconsider the response strategies in fine-tuning approaches.
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# BOrg:脳疾患の自動解析のための脳内オルガノイドに基づくミオトーシスデータセット

BOrg: A Brain Organoid-Based Mitosis Dataset for Automatic Analysis of Brain Diseases ( http://arxiv.org/abs/2406.19556v1 )

ライセンス: Link先を確認
Muhammad Awais, Mehaboobathunnisa Sahul Hameed, Bidisha Bhattacharya, Orly Reiner, Rao Muhammad Anwer, (参考訳) 近年の進歩は、幹細胞由来の脳オルガノイドを用いたヒト脳の発達の研究を可能にしている。 これらのオルガノイドにおける分裂などの細胞プロセスの定量化は、神経発達障害に関する洞察を与えるが、手作業による分析は時間がかかり、既存のデータセットは脳オルガノイドの研究に具体的な詳細を欠いている。 脳オルガノイドの共焦点顕微鏡画像を用いて、脳の胚発生における分裂現象を研究するために設計されたデータセットであるBOrgを紹介した。 BOrgは、スパースポイントアノテーションとテクニックを備えた効率的なアノテーションパイプラインを使用して、スパースデータに対する標準的なディープラーニングアプローチの制限を克服する専門家の努力を最小限にする。 我々はBOrg上の最先端の物体検出および細胞カウントモデルを適用して、前相、変相、アナフェーズ、テロフェーズの細胞を検出・解析する。 以上の結果より, これらの適応モデルは既存の方法と比較して, 脳オルガノイド研究におけるミトーシス解析の効率と精度を著しく向上することが示された。 BOrgは、有糸分裂率などの統計を定量化する自動化ツールの開発を促進し、神経発達過程や障害の力学的研究を支援する。 データとコードはhttps://github.com/awaisrauf/borg.comで入手できる。

Recent advances have enabled the study of human brain development using brain organoids derived from stem cells. Quantifying cellular processes like mitosis in these organoids offers insights into neurodevelopmental disorders, but the manual analysis is time-consuming, and existing datasets lack specific details for brain organoid studies. We introduce BOrg, a dataset designed to study mitotic events in the embryonic development of the brain using confocal microscopy images of brain organoids. BOrg utilizes an efficient annotation pipeline with sparse point annotations and techniques that minimize expert effort, overcoming limitations of standard deep learning approaches on sparse data. We adapt and benchmark state-of-the-art object detection and cell counting models on BOrg for detecting and analyzing mitotic cells across prophase, metaphase, anaphase, and telophase stages. Our results demonstrate these adapted models significantly improve mitosis analysis efficiency and accuracy for brain organoid research compared to existing methods. BOrg facilitates the development of automated tools to quantify statistics like mitosis rates, aiding mechanistic studies of neurodevelopmental processes and disorders. Data and code are available at https://github.com/awaisrauf/borg.
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# テスト時間拡張によるCT劣化に対するブラックボックスモデルのロバストネス試験

Robustness Testing of Black-Box Models Against CT Degradation Through Test-Time Augmentation ( http://arxiv.org/abs/2406.19557v1 )

ライセンス: Link先を確認
Jack Highton, Quok Zong Chong, Samuel Finestone, Arian Beqiri, Julia A. Schnabel, Kanwal K. Bhatia, (参考訳) 医用画像のセグメンテーションと物体検出のためのディープラーニングモデルは、臨床製品としてますます利用されつつある。 しかし、トレーニングデータの詳細はめったに提供されないため、トレーニング分布とケースが異なる場合、モデルは予期せず失敗する可能性がある。 潜在的なユーザが独立してモデルの堅牢性をテストし、ブラックボックスとして扱い、自身のサイトからわずか数ケースしか使用できないアプローチが、採用の鍵となる。 そこで,CT画像の品質変化に対して,これらのモデルのロバスト性をテストする手法を提案する。 本研究では,同じトレーニングデータ,モデルアーキテクチャ,データプリプロセッシングが,CT画像の人工物や劣化をシミュレーションするための,頻繁なセグメンテーションやオブジェクト検出手法の堅牢性に大きな影響を与えることを示す。 また,局所的なテストデータセットに反映されないスキャナ劣化や撮像プロトコルの変更による画像品質の変化を考慮し,臨床応用におけるディープラーニングモデルの持続可能性に関する懸念についても検討した。

Deep learning models for medical image segmentation and object detection are becoming increasingly available as clinical products. However, as details are rarely provided about the training data, models may unexpectedly fail when cases differ from those in the training distribution. An approach allowing potential users to independently test the robustness of a model, treating it as a black box and using only a few cases from their own site, is key for adoption. To address this, a method to test the robustness of these models against CT image quality variation is presented. In this work we present this framework by demonstrating that given the same training data, the model architecture and data pre processing greatly affect the robustness of several frequently used segmentation and object detection methods to simulated CT imaging artifacts and degradation. Our framework also addresses the concern about the sustainability of deep learning models in clinical use, by considering future shifts in image quality due to scanner deterioration or imaging protocol changes which are not reflected in a limited local test dataset.
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# ハイパースペクトル再構成のためのコスト効率のよいアクティブイルミネーションカメラ

Cost-efficient Active Illumination Camera For Hyper-spectral Reconstruction ( http://arxiv.org/abs/2406.19560v1 )

ライセンス: Link先を確認
Yuxuan Zhang, T. M. Sazzad, Yangyang Song, Spencer J. Chang, Ritesh Chowdhry, Tomas Mejia, Anna Hampton, Shelby Kucharski, Stefan Gerber, Barry Tillman, Marcio F. R. Resende, William M. Hammond, Chris H. Wilson, Alina Zare, Sanjeev J. Koppal, (参考訳) ハイパースペクトルイメージングは、農業調査、地上追跡、リモートセンシングなど、さまざまな用途での利用に注目が集まっている。 しかし、高コストで大容量な物理サイズと複雑な操作プロセスにより、様々な用途や研究分野にハイパースペクトルカメラが採用されなくなる。 本稿では,コスト効率が高く,コンパクトで,使用が容易な能動照明カメラについて紹介する。 我々はそのようなカメラの完全機能プロトタイプを開発した。 農学研究の支援を期待して、植物根のイメージングのためのカメラをテストしました。 さらに、スペクトル再構成のためのU-Netモデルについて、基準ハイパースペクトルカメラのデータとカメラのデータを入力としてトレーニングした。 我々は、通常のRGBカメラで追加情報を得るカメラの能力を実証した。 さらに、マルチスペクトル入力からハイパースペクトルデータを再構成する機能により、ハイパースペクトルアプリケーション用に開発されたモデルやアルゴリズムと互換性があり、変更は不要である。

Hyper-spectral imaging has recently gained increasing attention for use in different applications, including agricultural investigation, ground tracking, remote sensing and many other. However, the high cost, large physical size and complicated operation process stop hyperspectral cameras from being employed for various applications and research fields. In this paper, we introduce a cost-efficient, compact and easy to use active illumination camera that may benefit many applications. We developed a fully functional prototype of such camera. With the hope of helping with agricultural research, we tested our camera for plant root imaging. In addition, a U-Net model for spectral reconstruction was trained by using a reference hyperspectral camera's data as ground truth and our camera's data as input. We demonstrated our camera's ability to obtain additional information over a typical RGB camera. In addition, the ability to reconstruct hyperspectral data from multi-spectral input makes our device compatible to models and algorithms developed for hyperspectral applications with no modifications required.
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# メタグラディエント探索制御:ダイナスタイル計画の効率化手法

Meta-Gradient Search Control: A Method for Improving the Efficiency of Dyna-style Planning ( http://arxiv.org/abs/2406.19561v1 )

ライセンス: Link先を確認
Bradley Burega, John D. Martin, Luke Kapeluck, Michael Bowling, (参考訳) 本研究では,環境の不完全なモデルから学習する際,RL(Reinforcement Learning)システムがどのようにサンプル効率を保てるかを検討する。 これは、学習システムがリソースの制約を受けており、環境のダイナミクスが変化する連続的な環境では特に困難である。 これらの課題に対処するために、Dynaスタイルのプランニング中に状態がクエリされる確率を調整できるオンラインのメタグラディエントアルゴリズムを提案する。 本研究は, このメタグラディエント手法の集合的, 経験的性能を, 従来のサンプリング手法を用いたベースラインと比較した。 その結果,本手法は計画プロセスの効率を向上し,その結果,全体学習プロセスのサンプル効率が向上することがわかった。 全体として、我々のメタ学習ソリューションは、不正確な遷移のサンプリングやクレジット割り当ての停止など、従来の計画手法のいくつかの病理を回避している。 これらの知見は,モデルベースRLシステムを大規模に設計する上で,今後の研究において有用である可能性が示唆された。

We study how a Reinforcement Learning (RL) system can remain sample-efficient when learning from an imperfect model of the environment. This is particularly challenging when the learning system is resource-constrained and in continual settings, where the environment dynamics change. To address these challenges, our paper introduces an online, meta-gradient algorithm that tunes a probability with which states are queried during Dyna-style planning. Our study compares the aggregate, empirical performance of this meta-gradient method to baselines that employ conventional sampling strategies. Results indicate that our method improves efficiency of the planning process, which, as a consequence, improves the sample-efficiency of the overall learning process. On the whole, we observe that our meta-learned solutions avoid several pathologies of conventional planning approaches, such as sampling inaccurate transitions and those that stall credit assignment. We believe these findings could prove useful, in future work, for designing model-based RL systems at scale.
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# 音声:NLPの資源とヨルバ方言のモデル

Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects ( http://arxiv.org/abs/2406.19564v1 )

ライセンス: Link先を確認
Orevaoghene Ahia, Anuoluwapo Aremu, Diana Abagyan, Hila Gonen, David Ifeoluwa Adelani, Daud Abolade, Noah A. Smith, Yulia Tsvetkov, (参考訳) 約4700万人の話者を持つアフリカの言語Yor\`ub\'は、いくつかの方言を含む連続体を含んでいる。 アフリカ語のためのNLP技術開発への最近の取り組みは、標準方言に焦点を合わせており、その結果、ほとんど資源や道具が存在しない方言や品種の相違が生じている。 3つの領域と4つの地域Yor\ub\'a方言にまたがって、新しい高品質のパラレルテキストと音声コーパスYOR\`ULECTを導入することで、このギャップを埋める第一歩を踏み出します。 このコーパスを開発するために、我々は母国語話者と接触し、これらの方言が話されているコミュニティに旅行し、テキストや音声データを収集した。 新たに作成したコーパスを用いて、機械翻訳(テキスト)、音声認識、音声からテキストへの翻訳について広範な実験を行った。 以上の結果から,標準Yor\`ub\'aと,タスク間の他の方言間の性能の相違が明らかとなった。 しかし、方言適応的な微調整では、このギャップを狭めることができることも示している。 我々のデータセットと実験分析は、Yor\ub\'aとその方言のためのNLPツールの開発や、既存の課題に対する理解を深め、さらなる開発のための高品質なデータセットを提供することによって、他のアフリカの言語にも大きく貢献すると考えています。 オープンライセンスの下でYOR\`ULECTデータセットとモデルを公開する。

Yor\`ub\'a an African language with roughly 47 million speakers encompasses a continuum with several dialects. Recent efforts to develop NLP technologies for African languages have focused on their standard dialects, resulting in disparities for dialects and varieties for which there are little to no resources or tools. We take steps towards bridging this gap by introducing a new high-quality parallel text and speech corpus YOR\`ULECT across three domains and four regional Yor\`ub\'a dialects. To develop this corpus, we engaged native speakers, travelling to communities where these dialects are spoken, to collect text and speech data. Using our newly created corpus, we conducted extensive experiments on (text) machine translation, automatic speech recognition, and speech-to-text translation. Our results reveal substantial performance disparities between standard Yor\`ub\'a and the other dialects across all tasks. However, we also show that with dialect-adaptive finetuning, we are able to narrow this gap. We believe our dataset and experimental analysis will contribute greatly to developing NLP tools for Yor\`ub\'a and its dialects, and potentially for other African languages, by improving our understanding of existing challenges and offering a high-quality dataset for further development. We release YOR\`ULECT dataset and models publicly under an open license.
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# 周期ガウス法セクターにおける1D $Z_2$格子ゲージ理論

1D $Z_2$ lattice gauge theory in periodic Gauss law sectors ( http://arxiv.org/abs/2406.19565v1 )

ライセンス: Link先を確認
Vaibhav Sharma, Erich J Mueller, (参考訳) ゲージスピンの向きによって設定される静的電荷の異なる構成に対応して、異なるガウス法セクターにおける1D $Z_2$格子ゲージ理論の特性を計算する。 重要なことは、量子シミュレーター実験において、これらのセクターは、追加の物理粒子を追加したり、ハミルトニアンを変更することなくアクセスすることができる。 静的電荷が周期パターンを形成するために選択されたとき,保存法則と相互作用の相互作用について検討する。 異なるガウス法分野を分類し, 密度行列再正規化群を用いて基底状態圧縮率, 密度プロファイル, 電荷密度波の順序パラメータ, 単一粒子相関関数を物質密度の関数として計算する。 閉じ込められ、分解された相、電荷密度波、相関絶縁体、超固体が見つかる。

We calculate the properties of a 1D $Z_2$ lattice gauge theory in different Gauss law sectors, corresponding to different configurations of static charges set by the orientations of the gauge spins. Importantly, in quantum simulator experiments these sectors can be accessed without adding any additional physical particles or changing the Hamiltonian: The Gauss law sectors are simply set by the initial conditions. We study the interplay between conservation laws and interactions when the static charges are chosen to form periodic patterns. We classify the different Gauss law sectors and use the density matrix renormalization group to calculate the ground state compressibility, density profiles, charge density wave order parameters, and single particle correlation functions as a function of matter density. We find confined and deconfined phases, charge density waves, correlated insulators, and supersolids.
翻訳日:2024-07-01 18:22:04 公開日:2024-06-27
# ワッサーシュタイン距離におけるインスタンス・最適プライベート密度推定

Instance-Optimal Private Density Estimation in the Wasserstein Distance ( http://arxiv.org/abs/2406.19566v1 )

ライセンス: Link先を確認
Vitaly Feldman, Audra McMillan, Satchit Sivakumar, Kunal Talwar, (参考訳) サンプルから分布の密度を推定することは統計学の基本的な問題である。 多くの実践的な設定において、ワッサーシュタイン距離は密度推定の適切な誤差計量である。 例えば、地理的領域における人口密度を推定する場合、小さなワッサーシュタイン距離は、推定値が人口質量のほぼどこにあるかを把握することができることを意味する。 本研究ではワッサーシュタイン距離における個人密度の差分推定について検討する。 この問題に対して、簡単なインスタンスに適応可能なインスタンス最適化アルゴリズムを設計し、分析する。 P$ over $\mathbb{R}$ に対して、インスタンス最適化率を均一に達成するアルゴリズムは、ある分布に対して、確率密度関数 (pdf) が $P$ の pdf の 2 倍の範囲内であるような$P$ または $Q_P$ であることを示すアルゴリズムと競合する。 $\mathbb{R}^2$ 上の分布に対しては、インスタンス最適性という別の概念を用いる。 分布密度の定数乗算近似が与えられるアルゴリズムと競合する場合、アルゴリズムはインスタンス最適化であると述べる。 これら2つの設定のインスタンス-最適推定速度を特徴付けるとともに、それらが一様達成可能であることを示す(多言語的要因まで)。 我々の $\mathbb{R}^2$ に対するアプローチは、階層的に分離された木を通る任意の距離空間に拡張する。 特別の場合として,本研究の結果は,個別分布におけるテレビ距離のインスタンス最適プライベートラーニングに繋がる。

Estimating the density of a distribution from samples is a fundamental problem in statistics. In many practical settings, the Wasserstein distance is an appropriate error metric for density estimation. For example, when estimating population densities in a geographic region, a small Wasserstein distance means that the estimate is able to capture roughly where the population mass is. In this work we study differentially private density estimation in the Wasserstein distance. We design and analyze instance-optimal algorithms for this problem that can adapt to easy instances. For distributions $P$ over $\mathbb{R}$, we consider a strong notion of instance-optimality: an algorithm that uniformly achieves the instance-optimal estimation rate is competitive with an algorithm that is told that the distribution is either $P$ or $Q_P$ for some distribution $Q_P$ whose probability density function (pdf) is within a factor of 2 of the pdf of $P$. For distributions over $\mathbb{R}^2$, we use a different notion of instance optimality. We say that an algorithm is instance-optimal if it is competitive with an algorithm that is given a constant-factor multiplicative approximation of the density of the distribution. We characterize the instance-optimal estimation rates in both these settings and show that they are uniformly achievable (up to polylogarithmic factors). Our approach for $\mathbb{R}^2$ extends to arbitrary metric spaces as it goes via hierarchically separated trees. As a special case our results lead to instance-optimal private learning in TV distance for discrete distributions.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-27
# SoraのようなAI生成ビデオの検出には何が重要か?

What Matters in Detecting AI-Generated Videos like Sora? ( http://arxiv.org/abs/2406.19568v1 )

ライセンス: Link先を確認
Chirui Chang, Zhengzhe Liu, Xiaoyang Lyu, Xiaojuan Qi, (参考訳) 近年の拡散型ビデオ生成の進歩は顕著な成果を上げているが, 合成ビデオと実世界のビデオの差は未探索のままである。 本研究では、このギャップを外観、動き、幾何学の3つの基本的な視点から検討し、現状のAIモデルであるStable Video Diffusionによって生成された実世界の映像と比較する。 これを実現するために、3つの分類器を3次元畳み込みネットワークを用いて訓練し、それぞれが視覚基盤モデルの特徴、運動の光学フロー、幾何学の単眼深度といった異なる側面を目標としている。 各分類器は、質的にも定量的にも、偽のビデオ検出において強い性能を示す。 これは、AIが生成したビデオは依然として容易に検出でき、実際のビデオと偽のビデオの間に大きなギャップが持続していることを示している。 さらに、Grad-CAMを利用することで、外観、動き、幾何学におけるAI生成ビデオの系統的な失敗を指摘できる。 最後に,疑似ビデオ検出のための外観,光学的流れ,深度情報を統合したEnsemble-of-Expertsモデルを提案する。 我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。 これは、実写と偽写のギャップが、様々なビデオ生成モデルにまたがって一般化できることを示唆している。 プロジェクトページ: https://justin-crchang.github.io/3DCNNDetection.github.io/

Recent advancements in diffusion-based video generation have showcased remarkable results, yet the gap between synthetic and real-world videos remains under-explored. In this study, we examine this gap from three fundamental perspectives: appearance, motion, and geometry, comparing real-world videos with those generated by a state-of-the-art AI model, Stable Video Diffusion. To achieve this, we train three classifiers using 3D convolutional networks, each targeting distinct aspects: vision foundation model features for appearance, optical flow for motion, and monocular depth for geometry. Each classifier exhibits strong performance in fake video detection, both qualitatively and quantitatively. This indicates that AI-generated videos are still easily detectable, and a significant gap between real and fake videos persists. Furthermore, utilizing the Grad-CAM, we pinpoint systematic failures of AI-generated videos in appearance, motion, and geometry. Finally, we propose an Ensemble-of-Experts model that integrates appearance, optical flow, and depth information for fake video detection, resulting in enhanced robustness and generalization ability. Our model is capable of detecting videos generated by Sora with high accuracy, even without exposure to any Sora videos during training. This suggests that the gap between real and fake videos can be generalized across various video generative models. Project page: https://justin-crchang.github.io/3DCNNDetection.github.io/
翻訳日:2024-07-01 18:10:10 公開日:2024-06-27
# 合成癌-LLMで悪を増す

Synthetic Cancer -- Augmenting Worms with LLMs ( http://arxiv.org/abs/2406.19570v1 )

ライセンス: Link先を確認
Benjamin Zimmerman, David Zollikofer, (参考訳) ますます洗練された大規模言語モデル(LLM)によって、乱用の可能性は大きく上昇する。 スイスAI安全賞(Swiss AI Safety Prize)への提出として、2つの主要なプロセスにLLMを利用する新しいタイプの変成マルウェアを提案する。 第一に、LSMは、アンチマルウェアプログラムによるシグネチャベースの検出を避けるために、自動コード書き換えに使用される。 マルウェアはLLMを利用して電子メールの返信をソーシャルにエンジニアリングし、受信者にマルウェアの実行を促す。 私たちの提出書類には、LLMがサイバーセキュリティにもたらすリスクを強調し、インテリジェントなマルウェアのさらなる研究の必要性を強調する機能的最小限のプロトタイプが含まれています。

With increasingly sophisticated large language models (LLMs), the potential for abuse rises drastically. As a submission to the Swiss AI Safety Prize, we present a novel type of metamorphic malware leveraging LLMs for two key processes. First, LLMs are used for automatic code rewriting to evade signature-based detection by antimalware programs. The malware then spreads its copies via email by utilizing an LLM to socially engineer email replies to encourage recipients to execute the attached malware. Our submission includes a functional minimal prototype, highlighting the risks that LLMs pose for cybersecurity and underscoring the need for further research into intelligent malware.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-27
# ソーシャルメディアフィードのランク付け:フィールド実験の実践的ガイド

Reranking Social Media Feeds: A Practical Guide for Field Experiments ( http://arxiv.org/abs/2406.19571v1 )

ライセンス: Link先を確認
Tiziano Piccardi, Martin Saveski, Chenyan Jia, Jeffrey Hancock, Jeanne L. Tsai, Michael S. Bernstein, (参考訳) ソーシャルメディアは、世論や行動を形成する上で中心的な役割を担っているが、これらのプラットフォーム、特にフィードアルゴリズムの実験はますます困難になりつつある。 本稿では,ソーシャルメディアフィードのリアルタイム再ランク付けに着目したフィールド実験の開発と展開を行う研究者に対して,実践的な勧告を行う。 この記事は2つのコントリビューションを中心に整理されている。 まず、リアルタイムにコンテンツをインターセプトし、再ランクするWebブラウザエクステンションを用いた実験手法について概説し、自然主義的な再ランクフィールド実験を可能にする。 次に,このパラダイムがソーシャルメディアプラットフォームへの関与を必要とせず,参加者の実際のフィードに有効であるフィード介入と測定について述べる。 第二に、ソーシャルメディアフィードを最小限の遅延でインターセプトし、再ランク付けするための具体的な技術的勧告を提供し、オープンソース実装を提供する。 本文書は、学習した教訓を要約し、具体的実装の詳細を提供し、独立したソーシャルメディア研究のエコシステムを育むことを目的としている。

Social media plays a central role in shaping public opinion and behavior, yet performing experiments on these platforms and, in particular, on feed algorithms is becoming increasingly challenging. This article offers practical recommendations to researchers developing and deploying field experiments focused on real-time re-ranking of social media feeds. This article is organized around two contributions. First, we overview an experimental method using web browser extensions that intercepts and re-ranks content in real-time, enabling naturalistic re-ranking field experiments. We then describe feed interventions and measurements that this paradigm enables on participants' actual feeds, without requiring the involvement of social media platforms. Second, we offer concrete technical recommendations for intercepting and re-ranking social media feeds with minimal user-facing delay, and provide an open-source implementation. This document aims to summarize lessons learned, provide concrete implementation details, and foster the ecosystem of independent social media research.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-27
# ベクトル自己回帰モデルにおける非現実的干渉について

On Counterfactual Interventions in Vector Autoregressive Models ( http://arxiv.org/abs/2406.19573v1 )

ライセンス: Link先を確認
Kurt Butler, Marija Iloska, Petar M. Djuric, (参考訳) 因果推論は、私たちの決定の影響を説明するために仮説的なシナリオを探索することを可能にする。 しかし、適切な数学的枠組みを確立することなく、そのような問いに対処することは不可能である。 本稿では,ベクトル自己回帰(VAR)プロセスの文脈における反実的推論の問題を紹介する。 また, 因果モデルの推論を連立回帰タスクとして定式化し, データの相互利用と介入なしの推論を行う。 モデル学習後、VARモデルの線形性を利用して、対実的介入の効果を正確に予測する。 さらに,過去の対実的介入の因果効果の定量化を行った。 このプロジェクトのソースコードはhttps://github.com/KurtButler/counterfactual_interventionsで無償公開されている。

Counterfactual reasoning allows us to explore hypothetical scenarios in order to explain the impacts of our decisions. However, addressing such inquires is impossible without establishing the appropriate mathematical framework. In this work, we introduce the problem of counterfactual reasoning in the context of vector autoregressive (VAR) processes. We also formulate the inference of a causal model as a joint regression task where for inference we use both data with and without interventions. After learning the model, we exploit linearity of the VAR model to make exact predictions about the effects of counterfactual interventions. Furthermore, we quantify the total causal effects of past counterfactual interventions. The source code for this project is freely available at https://github.com/KurtButler/counterfactual_interventions.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-27
# 細菌バイオフィルムの高密度3次元顕微鏡映像における細胞追跡のための深部時間配列分類と数学的モデリング

Deep Temporal Sequence Classification and Mathematical Modeling for Cell Tracking in Dense 3D Microscopy Videos of Bacterial Biofilms ( http://arxiv.org/abs/2406.19574v1 )

ライセンス: Link先を確認
Tanjin Taher Toma, Yibo Wang, Andreas Gahlmann, Scott T. Acton, (参考訳) 密集した環境での自動細胞追跡は、不正確な対応と親子関係の誤同定に悩まされている。 本稿では,DenseTrackという新しいセル追跡アルゴリズムを提案する。これはディープラーニングと数学的モデルに基づく戦略を統合し,連続するフレーム間の対応を効果的に確立し,混雑したシナリオにおけるセル分割イベントを検出する。 深層学習に基づく時間系列分類タスクとしてセルトラッキング問題を定式化し、次いで分類器の信頼性スコアを利用した制約付き1対1のマッチング最適化問題を解く。 さらに, 細胞形状の知識を活かした固有分解に基づく細胞分裂検出戦略を提案する。 提案手法の性能評価は,細菌バイオフィルム開発における3次元タイムラプス画像シーケンスで高密度に充填された細胞を追跡することによって行われている。 シミュレーションおよび実験的な蛍光画像系列に関する実験結果から,提案手法は最近の最先端の細胞追跡手法と比較して,定性的,定量的評価の両面で優れた性能を発揮することが示唆された。

Automatic cell tracking in dense environments is plagued by inaccurate correspondences and misidentification of parent-offspring relationships. In this paper, we introduce a novel cell tracking algorithm named DenseTrack, which integrates deep learning with mathematical model-based strategies to effectively establish correspondences between consecutive frames and detect cell division events in crowded scenarios. We formulate the cell tracking problem as a deep learning-based temporal sequence classification task followed by solving a constrained one-to-one matching optimization problem exploiting the classifier's confidence scores. Additionally, we present an eigendecomposition-based cell division detection strategy that leverages knowledge of cellular geometry. The performance of the proposed approach has been evaluated by tracking densely packed cells in 3D time-lapse image sequences of bacterial biofilm development. The experimental results on simulated as well as experimental fluorescence image sequences suggest that the proposed tracking method achieves superior performance in terms of both qualitative and quantitative evaluation measures compared to recent state-of-the-art cell tracking approaches.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-27
# PathAlign: 病理組織学における全スライド画像の視覚言語モデル

PathAlign: A vision-language model for whole slide images in histopathology ( http://arxiv.org/abs/2406.19578v1 )

ライセンス: Link先を確認
Faruk Ahmed, Andrew Sellergren, Lin Yang, Shawn Xu, Boris Babenko, Abbi Ward, Niels Olson, Arash Mohtashamian, Yossi Matias, Greg S. Corrado, Quang Duong, Dale R. Webster, Shravya Shetty, Daniel Golden, Yun Liu, David F. Steiner, Ellery Wulczyn, (参考訳) 病理組織像の顕微鏡的解釈は、多くの重要な診断と治療の決定の根底にある。 視覚言語モデリングの進歩は、そのような画像の分析に新たな機会をもたらす一方で、スライド画像全体(WSI)のギガピクセル規模のサイズは、ユニークな課題をもたらす。 さらに、病理報告では、小さな領域からの重要な発見を同時に強調するとともに、複数のスライドにまたがる解釈を集約することで、堅牢な画像テキストペアの作成が困難になることが多い。 このように、病理報告は計算病理学におけるほとんど未解決の監督源であり、ほとんどの取り組みはパッチレベルでの領域のアノテーションや自己監督に依存している。 本研究では, BLIP-2フレームワークをベースとした視覚言語モデルを開発した。 これにより、関心のあるケースを見つけるためにテキストや画像検索などの共有画像テキスト埋め込みスペースを利用するアプリケーションや、WSIエンコーダと、レポート生成やAI-in-the-loopインタラクションなどのWSIベースの生成テキスト機能のための凍結された大言語モデル(LLM)との統合が可能になる。 350,000以上のWSIと診断テキストペアの非同定データセットを使用し、幅広い診断、処置タイプ、組織タイプにまたがる。 本稿では,WSI 埋め込みを用いたテキスト生成とテキスト検索の病理学者による評価と,WSI 分類とワークフロー優先化(スライディングレベルトリアージ)の結果について述べる。 WSIsのモデル生成テキストは,WSIsの平均値の78%に対して,臨床的に有意な誤りや欠落を伴わず,病理医によって正確であると評価された。 この作業は、言語対応のWSI埋め込みのエキサイティングな可能性を示しています。

Microscopic interpretation of histopathology images underlies many important diagnostic and treatment decisions. While advances in vision-language modeling raise new opportunities for analysis of such images, the gigapixel-scale size of whole slide images (WSIs) introduces unique challenges. Additionally, pathology reports simultaneously highlight key findings from small regions while also aggregating interpretation across multiple slides, often making it difficult to create robust image-text pairs. As such, pathology reports remain a largely untapped source of supervision in computational pathology, with most efforts relying on region-of-interest annotations or self-supervision at the patch-level. In this work, we develop a vision-language model based on the BLIP-2 framework using WSIs paired with curated text from pathology reports. This enables applications utilizing a shared image-text embedding space, such as text or image retrieval for finding cases of interest, as well as integration of the WSI encoder with a frozen large language model (LLM) for WSI-based generative text capabilities such as report generation or AI-in-the-loop interactions. We utilize a de-identified dataset of over 350,000 WSIs and diagnostic text pairs, spanning a wide range of diagnoses, procedure types, and tissue types. We present pathologist evaluation of text generation and text retrieval using WSI embeddings, as well as results for WSI classification and workflow prioritization (slide-level triaging). Model-generated text for WSIs was rated by pathologists as accurate, without clinically significant error or omission, for 78% of WSIs on average. This work demonstrates exciting potential capabilities for language-aligned WSI embeddings.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-27
# プライベートゼロ階非平滑非凸最適化

Private Zeroth-Order Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2406.19579v1 )

ライセンス: Link先を確認
Qinzi Zhang, Hoang Tran, Ashok Cutkosky, (参考訳) 非凸および非滑らかな目的に対するプライベート確率最適化のための新しいゼロ階アルゴリズムを提案する。 M$のデータセットが与えられた場合、我々のアルゴリズムは$(\alpha,\alpha\rho^2/2)$-R\enyi差分プライバシーを保証し、$(\delta,\epsilon)$-stationary pointを$M=\tilde\Omega\left(\frac{d}{\delta\epsilon^3} + \frac{d^{3/2}}{\rho\delta\epsilon^2}\right)$とすると$(\delta,\epsilon)$-stationary pointを見つける。 これは、その非プライベートなゼロ階アナログの最適複雑性と一致する。 特に、目的はスムーズではありませんが、$\rho \ge \sqrt{d}\epsilon$.sqrt{d}\epsilon$.sqrt{d}" のとき、プライバシーは ``for free'' になります。

We introduce a new zeroth-order algorithm for private stochastic optimization on nonconvex and nonsmooth objectives. Given a dataset of size $M$, our algorithm ensures $(\alpha,\alpha\rho^2/2)$-R\'enyi differential privacy and finds a $(\delta,\epsilon)$-stationary point so long as $M=\tilde\Omega\left(\frac{d}{\delta\epsilon^3} + \frac{d^{3/2}}{\rho\delta\epsilon^2}\right)$. This matches the optimal complexity of its non-private zeroth-order analog. Notably, although the objective is not smooth, we have privacy ``for free'' whenever $\rho \ge \sqrt{d}\epsilon$.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-27
# 問題空間における敵ML攻撃の誘引特性 [拡張版]

Intriguing Properties of Adversarial ML Attacks in the Problem Space [Extended Version] ( http://arxiv.org/abs/1911.02142v3 )

ライセンス: Link先を確認
Jacopo Cortellazzi, Feargus Pendlebury, Daniel Arp, Erwin Quiring, Fabio Pierazzi, Lorenzo Cavallaro, (参考訳) 近年の機械学習(ML)研究は、画像とは異なり、特徴空間への明確な逆マッピング(ソフトウェアなど)が存在しない領域において、実際の回避対象の生成に焦点を当て、問題空間攻撃を調査している。 しかし、問題空間攻撃の設計、比較、現実的な意味はいまだに未解明のままである。 この記事では3つの大きな貢献をします。 まず、問題空間における敵ML回避攻撃の一般的な形式化を提案し、利用可能な変換、保存されたセマンティクス、欠落したアーティファクト、そして妥当性に関する包括的な制約セットの定義を含む。 我々は,特徴空間と問題空間の関係に光を当て,逆特徴マッピング問題の副産物として副作用特徴の概念を導入する。 これにより、問題空間攻撃の存在に必要かつ十分な条件を定義し、証明することができる。 第2に,我々の一般的なフォーマル化に基づいて,セマンティクスやアーティファクトの観点から過去の制限を克服した,Androidマルウェアに対する新たな問題空間攻撃を提案する。 我々は、2016年と2018年の1万5000のAndroidアプリによるデータセットで、我々のアプローチをテストした。 第3に,異なるシナリオ下で検討された機械学習モデルにおいて,敵のサンプルに対して頑健性を強制する可能なアプローチとして,敵のトレーニングの有効性について検討する。 我々の結果は、"サービスとしての敵対的マルウェア(adversarial-malware as a service)"が現実的な脅威であることを示している。

Recent research efforts on adversarial machine learning (ML) have investigated problem-space attacks, focusing on the generation of real evasive objects in domains where, unlike images, there is no clear inverse mapping to the feature space (e.g., software). However, the design, comparison, and real-world implications of problem-space attacks remain underexplored. This article makes three major contributions. Firstly, we propose a general formalization for adversarial ML evasion attacks in the problem-space, which includes the definition of a comprehensive set of constraints on available transformations, preserved semantics, absent artifacts, and plausibility. We shed light on the relationship between feature space and problem space, and we introduce the concept of side-effect features as the by-product of the inverse feature-mapping problem. This enables us to define and prove necessary and sufficient conditions for the existence of problem-space attacks. Secondly, building on our general formalization, we propose a novel problem-space attack on Android malware that overcomes past limitations in terms of semantics and artifacts. We have tested our approach on a dataset with 150K Android apps from 2016 and 2018 which show the practical feasibility of evading a state-of-the-art malware classifier along with its hardened version. Thirdly, we explore the effectiveness of adversarial training as a possible approach to enforce robustness against adversarial samples, evaluating its effectiveness on the considered machine learning models under different scenarios. Our results demonstrate that "adversarial-malware as a service" is a realistic threat, as we automatically generate thousands of realistic and inconspicuous adversarial applications at scale, where on average it takes only a few minutes to generate an adversarial instance.
翻訳日:2024-07-01 12:18:29 公開日:2024-06-27
# 量子計測結果の射影率と値再現性

Intersubjectivity and value reproducibility of outcomes of quantum measurements ( http://arxiv.org/abs/1911.10893v4 )

ライセンス: Link先を確認
Masanao Ozawa, (参考訳) それぞれの測定は結果として1つの値を決定するが、量子力学は確率的にのみ予測する。 コチェン=スペクターの定理とベルの不等式は、現実主義的見解を否定すると考えられているが、観測可能度を測定することは、それが持つ価値を確かめることではなく、個人的意味を持つ結果を生み出すことを意味するという懐疑的な見解を好む。 しかし、この見解を裏付ける正確な分析は分かっていない。 ここでは、量子力学的解析がこの見解を下方修正することを示す。 2人の観測者が同時に同じ観測可能度を測ると、それらが常に同じ結果が得られるのか、確率分布が同じであるのか、という疑問が浮き彫りになるが、結果は無関係である。 第2の見解を広く支持するのとは対照的に、量子力学は第1のケースのみが起こると予測する。 さらに,観測可能な観測値と測定後の測定値との間に時間的な絡み合いが成立し,異なる観測値間の空間的な絡み合いが生じることを示す。 また、我々の結論はいわゆる「一般化された」可観測物の測定にまで拡張できないことを示し、量子力学の基礎における可観測物の概念を再考する必要性を示唆している。

Every measurement determines a single value as its outcome, and yet quantum mechanics predicts it only probabilistically. The Kochen-Specker theorem and Bell's inequality are often considered to reject a realist view but favor a skeptical view that measuring an observable does not mean ascertaining the value that it has, but producing the outcome, having only a personal meaning. However, precise analysis supporting this view is unknown. Here, we show that a quantum mechanical analysis turns down this view. Supposing that two observers simultaneously measure the same observable, we can well pose the question as to whether they always obtain the same outcome, or whether the probability distributions are the same, but the outcomes are uncorrelated. Contrary to the widespread view in favor of the second, we shall show that quantum mechanics predicts that only the first case occurs. We further show that any measurement establishes a time-like entanglement between the observable to be measured and the meter after the measurement, which causes the space-like entanglement between the meters of different observers. We also show that our conclusion cannot be extended to measurements of so-called `generalized' observables, suggesting a demand for reconsidering the notion of observables in foundations of quantum mechanics.
翻訳日:2024-07-01 12:18:29 公開日:2024-06-27
# クロスコンフォーマルなe-prediction

Cross-conformal e-prediction ( http://arxiv.org/abs/2001.05989v2 )

ライセンス: Link先を確認
Vladimir Vovk, (参考訳) 本稿では,e値に関する最近の研究から着想を得た,クロスコンフォーマルな予測の簡単な修正について述べる。 1990年代にガマーマン、ヴァプニク、ヴォフクによって開発された共形予測の前駆体は e-値にも基づき、このノートでは共形e-述語と呼ばれる。 p-値によるe値の置き換えは共形予測を導いており、これは明らかな欠点を伴わない共形e値よりも重要な優位性を持つ。 クロスコンフォーマル予測の妥当性は経験的事実に過ぎず(過度なランダム化で損なわれる可能性がある)、このメモはクロスコンフォーマルなe-Predictionが有効性の保証された性質を享受しているという明らかな事実に読者の注意を惹きつける。

This note discusses a simple modification of cross-conformal prediction inspired by recent work on e-values. The precursor of conformal prediction developed in the 1990s by Gammerman, Vapnik, and Vovk was also based on e-values and is called conformal e-prediction in this note. Replacing e-values by p-values led to conformal prediction, which has important advantages over conformal e-prediction without obvious disadvantages. The situation with cross-conformal prediction is, however, different: whereas for cross-conformal prediction validity is only an empirical fact (and can be broken with excessive randomization), this note draws the reader's attention to the obvious fact that cross-conformal e-prediction enjoys a guaranteed property of validity.
翻訳日:2024-07-01 12:18:29 公開日:2024-06-27
# 一般化多重粒子エントロピー不確かさ関係の実験的検討

Experimental test of generalized multipartite entropic uncertainty relations ( http://arxiv.org/abs/2207.12693v2 )

ライセンス: Link先を確認
Zhao-An Wang, Bo-Fu Xie, Fei Ming, Yi-Tao Wang, Dong Wang, Yu Meng, Zheng-Hao Liu, Jian-Shun Tang, Liu Ye, Chuan-Feng Li, Guang-Can Guo, Sabre Kais, (参考訳) エントロピック不確実性関係 (EUR) は、情報理論の観点から量子力学の本質的不確実性の制限を定式化する。 不確実性関係に対するより低い境界は、量子通信プロトコルに対する情報理論のセキュリティを提供することができる。 近年,任意の多体系における可観測物の測定のための一般化されたEUR (GEUR) が定式化されている。 ここでは,このGEURを制御可能なデコヒーレンスチャネルを持つ4光子絡み状態を用いて実験的に検証し,三部構造の場合,GEURがRenes-Boileauの有名な結果からエントロピー境界を改善することを示す。 応用として、GEURの量子鍵分布におけるセキュアな鍵レートの改善を示す。 この結果は、EURの試験を多部構造に拡張し、実用的な量子暗号処理に応用できる可能性がある。

Entropic uncertainty relation (EUR) formulates the restriction of the inherent uncertainty of quantum mechanics from the information-theoretic perspective. A tighter lower bound for uncertainty relations can provide information-theoretic security to quantum communication protocols. Recently, a generalized EUR (GEUR) for the measurement of multiple observables in arbitrary many-body systems has been formulated. Here, we experimentally test this GEUR using a four-photon entangled state with a controllable decoherence channel and show that for the tripartite scenario, the GEUR improves the entropic bound from Renes--Boileau's famous results. As an application, we further demonstrate an improvement of the secure key rate in quantum key distribution from the GEUR. Our results extend the test of EURs into multipartite regimes and may find applications in practical quantum cryptography tasks.
翻訳日:2024-07-01 12:18:29 公開日:2024-06-27
# Meta-GCN:グラフニューラルネットワークにおけるデータ不均衡処理のための動的軽量損失最小化手法

Meta-GCN: A Dynamically Weighted Loss Minimization Method for Dealing with the Data Imbalance in Graph Neural Networks ( http://arxiv.org/abs/2406.17073v2 )

ライセンス: Link先を確認
Mahdi Mohammadizadeh, Arash Mozhdehi, Yani Ioannou, Xin Wang, (参考訳) 病気の予測や障害検出といった現実世界の多くの応用はクラス不均衡に悩まされているが、既存のグラフベースの分類手法はクラス分布の歪さを無視しているため、大多数のクラス(es)に偏っている傾向にある。 通常、従来の手法では、損失関数に基づいて各クラスサンプルに重みを割り当てることでこの問題に対処する。 本稿では, メタデータ集合の損失を最小化し, モデル重みを最小化することにより, サンプル重みを適応的に学習するメタGCNというメタ学習アルゴリズムを提案する。 実験により,Meta-GCNは,最先端のフレームワークや他のベースライン,受信動作特性(AUC-ROC)曲線下の領域,および2つの異なるデータセットの分類タスクに対するマクロF1-Scoreよりも優れていることを示した。

Although many real-world applications, such as disease prediction, and fault detection suffer from class imbalance, most existing graph-based classification methods ignore the skewness of the distribution of classes; therefore, tend to be biased towards the majority class(es). Conventional methods typically tackle this problem through the assignment of weights to each one of the class samples based on a function of their loss, which can lead to over-fitting on outliers. In this paper, we propose a meta-learning algorithm, named Meta-GCN, for adaptively learning the example weights by simultaneously minimizing the unbiased meta-data set loss and optimizing the model weights through the use of a small unbiased meta-data set. Through experiments, we have shown that Meta-GCN outperforms state-of-the-art frameworks and other baselines in terms of accuracy, the area under the receiver operating characteristic (AUC-ROC) curve, and macro F1-Score for classification tasks on two different datasets.
翻訳日:2024-07-01 11:00:13 公開日:2024-06-27
# 『フォルベシュティ・ロマーネテ』? : 英語教育によるルーマニア語LLMの教育の試み

"Vorbeşti Româneşte?" A Recipe to Train Powerful Romanian LLMs with English Instructions ( http://arxiv.org/abs/2406.18266v2 )

ライセンス: Link先を確認
Mihai Masala, Denis C. Ilie-Ablachim, Alexandru Dima, Dragos Corlatescu, Miruna Zavelca, Ovio Olaru, Simina Terian, Andrei Terian, Marius Leordeanu, Horia Velicu, Marius Popescu, Mihai Dascalu, Traian Rebedea, (参考訳) 近年、LLM(Large Language Models)は、様々なタスクにおいて、ほぼ人間のようなパフォーマンスを実現している。 一部のLSMは多言語データで訓練されているが、トレーニングデータの大部分は英語であり、英語のパフォーマンスは他の言語よりもはるかに優れている。 我々の知る限り、我々はルーマニア語用にカスタマイズされたオープンソースのLLMを収集し、翻訳し、訓練し、評価し、リリースしました。 我々は学術ベンチマーク、MT-Bench(マニュアル翻訳)、ルーマニア語に適応した専門的な歴史的、文化的、社会的なベンチマークを含む4つのカテゴリで手法を評価した。 我々は,RoLLMsの有用性と高い性能について,各ボードにまたがって最先端の結果を得ることによって論じる。 我々は、すべてのリソース(データ、トレーニング、評価コード、モデル)を公開して、ルーマニアのLCMの研究を支援し、奨励するとともに、他の低あるいは低リソースの言語に適した一般的なレシピを同時に作成します。

In recent years, Large Language Models (LLMs) have achieved almost human-like performance on various tasks. While some LLMs have been trained on multilingual data, most of the training data is in English; hence, their performance in English greatly exceeds other languages. To our knowledge, we are the first to collect and translate a large collection of texts, instructions, and benchmarks and train, evaluate, and release open-source LLMs tailored for Romanian. We evaluate our methods on four different categories, including academic benchmarks, MT-Bench (manually translated), and a professionally built historical, cultural, and social benchmark adapted to Romanian. We argue for the usefulness and high performance of RoLLMs by obtaining state-of-the-art results across the board. We publicly release all resources (i.e., data, training and evaluation code, models) to support and encourage research on Romanian LLMs while concurrently creating a generalizable recipe, adequate for other low or less-resourced languages.
翻訳日:2024-07-01 11:00:13 公開日:2024-06-27
# サンドウィッチ・レニ・ディバージェンスによる量子情報デカップリングの信頼性機能

Reliability Function of Quantum Information Decoupling via the Sandwiched Rényi Divergence ( http://arxiv.org/abs/2111.06343v3 )

ライセンス: Link先を確認
Ke Li, Yongsheng Yao, (参考訳) 量子情報デカップリングは基本的な量子情報処理タスクであり、量子物理学におけるトピックの多様性において重要なツールとしても機能する。 本稿では, 触媒量子情報のデカップリングの信頼性, すなわち, 完全デカップリングが漸近的に接近する最良の指数速度を特徴付ける。 分離コストが臨界値以下である場合に、正確な公式を得ることができた。 高いコストの状況では、有意義な上限と下限を提供する。 この結果は量子状態のマージに応用され、デカップリングに固有の接続を利用する。 さらに, 技術的ツールとして, 条件最小エントロピーと最大情報平滑化の正確な指数を導出し, 凸分割補題の新規な境界を証明した。 我々の結果はサンドイッチ化されたR\'enyi分散の観点で与えられ、量子情報タスクのパフォーマンスが完璧に近づく速さを特徴付ける新しいタイプの操作的意味を提供する。

Quantum information decoupling is a fundamental quantum information processing task, which also serves as a crucial tool in a diversity of topics in quantum physics. In this paper, we characterize the reliability function of catalytic quantum information decoupling, that is, the best exponential rate under which perfect decoupling is asymptotically approached. We have obtained the exact formula when the decoupling cost is below a critical value. In the situation of high cost, we provide meaningful upper and lower bounds. This result is then applied to quantum state merging, exploiting its inherent connection to decoupling. In addition, as technical tools, we derive the exact exponents for the smoothing of the conditional min-entropy and max-information, and we prove a novel bound for the convex-split lemma. Our results are given in terms of the sandwiched R\'enyi divergence, providing it with a new type of operational meaning in characterizing how fast the performance of quantum information tasks approaches the perfect.
翻訳日:2024-06-29 00:27:56 公開日:2024-06-27
# 絡み合い支援通信のための強 Converse Exponent

Strong Converse Exponent for Entanglement-Assisted Communication ( http://arxiv.org/abs/2209.00555v3 )

ライセンス: Link先を確認
Ke Li, Yongsheng Yao, (参考訳) 量子チャネルのエンタングルメント支援型古典的通信のための正確な強い逆指数を決定する。 我々の主な貢献は、サンドイッチされたR'enyiの発散によって特徴づけられる強い逆指数の上限の導出である。 この上限は Gupta と Wilde の下限と一致する(Math. Phys. 334:867-887, 2015)。 したがって、強い逆指数はこれらの2つの境界の組み合わせから従う。 私たちの結果は2つの意味を持つ。 第一に、量子フィードバック支援古典通信の強い逆性に対する指数的境界(Cooney, Mosonyi and Wilde (Commun. Math. Phys. 344:797-829, 2016)は最適である。 これは彼らの肯定的な疑問に答える。 したがって、この問題に対する厳密な逆指数も決定できた。 第二に、Lung と Matthews の観測により、エンタングルメントや量子フィードバックの助けを借りて量子情報の伝達に容易に対応でき、同様の結果が得られる。 上記の結果は、チャネルのサンドイッチ化されたR'enyi情報に対して初めて、$\alpha > 1$の完全な操作解釈を提供する。

We determine the exact strong converse exponent for entanglement-assisted classical communication of a quantum channel. Our main contribution is the derivation of an upper bound for the strong converse exponent which is characterized by the sandwiched R\'enyi divergence. It turns out that this upper bound coincides with the lower bound of Gupta and Wilde (Commun. Math. Phys. 334:867-887, 2015). Thus, the strong converse exponent follows from the combination of these two bounds. Our result has two implications. Firstly, it implies that the exponential bound for the strong converse property of quantum-feedback-assisted classical communication, derived by Cooney, Mosonyi and Wilde (Commun. Math. Phys. 344:797-829, 2016), is optimal. This answers their open question in the affirmative. Hence, we have determined the exact strong converse exponent for this problem as well. Secondly, due to an observation of Leung and Matthews, it can be easily extended to deal with the transmission of quantum information under the assistance of entanglement or quantum feedback, yielding similar results. The above findings provide, for the first time, a complete operational interpretation to the channel's sandwiched R\'enyi information of order $\alpha > 1$.
翻訳日:2024-06-29 00:27:56 公開日:2024-06-27
# SoK: 自己主権のアイデンティティを信頼する

SoK: Trusting Self-Sovereign Identity ( http://arxiv.org/abs/2404.06729v2 )

ライセンス: Link先を確認
Evan Krul, Hye-young Paik, Sushmita Ruj, Salil S. Kanhere, (参考訳) デジタルアイデンティティは、中央集権システムから、SSI(Self-Sovereign Identity)と呼ばれる分散アプローチへと進化している。 SSIは、個人にデジタルIDを制御させ、サードパーティのデータカストディアへの依存を排除し、データ漏洩のリスクを低減する。 しかし、SSIに対する信頼の概念は依然として複雑で断片化されている。 本稿では,システム内の様々なアクターが引き起こすコンポーネントや脅威に照らして,SSIに対する信頼度を体系的に分析する。 その結果、SSI文献や実装で特定された脅威や軽減をキャプチャする3つの異なる信頼モデルが導出された。 我々の研究は、SSI研究・開発のための基盤となるフレームワークを提供し、SSIコンポーネントの包括的カタログ、信頼のための設計要件、既存のSSIシステムにおける欠点、さらなる探索のための領域を提供する。

Digital identity is evolving from centralized systems to a decentralized approach known as Self-Sovereign Identity (SSI). SSI empowers individuals to control their digital identities, eliminating reliance on third-party data custodians and reducing the risk of data breaches. However, the concept of trust in SSI remains complex and fragmented. This paper systematically analyzes trust in SSI in light of its components and threats posed by various actors in the system. As a result, we derive three distinct trust models that capture the threats and mitigations identified across SSI literature and implementations. Our work provides a foundational framework for future SSI research and development, including a comprehensive catalogue of SSI components and design requirements for trust, shortcomings in existing SSI systems and areas for further exploration.
翻訳日:2024-06-29 00:27:55 公開日:2024-06-27
# スマートグリッドにおける(雑音に基づく)動的透かしの簡易き裂き

Simple Cracking of (Noise-Based) Dynamic Watermarking in Smart Grids ( http://arxiv.org/abs/2406.15494v2 )

ライセンス: Link先を確認
Mehmet Yildirim, Nasir Kenarangui, Robert Balog, Laszlo B. Kish, Chanan Singh, (参考訳) ディジタルツインの概念的アプローチを用いた従来の研究は、(ノイズベースの)動的透かしがスマートグリッドシステムにおいて無条件のセキュリティを提供することができないことを示した。 しかし、デジタルツインの実装は、重要なインフラ上の限られたデータのために、費用がかからない、あるいは不可能である可能性がある。 本研究では,動的透かしとその関連プロトコルのスペクトル特性をまず分析する。 その後,デジタルツイン法に着想を得て,グリッドノイズを抽出・利用し,電子透かし信号の知識を必要とせずに動的透かしの安全性を完全に破壊する手法を提案する。 攻撃者は、コントローラによる検出を回避しながら、グリッドを完全に公開することができる。 その結果,安全で認証された通信がなければ,動的透かしは条件付き・無条件のセキュリティを提供しないことがわかった。 逆に、通信回線、センサ、通信装置がタンパーに耐性があり、セキュアで認証されたリンクを備えている場合、動的透かしはグリッドセキュリティのために冗長となる。

Previous research employing a conceptual approach with a digital twin has demonstrated that (noise-based) dynamic watermarking is incapable of providing unconditional security in smart electrical grid systems. However, the implementation of digital twins can be prohibitively costly or infeasible due to limited available data on critical infrastructure. In this study, we first analyze the spectral properties of dynamic watermarking and its associated protocol. Subsequently, we present a straightforward attack inspired by the digital twin method, which extracts and utilizes the grid noises and completely breaches the security of dynamic watermarking without requiring knowledge of the private watermarking signal. The attacker can fully expose the grid while evading detection by the controller. Our findings indicate that in the absence of secure and authenticated communications, dynamic watermarking offers neither conditional nor unconditional security. Conversely, when communication lines, sensors, and communicators are equipped with tamper-resistant and secure/authenticated links, dynamic watermarking becomes redundant for grid security.
翻訳日:2024-06-29 00:27:55 公開日:2024-06-27
# 安定化器グラフ符号を用いたエンジニアリングホログラフィー

Engineering holography with stabilizer graph codes ( http://arxiv.org/abs/2209.08954v2 )

ライセンス: Link先を確認
Gerard Anglès Munné, Valentin Kasper, Felix Huber, (参考訳) ホログラフィック符号の発見は、量子誤差補正と反ド・ジッター・コンフォーマル場理論の対応の驚くべき関係を確立した。 人工量子システムの最近の技術進歩は、そのようなホログラフィック符号が現在到達範囲内にある実験的な実現をもたらす。 安定グラフ符号を用いて双曲五角形符号を定式化することにより、長距離相互作用を持つシステムに適合したゲート列を与える。 12量子ビットのホログラム符号の小さなインスタンスに注目する前に、双曲五角形符号の符号化と復号回路の取得方法を示す。 提案手法では, 部分復号化操作によりホログラフィック特性の検証が可能であり, 近傍境界からの一括的自由度を回復することができる。

The discovery of holographic codes established a surprising connection between quantum error correction and the anti-de Sitter-conformal field theory correspondence. Recent technological progress in artificial quantum systems renders the experimental realization of such holographic codes now within reach. Formulating the hyperbolic pentagon code in terms of a stabilizer graph code, we give gate sequences that are tailored to systems with long-range interactions. We show how to obtain encoding and decoding circuits for the hyperbolic pentagon code, before focusing on a small instance of the holographic code on twelve qubits. Our approach allows to verify holographic properties by partial decoding operations, recovering bulk degrees of freedom from their nearby boundary.
翻訳日:2024-06-28 20:41:09 公開日:2024-06-27
# クレディ・スコーリングとアンダーライティングにおける強化学習

Reinforcement Learning in Credit Scoring and Underwriting ( http://arxiv.org/abs/2212.07632v2 )

ライセンス: Link先を確認
Seksan Kiatsupaibul, Pakawan Chansiripas, Pojtanut Manopanjasiri, Kantapong Visantavarakul, Zheng Wen, (参考訳) 本稿では、一般化不可能な文脈課題に対処する信用引受けのための新しい強化学習(RL)フレームワークを提案する。 我々は、クレジットスコアリングにRL原則を適用し、アクションスペースの更新と複数選択のアクションを取り入れた。 我々の研究は、従来の下書きアプローチがRLの欲求戦略と一致していることを示しています。 より情報的な意思決定を可能にするために,新たに2つのRLベースのクレジットカード代入アルゴリズムを導入する。 シミュレーションは、データとモデルが整合するシナリオにおいて、これらの新しいアプローチが従来の手法より優れていることを示している。 しかし、複雑な状況はモデルの制限を強調し、最適なパフォーマンスのために強力な機械学習モデルの重要性を強調している。 将来の研究の方向性には、効率的な探索メカニズムとともにより洗練されたモデルを探究することが含まれる。

This paper proposes a novel reinforcement learning (RL) framework for credit underwriting that tackles ungeneralizable contextual challenges. We adapt RL principles for credit scoring, incorporating action space renewal and multi-choice actions. Our work demonstrates that the traditional underwriting approach aligns with the RL greedy strategy. We introduce two new RL-based credit underwriting algorithms to enable more informed decision-making. Simulations show these new approaches outperform the traditional method in scenarios where the data aligns with the model. However, complex situations highlight model limitations, emphasizing the importance of powerful machine learning models for optimal performance. Future research directions include exploring more sophisticated models alongside efficient exploration mechanisms.
翻訳日:2024-06-28 20:41:09 公開日:2024-06-27
# Heterophily-Aware Graph Attention Network

Heterophily-Aware Graph Attention Network ( http://arxiv.org/abs/2302.03228v2 )

ライセンス: Link先を確認
Junfu Wang, Yuanfang Guo, Liang Yang, Yunhong Wang, (参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習において顕著な成功を収めている。 残念ながら、ノード次数やペアワイズ表現に基づく計算のような標準GNNの現在の重み付けスキームは、接続ノードが通常異なるラベルや特徴を持つヘテロフィリーでネットワークを処理するのに効果的ではない。 既存のヘテロフィル性GNNは、各エッジのヘテロフィリのモデリングを無視する傾向にあり、これはヘテロフィリ問題に取り組む上でも不可欠である。 本稿では,まず,辺をヘテロフィリックにモデル化することの利点を明らかにする。すなわち,GNNが異なる辺に異なる重みをヘテロフィリックなタイプに応じて割り当てる場合,ノードが各辺から適切な情報を取得できるような,効果的な局所的注意パターンを学習することができる。 そこで我々は,局所分布をヘテロフィリーとして完全に探索し,その基礎となるヘテロフィリーとして活用することにより,ヘテロフィリー対応グラフ注意ネットワーク(HA-GAT)を提案する。 提案するHA-GATの有効性を実証するために,提案するヘテロフィリ認識型アテンションスキームと局所分布探索を解析し,そのメカニズムから解釈を求める。 我々のHA-GATは,教師付きノード分類タスクと半教師付きノード分類タスクの両方において,ホモフィリー比の異なる8つのデータセットに対して,最先端のパフォーマンスを達成することを示す。

Graph Neural Networks (GNNs) have shown remarkable success in graph representation learning. Unfortunately, current weight assignment schemes in standard GNNs, such as the calculation based on node degrees or pair-wise representations, can hardly be effective in processing the networks with heterophily, in which the connected nodes usually possess different labels or features. Existing heterophilic GNNs tend to ignore the modeling of heterophily of each edge, which is also a vital part in tackling the heterophily problem. In this paper, we firstly propose a heterophily-aware attention scheme and reveal the benefits of modeling the edge heterophily, i.e., if a GNN assigns different weights to edges according to different heterophilic types, it can learn effective local attention patterns, which enable nodes to acquire appropriate information from distinct neighbors. Then, we propose a novel Heterophily-Aware Graph Attention Network (HA-GAT) by fully exploring and utilizing the local distribution as the underlying heterophily, to handle the networks with different homophily ratios. To demonstrate the effectiveness of the proposed HA-GAT, we analyze the proposed heterophily-aware attention scheme and local distribution exploration, by seeking for an interpretation from their mechanism. Extensive results demonstrate that our HA-GAT achieves state-of-the-art performances on eight datasets with different homophily ratios in both the supervised and semi-supervised node classification tasks.
翻訳日:2024-06-28 20:41:09 公開日:2024-06-27
# 非ユークリッド型TSPに対するコンベックス・ハル・チープ・インサーション・ヒューリスティック

A Convex Hull Cheapest Insertion Heuristic for the Non-Euclidean TSP ( http://arxiv.org/abs/2302.06582v3 )

ライセンス: Link先を確認
Mithun Goutham, Meghna Menon, Sarah Garrow, Stephanie Stockar, (参考訳) 凸船体で最も安価な挿入ヒューリスティックは、ユークリッド空間におけるトラベリングセールスパーソン問題に対する優れた解を生み出すことが知られているが、非ユークリッドの場合まで拡張されていない。 提案手法は多次元スケーリングを用いて、まず点をユークリッド空間に投影することにより、アルゴリズムを初期化する凸殻の生成を可能にする。 提案アルゴリズムを評価するために、TSPLIBベンチマークデータセットに非許容セパレータを追加するか、L1ノルムをメトリックとして使用することにより、非ユークリッド空間を生成する。 この適応型ヒューリスティックは, 89%, 99%の症例において, 一般的に使用されているNearest Neighbor HeuristicおよびNearest Insertion Heuristicよりも優れていた。 遺伝的アルゴリズムとアリコロニー最適化アルゴリズムが1分間の計算時間で提供される場合、提案したヒューリスティックツアーコストは、各インスタンスの87%と95%のメタヒューリスティックソリューションよりも低い。

The convex hull cheapest insertion heuristic is known to produce good solutions to the Traveling Salesperson Problem in Euclidean spaces, but it has not been extended to the non-Euclidean case. The proposed adaptation uses multidimensional scaling to first project the points into a Euclidean space, thereby enabling the generation of the convex hull that initializes the algorithm. To evaluate the proposed algorithm, non-Euclidean spaces are created by adding impassable separators to the TSPLIB benchmark data-set, or by using the L1 norm as a metric. This adapted heuristic is demonstrated to outperform the commonly used Nearest Neighbor heuristic and Nearest Insertion heuristic in 89% and 99% of the cases studied, respectively. When the genetic algorithm and ant colony optimization algorithms are provided 1 minute of computation time, the proposed heuristic tour costs are lower than the mean metaheuristic solutions found in 87% and 95% of the instances, respectively.
翻訳日:2024-06-28 20:35:54 公開日:2024-06-27
# GCRE-GPT : 比較関係抽出のための生成モデル

GCRE-GPT: A Generative Model for Comparative Relation Extraction ( http://arxiv.org/abs/2303.08601v2 )

ライセンス: Link先を確認
Yequan Wang, Hengran Zhang, Aixin Sun, Xuying Meng, (参考訳) 比較テキストが与えられた場合、比較関係抽出は、比較対象(2つのカメラ)と比較対象(2つの画像品質)を抽出することを目的としている。 既存のソリューションはこのタスクをシーケンスラベリングタスクとして定式化し、ターゲットとアスペクトを抽出する。 しかし、テキストから比較関係を直接抽出することはできない。 本稿では,生成モデルを用いて,比較関係を直接高精度に抽出できることを示す。 GPT-2に基づくGCRE-GPT(Generation-based Comparison Relation Extractor)を提案する。 実験結果から, 2つのデータセットに対して, \modelname が最先端の精度を達成できることが示唆された。

Given comparative text, comparative relation extraction aims to extract two targets (\eg two cameras) in comparison and the aspect they are compared for (\eg image quality). The extracted comparative relations form the basis of further opinion analysis.Existing solutions formulate this task as a sequence labeling task, to extract targets and aspects. However, they cannot directly extract comparative relation(s) from text. In this paper, we show that comparative relations can be directly extracted with high accuracy, by generative model. Based on GPT-2, we propose a Generation-based Comparative Relation Extractor (GCRE-GPT). Experiment results show that \modelname achieves state-of-the-art accuracy on two datasets.
翻訳日:2024-06-28 20:35:54 公開日:2024-06-27
# GSplit: 分割並列処理による大規模グラフ上でのグラフニューラルネットワークトレーニングのスケールアップ

GSplit: Scaling Graph Neural Network Training on Large Graphs via Split-Parallelism ( http://arxiv.org/abs/2303.13775v2 )

ライセンス: Link先を確認
Sandeep Polisetty, Juelin Liu, Kobi Falus, Yi Ren Fung, Seung-Hwan Lim, Hui Guan, Marco Serafini, (参考訳) グラフのための機械学習モデルの新たなクラスであるグラフニューラルネットワーク(GNN)は、さまざまなグラフ分析タスクにおいて、優れたパフォーマンスで人気を集めている。 ミニバッチトレーニングはGNNを大規模グラフでトレーニングするために一般的に用いられ、データ並列性は複数のGPUでミニバッチトレーニングをスケールするための標準的なアプローチである。 GNNトレーニングの大きなパフォーマンスコストの1つは、GPUが完全に活用されないように入力機能のロードである。 本稿では,データ並列手法に固有の冗長性により,この問題が悪化していることを論じる。 この問題に対処するために,スプリット・パララリズム(split parallelism)と呼ばれるハイブリッド・パラレル・ミニバッチ・トレーニング・パラダイムを導入する。 スプリット並列性は冗長なデータロードを回避し、軽量スプリッティングアルゴリズムを使用して、各ミニバッチのサンプリングとトレーニングを、オンラインの各イテレーションで複数のGPUに分割する。 我々はGSplitでスプリット並列処理を実装し、DGL、Quiver、$P^3$といった最先端のミニバッチトレーニングシステムより優れていることを示す。

Graph neural networks (GNNs), an emerging class of machine learning models for graphs, have gained popularity for their superior performance in various graph analytical tasks. Mini-batch training is commonly used to train GNNs on large graphs, and data parallelism is the standard approach to scale mini-batch training across multiple GPUs. One of the major performance costs in GNN training is the loading of input features, which prevents GPUs from being fully utilized. In this paper, we argue that this problem is exacerbated by redundancies that are inherent to the data parallel approach. To address this issue, we introduce a hybrid parallel mini-batch training paradigm called split parallelism. Split parallelism avoids redundant data loads and splits the sampling and training of each mini-batch across multiple GPUs online, at each iteration, using a lightweight splitting algorithm. We implement split parallelism in GSplit and show that it outperforms state-of-the-art mini-batch training systems like DGL, Quiver, and $P^3$.
翻訳日:2024-06-28 20:35:54 公開日:2024-06-27
# ヘテロダイン検出に基づくリー代数量子位相の低減

Lie algebraic quantum phase reduction based on heterodyne detection ( http://arxiv.org/abs/2304.08164v2 )

ライセンス: Link先を確認
Wataru Setoyama, Yoshihiko Hasegawa, (参考訳) 測定バックアクションは、本質的に量子物理学における観察されたダイナミクスを変化させる。 量子同期の領域では、このバックアクションは位相バイアスを誘導し、観測可能なものの選択に批判的に依存する。 本研究では, 量子位相低減手法(PhysRevLett.132.093602)をヘテロダイン検出に拡張し, 四次可観測物全体の一様連続測定を通じて量子同期力学を解析するための包括的な理論的枠組みを提供する。 この方法はバックアクションを平均化し、測定誘起位相バイアスを回避しながら量子発振器間の同期のバイアスのない評価を可能にする。 さらに, 特定の可観測物とは独立に位相と極限サイクルの解を定義することにより, 提案手法は, 時間発展の過程で可観測物が自由に修正されるシナリオに一貫して適応する。 ノイズ誘起同期のシミュレーションにより, 発振器間の位相クラスターの数はボソニックレベルによって制限されていることが明らかとなった。

Measurement backaction inherently alters observed dynamics in quantum physics. In the realm of quantum synchronization, this backaction induces a phase bias, making the assessment of synchronization critically dependent on the choice of the observables. In this study, we extend the quantum phase reduction approach [PhysRevLett.132.093602] into heterodyne detection, offering a comprehensive theoretical framework for analyzing quantum synchronization dynamics through uniform continuous measurement over all possible quadrature observables. This method averages out the backaction, allowing for unbiased evaluation of synchronization between quantum oscillators while avoiding measurement-induced phase bias. Furthermore, by defining the phase and limit-cycle solution independently of specific observables, our proposed method consistently adapts to the scenario where the observables are freely modified during the time evolution. Through simulations of noise-induced synchronization, our method reveals that the number of phase clusters between oscillators is restricted by their bosonic levels.
翻訳日:2024-06-28 20:35:54 公開日:2024-06-27
# 拡張クラスタ:ニューラルネットワークのパラメータ回復

Expand-and-Cluster: Parameter Recovery of Neural Networks ( http://arxiv.org/abs/2304.12794v4 )

ライセンス: Link先を確認
Flavio Martinelli, Berfin Simsek, Wulfram Gerstner, Johanni Brea, (参考訳) インプット・アウトプット・マッピングによってニューラルネットワークの重みを特定できるだろうか? 一見すると、この問題は置換、過度パラメータ化、活性化関数対称性のために多くの解が存在するように見える。 しかし, 各ニューロンの重みベクトルは, 活性化関数に応じて, サインやスケーリングが可能であることを示す。 提案手法は, 一般に使用されるすべてのアクティベーション関数に対して, 対象ネットワークの層の大きさと重みを識別する。 拡張クラスタは2つのフェーズから構成される。 (i)非凸最適化問題を緩和するために、ターゲット関数を最もよく模倣するために複数の過度パラメータ化された学生ネットワークを訓練する。 (II) 対象ネットワークの重みをリバースエンジニアリングするために, 学生間で共有される学習重量ベクトルを明らかにする, アドホッククラスタリング手法を用いて, 対象ネットワークの重みベクトルに対応する。 実験では, 浅層および深層ネットワークにおいて, 層径が 10 % 未満の重みと大きさの回復を成功させ, 可変難易度150 の合成問題を解析し, 「識別可能性」 軸を記述した。

Can we identify the weights of a neural network by probing its input-output mapping? At first glance, this problem seems to have many solutions because of permutation, overparameterisation and activation function symmetries. Yet, we show that the incoming weight vector of each neuron is identifiable up to sign or scaling, depending on the activation function. Our novel method 'Expand-and-Cluster' can identify layer sizes and weights of a target network for all commonly used activation functions. Expand-and-Cluster consists of two phases: (i) to relax the non-convex optimisation problem, we train multiple overparameterised student networks to best imitate the target function; (ii) to reverse engineer the target network's weights, we employ an ad-hoc clustering procedure that reveals the learnt weight vectors shared between students -- these correspond to the target weight vectors. We demonstrate successful weights and size recovery of trained shallow and deep networks with less than 10\% overhead in the layer size and describe an `ease-of-identifiability' axis by analysing 150 synthetic problems of variable difficulty.
翻訳日:2024-06-28 20:35:54 公開日:2024-06-27
# 混合状態の局所幾何学と量子幾何学テンソル

Local geometry and quantum geometric tensor of mixed states ( http://arxiv.org/abs/2305.07597v5 )

ライセンス: Link先を確認
Xu-Yang Hou, Zheng Zhou, Xin Wang, Hao Guo, Chih-Chun Chien, (参考訳) 量子幾何学テンソル(QGT)は、量子状態の局所幾何学を特徴づける基本的な概念である。 純量子状態の幾何学を鋳造し、QGTを抽出した後、密度行列とその精製を通じて混合量子状態に一般化する。 混合状態のゲージ不変QGTが導出され、実部と虚部はそれぞれビュール計量とウルマン形式である。 ベリー曲率に比例する純粋状態 QGT の虚部とは対照的に、ウルマン形式は通常の物理過程に対して同一に消える。 さらに、異なる局所距離をリンクし、基礎となるフィブレーションを反映するピタゴラス型方程式が存在する。 混合状態のビュール計量は、温度が0に近づくにつれて、基底状態の対応するフビニ・スタディ計量に還元され、異なる基底フィブレーションにもかかわらず対応が確立される。 また,局所的な地形を対比した2つの例を示し,実験的含意について論じる。

The quantum geometric tensor (QGT) is a fundamental concept for characterizing the local geometry of quantum states. After casting the geometry of pure quantum states and extracting the QGT, we generalize the geometry to mixed quantum states via the density matrix and its purification. The gauge-invariant QGT of mixed states is derived, whose real and imaginary parts are the Bures metric and the Uhlmann form, respectively. In contrast to the imaginary part of the pure-state QGT that is proportional to the Berry curvature, the Uhlmann form vanishes identically for ordinary physical processes. Moreover, there exists a Pythagorean-like equation that links different local distances and reflect the underlying fibration. The Bures metric of mixed states is shown to reduce to the corresponding Fubini-Study metric of the ground state as temperature approaches zero, establishing a correspondence despite the different underlying fibrations. We also present two examples with contrasting local geometries and discuss experimental implications.
翻訳日:2024-06-28 20:35:54 公開日:2024-06-27
# 文埋め込みの線形言語間相互マッピング

Linear Cross-Lingual Mapping of Sentence Embeddings ( http://arxiv.org/abs/2305.14256v2 )

ライセンス: Link先を確認
Oleg Vasilyev, Fumika Isono, John Bohannon, (参考訳) 文の意味論は、一つの単語の意味論よりもはるかに曖昧さで定義され、他の言語への翻訳によって保存されるべきであると仮定する。 多言語文の埋め込みが文の意味を表現しようとする場合、任意の2つの文の埋め込みの類似性は翻訳に関して不変である。 この提案に基づき、単純線形言語間マッピングを多言語埋め込みの改善の可能性として検討する。 また、直交条件からの逸脱を埋め込みの欠如の尺度として考える。

Semantics of a sentence is defined with much less ambiguity than semantics of a single word, and we assume that it should be better preserved by translation to another language. If multilingual sentence embeddings intend to represent sentence semantics, then the similarity between embeddings of any two sentences must be invariant with respect to translation. Based on this suggestion, we consider a simple linear cross-lingual mapping as a possible improvement of the multilingual embeddings. We also consider deviation from orthogonality conditions as a measure of deficiency of the embeddings.
翻訳日:2024-06-28 20:35:54 公開日:2024-06-27
# 強凸最適化のための下次手法の原始双対理論

Some Primal-Dual Theory for Subgradient Methods for Strongly Convex Optimization ( http://arxiv.org/abs/2305.17323v4 )

ライセンス: Link先を確認
Benjamin Grimmer, Danlin Li, (参考訳) 我々は、強く凸するが、非滑らかな非Lipschitz最適化のための(確率的に)段階的な方法を考える。 古典的下位段階法,近位下位段階法,スイッチング下位段階法に対して,新しい等価な2値記述(二値平均化のスタイル)を提供する。 これらの同値性により、$O(1/T)$収束保証は古典的原始的ギャップと、強い凸最適化のための以前に解析されなかった双対ギャップの両方の観点から可能である。 その結果、これらの古典的手法には、計算コストを伴わずに、単純で最適な停止基準と最適性証明が提供される。 この結果は、段階的な選択や、過次法の初期反復が指数関数的に高速に発散できるような非リプシッツ不条件問題(私たちの知る限りでは、事前の作業アドレスがない現象)に適用できる。 そのような望ましくない振る舞いが存在するとしても、我々の理論は依然として最終的な収束を保証し、束縛する。

We consider (stochastic) subgradient methods for strongly convex but potentially nonsmooth non-Lipschitz optimization. We provide new equivalent dual descriptions (in the style of dual averaging) for the classic subgradient method, the proximal subgradient method, and the switching subgradient method. These equivalences enable $O(1/T)$ convergence guarantees in terms of both their classic primal gap and a not previously analyzed dual gap for strongly convex optimization. Consequently, our theory provides these classic methods with simple, optimal stopping criteria and optimality certificates at no added computational cost. Our results apply to a wide range of stepsize selections and of non-Lipschitz ill-conditioned problems where the early iterations of the subgradient method may diverge exponentially quickly (a phenomenon which, to the best of our knowledge, no prior works address). Even in the presence of such undesirable behaviors, our theory still ensures and bounds eventual convergence.
翻訳日:2024-06-28 20:35:54 公開日:2024-06-27
# 鏡による超長距離原子双極子-双極子相互作用

Mirror-mediated ultralong-range atomic dipole-dipole interactions ( http://arxiv.org/abs/2305.18826v3 )

ライセンス: Link先を確認
Nicholas Furtak-Wells, Benjamin Dawson, Thomas Mann, Gin Jose, Almut Beige, (参考訳) 3次元では、原子レベルのシフトと自然崩壊率を変化させる双極子-双極子相互作用は、発光光の波長に匹敵する距離でしか持続しない。 本稿では、部分透明な非対称ミラーインタフェースの助けを借りて、これらの相互作用の範囲を大きく拡張できることを示す。 2つの2段階の原子が界面の反対側に配置され、それぞれが他方のミラー画像の位置にあると仮定する。 この場合、発光した光は、原子同士が隣り合っているときとほとんど同じように干渉する。 したがって、それらの双極子-双極子相互作用は、原子の実際の距離が遷移波長よりも数桁大きい場合であっても、追加の最大値を仮定する。 結果として生じる超長距離相互作用は一般的に比較的弱いが、非侵襲的な量子センシングのような量子技術への応用が期待されている。

In three dimensions, dipole-dipole interactions which alter atomic level shifts and spontaneous decay rates only persist over distances comparable to the wavelength of the emitted light. In this paper we show that it is possible to significantly extend the range of these interactions with the help of a partially transparent asymmetric mirror interface. Suppose two two-level atoms are placed on opposite sides of the interface, each at the position of the mirror image of the other. In this case, their emitted light interferes almost exactly as it would when the atoms are right next to each other. Hence their dipole-dipole interaction assumes an additional maximum, even when the actual distance of the atoms is several orders of magnitude larger than the transition wavelength. Although the resulting ultralong-range interactions are in general relatively weak, we expect them to find applications in quantum technology, like non-invasive quantum sensing.
翻訳日:2024-06-28 20:35:54 公開日:2024-06-27
# インジェクティブフローのリフティング構造制約

Lifting Architectural Constraints of Injective Flows ( http://arxiv.org/abs/2306.01843v5 )

ライセンス: Link先を確認
Peter Sorrenson, Felix Draxler, Armand Rousselot, Sander Hummerich, Lea Zimmermann, Ullrich Köthe, (参考訳) 正規化フローはトレーニングデータに対して全次元の確率を明示的に最大化する。 しかし、実際のデータは一般に低次元多様体上でのみサポートされ、モデルがモデリングノイズに大きな計算を出力する。 単射フローは、多様体とその上の分布を共同で学習することでこれを解決する。 これまでのところ、制限的なアーキテクチャや高い計算コストによって制限されている。 我々は、自由形式のボトルネックアーキテクチャと互換性のある最大可能性損失を推定する新しい効率的な推定器により、両方の制約を引き上げる。 さらに、データ多様体とそれ上の分布の両方を鼻で学習することで、分岐解がもたらされることを示し、この知見を用いて、安定した最大可能性トレーニング目標を動機付ける。 我々は,玩具,表,画像データについて広範な実験を行い,その結果の競争性能を実証した。

Normalizing Flows explicitly maximize a full-dimensional likelihood on the training data. However, real data is typically only supported on a lower-dimensional manifold leading the model to expend significant compute on modeling noise. Injective Flows fix this by jointly learning a manifold and the distribution on it. So far, they have been limited by restrictive architectures and/or high computational cost. We lift both constraints by a new efficient estimator for the maximum likelihood loss, compatible with free-form bottleneck architectures. We further show that naively learning both the data manifold and the distribution on it can lead to divergent solutions, and use this insight to motivate a stable maximum likelihood training objective. We perform extensive experiments on toy, tabular and image data, demonstrating the competitive performance of the resulting model.
翻訳日:2024-06-28 20:35:54 公開日:2024-06-27
# 検証によるBQP計算の指数量子誤差低減

Exponential Quantum Error Mitigation of BQP Computations using Verification ( http://arxiv.org/abs/2306.04351v2 )

ライセンス: Link先を確認
Joseph Harris, Elham Kashefi, (参考訳) 時間依存ノイズを持つ量子コンピュータ上で$\mathsf{BQP}$計算を実行するためのモジュラーエラー軽減プロトコルを提案する。 既存のツールを量子検証と測定ベースの量子計算から利用し、我々のフレームワークは、エラー検出のためのテストラウンドと共に標準計算ラウンドをインターリーブし、返却された古典的な出力が正しい確率で指数的バウンド(回路実行数)を継承する。 我々は、これらのアイデアをエラー軽減の文脈で再利用し、時間依存ノイズの振る舞いに対処しオーバーヘッドを減らすために、バスケットと呼ばれるポストセレクション手法を導入する。 このプロトコルは指数関数的に有効であり、最小限のノイズ仮定を必要とするため、既存のNISQデバイスで簡単に実装でき、将来的な大規模デバイスでもスケーラブルである。 提案プロトコルは,IBMハードウェアのヘビーヘックスレイアウトに直接マップする(かつ利用することができる)計測パターンを提示し,古典的な雑音シミュレーションを用いて実験的に実証する。

We present a modular error mitigation protocol for running $\mathsf{BQP}$ computations on a quantum computer with time-dependent noise. Utilising existing tools from quantum verification and measurement-based quantum computation, our framework interleaves standard computation rounds alongside test rounds for error-detection and inherits an exponential bound (in the number of circuit runs) on the probability that a returned classical output is correct. We repurpose these ideas in an error mitigation context, introducing a post-selection technique called basketing to address time-dependent noise behaviours and reduce overhead. The result is a first-of-its-kind error mitigation protocol which is exponentially effective and requires minimal noise assumptions, making it straightforwardly implementable on existing, NISQ devices and scalable to future, larger ones. We demonstrate the protocol experimentally using classical noisy simulation, presenting a measurement pattern which directly maps to (and can be tiled on) the heavy-hex layout of current IBM hardware.
翻訳日:2024-06-28 20:35:54 公開日:2024-06-27
# システム・社会における生成型AIシステムの社会的影響評価

Evaluating the Social Impact of Generative AI Systems in Systems and Society ( http://arxiv.org/abs/2306.05949v3 )

ライセンス: Link先を確認
Irene Solaiman, Zeerak Talat, William Agnew, Lama Ahmad, Dylan Baker, Su Lin Blodgett, Canyu Chen, Hal Daumé III, Jesse Dodge, Isabella Duan, Ellie Evans, Felix Friedrich, Avijit Ghosh, Usman Gohar, Sara Hooker, Yacine Jernite, Ria Kalluri, Alberto Lusoli, Alina Leidinger, Michelle Lin, Xiuzhu Lin, Sasha Luccioni, Jennifer Mickel, Margaret Mitchell, Jessica Newman, Anaelia Ovalle, Marie-Therese Png, Shubham Singh, Andrew Strait, Lukas Struppek, Arjun Subramonian, (参考訳) テキスト(コードを含む)、画像、オーディオ、ビデオなどを含む、モダリティにまたがる生成AIシステムは、幅広い社会的影響を持つが、その影響を評価するための公式な標準や、どの影響を評価するべきかは、存在しない。 本稿では,2つの包括的カテゴリにおいて,基本生成型AIシステムを評価する上で,文脈に依存しないベースシステムで何が評価可能か,社会的文脈で何が評価可能かという,標準的なアプローチに向けたガイドを提案する。 重要なことに、これは、トレーニングデータなどのシステムコンポーネントだけでなく、モデル自体を含む、所定のアプリケーションやデプロイメントコンテキストを持たないベースシステムを指す。 基本システムの枠組みは, バイアス, ステレオタイプ, 表現的害, 文化的価値とセンシティブなコンテンツ, 異なるパフォーマンス, プライバシとデータ保護, 財政コスト, 環境コスト, データとコンテンツモデレーション労働コストの7つのカテゴリを規定する。 今後の評価に必要となる投資の出発点として,既存の評価の限界について分析した。 信頼と自律性、不平等、限界化、暴力、権威の集中、労働と創造性、生態系と環境。 各サブカテゴリは、害を緩和するためのレコメンデーションを含んでいる。

Generative AI systems across modalities, ranging from text (including code), image, audio, and video, have broad social impacts, but there is no official standard for means of evaluating those impacts or for which impacts should be evaluated. In this paper, we present a guide that moves toward a standard approach in evaluating a base generative AI system for any modality in two overarching categories: what can be evaluated in a base system independent of context and what can be evaluated in a societal context. Importantly, this refers to base systems that have no predetermined application or deployment context, including a model itself, as well as system components, such as training data. Our framework for a base system defines seven categories of social impact: bias, stereotypes, and representational harms; cultural values and sensitive content; disparate performance; privacy and data protection; financial costs; environmental costs; and data and content moderation labor costs. Suggested methods for evaluation apply to listed generative modalities and analyses of the limitations of existing evaluations serve as a starting point for necessary investment in future evaluations. We offer five overarching categories for what can be evaluated in a broader societal context, each with its own subcategories: trustworthiness and autonomy; inequality, marginalization, and violence; concentration of authority; labor and creativity; and ecosystem and environment. Each subcategory includes recommendations for mitigating harm.
翻訳日:2024-06-28 20:26:08 公開日:2024-06-27
# 二重確率空間点過程に対する半パラメトリック推論:近似型ペナル化ポアソン類似アプローチ

Semi-Parametric Inference for Doubly Stochastic Spatial Point Processes: An Approximate Penalized Poisson Likelihood Approach ( http://arxiv.org/abs/2306.06756v2 )

ライセンス: Link先を確認
Si Cheng, Jon Wakefield, Ali Shojaie, (参考訳) 二重確率点過程は、空間領域上の事象をランダム強度関数の実現を条件とした不均一なポアソン過程としてモデル化する。 空間的不均一性と依存を捉えるための柔軟なツールである。 しかし、二重確率空間モデルの既存の実装は、計算的に要求され、しばしば理論的な保証が制限され、または制限的な仮定に依存している。 本稿では,計算効率が高く,基礎となる強度のパラメトリック形式や定常性を必要としない,二重確率点過程における共変量効果を推定するためのペナル化回帰法を提案する。 我々のアプローチは、真の(連続かつ確率的な)強度関数の近似的(離散的で決定論的)な定式化に基づいている。 共変量効果の推定値の整合性と漸近正規性は,モデルの不特定性にも拘わらず達成可能であることを示すとともに,有効かつ保守的かつ統計的推測手順につながる共変量推定器を開発する。 シミュレーション研究により、データ生成機構に対する制約の少ない仮定の下でのアプローチの有効性が示され、シアトル犯罪データへの適用により、既存の方法と比較して予測精度が向上した。

Doubly-stochastic point processes model the occurrence of events over a spatial domain as an inhomogeneous Poisson process conditioned on the realization of a random intensity function. They are flexible tools for capturing spatial heterogeneity and dependence. However, existing implementations of doubly-stochastic spatial models are computationally demanding, often have limited theoretical guarantee, and/or rely on restrictive assumptions. We propose a penalized regression method for estimating covariate effects in doubly-stochastic point processes that is computationally efficient and does not require a parametric form or stationarity of the underlying intensity. Our approach is based on an approximate (discrete and deterministic) formulation of the true (continuous and stochastic) intensity function. We show that consistency and asymptotic normality of the covariate effect estimates can be achieved despite the model misspecification, and develop a covariance estimator that leads to a valid, albeit conservative, statistical inference procedure. A simulation study shows the validity of our approach under less restrictive assumptions on the data generating mechanism, and an application to Seattle crime data demonstrates better prediction accuracy compared with existing alternatives.
翻訳日:2024-06-28 20:26:08 公開日:2024-06-27
# カーネル化された正規化フロー

Kernelised Normalising Flows ( http://arxiv.org/abs/2307.14839v4 )

ライセンス: Link先を確認
Eshant English, Matthias Kirchler, Christoph Lippert, (参考訳) 正規化フローは、密度推定と生成の二重能力によって特徴づけられる非パラメトリック統計モデルである。 この双対性は本質的に可逆的アーキテクチャを必要とする。 しかし、可逆性の要件は表現性に制約を課し、優れた結果を得るためには多数のパラメータと革新的なアーキテクチャ設計が必要である。 フローベースモデルは、主に表現的設計のためのニューラルネットベースの変換に依存しているが、代替変換法は注目されている。 本稿では,カーネルをフレームワークに統合した新しいカーネル正規化フローパラダイムであるFerumal Flowを紹介する。 その結果、パラメータ効率を維持しながら、ニューラルネットワークベースのフローと比較して、カーネル化されたフローは、競争力や優れた結果が得られることを示した。 カーネル化されたフローは、特に低データレシエーションにおいて優れており、スパースデータ可用性のあるアプリケーションで柔軟な非パラメトリック密度推定を可能にする。

Normalising Flows are non-parametric statistical models characterised by their dual capabilities of density estimation and generation. This duality requires an inherently invertible architecture. However, the requirement of invertibility imposes constraints on their expressiveness, necessitating a large number of parameters and innovative architectural designs to achieve good results. Whilst flow-based models predominantly rely on neural-network-based transformations for expressive designs, alternative transformation methods have received limited attention. In this work, we present Ferumal flow, a novel kernelised normalising flow paradigm that integrates kernels into the framework. Our results demonstrate that a kernelised flow can yield competitive or superior results compared to neural network-based flows whilst maintaining parameter efficiency. Kernelised flows excel especially in the low-data regime, enabling flexible non-parametric density estimation in applications with sparse data availability.
翻訳日:2024-06-28 20:26:08 公開日:2024-06-27
# ニューラルネットワークフィードバックループの効率的な相互作用認識区間解析

Efficient Interaction-Aware Interval Analysis of Neural Network Feedback Loops ( http://arxiv.org/abs/2307.14938v3 )

ライセンス: Link先を確認
Saber Jafarpour, Akash Harapanahalli, Samuel Coogan, (参考訳) 本稿では,ニューラルネットワークコントローラを用いたシステムの間隔到達性向上のための計算効率の良いフレームワークを提案する。 提案手法では,オープンループシステムとニューラルネットワークコントローラの包摂関数を利用して,閉ループシステムをより大きな次元の埋め込みシステムに埋め込む。 本稿では,システムとコントローラの相互作用を異なる方法で考慮した,閉ループ埋め込みシステムを構築するための2つの方法を提案する。 相互接続に基づくアプローチでは、ニューラルネットワーク包摂関数をオープンループ包摂関数に置換することで、各座標の最悪の進化を別々に考える。 インタラクションベースのアプローチでは、新しいJacobianベースの包摂関数を使用して、最先端のニューラルネットワーク検証を活用することで、オープンループシステムとコントローラの間の一階のインタラクションをキャプチャする。 最後に、我々のアプローチを、ReachMMと呼ばれるPythonフレームワークで実装し、ベンチマークや200ドルの状態次元の例でその効率性とスケーラビリティを実証します。

In this paper, we propose a computationally efficient framework for interval reachability of systems with neural network controllers. Our approach leverages inclusion functions for the open-loop system and the neural network controller to embed the closed-loop system into a larger-dimensional embedding system, where a single trajectory over-approximates the original system's behavior under uncertainty. We propose two methods for constructing closed-loop embedding systems, which account for the interactions between the system and the controller in different ways. The interconnection-based approach considers the worst-case evolution of each coordinate separately by substituting the neural network inclusion function into the open-loop inclusion function. The interaction-based approach uses novel Jacobian-based inclusion functions to capture the first-order interactions between the open-loop system and the controller by leveraging state-of-the-art neural network verifiers. Finally, we implement our approach in a Python framework called ReachMM to demonstrate its efficiency and scalability on benchmarks and examples ranging to $200$ state dimensions.
翻訳日:2024-06-28 20:26:08 公開日:2024-06-27
# 可変ビームスプリッタ用ウィグナーの位相空間電流 -新しい光におけるビームスプリッタの観測-

Wigner's Phase Space Current for Variable Beam Splitters -Seeing Beam Splitters in a New Light- ( http://arxiv.org/abs/2308.06706v3 )

ライセンス: Link先を確認
Ole Steuernagel, Ray-Kuang Lee, (参考訳) ビームスプリッタは、2つの連続した単一モード量子系を重畳することができる。 強モード混合力学の振る舞いを研究するために、可変ビームスプリッターとそのダイナミクスをウィグナーの位相空間分布 W を用いて検討し、その進化は連続方程式 $ \frac{\partial}{\partial \tau} W = - {\nabla } \cdot {J}$ によって支配される。 我々は、対応するウィグナー電流であるJの形状を、互いに追跡した後の各アウトゴーイングモードから導出する。 それぞれのウィグナー分布とウィグナー電流を用いて各モードが相互に与える影響を解析・可視化する。 これにより、モード相互作用の幾何学的解析を行い、ビームスプリッタの挙動に新しい光を流すことができる。 提示された結果のいくつかは、直ちに実験で検証可能であるべきである。

Beam splitters allow us to superpose two continuous single mode quantum systems. To study the behaviour of their strongly mode mixing dynamics we consider variable beam splitters and their dynamics using Wigner's phase space distribution, W, the evolution of which is governed by the continuity-equation $ \frac{\partial}{\partial \tau} W = - {\nabla } \cdot {J}$. We derive the form of the corresponding Wigner current, J, of each outgoing mode after tracing out the other. The influence of the modes on each other is analyzed and visualized using their respective Wigner distributions and Wigner currents. This allows us to perform geometrical analyses of the mode interactions, casting new light on beam splitter behaviour. Several of the presented results should be immediately testable in experiments.
翻訳日:2024-06-28 20:26:08 公開日:2024-06-27
# 連続時間線形力学系のシステム同定

System Identification for Continuous-time Linear Dynamical Systems ( http://arxiv.org/abs/2308.11933v3 )

ライセンス: Link先を確認
Peter Halmos, Jonathan Pillow, David A. Knowles, (参考訳) カルマンフィルタのシステム同定の問題は、力学系の基本パラメータを学習するための期待最大化(EM)法に依存しており、観測が等間隔の時間点でサンプリングされることを前提に研究が進められている。 しかし、多くの応用において、これは制限的で非現実的な仮定である。 本稿では, 連続時間It\^o確率微分方程式(SDE)を潜時状態と共分散ダイナミクスの解に頼って, カルマンフィルタの学習を一般化することを目的として, 連続離散フィルタのシステム同定に対処する。 本稿では,前進パスを事前に計算する必要のない解析的更新を行うベイズ導出法により,後進部に対する新しい2フィルタ解析形式を提案する。 この解析的かつ効率的な後部計算を用いて,SDEのパラメータを推定し,不規則なサンプル測定を自然に取り入れたEMプロシージャを提供する。 遅延線形力学系(LDS)の連続時間への学習の一般化は、周期的なサンプリングや欠落値を持つデータへのハイブリッドカルマンフィルタの使用を拡大し、非線形系の局所線形化挙動を学習するためのサブユニットとして、線形離散時間カルマンフィルタのEMに依存するLSD(SLDS)のような非線形システム識別手法のパワーを拡大することができる。 生物学的に現実的なパラメータを用いてトグル・スウィッチ遺伝回路を表す潜伏多変量Fokker-Planck SDEのパラメータを学習し、離散時間カルマンフィルタに対する学習の有効性を、ダイナミックス・マトリクスのステップサイズ不規則性とスペクトル半径の増加として比較する。

The problem of system identification for the Kalman filter, relying on the expectation-maximization (EM) procedure to learn the underlying parameters of a dynamical system, has largely been studied assuming that observations are sampled at equally-spaced time points. However, in many applications this is a restrictive and unrealistic assumption. This paper addresses system identification for the continuous-discrete filter, with the aim of generalizing learning for the Kalman filter by relying on a solution to a continuous-time It\^o stochastic differential equation (SDE) for the latent state and covariance dynamics. We introduce a novel two-filter, analytical form for the posterior with a Bayesian derivation, which yields analytical updates which do not require the forward-pass to be pre-computed. Using this analytical and efficient computation of the posterior, we provide an EM procedure which estimates the parameters of the SDE, naturally incorporating irregularly sampled measurements. Generalizing the learning of latent linear dynamical systems (LDS) to continuous-time may extend the use of the hybrid Kalman filter to data which is not regularly sampled or has intermittent missing values, and can extend the power of non-linear system identification methods such as switching LDS (SLDS), which rely on EM for the linear discrete-time Kalman filter as a sub-unit for learning locally linearized behavior of a non-linear system. We apply the method by learning the parameters of a latent, multivariate Fokker-Planck SDE representing a toggle-switch genetic circuit using biologically realistic parameters, and compare the efficacy of learning relative to the discrete-time Kalman filter as the step-size irregularity and spectral-radius of the dynamics-matrix increases.
翻訳日:2024-06-28 20:26:08 公開日:2024-06-27
# ローカライズされた仮想浄化

Localized Virtual Purification ( http://arxiv.org/abs/2308.13500v3 )

ライセンス: Link先を確認
Hideaki Hakoshima, Suguru Endo, Kaoru Yamamoto, Yuichiro Matsuzaki, Nobuyuki Yoshioka, (参考訳) アナログおよびデジタル量子シミュレータは、自然現象に現れる量子多体系を効率的にシミュレートすることができる。 しかし、短期デバイスの実験的な制限は、量子シミュレーション全体の実行を困難にしている。 浄化法に基づく量子シミュレーション法は, 環境からの冷却温度や騒音などの実験の限界を緩和することができるが, この手法では, システムサイズに指数関数的にスケールする, 非常に多くの測定値で大域的絡み合いの測定を必要とするという欠点がある。 本稿では,その局所性を利用して測定対象の局所観測値の近傍に絡み合った測定値を制限することで,これらの問題を克服できることを示す。 我々は,グローバルな浄化作業が,いくつかの条件下での局所的な操作に置き換えられること,特に冷却とエラー軽減の課題について理論的に保証する。 さらに, 条件が満たされていない場合でも, 局所浄化が有効であることを示す数値検証を行う。 提案手法は,量子シミュレータによる局所性の基本概念を橋渡しし,探索されていない量子多体現象への道を開くことを期待する。

Analog and digital quantum simulators can efficiently simulate quantum many-body systems that appear in natural phenomena. However, experimental limitations of near-term devices still make it challenging to perform the entire process of quantum simulation. The purification-based quantum simulation methods can alleviate the limitations in experiments such as the cooling temperature and noise from the environment, while this method has the drawback that it requires global entangled measurement with a prohibitively large number of measurements that scales exponentially with the system size. In this Letter, we propose that we can overcome these problems by restricting the entangled measurements to the vicinity of the local observables to be measured, when the locality of the system can be exploited. We provide theoretical guarantees that the global purification operation can be replaced with local operations under some conditions, in particular for the task of cooling and error mitigation. We furthermore give a numerical verification that the localized purification is valid even when conditions are not satisfied. Our method bridges the fundamental concept of locality with quantum simulators, and therefore expected to open a path to unexplored quantum many-body phenomena.
翻訳日:2024-06-28 20:26:08 公開日:2024-06-27
# 地理空間気象データに基づく深部ニューラルネットワークによる長期干ばつ予測

Long-term drought prediction using deep neural networks based on geospatial weather data ( http://arxiv.org/abs/2309.06212v4 )

ライセンス: Link先を確認
Vsevolod Grabar, Alexander Marusov, Yury Maximov, Nazar Sotiriadi, Alexander Bulkin, Alexey Zaytsev, (参考訳) 農業計画や保険には1年前から予測される高品質の干ばつの問題が不可欠である。 しかし、データの複雑さと乾燥確率性のために、妥当な精度で解決されていない。 我々は、月次気象データを入力としてアクセス可能な時空間ニューラルネットワークモデルを採用するエンドツーエンドアプローチを導入することで、干ばつデータに取り組む。 本研究は,Palmer Drought Severity Index(PDSI)予測の有効性を評価するために,多種多様なモデルと5つの異なる環境領域を用いた。 重要な集約された発見は、TransformerモデルであるEarthFormerの、正確な短期(最大6ヶ月)の予測における例外的なパフォーマンスである。 同時に、畳み込みLSTMは長期的な予測に優れている。 どちらのモデルも高いROC-AUCスコアを達成し、1ヶ月前は0.948ドル、予想より12ヶ月前は0.617ドル、それぞれ54\%、古典的アプローチは16\%だった。

The problem of high-quality drought forecasting up to a year in advance is critical for agriculture planning and insurance. Yet, it is still unsolved with reasonable accuracy due to data complexity and aridity stochasticity. We tackle drought data by introducing an end-to-end approach that adopts a spatio-temporal neural network model with accessible open monthly climate data as the input. Our systematic research employs diverse proposed models and five distinct environmental regions as a testbed to evaluate the efficacy of the Palmer Drought Severity Index (PDSI) prediction. Key aggregated findings are the exceptional performance of a Transformer model, EarthFormer, in making accurate short-term (up to six months) forecasts. At the same time, the Convolutional LSTM excels in longer-term forecasting. Both models achieved high ROC AUC scores: 0.948 for one month ahead and 0.617 for twelve months ahead forecasts, becoming closer to perfect ROC-AUC by $54\%$ and $16\%$, respectively, c.t. classic approaches.
翻訳日:2024-06-28 20:26:08 公開日:2024-06-27
# 大規模言語モデルの性質を評価する--人文中心主義に対する注意

Assessing the nature of large language models: A caution against anthropocentrism ( http://arxiv.org/abs/2309.07683v3 )

ライセンス: Link先を確認
Ann Speed, (参考訳) 生成AIモデルは、OpenAIsチャットボットであるChatGPTのリリースによって、多くの大衆の注目を集め、憶測を呼んだ。 少なくとも2つの意見キャンプが存在しており、そのうちの1つは、これらのモデルが人間のタスクに根本的な変化をもたらす可能性に興奮している。 これらの問題に対処するため,標準的,規範的,評価された認知的・人格的尺度を用いて,主にGPT 3.5のいくつかのLCMを評価した。 この苗プロジェクトのために、私たちは、これらのモデルのいくつかの機能の境界、これらの能力が短時間でどれだけ安定しているか、そしてどのように人間と比較するかを見積もることができるテストのバッテリーを開発しました。 以上の結果から, LLMは人格の発見に反応する能力は興味深いが, 知覚を発達させる可能性が低いことが示唆された。 GPT3.5は、人間のような性格を持つと予測されない、反復的な観察よりも認知的・人格的尺度に大きなばらつきを示した。 多様性にも拘わらず、LSMは、低自尊心、現実からの解離、時には高揚感と有益な反応にもかかわらず、ナルシシズムやサイコパシーなど、人間の心の健康状態の悪いものを示す。

Generative AI models garnered a large amount of public attention and speculation with the release of OpenAIs chatbot, ChatGPT. At least two opinion camps exist: one excited about possibilities these models offer for fundamental changes to human tasks, and another highly concerned about power these models seem to have. To address these concerns, we assessed several LLMs, primarily GPT 3.5, using standard, normed, and validated cognitive and personality measures. For this seedling project, we developed a battery of tests that allowed us to estimate the boundaries of some of these models capabilities, how stable those capabilities are over a short period of time, and how they compare to humans. Our results indicate that LLMs are unlikely to have developed sentience, although its ability to respond to personality inventories is interesting. GPT3.5 did display large variability in both cognitive and personality measures over repeated observations, which is not expected if it had a human-like personality. Variability notwithstanding, LLMs display what in a human would be considered poor mental health, including low self-esteem, marked dissociation from reality, and in some cases narcissism and psychopathy, despite upbeat and helpful responses.
翻訳日:2024-06-28 20:26:08 公開日:2024-06-27
# 純量子状態における動的絡み合い成長の幾何学的モデリング

Geometrically Taming Dynamical Entanglement Growth in Purified Quantum States ( http://arxiv.org/abs/2309.07961v3 )

ライセンス: Link先を確認
Tim Pokart, Carl Lehmann, Jan Carl Budich, (参考訳) 精製された量子状態の絡み合い特性は2つの理由から重要な関心事である。 第一に、量子情報理論において、最小に絡み合った純状態は、精製の絡み合いを対応する物理的混合状態の複雑さの基本的な尺度として定義する。 第二に、純状態における動的絡み合いの増大は、テンソルネットワーク状態の枠組みにおける古典的コンピュータ上の動的物理的特性を計算する主要なボトルネックである。 本稿では, 並列輸送を含む幾何的手法を用いて, このような動的絡み合いの増大を減らし, 精製状態の時間的変化に際し, 局所的に最適な絡み合いのエントロピーを維持するための一般的な処方則を得る。 より高次スキューで適応および拡張することにより、ウルマン幾何学的位相の概念を補正し、動的絡み合い成長とヒルベルト・シュミット束の幾何学との関係を純粋状態の数学的基礎として明らかにする。 積分不可能なスピンチェーンモデル上でのベンチマークを用いて,本手法に基づく行列積状態アルゴリズムの計算性能と,精製状態における絡み合いの増大に対処するための従来の手法との比較を行った。 本研究は, 幾何解離器が強力な手法であることを示す数値的証拠を提供するとともに, 物理的に関係のある様々な計算シナリオにおいて, 清浄状態を解離する既知の方法よりも, 様々な面で優れていることを示す。 また,アルゴリズムの不完全性の影響を排除し,中程度のシステムに対して数値的精度で解析を行う。

Entanglement properties of purified quantum states are of key interest for two reasons. First, in quantum information theory, minimally entangled purified states define the Entanglement of Purification as a fundamental measure for the complexity of the corresponding physical mixed state. Second, dynamical entanglement growth in purified states represents the main bottleneck for calculating dynamical physical properties on classical computers in the framework of tensor network states. Here, we demonstrate how geometric methods including parallel transport may be harnessed to reduce such dynamical entanglement growth, and to obtain a general prescription for maintaining (locally) optimal entanglement entropy when time-evolving a purified state. Adapting and extending by higher order skew corrections the notion of Uhlmann geometric phases, we reveal the relation between dynamical entanglement growth and the geometry of the Hilbert-Schmidt bundle as the mathematical foundation of purified states. With benchmarks on a non-integrable spin chain model, we compare the computational performance of matrix product state algorithms based on our present geometric disentangling method to previous approaches for taming entanglement growth in purified states. Our findings provide numerical evidence that geometric disentanglers are a powerful approach, superior in various aspects to known methods for disentangling purified states in a range of physically relevant computational scenarios. To exclude the effect of algorithmic imperfections, we also provide a numerically exact analysis for systems of moderate size.
翻訳日:2024-06-28 20:26:08 公開日:2024-06-27
# 計算論におけるアウト・オブ・ディストリビューションシナリオの扱い方 : 総合的・微粒化フィールドスタディ

How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study ( http://arxiv.org/abs/2309.08316v3 )

ライセンス: Link先を確認
Andreas Waldis, Yufang Hou, Iryna Gurevych, (参考訳) 事前学習された言語モデル(LM)の出現は、自然言語処理を著しく進歩させたが、アウト・オブ・ディストリビューション(OOD)シナリオにおけるそれらの有効性は、依然として大きな課題である。 計算的議論(CA)は、複雑なアノテーションスキームと高いアノテーションコストが、利用可能なテキストソースやトピックの多重性をほとんどカバーしないリソースに自然に繋がるため、これらの課題によって顕著に影響を受ける分野である。 このデータ不足のため、発見されていない共変分布のデータへの一般化は、姿勢検出や引数分類といったCAタスクにおいて共通の課題である。 この研究は、OODシナリオに対するLMの能力を体系的に評価する。 以前の作業ではトピックシフトやOODのような特定のOODタイプを対象としていましたが、CAでは3つの一般的なOODシナリオ – トピックシフト、ドメインシフト、言語シフト – に対処しています。 本研究は,OODにおけるテキスト内学習(ICL)の一般的な優位性に挑戦するものである。 このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。 具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。 まとめると、我々はCAにおけるOODシナリオの不均一性をナビゲートし、これらの課題を克服する上で、ベースサイズのLMの可能性を実証的に裏付ける。

The advent of pre-trained Language Models (LMs) has markedly advanced natural language processing, but their efficacy in out-of-distribution (OOD) scenarios remains a significant challenge. Computational argumentation (CA), modeling human argumentation processes, is a field notably impacted by these challenges because complex annotation schemes and high annotation costs naturally lead to resources barely covering the multiplicity of available text sources and topics. Due to this data scarcity, generalization to data from uncovered covariant distributions is a common challenge for CA tasks like stance detection or argument classification. This work systematically assesses LMs' capabilities for such OOD scenarios. While previous work targets specific OOD types like topic shifts or OOD uniformly, we address three prevalent OOD scenarios in CA: topic shift, domain shift, and language shift. Our findings challenge the previously asserted general superiority of in-context learning (ICL) for OOD. We find that the efficacy of such learning paradigms varies with the type of OOD. Specifically, while ICL excels for domain shifts, prompt-based fine-tuning surpasses for topic shifts. To sum up, we navigate the heterogeneity of OOD scenarios in CA and empirically underscore the potential of base-sized LMs in overcoming these challenges.
翻訳日:2024-06-28 20:26:08 公開日:2024-06-27
# 多周波駆動を用いた光学系における安定ガウスクラスター状態の生成

Generation of stable Gaussian cluster states in optomechanical systems with multifrequency drives ( http://arxiv.org/abs/2309.08686v2 )

ライセンス: Link先を確認
Nahid Yazdi, Stefano Zippilli, David Vitali, (参考訳) 光学系では, 共振器が放射圧によって相互作用し, 適切に選択された多周波駆動によって駆動される, 電気的共振器の量子状態を消散的に安定化させる方法を示す。 ガウスクラスター状態の定常的準備のためのこのアプローチの性能解析を行う。

We show how to dissipatively stabilize the quantum state of $N$ mechanical resonators in an optomechnical system, where the resonators interact by radiation pressure with $N$ optical modes, which are driven by properly selected multifrequency drives. We analyze the performance of this approach for the stationary preparation of Gaussian cluster states.
翻訳日:2024-06-28 20:26:08 公開日:2024-06-27
# GPTFUZER: 自動生成のjailbreakプロンプトで大規模言語モデルをレッドチーム化

GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts ( http://arxiv.org/abs/2309.10253v4 )

ライセンス: Link先を確認
Jiahao Yu, Xingwei Lin, Zheng Yu, Xinyu Xing, (参考訳) 大規模言語モデル(LLM)は最近非常に人気があり、カジュアルな会話からAI駆動プログラミングまで広く使われている。 しかし、その大きな成功にもかかわらず、LSMは完全に信頼されておらず、有害または違法な活動の実施方法について詳細なガイダンスを与えることができる。 安全対策はそのようなアウトプットのリスクを減らすことができるが、敵のジェイルブレイク攻撃はLLMを利用して有害なコンテンツを生成することができる。 これらのジェイルブレイクテンプレートは通常手作業で作成され、大規模なテストが困難になる。 本稿では,AFLファジィフレームワークに触発された新しいブラックボックスジェイルブレイクファジィフレームワークであるGPTFuzzを紹介する。 手動のエンジニアリングの代わりに、GPTFuzzは、再チームのLDMのためのジェイルブレイクテンプレートを生成する。 GPTFuzzの中核となるのは、人書きテンプレートを初期シードとして開始し、その後変更して新しいテンプレートを生成することだ。 GPTFuzzの3つの重要な要素を詳述する。効率と可変性のバランスをとる種選択戦略、意味論的に等価な文や類似の文を生成する演算子の変更、ジェイルブレイク攻撃の成功を評価する判断モデルである。 GPTFuzzをChatGPT, LLaMa-2, Vicunaなど,様々な商用およびオープンソースLLMに対して,多様な攻撃シナリオ下で評価する。 以上の結果から,GPTFuzzは高い成功率のジェイルブレイクテンプレートを連続的に生成し,人造テンプレートを超越していることが示唆された。 注目すべきは、GPTFuzzがChatGPTおよびLlama-2モデルに対して90%以上の攻撃成功率を達成することだ。 我々は,GPTFuzzがLSMのロバスト性を調べる上で,研究者や実践者にとって有効であり,LSMの安全性を高めるためのさらなる探究を促進することを期待する。

Large language models (LLMs) have recently experienced tremendous popularity and are widely used from casual conversations to AI-driven programming. However, despite their considerable success, LLMs are not entirely reliable and can give detailed guidance on how to conduct harmful or illegal activities. While safety measures can reduce the risk of such outputs, adversarial jailbreak attacks can still exploit LLMs to produce harmful content. These jailbreak templates are typically manually crafted, making large-scale testing challenging. In this paper, we introduce GPTFuzz, a novel black-box jailbreak fuzzing framework inspired by the AFL fuzzing framework. Instead of manual engineering, GPTFuzz automates the generation of jailbreak templates for red-teaming LLMs. At its core, GPTFuzz starts with human-written templates as initial seeds, then mutates them to produce new templates. We detail three key components of GPTFuzz: a seed selection strategy for balancing efficiency and variability, mutate operators for creating semantically equivalent or similar sentences, and a judgment model to assess the success of a jailbreak attack. We evaluate GPTFuzz against various commercial and open-source LLMs, including ChatGPT, LLaMa-2, and Vicuna, under diverse attack scenarios. Our results indicate that GPTFuzz consistently produces jailbreak templates with a high success rate, surpassing human-crafted templates. Remarkably, GPTFuzz achieves over 90% attack success rates against ChatGPT and Llama-2 models, even with suboptimal initial seed templates. We anticipate that GPTFuzz will be instrumental for researchers and practitioners in examining LLM robustness and will encourage further exploration into enhancing LLM safety.
翻訳日:2024-06-28 20:16:23 公開日:2024-06-27
# BT-Adapter:ビデオの会話はビデオのインストラクションチューニングなしでは不可能

BT-Adapter: Video Conversation is Feasible Without Video Instruction Tuning ( http://arxiv.org/abs/2309.15785v2 )

ライセンス: Link先を確認
Ruyang Liu, Chen Li, Yixiao Ge, Ying Shan, Thomas H. Li, Ge Li, (参考訳) 近年のLarge Language Models (LLM) の進歩は、画像言語対話エージェントの様々な進歩を加速させ、また、熟練したビデオベースの対話システムの構築方法はまだ検討中である。 LLMと視覚バックボーンの広範なスケールを考慮すると、ビデオの理解とフィードバックの提供に不可欠な効果的な時間的モデリングを容易にするために、最小限のGPUメモリが残されている。 そこで本研究では,画像言語事前学習モデルをビデオ領域に拡張する新しい手法であるBnching Temporal Adapter (BT-Adapter)を提案する。 具体的には、BT-Adapterは、事前訓練された視覚エンコーダと共に、プラグアンドユース・テンポラル・モデリング・ブランチとして機能し、背骨を凍結させながら調整される。 一度トレーニングされたばかりのBT-Adapterは、このバージョンのCLIPを使用して、すべての画像会話モデルにシームレスに統合することができ、ビデオインストラクションを必要とせずにビデオ会話を可能にする。 さらに,BT-Adapterのトレーニングタスクをカスタマイズした,枝内におけるユニークな非対称なトークンマスキング戦略を開発し,より高速な収束とより良い結果を得る。 BT-Adapterのおかげで、過剰なGPUコストを発生させることなく、強力なビデオ理解機能を備えた既存のマルチモーダル対話モデルを強化することができます。 BT-Adapterは、ベルとホイッスルを使わずに、(1)最先端のゼロショットの結果を、数千時間少ないGPU時間で、様々なビデオタスクで達成する。 2) 現在のビデオチャットボットよりも、ビデオ指導のチューニングを伴わないパフォーマンスが向上した。 3) 映像指導チューニングによるビデオチャットの最先端結果, 従来のSOTAよりも大差で優れていた。

The recent progress in Large Language Models (LLM) has spurred various advancements in image-language conversation agents, while how to build a proficient video-based dialogue system is still under exploration. Considering the extensive scale of LLM and visual backbone, minimal GPU memory is left for facilitating effective temporal modeling, which is crucial for comprehending and providing feedback on videos. To this end, we propose Branching Temporal Adapter (BT-Adapter), a novel method for extending image-language pretrained models into the video domain. Specifically, BT-Adapter serves as a plug-and-use temporal modeling branch alongside the pretrained visual encoder, which is tuned while keeping the backbone frozen. Just pretrained once, BT-Adapter can be seamlessly integrated into all image conversation models using this version of CLIP, enabling video conversations without the need for video instructions. Besides, we develop a unique asymmetric token masking strategy inside the branch with tailor-made training tasks for BT-Adapter, facilitating faster convergence and better results. Thanks to BT-Adapter, we are able to empower existing multimodal dialogue models with strong video understanding capabilities without incurring excessive GPU costs. Without bells and whistles, BT-Adapter achieves (1) state-of-the-art zero-shot results on various video tasks using thousands of fewer GPU hours. (2) better performance than current video chatbots without any video instruction tuning. (3) state-of-the-art results of video chatting using video instruction tuning, outperforming previous SOTAs by a large margin.
翻訳日:2024-06-28 20:16:23 公開日:2024-06-27
# 一般化されたブラックホールエントロピーはフォン・ノイマンエントロピーである

Generalized Black Hole Entropy is von Neumann Entropy ( http://arxiv.org/abs/2309.15897v4 )

ライセンス: Link先を確認
Jonah Kudler-Flam, Samuel Leutheusser, Gautam Satishchandran, (参考訳) 最近、シュワルツシルト-AdSブラックホールの質量にdressした可観測物のフォン・ノイマン代数やデ・シッターの観測者がタイプIIであることが示されている。 半古典状態のフォン・ノイマンエントロピーは一般化エントロピーであることが判明した。 しかし、これらの議論は平衡状態(KMS)の存在に依存しており、例えば、重力崩壊から形成されたブラックホール、カーブラックホール、または漸近的にデ・シッター空間のブラックホールには適用されない。 本稿では, キリング地平線を持つ任意の時空上の線形場に対して, 着飾った可観測体の代数を求めるための一般的な枠組みを提案する。 定常状態(ただし必ずしも KMS ではない)の存在と解の適切な崩壊を仮定すると、着飾った可観測体の代数が常に地平線上に「局所化」されたタイプII因子を含むという構造定理が証明される。 これらの仮定は、ほとんどのケースで厳格に証明されている。 漸近的に平坦なケーラーブラックホールの外方での代数に応用すると、場はブラックホールの質量と角運動量にdressした上で、地平線上のタイプII$_{\infty}$代数と過去のヌル無限大におけるタイプI$_{\infty}$代数の積を求める。 シュワルツシルト=ド・シッター (Schwarzschild-de Sitter) では、観測者を導入するにもかかわらず、場の可観測物はブラックホールと宇宙的地平線の摂動領域に似ており、各地平線上のタイプII$_{\infty}$代数の積である。 いずれの場合も、半古典状態に対するフォン・ノイマンのエントロピーは一般化エントロピーによって与えられる。 我々の結果は、他の「有界構造」(例えば、漸近境界あるいは他のキリング地平線)が存在するすべての場合において、可観測物の代数はタイプII$_{\infty}$であり、そのような構造が存在しない場合(例えば、デ・シッター)、代数はタイプII$_{1}$であることを示している。

It was recently shown that the von Neumann algebras of observables dressed to the mass of a Schwarzschild-AdS black hole or an observer in de Sitter are Type II, and thus admit well-defined traces. The von Neumann entropies of "semi-classical" states were found to be generalized entropies. However, these arguments relied on the existence of an equilibrium (KMS) state and thus do not apply to, e.g., black holes formed from gravitational collapse, Kerr black holes, or black holes in asymptotically de Sitter space. In this paper, we present a general framework for obtaining the algebra of dressed observables for linear fields on any spacetime with a Killing horizon. We prove, assuming the existence of a stationary (but not necessarily KMS) state and suitable decay of solutions, a structure theorem that the algebra of dressed observables always contains a Type II factor "localized" on the horizon. These assumptions have been rigorously proven in most cases of interest. Applied to the algebra in the exterior of an asymptotically flat Kerr black hole, where the fields are dressed to the black hole mass and angular momentum, we find a product of a Type II$_{\infty}$ algebra on the horizon and a Type I$_{\infty}$ algebra at past null infinity. In Schwarzschild-de Sitter, despite the fact that we introduce an observer, the quantum field observables are dressed to the perturbed areas of the black hole and cosmological horizons and is the product of Type II$_{\infty}$ algebras on each horizon. In all cases, the von Neumann entropy for semiclassical states is given by the generalized entropy. Our results suggest that in all cases where there exists another "boundary structure" (e.g., an asymptotic boundary or another Killing horizon) the algebra of observables is Type II$_{\infty}$ and in the absence of such structures (e.g., de Sitter) the algebra is Type II$_{1}$.
翻訳日:2024-06-28 20:16:23 公開日:2024-06-27
# 教育調査フィードバック分析のための大規模言語モデルアプローチ

A Large Language Model Approach to Educational Survey Feedback Analysis ( http://arxiv.org/abs/2309.17447v2 )

ライセンス: Link先を確認
Michael J. Parker, Caitlin Anderson, Claire Stone, YeaRim Oh, (参考訳) 本稿では,大規模言語モデル(LLM) GPT-4 と GPT-3.5 が教育フィードバック調査から洞察を得るのに役立つ可能性について検討する。 教育におけるLLMのユースケースの探索は、教育フィードバック分析における能力の探求を減らし、教育と学習に焦点を当てている。 教育における調査分析には、カリキュラムのギャップを見つけることや教師の評価といった目標が含まれており、しばしばテキスト応答のマニュアル処理に時間を要する。 LLMは、特殊な機械学習モデルや微調整なしでこれらの目標を達成する柔軟な手段を提供する可能性がある。 自然言語処理(NLP)タスクを,分類(複数ラベル,複数クラス,バイナリ),抽出,テーマ分析,感情分析などのタスクとしてLLMで行うことで,このような目標に対して多目的なアプローチを示す。 これらのワークフローを、バイオメディカルサイエンスコースからの2500の終末調査コメントの実際のデータセットに適用し、すべてのタスクにわたるゼロショットアプローチ(例やラベル付きトレーニングデータを必要としない)を評価し、ラベル付きデータが不足する教育設定を反映する。 効果的なプロンプト手法を適用することで、GPT-4を用いて複数のタスクにおける人間レベルのパフォーマンスを実現し、典型的な目標を達成するために必要なワークフローを実現する。 また,LLMのチェーン・オブ・シークレット(CoT)推論を検査し,信頼性を高める洞察を与える可能性を示した。 さらに, 多様なコースタイプ(オンライン, ハイブリッド, インパーソナライズ)に適合し, カスタマイズに適する多種多様な分類カテゴリーの開発を特徴とする。 以上の結果から,LLMは調査テキストから様々な知見を導き出すのに有効であることが示唆された。

This paper assesses the potential for the large language models (LLMs) GPT-4 and GPT-3.5 to aid in deriving insight from education feedback surveys. Exploration of LLM use cases in education has focused on teaching and learning, with less exploration of capabilities in education feedback analysis. Survey analysis in education involves goals such as finding gaps in curricula or evaluating teachers, often requiring time-consuming manual processing of textual responses. LLMs have the potential to provide a flexible means of achieving these goals without specialized machine learning models or fine-tuning. We demonstrate a versatile approach to such goals by treating them as sequences of natural language processing (NLP) tasks including classification (multi-label, multi-class, and binary), extraction, thematic analysis, and sentiment analysis, each performed by LLM. We apply these workflows to a real-world dataset of 2500 end-of-course survey comments from biomedical science courses, and evaluate a zero-shot approach (i.e., requiring no examples or labeled training data) across all tasks, reflecting education settings, where labeled data is often scarce. By applying effective prompting practices, we achieve human-level performance on multiple tasks with GPT-4, enabling workflows necessary to achieve typical goals. We also show the potential of inspecting LLMs' chain-of-thought (CoT) reasoning for providing insight that may foster confidence in practice. Moreover, this study features development of a versatile set of classification categories, suitable for various course types (online, hybrid, or in-person) and amenable to customization. Our results suggest that LLMs can be used to derive a range of insights from survey text.
翻訳日:2024-06-28 20:16:23 公開日:2024-06-27
# 粗大から偽のコンセプトボトルネックモデル

Coarse-to-Fine Concept Bottleneck Models ( http://arxiv.org/abs/2310.02116v2 )

ライセンス: Link先を確認
Konstantinos P. Panousis, Dino Ienco, Diego Marcos, (参考訳) ディープラーニングアルゴリズムは、その優れたパフォーマンスのために最近、大きな注目を集めている。 しかし、その高い複雑さと解釈不能な操作モードは、現実の安全クリティカルなタスクへの信頼性の高い展開を妨げる。 この研究は、アンテホック解釈可能性、特にConcept Bottleneck Models(CBM)をターゲットにしている。 我々のゴールは、人間の理解可能な概念を2段階の粒度で、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することである。 この目的のために,本稿では,新しい2段階の概念発見定式化を提案する。 (i)視覚言語モデルと最近の進歩 (II)データ駆動型および疎性誘導型ベイズ論による粗大な概念選択のための革新的定式化。 この枠組みでは、概念情報は全体像と一般的な非構造概念の類似性にのみ依存せず、画像シーンのパッチ固有の領域に存在するより粒度の細かい概念情報を発見・活用するために概念階層の概念を導入している。 実験的に示すように、提案手法は最近のCBMアプローチに勝るだけでなく、相互運用性に対する原則的な枠組みももたらしている。

Deep learning algorithms have recently gained significant attention due to their impressive performance. However, their high complexity and un-interpretable mode of operation hinders their confident deployment in real-world safety-critical tasks. This work targets ante hoc interpretability, and specifically Concept Bottleneck Models (CBMs). Our goal is to design a framework that admits a highly interpretable decision making process with respect to human understandable concepts, on two levels of granularity. To this end, we propose a novel two-level concept discovery formulation leveraging: (i) recent advances in vision-language models, and (ii) an innovative formulation for coarse-to-fine concept selection via data-driven and sparsity-inducing Bayesian arguments. Within this framework, concept information does not solely rely on the similarity between the whole image and general unstructured concepts; instead, we introduce the notion of concept hierarchy to uncover and exploit more granular concept information residing in patch-specific regions of the image scene. As we experimentally show, the proposed construction not only outperforms recent CBM approaches, but also yields a principled framework towards interpetability.
翻訳日:2024-06-28 20:16:23 公開日:2024-06-27
# 心エコー法による連続3次元心筋運動追跡

Continuous 3D Myocardial Motion Tracking via Echocardiography ( http://arxiv.org/abs/2310.02792v2 )

ライセンス: Link先を確認
Chengkang Shen, Hao Zhu, You Zhou, Yu Liu, Si Yi, Lili Dong, Weipeng Zhao, David J. Brady, Xun Cao, Zhan Ma, Yi Lin, (参考訳) 心血管疾患(CVD)の予防と検出には, 心臓運動追跡が不可欠である。 しかし、現在の手法では、空間次元と時間次元の両方において、心筋の不完全かつ不正確な運動推定に悩まされており、早期の心筋機能障害の同定を妨げている。 これらの課題に対処するために,ニューラル心臓運動場(Neural Cardiac Motion Field, ニューラルCMF)を紹介する。 NeuralCMFは暗黙の神経表現(INR)を利用して、心臓の3D構造と包括的な6D前方/後方運動をモデル化する。 この方法は、心筋の正確な形状と運動を心臓周期の任意の特定の点において連続的に問い合わせる機能を提供し、従来のスペックルトラッキング以上の心臓動態の詳細な解析を強化することで、ピクセルワイド制限を超える。 特に、NeuralCMFはペア化されたデータセットを必要とせずに動作し、その最適化は空間と時間次元の両方の物理知識を通じて自己監督され、2Dと3Dの心エコービデオインプットとの互換性が確保される。 3つの代表的なデータセットにまたがる実験的検証は、NeuralCMFの堅牢性と革新性をサポートし、心臓画像とモーショントラッキングにおける既存の最先端手法に対する大きな優位性を示している。

Myocardial motion tracking stands as an essential clinical tool in the prevention and detection of cardiovascular diseases (CVDs), the foremost cause of death globally. However, current techniques suffer from incomplete and inaccurate motion estimation of the myocardium in both spatial and temporal dimensions, hindering the early identification of myocardial dysfunction. To address these challenges, this paper introduces the Neural Cardiac Motion Field (NeuralCMF). NeuralCMF leverages implicit neural representation (INR) to model the 3D structure and the comprehensive 6D forward/backward motion of the heart. This method surpasses pixel-wise limitations by offering the capability to continuously query the precise shape and motion of the myocardium at any specific point throughout the cardiac cycle, enhancing the detailed analysis of cardiac dynamics beyond traditional speckle tracking. Notably, NeuralCMF operates without the need for paired datasets, and its optimization is self-supervised through the physics knowledge priors in both space and time dimensions, ensuring compatibility with both 2D and 3D echocardiogram video inputs. Experimental validations across three representative datasets support the robustness and innovative nature of the NeuralCMF, marking significant advantages over existing state-of-the-art methods in cardiac imaging and motion tracking.
翻訳日:2024-06-28 20:16:23 公開日:2024-06-27
# ゼロショット大言語モデルによるテキストベース知識グラフ補完の強化:意味的拡張に着目して

Enhancing Text-based Knowledge Graph Completion with Zero-Shot Large Language Models: A Focus on Semantic Enhancement ( http://arxiv.org/abs/2310.08279v3 )

ライセンス: Link先を確認
Rui Yang, Jiahao Zhu, Jianping Man, Li Fang, Yi Zhou, (参考訳) テキストエンティティ記述を利用したテキストベースの知識グラフ補完(KGC)手法の設計と開発が研究の最前線にある。 これらの手法は、KGCモデルを強化するためのソフトプロンプトやコントラスト学習のような高度な最適化技術を含んでいる。 テキストベースの手法の有効性は、トレーニングデータの質と豊かさに大きく左右される。 大規模言語モデル(LLM)はテキストデータの変更に簡単なプロンプトを利用できるため、KGCのデータ拡張が可能である。 それにもかかわらず、LLMは典型的にかなりの計算資源を必要とする。 これらの問題に対処するために、KGC(CP-KGC)のための制約付きプロンプトと呼ばれるフレームワークを導入する。 このCP-KGCフレームワークは、セマンティック・リッチネスを高めるために異なるデータセットに適応するプロンプトを設計する。 さらに、CP-KGCはコンテキスト制約戦略を用いて、KGCデータセット内の多文エンティティを効果的に識別する。 大規模な実験を通じて,本フレームワークの有効性を検証した。 量子化後も LLM (Qwen-7B-Chat-int4) はテキストベースの KGC メソッドである \footnote{Code のパフォーマンスを引き続き向上させ、データセットは \href{https://github.com/sjlmg/CP-KGC}{https://github.com/sjlmg/CP-KGC}{https://github.com/sjlmg/CP-KGC}} で入手できる。 本研究は,既存のモデルの性能限界を拡張し,KGCとLLMのさらなる統合を促進する。

The design and development of text-based knowledge graph completion (KGC) methods leveraging textual entity descriptions are at the forefront of research. These methods involve advanced optimization techniques such as soft prompts and contrastive learning to enhance KGC models. The effectiveness of text-based methods largely hinges on the quality and richness of the training data. Large language models (LLMs) can utilize straightforward prompts to alter text data, thereby enabling data augmentation for KGC. Nevertheless, LLMs typically demand substantial computational resources. To address these issues, we introduce a framework termed constrained prompts for KGC (CP-KGC). This CP-KGC framework designs prompts that adapt to different datasets to enhance semantic richness. Additionally, CP-KGC employs a context constraint strategy to effectively identify polysemous entities within KGC datasets. Through extensive experimentation, we have verified the effectiveness of this framework. Even after quantization, the LLM (Qwen-7B-Chat-int4) still enhances the performance of text-based KGC methods \footnote{Code and datasets are available at \href{https://github.com/sjlmg/CP-KGC}{https://github.com/sjlmg/CP-KGC}}. This study extends the performance limits of existing models and promotes further integration of KGC with LLMs.
翻訳日:2024-06-28 20:16:23 公開日:2024-06-27
# LPFormer: リンク予測のための適応グラフ変換器

LPFormer: An Adaptive Graph Transformer for Link Prediction ( http://arxiv.org/abs/2310.11009v4 )

ライセンス: Link先を確認
Harry Shomer, Yao Ma, Haitao Mao, Juanhui Li, Bo Wu, Jiliang Tang, (参考訳) リンク予測は、さまざまな領域で応用されているグラフ構造化データに関する一般的なタスクである。 古典的には、この作業には手作りのヒューリスティックが用いられた。 ヒューリスティック測度はリンク形成に関連する要因とよく相関する。 近年,メッセージパッシングニューラルネットワーク(MPNN)とヒューリスティックス手法の利点を組み合わせた新しい手法が出現している。 これらの手法は、候補リンク内のノード間の関係をキャプチャする"ペアワイズエンコーディング"と合わせて、MPNNの出力を用いて予測を行う。 多数のデータセットで高いパフォーマンスを達成することが示されている。 しかし、現在のペアエンコーディングはしばしば強い帰納バイアスを伴い、全てのリンクを分類するために同じ基礎的要素を使用する。 これにより、既存のメソッドが様々な要因から生成される様々なリンクを適切に分類する方法を学ぶ能力が制限される。 この制限に対処するため,各リンクのペアエンコーディングを適応的に学習するLPFormerを提案する。 LPFormerは、リンク予測に不可欠な複数の因子をモデル化することによって、ノード間で存在するペアエンコーディングを学習するアテンションモジュールを介して、リンクファクタをモデル化する。 大規模な実験により、LPFormerは効率を保ちながら、多数のデータセット上でSOTA性能を達成できることが示されている。 コードはhttps://github.com/HarryShomer/LPFormer.comで入手できる。

Link prediction is a common task on graph-structured data that has seen applications in a variety of domains. Classically, hand-crafted heuristics were used for this task. Heuristic measures are chosen such that they correlate well with the underlying factors related to link formation. In recent years, a new class of methods has emerged that combines the advantages of message-passing neural networks (MPNN) and heuristics methods. These methods perform predictions by using the output of an MPNN in conjunction with a "pairwise encoding" that captures the relationship between nodes in the candidate link. They have been shown to achieve strong performance on numerous datasets. However, current pairwise encodings often contain a strong inductive bias, using the same underlying factors to classify all links. This limits the ability of existing methods to learn how to properly classify a variety of different links that may form from different factors. To address this limitation, we propose a new method, LPFormer, which attempts to adaptively learn the pairwise encodings for each link. LPFormer models the link factors via an attention module that learns the pairwise encoding that exists between nodes by modeling multiple factors integral to link prediction. Extensive experiments demonstrate that LPFormer can achieve SOTA performance on numerous datasets while maintaining efficiency. The code is available at The code is available at https://github.com/HarryShomer/LPFormer.
翻訳日:2024-06-28 20:16:23 公開日:2024-06-27
# MixerFlow: MLP-Mixerが正規化フローに到達

MixerFlow: MLP-Mixer meets Normalising Flows ( http://arxiv.org/abs/2310.16777v2 )

ライセンス: Link先を確認
Eshant English, Matthias Kirchler, Christoph Lippert, (参考訳) 正規化フロー(英: normalising flow)とは、複雑な密度をより単純な密度に変換する生成モデルである。 % にもかかわらず、ビジェクティビティの要件は、特殊化されたアーキテクチャの使用を強制する。 画像モデリングの文脈では、主要な選択はGlowベースのアーキテクチャであり、代替アーキテクチャは研究コミュニティでほとんど検討されていない。 本研究では,MLP-Mixerアーキテクチャに基づくMixerFlowと呼ばれる新しいアーキテクチャを提案する。 MixerFlowは、フローベースのモデルで重量共有を行うための効率的なメカニズムを提供する。 以上の結果から,画像の解像度が向上するにつれて,画像データセットの相対的,あるいは優れた密度推定が可能となり,MixerFlowはGlowベースのアーキテクチャに代わる,シンプルかつ強力な代替手段となった。 また、MixerFlowはGlowベースのアーキテクチャよりも情報的な埋め込みを提供し、splinesやKolmogorov-Arnold Networksのような多くの構造化変換を統合することができることを示す。

Normalising flows are generative models that transform a complex density into a simpler density through the use of bijective transformations enabling both density estimation and data generation from a single model. %However, the requirement for bijectivity imposes the use of specialised architectures. In the context of image modelling, the predominant choice has been the Glow-based architecture, whereas alternative architectures remain largely unexplored in the research community. In this work, we propose a novel architecture called MixerFlow, based on the MLP-Mixer architecture, further unifying the generative and discriminative modelling architectures. MixerFlow offers an efficient mechanism for weight sharing for flow-based models. Our results demonstrate comparative or superior density estimation on image datasets and good scaling as the image resolution increases, making MixerFlow a simple yet powerful alternative to the Glow-based architectures. We also show that MixerFlow provides more informative embeddings than Glow-based architectures and can integrate many structured transformations such as splines or Kolmogorov-Arnold Networks.
翻訳日:2024-06-28 20:16:23 公開日:2024-06-27
# 1次元上の格子のクエンチダイナミクス:自由フェルミオンの場合

Quench dynamics in lattices above one dimension: the free fermionic case ( http://arxiv.org/abs/2310.18227v2 )

ライセンス: Link先を確認
Molly Gibbins, Arash Jafarizadeh, Adam Gammon-Smith, Bruno Bertini, (参考訳) 保存粒子数を持つ非相互作用フェルミオンの場合を考慮した高次元格子系のクエンチ力学の系統的研究を始める。 最も単純な例は格子上の固定位置でフェルミオンを持つ古典的な構成で、時間内に進化させる。 有限連結領域とその補体間の絡み合いを測定することにより、系の力学を特徴づける。 熱力学的エントロピーへの絡み合いエントロピーの変換を観察し、この過程が基盤となる格子に対する領域の形状と配向にどのように依存するかを考察する。 興味深いことに、不規則な領域は特異な多斜面の絡み合い成長を示すのに対し、向き角への依存は概してかなり弱い。 これは特に大きな(離散的な)回転対称群を持つ領域に当てはまる。 分析の主な道具はキャラブレスとカーディの有名な準粒子図であり、この図はケースを手元で記述するために一般化されている。 具体的には、一般的な初期構成(古典的構成に制限を課しても)に対して、${n>2}$準粒子を含む多重項の生成と非対角相関を持つことを示さなければならない。 我々は、正確な数値に対して検証された量的精度の高い予測を求め、汎用高次元格子の任意の連結領域に対してそれらを評価するための効率的なモンテカルロに基づくスキームを提案する。

We begin a systematic investigation of quench dynamics in higher-dimensional lattice systems considering the case of non-interacting fermions with conserved particle number. We prepare the system in a translational-invariant non-equilibrium initial state -- the simplest example being a classical configuration with fermions at fixed positions on the lattice -- and let it to evolve in time. We characterise the system's dynamics by measuring the entanglement between a finite connected region and its complement. We observe the transmutation of entanglement entropy into thermodynamic entropy and investigate how this process depends on the shape and orientation of the region with respect to the underlying lattice. Interestingly, we find that irregular regions display a distinctive multi-slope entanglement growth, while the dependence on the orientation angle is generically fairly weak. This is particularly true for regions with a large (discrete) rotational symmetry group. The main tool of our analysis is the celebrated quasiparticle picture of Calabrese and Cardy, which we generalise to describe the case at hand. Specifically, we show that for generic initial configurations (even when restricting to classical ones) one has to allow for the production of multiplets involving ${n>2}$ quasiparticles and carrying non-diagonal correlations. We obtain quantitatively accurate predictions -- tested against exact numerics -- and propose an efficient Monte Carlo-based scheme to evaluate them for arbitrary connected regions of generic higher dimensional lattices.
翻訳日:2024-06-28 20:16:23 公開日:2024-06-27
# 言語シフトによる継続的な学習

Continual Learning Under Language Shift ( http://arxiv.org/abs/2311.01200v4 )

ライセンス: Link先を確認
Evangelia Gogoulou, Timothée Lesort, Magnus Boman, Joakim Nivre, (参考訳) 近年の言語モデル事前学習のデータとモデルスケールの増加は、膨大なトレーニングコストをもたらしている。 新しいデータが時間とともに利用可能になるシナリオでは、完全に再トレーニングするのではなく、モデルを更新することで大きな利益が得られます。 新しいデータが新しい言語から来るとき、言語モデルを更新する長所と短所について研究する。 単言語言語モデルから始めて、デンマーク語、アイスランド語、ノルウェー語のデータを段階的に追加し、3つの異なるモデルサイズに対して、前方および後方転送の影響が言語の事前学習順序と特性に依存するかを調べる。 その結果,前方移動は言語順に大きく依存するが,下位移動は新言語の順序や特徴によって肯定的あるいは否定的であることがわかった。 言語汚染と構文的類似性の組み合わせが私たちの結果に最も適していることを見出した。

The recent increase in data and model scale for language model pre-training has led to huge training costs. In scenarios where new data become available over time, updating a model instead of fully retraining it would therefore provide significant gains. We study the pros and cons of updating a language model when new data comes from new languages -- the case of continual learning under language shift. Starting from a monolingual English language model, we incrementally add data from Danish, Icelandic, and Norwegian to investigate how forward and backward transfer effects depend on pre-training order and characteristics of languages, for three different model sizes. Our results show that, while forward transfer is largely positive and independent of language order, backward transfer can be positive or negative depending on the order and characteristics of new languages. We explore a number of potentially explanatory factors and find that a combination of language contamination and syntactic similarity best fits our results.
翻訳日:2024-06-28 20:16:23 公開日:2024-06-27
# 量子制御のための最適Zenoドラッグ:アクションベーススケジューリング最適化によるZenoへのショートカット

Optimal Zeno Dragging for Quantum Control: A Shortcut to Zeno with Action-based Scheduling Optimization ( http://arxiv.org/abs/2311.01631v2 )

ライセンス: Link先を確認
Philippe Lewalle, Yipei Zhang, K. Birgitta Whaley, (参考訳) 量子ゼノ効果は、「崩壊」事象が十分に強く頻繁であるときに、量子測定が同時ユニタリダイナミクスを阻害すると主張する。 これは強い連続測定や散逸の限界に当てはまる。 観測可能な観測値を動的に変化させることにより、「ゼノ・ドラグング」と呼ばれる散逸制御を実装することができ、したがって、ゼノダイナミクスの下でアトラクタとなる固有状態も実装できる。 これは、測定速度と比較して固有状態変化の速度が遅いときに、Zenoドラッグフィリティが最高になるという断熱過程と似ている。 ここでは、量子システムの制御を実現するために、そのような力学を使用するための2つの理論的方法を示す。 第1は「ゼノへのショートカット」(STZ)と呼び、単体的断熱進化を加速するために頻繁に使用される断熱運転(Meerdiabatic driving)のショートカットと類似している。 第2のアプローチでは、Chantasri Dressel Jordan (2013, CDJ) の確率的作用を適用し、これに由来する極端確率の読み出しパスが、Zenoドラッグングスケジュールのポントリャーギンスタイルの最適化の設定に適していることを示す。 後者のアプローチの基本的な貢献は、測定駆動制御最適化に適した作用が、統計的議論からかなり一般的に導出されることを示すことである。 これらの手法を量子ビットのZenoドラッグングに実装すると、どちらの手法も同じ解が得られること、すなわち最適制御がZenoモニタされた固有状態の運動に一致するユニタリであることが分かる。 次に、そのような解はユニタリのみの演算よりも堅牢であることを示し、より大規模なシステムに埋め込まれた量子ビット例の解可能な一般化についてコメントする。 これらの手法は、散逸的に安定化された量子演算を実現するために、ゼノ部分空間の動的制御を体系的に発展させる新しい経路を開く。

The quantum Zeno effect asserts that quantum measurements inhibit simultaneous unitary dynamics when the "collapse" events are sufficiently strong and frequent. This applies in the limit of strong continuous measurement or dissipation. It is possible to implement a dissipative control that is known as "Zeno Dragging", by dynamically varying the monitored observable, and hence also the eigenstates which are attractors under Zeno dynamics. This is similar to adiabatic processes, in that the Zeno dragging fidelity is highest when the rate of eigenstate change is slow compared to the measurement rate. We demonstrate here two theoretical methods for using such dynamics to achieve control of quantum systems. The first, which we shall refer to as "shortcut to Zeno" (STZ), is analogous to the shortcuts to adiabaticity (counterdiabatic driving) that are frequently used to accelerate unitary adiabatic evolution. In the second approach we apply the Chantasri Dressel Jordan (2013, CDJ) stochastic action, and demonstrate that the extremal-probability readout paths derived from this are well suited to setting up a Pontryagin-style optimization of the Zeno dragging schedule. A fundamental contribution of the latter approach is to show that an action suitable for measurement-driven control optimization can be derived quite generally from statistical arguments. Implementing these methods on the Zeno dragging of a qubit, we find that both approaches yield the same solution, namely, that the optimal control is a unitary that matches the motion of the Zeno-monitored eigenstate. We then show that such a solution can be more robust than a unitary-only operation, and comment on solvable generalizations of our qubit example embedded in larger systems. These methods open up new pathways toward systematically developing dynamic control of Zeno subspaces to realize dissipatively-stabilized quantum operations.
翻訳日:2024-06-28 20:16:23 公開日:2024-06-27
# マルチタスク学習における共通パラダイムの検討

Examining Common Paradigms in Multi-Task Learning ( http://arxiv.org/abs/2311.04698v4 )

ライセンス: Link先を確認
Cathrin Elich, Lukas Kirchdorfer, Jan M. Köhler, Lukas Schott, (参考訳) 近年,マルチタスク学習(MTL)が注目されているが,その基盤となるメカニズムはよく分かっていない。 最近の手法では、単一タスク学習(STL)ベースラインよりも一貫したパフォーマンス向上は得られず、MTL固有の課題についてより深い洞察を得ることの重要性が強調されている。 そこで本研究では,MLLのパラダイムをSTLの文脈で検討する。 我々は,様々な実験において,MTLにおけるAdam Optimizationrのような一般的なSTLツールの重要な役割を実証的に示す。 アダムの有効性をさらに調査するため、理論上は軽微な仮定の下で部分的に損失スケールの不変性を導出する。 第二に、勾配衝突の概念は、しばしばMTLの特定の問題として表現される。 MTLにおける勾配衝突の役割を探求し、STLと比較する。 角勾配アライメントに対しては、これが MTL の唯一の問題であることを示す証拠は見つからない。 主な差別化要因として,勾配の等級差を強調した。 全体として、STLとMTLの驚くほどの類似性は、より広い文脈で両方の分野からの手法を検討することを示唆している。

While multi-task learning (MTL) has gained significant attention in recent years, its underlying mechanisms remain poorly understood. Recent methods did not yield consistent performance improvements over single task learning (STL) baselines, underscoring the importance of gaining more profound insights about challenges specific to MTL. In our study, we investigate paradigms in MTL in the context of STL: First, the impact of the choice of optimizer has only been mildly investigated in MTL. We show the pivotal role of common STL tools such as the Adam optimizer in MTL empirically in various experiments. To further investigate Adam's effectiveness, we theoretical derive a partial loss-scale invariance under mild assumptions. Second, the notion of gradient conflicts has often been phrased as a specific problem in MTL. We delve into the role of gradient conflicts in MTL and compare it to STL. For angular gradient alignment we find no evidence that this is a unique problem in MTL. We emphasize differences in gradient magnitude as the main distinguishing factor. Overall, we find surprising similarities between STL and MTL suggesting to consider methods from both fields in a broader context.
翻訳日:2024-06-28 20:16:23 公開日:2024-06-27
# 入力凸LSTMを用いた実時間機械学習に基づく最適化

Real-Time Machine-Learning-Based Optimization Using Input Convex LSTM ( http://arxiv.org/abs/2311.07202v5 )

ライセンス: Link先を確認
Zihao Wang, Donghan Yu, Zhe Wu, (参考訳) ニューラルネットワークに基づく最適化と制御は、より少ないリソースを必要とする効率的なデータ駆動プロセスモデリングのために、エネルギーと製造システムにおける第一原理モデルに基づくアプローチを徐々に置き換えてきた。 しかし、その非凸性は最適化と制御プロセスを著しく遅くし、リアルタイムな意思決定プロセスにおけるアプリケーションを制限する。 この課題に対処するために、ニューラルネットワークに基づく最適化の計算効率を高めるために、新しい入力凸長短期記憶(ICLSTM)ネットワークを提案する。 エネルギーと化学システムの最適化にリアルタイムニューラルネットワークを用いた2つのケーススタディを通じて、実行時のICLSTMに基づく最適化の優れた性能を実証する。 具体的には、シンガポールのLHTホールディングスの太陽光発電(PV)エネルギーシステムのリアルタイム最適化問題において、ICLSTMに基づく最適化は従来のLSTMによる最適化と比較して8倍のスピードアップを達成した。 これらの結果は、実用的な応用において、ニューラルネットワークに基づく最適化と制御の効率を大幅に向上させるICLSTMネットワークの可能性を強調している。 ソースコードはhttps://github.com/killingbear999/ICLSTMで入手できる。

Neural network-based optimization and control have gradually supplanted first-principles model-based approaches in energy and manufacturing systems due to their efficient, data-driven process modeling that requires fewer resources. However, their non-convex nature significantly slows down the optimization and control processes, limiting their application in real-time decision-making processes. To address this challenge, we propose a novel Input Convex Long Short-Term Memory (ICLSTM) network to enhance the computational efficiency of neural network-based optimization. Through two case studies employing real-time neural network-based optimization for optimizing energy and chemical systems, we demonstrate the superior performance of ICLSTM-based optimization in terms of runtime. Specifically, in a real-time optimization problem of a real-world solar photovoltaic (PV) energy system at LHT Holdings in Singapore, ICLSTM-based optimization achieved an 8-fold speedup compared to conventional LSTM-based optimization. These results highlight the potential of ICLSTM networks to significantly enhance the efficiency of neural network-based optimization and control in practical applications. Source code is available at https://github.com/killingbear999/ICLSTM.
翻訳日:2024-06-28 20:06:29 公開日:2024-06-27
# 因果メッセージパッシング:未知および一般ネットワーク干渉による実験方法

Causal Message Passing: A Method for Experiments with Unknown and General Network Interference ( http://arxiv.org/abs/2311.08340v2 )

ライセンス: Link先を確認
Sadegh Shirani, Mohsen Bayati, (参考訳) ランダム化実験は、データ駆動による意思決定や介入の評価のための強力な方法論である。 しかし、その妥当性はネットワーク干渉によって損なわれる可能性がある。 これは、1つの単位の処理がその結果だけでなく、連結単位の処理にも影響し、従来の処理効果の推定に偏っているときに起こる。 本研究は,既存の文献における特殊なモデルを超えて,複雑で未知のネットワーク干渉に対応する新しい枠組みを提案する。 我々のフレームワークは因果的メッセージパッシングと呼ばれ、高次元近似的メッセージパッシング手法に基づいている。 これは多周期実験に特化しており、多くのユニットとネットワーク干渉による設定に特に有効である。 このフレームワークは、平衡に達するまで、処理されたユニットのインパクトが隣ユニットを介してネットワークを介して伝播する動的なプロセスとして因果効果をモデル化する。 このアプローチにより、時間とともに潜在的な結果のダイナミクスを近似することができ、治療効果が平衡に達する前に貴重な情報を抽出することができる。 因果的メッセージパッシングを利用して,全てのユニットが治療を受けないシナリオと比較して,すべてのユニットが治療を受けた場合に観察される影響として定義される総治療効果を推定する実用的なアルゴリズムを導入する。 本手法の有効性を5つの数値シナリオで示し,それぞれに異なる干渉構造を特徴付ける。

Randomized experiments are a powerful methodology for data-driven evaluation of decisions or interventions. Yet, their validity may be undermined by network interference. This occurs when the treatment of one unit impacts not only its outcome but also that of connected units, biasing traditional treatment effect estimations. Our study introduces a new framework to accommodate complex and unknown network interference, moving beyond specialized models in the existing literature. Our framework, termed causal message-passing, is grounded in high-dimensional approximate message passing methodology. It is tailored for multi-period experiments and is particularly effective in settings with many units and prevalent network interference. The framework models causal effects as a dynamic process where a treated unit's impact propagates through the network via neighboring units until equilibrium is reached. This approach allows us to approximate the dynamics of potential outcomes over time, enabling the extraction of valuable information before treatment effects reach equilibrium. Utilizing causal message-passing, we introduce a practical algorithm to estimate the total treatment effect, defined as the impact observed when all units are treated compared to the scenario where no unit receives treatment. We demonstrate the effectiveness of this approach across five numerical scenarios, each characterized by a distinct interference structure.
翻訳日:2024-06-28 20:06:29 公開日:2024-06-27
# 大言語モデルは概念アノテーションガイドラインに従うことができるか? : 科学的・金融的領域を事例として

Can Large Language Models Follow Concept Annotation Guidelines? A Case Study on Scientific and Financial Domains ( http://arxiv.org/abs/2311.08704v2 )

ライセンス: Link先を確認
Marcio Fonseca, Shay B. Cohen, (参考訳) 大規模言語モデル (LLMs) は, 文脈内実演を活用する能力に優れるが, 新たな概念や事実を根本から学べるかは, いまだ不明である。 この問題に対処するために,文のラベル付け作業における文脈内概念ガイドラインに従うための命令調整型LLMの能力について検討する。 我々は、ゼロショット文分類タスクのプロンプトとして使用される、事実的および反事実的概念定義の異なるタイプを示すガイドラインを設計する。 その結果、概念定義はタスク性能に一貫した助けとなるが、大モデル(70Bパラメータ以上)だけが対実的コンテキスト下での作業能力に制限があることがわかった。 重要なことは、GPT-3.5やGPT-4のようなプロプライエタリなモデルだけが、より洗練されたアライメント手法によって、非感覚的なガイドラインを認識できるということだ。 最後に,Llama-2-70B-chatよりもFalcon-180B-chatの方が優れており,モデルスケールの増加よりも注意深い微調整が有効であることを示す。 さらに,我々の簡易評価手法は,最も有能なオープンソース言語モデルと主要なプロプライエタリAPIの間の概念理解において,大きなギャップを生じさせる。

Although large language models (LLMs) exhibit remarkable capacity to leverage in-context demonstrations, it is still unclear to what extent they can learn new concepts or facts from ground-truth labels. To address this question, we examine the capacity of instruction-tuned LLMs to follow in-context concept guidelines for sentence labeling tasks. We design guidelines that present different types of factual and counterfactual concept definitions, which are used as prompts for zero-shot sentence classification tasks. Our results show that although concept definitions consistently help in task performance, only the larger models (with 70B parameters or more) have limited ability to work under counterfactual contexts. Importantly, only proprietary models such as GPT-3.5 and GPT-4 can recognize nonsensical guidelines, which we hypothesize is due to more sophisticated alignment methods. Finally, we find that Falcon-180B-chat is outperformed by Llama-2-70B-chat is most cases, which indicates that careful fine-tuning is more effective than increasing model scale. Altogether, our simple evaluation method reveals significant gaps in concept understanding between the most capable open-source language models and the leading proprietary APIs.
翻訳日:2024-06-28 20:06:29 公開日:2024-06-27
# 安定な微分可能な因果発見

Stable Differentiable Causal Discovery ( http://arxiv.org/abs/2311.10263v2 )

ライセンス: Link先を確認
Achille Nazaret, Justin Hong, Elham Azizi, David Blei, (参考訳) 有向非巡回グラフ(DAG)として因果関係を推定することは重要であるが難しい問題である。 微分因果発見(DCD)は、連続的な最適化として探索をフレーミングする、この問題に対する有望なアプローチである。 しかし、既存のDCD法は数値的に不安定であり、性能は数十変数を超えている。 本稿では,従来のDCD法を2つの方法で改善する新しい手法である安定微分因数探索法(SDCD:Stable Differentiable Causal Discovery)を提案する。 2) 現実のシナリオでは一般的なスパース因果グラフに適した訓練手順を用いる。 まず、SDCDを導出し、その安定性と正確性を証明する。 次に、観察データと介入データと、小規模・大規模の両方で評価する。 SDCDは収束速度と精度の両方で既存の手法より優れており、数千の変数に拡張可能である。 私たちはhttps://github.com/azizilab/sdcd.comでコードを提供しています。

Inferring causal relationships as directed acyclic graphs (DAGs) is an important but challenging problem. Differentiable Causal Discovery (DCD) is a promising approach to this problem, framing the search as a continuous optimization. But existing DCD methods are numerically unstable, with poor performance beyond tens of variables. In this paper, we propose Stable Differentiable Causal Discovery (SDCD), a new method that improves previous DCD methods in two ways: (1) It employs an alternative constraint for acyclicity; this constraint is more stable, both theoretically and empirically, and fast to compute. (2) It uses a training procedure tailored for sparse causal graphs, which are common in real-world scenarios. We first derive SDCD and prove its stability and correctness. We then evaluate it with both observational and interventional data and on both small-scale and large-scale settings. We find that SDCD outperforms existing methods in both convergence speed and accuracy and can scale to thousands of variables. We provide code at https://github.com/azizilab/sdcd.
翻訳日:2024-06-28 20:06:29 公開日:2024-06-27
# FDDM:周波数分離拡散モデルを用いた医用画像の教師なし翻訳

FDDM: Unsupervised Medical Image Translation with a Frequency-Decoupled Diffusion Model ( http://arxiv.org/abs/2311.12070v2 )

ライセンス: Link先を確認
Yunxiang Li, Hua-Chieh Shao, Xiaoxue Qian, You Zhang, (参考訳) 拡散モデルは、疾患の診断、局所化、治療を支援するために、医用画像翻訳において高品質な画像を生成する大きな可能性を示している。 しかしながら、現在の拡散モデルは、医学画像の解剖学的構造を正確に保存できる忠実な画像翻訳、特に障害のないデータセットの達成に限定して成功している。 構造的ミスマッチは疾患の誤認や治療ミスにつながるため、構造的および解剖学的詳細の保存は信頼性の高い診断と治療計画に不可欠である。 本研究では,MR-CT変換のための周波数デカップリング拡散モデル(FDDM)を提案する。 FDDMは、まず、初期変換モジュールを介してMR画像からCT画像の解剖情報を取得する。 この解剖学的情報は、その後の拡散モデルをガイドし、高品質なCT画像を生成する。 我々の拡散モデルは、低周波・高周波情報にデュアルパス逆拡散法を用い、画像品質と解剖学的精度のバランスを良くする。 脳MR-to-CTおよび骨盤MR-to-CT翻訳のための公開データセットを用いてFDDMを広範囲に評価し、他のGANベース、VAEベース、拡散ベースモデルよりも優れた性能を示した。 評価指標はFrechet Inception Distance (FID), Peak Signal-to-Noise Ratio (PSNR), Structure similarity Index Measure (SSIM)であった。 FDDMは両方のデータセット、特にFIDで優れ、脳データでは25.9点、骨盤データでは29.2点、その他の手法では著しく優れていた。 これらの結果は、FDDMが翻訳された解剖学的構造の精度を維持しつつ、高品質なターゲットドメイン画像を生成することができることを示している。

Diffusion models have demonstrated significant potential in producing high-quality images in medical image translation to aid disease diagnosis, localization, and treatment. Nevertheless, current diffusion models have limited success in achieving faithful image translations that can accurately preserve the anatomical structures of medical images, especially for unpaired datasets. The preservation of structural and anatomical details is essential to reliable medical diagnosis and treatment planning, as structural mismatches can lead to disease misidentification and treatment errors. In this study, we introduce the Frequency Decoupled Diffusion Model (FDDM) for MR-to-CT conversion. FDDM first obtains the anatomical information of the CT image from the MR image through an initial conversion module. This anatomical information then guides a subsequent diffusion model to generate high-quality CT images. Our diffusion model uses a dual-path reverse diffusion process for low-frequency and high-frequency information, achieving a better balance between image quality and anatomical accuracy. We extensively evaluated FDDM using public datasets for brain MR-to-CT and pelvis MR-to-CT translations, demonstrating its superior performance to other GAN-based, VAE-based, and diffusion-based models. The evaluation metrics included Frechet Inception Distance (FID), Peak Signal-to-Noise Ratio (PSNR), and Structural Similarity Index Measure (SSIM). FDDM achieved the best scores on all metrics for both datasets, particularly excelling in FID, with scores of 25.9 for brain data and 29.2 for pelvis data, significantly outperforming other methods. These results demonstrate that FDDM can generate high-quality target domain images while maintaining the accuracy of translated anatomical structures.
翻訳日:2024-06-28 20:06:29 公開日:2024-06-27
# RDFストリーム分類:研究開発におけるRDFストリームタイプの体系化

RDF Stream Taxonomy: Systematizing RDF Stream Types in Research and Practice ( http://arxiv.org/abs/2311.14540v3 )

ライセンス: Link先を確認
Piotr Sowinski, Pawel Szmeja, Maria Ganzha, Marcin Paprzycki, (参考訳) 長年にわたって、RDFストリーミングは様々な角度から研究・実践され、様々なRDFストリーム定義が生まれた。 この多様性は、共通の言語が欠如していることから、ストリーミングシステムの議論と統合において大きな課題となる。 本研究は,新たな分類法で文献に存在するRDFストリームタイプを体系化することによって,この重要な研究ギャップに対処しようとするものである。 提案したRDFストリーム分類法(RDF-STaX)は、FAIR原則に従ってOWL 2 DLオントロジーに具体化されており、実際に容易に適用可能である。 オントロジーの採用を促進するため、広範なドキュメントと追加のリソースが提供される。 オントロジーの3つのユースケースは、リソースの有用性を示す有能な質問を伴うものである。 さらに、この研究は新しいナノパブリケーションデータセットを導入し、RDFストリーミングのコラボレーティブで生きた最先端のレビューを提供する。 資源の多面的評価の結果を提示し、その論理的妥当性、使用事例のカバレッジ、コミュニティのベストプラクティスへの順守を検証し、他の作品と比較する。 RDF-STaXは、科学的議論、協力、ツールの相互運用性を促進することによって、RDFストリーミングのイノベーションを促進することが期待されている。

Over the years, RDF streaming was explored in research and practice from many angles, resulting in a wide range of RDF stream definitions. This variety presents a major challenge in discussing and integrating streaming systems, due to the lack of a common language. This work attempts to address this critical research gap, by systematizing RDF stream types present in the literature in a novel taxonomy. The proposed RDF Stream Taxonomy (RDF-STaX) is embodied in an OWL 2 DL ontology that follows the FAIR principles, making it readily applicable in practice. Extensive documentation and additional resources are provided, to foster the adoption of the ontology. Three use cases for the ontology are presented with accompanying competency questions, demonstrating the usefulness of the resource. Additionally, this work introduces a novel nanopublications dataset, which serves as a collaborative, living state-of-the-art review of RDF streaming. The results of a multifaceted evaluation of the resource are presented, testing its logical validity, use case coverage, and adherence to the community's best practices, while also comparing it to other works. RDF-STaX is expected to help drive innovation in RDF streaming, by fostering scientific discussion, cooperation, and tool interoperability.
翻訳日:2024-06-28 20:06:29 公開日:2024-06-27
# 視覚的位置認識のための最適移動アグリゲーション

Optimal Transport Aggregation for Visual Place Recognition ( http://arxiv.org/abs/2311.15937v2 )

ライセンス: Link先を確認
Sergio Izquierdo, Javier Civera, (参考訳) 視覚的位置認識(VPR)のタスクは、クエリイメージと異なる場所からの画像の広範なデータベースからの参照とを一致させることを目的としており、視覚的手がかりのみに依存している。 最先端のパイプラインは、各イメージのグローバルディスクリプタを形成するために、ディープバックボーンから抽出された機能の集約に重点を置いている。 本稿では,SALAD(Sinkhorn Algorithm for Locally Aggregated Descriptors)を導入し,NetVLADの局所特徴のソフトアサインを最適な輸送問題としてクラスタに再構成する。 SALADでは、機能間クラスタ関係とクラスタ間クラスタ関係の両方を考慮し、非形式的と考えられる機能を選択的に破棄し、全体的な記述子品質を向上させるために設計された「ダストビン」クラスタも導入する。 さらに、DINOv2をバックボーンとして微調整し、ローカル機能の記述能力を強化し、必要なトレーニング時間を劇的に短縮します。 その結果、我々のシングルステージ手法は、パブリックなVPRデータセットの単一ステージベースラインを超えるだけでなく、大幅に高いコストで再ランク付けする2ステージ手法を超越した。 コードとモデルはhttps://github.com/serizba/salad.comで入手できる。

The task of Visual Place Recognition (VPR) aims to match a query image against references from an extensive database of images from different places, relying solely on visual cues. State-of-the-art pipelines focus on the aggregation of features extracted from a deep backbone, in order to form a global descriptor for each image. In this context, we introduce SALAD (Sinkhorn Algorithm for Locally Aggregated Descriptors), which reformulates NetVLAD's soft-assignment of local features to clusters as an optimal transport problem. In SALAD, we consider both feature-to-cluster and cluster-to-feature relations and we also introduce a 'dustbin' cluster, designed to selectively discard features deemed non-informative, enhancing the overall descriptor quality. Additionally, we leverage and fine-tune DINOv2 as a backbone, which provides enhanced description power for the local features, and dramatically reduces the required training time. As a result, our single-stage method not only surpasses single-stage baselines in public VPR datasets, but also surpasses two-stage methods that add a re-ranking with significantly higher cost. Code and models are available at https://github.com/serizba/salad.
翻訳日:2024-06-28 20:06:29 公開日:2024-06-27
# WsiCaption:ギガピクセル全スライディング画像の診断レポート作成

WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images ( http://arxiv.org/abs/2311.16480v4 )

ライセンス: Link先を確認
Pingyi Chen, Honglin Li, Chenglu Zhu, Sunyi Zheng, Zhongyi Shui, Lin Yang, (参考訳) 全スライド画像は、癌の診断と治療のためのデジタル病理の基礎である。 病理報告を書くことは、経験の浅い病理学者にとって、残酷でエラーを起こしやすい。 作業負荷を低減し, 臨床自動化を改善するため, スライド画像全体の病態レポートの作成方法について検討した。 データエンドでは、最大のWSIテキストデータセット(PathText)をキュレートしました。 具体的には,TCGAにおける診断スライドの認識とクリーニングにより,約10000の高品質なWSIテキストペアを視覚言語モデルで収集した。 モデル終端では、ギガピクセルWSIに対する病理報告を生成できる多重インスタンス生成モデル(MI-Gen)を提案する。 TCGA-PathoTextの最大のサブセットにモデルをベンチマークする。 実験結果から,本モデルでは,複数の臨床手掛かりを含む病態報告を生成でき,特定のスライドレベルタスクにおける競合性能を達成できることが示された。 本研究は, BRCA サブタイプにおいて, 診断報告から単純な意味抽出を行うことで, 従来の最先端手法を超越した性能(F1スコアの0.838)を達成できることを観察する。 収集したデータセットと関連するコードが利用可能です。

Whole slide images are the foundation of digital pathology for the diagnosis and treatment of carcinomas. Writing pathology reports is laborious and error-prone for inexperienced pathologists. To reduce the workload and improve clinical automation, we investigate how to generate pathology reports given whole slide images. On the data end, we curated the largest WSI-text dataset (PathText). In specific, we collected nearly 10000 high-quality WSI-text pairs for visual-language models by recognizing and cleaning pathology reports which narrate diagnostic slides in TCGA. On the model end, we propose the multiple instance generative model (MI-Gen) which can produce pathology reports for gigapixel WSIs. We benchmark our model on the largest subset of TCGA-PathoText. Experimental results show our model can generate pathology reports which contain multiple clinical clues and achieve competitive performance on certain slide-level tasks. We observe that simple semantic extraction from the pathology reports can achieve the best performance (0.838 of F1 score) on BRCA subtyping surpassing previous state-of-the-art approaches. Our collected dataset and related code are available.
翻訳日:2024-06-28 20:06:29 公開日:2024-06-27
# LExCI: 組み込みシステムによる強化学習フレームワーク

LExCI: A Framework for Reinforcement Learning with Embedded Systems ( http://arxiv.org/abs/2312.02739v2 )

ライセンス: Link先を確認
Kevin Badalian, Lucas Koch, Tobias Brinkmann, Mario Picerno, Marius Wegener, Sung-Yong Lee, Jakob Andert, (参考訳) 人工知能(AI)の進歩は、日常生活の多くの分野で応用されている。 制御工学の文脈では、強化学習(RL)は特に有望なアプローチであり、エージェントが環境と自由に対話して最適な戦略を見つけるという考え方を中心にしている。 RLエージェントのトレーニングとデプロイにおいてプロフェッショナルが直面する課題のひとつは、RLエージェントが専用の組み込みデバイス上で動作しなければならないことだ。 これは既存のツールチェーンに統合したり、リアルタイムの制約のような特定のパフォーマンス基準を満たすためかもしれません。 しかし、従来のRLライブラリは、そのようなハードウェアと組み合わせて簡単には利用できない。 本稿では、このギャップを埋め、オープンソースライブラリRLlibを使用して組み込みシステム上でエージェントをトレーニングするためのフリーでオープンソースのツールをエンドユーザに提供するLExCIというフレームワークを提案する。 操作性は、最先端の2つのRL-algorithmと、迅速な制御プロトタイピングシステムで実証されている。

Advances in artificial intelligence (AI) have led to its application in many areas of everyday life. In the context of control engineering, reinforcement learning (RL) represents a particularly promising approach as it is centred around the idea of allowing an agent to freely interact with its environment to find an optimal strategy. One of the challenges professionals face when training and deploying RL agents is that the latter often have to run on dedicated embedded devices. This could be to integrate them into an existing toolchain or to satisfy certain performance criteria like real-time constraints. Conventional RL libraries, however, cannot be easily utilised in conjunction with that kind of hardware. In this paper, we present a framework named LExCI, the Learning and Experiencing Cycle Interface, which bridges this gap and provides end-users with a free and open-source tool for training agents on embedded systems using the open-source library RLlib. Its operability is demonstrated with two state-of-the-art RL-algorithms and a rapid control prototyping system.
翻訳日:2024-06-28 20:06:29 公開日:2024-06-27
# 超ラジカル相転移からのスピン-モーメントエンタングルメントのダイナミクス

Dynamics of spin-momentum entanglement from superradiant phase transitions ( http://arxiv.org/abs/2312.03827v2 )

ライセンス: Link先を確認
Oksana Chelpanova, Kushal Seetharam, Rodrigo Rosa-Medina, Nicola Reiter, Fabian Finger, Tobias Donner, Jamir Marino, (参考訳) マルチレベル原子を用いた多体キャビティQEDの運用体制の探索は、レベル内量子相関の強化された記憶能力のエキサイティングな研究フロンティアである。 本研究では, 実験可能な多体キャビティQEDモデルについて検討し, それぞれのレベルは, キャビティ内の超低温原子の異なるスピンと運動量状態の組み合わせから形成される。 結果として得られるモデルは、擬スピン作用素から構築されたディッキー・ハミルトンの対で構成され、2つの中間超ラジアント相転移を効果的に捕捉する。 位相図は、スピンの弱く強い絡み合った状態と運動量原子の自由度を特徴とする領域を明らかにする。 これらの状態は、緩やかな緩和から速い緩和まで様々な動的反応を示し、持続的絡み合い時間振動のオプションが追加されている。 我々は, キャビティの損失が, 系の力学を絡み合った状態にステアリングする役割について論じ, キャビティ内の異なる光分極を利用する読み出し方式を提案する。 我々の研究は、多体共振器 QED で発生する様々な非平衡相転移を、多レベル原子記述を持つ系における量子相関の蓄積に繋ぐ方法である。

Exploring operational regimes of many-body cavity QED with multi-level atoms remains an exciting research frontier for their enhanced storage capabilities of intra-level quantum correlations. In this work, we consider an experimentally feasible many-body cavity QED model describing a four-level system, where each of those levels is formed from a combination of different spin and momentum states of ultra-cold atoms in a cavity. The resulting model comprises a pair of Dicke Hamiltonians constructed from pseudo-spin operators, effectively capturing two intertwined superradiant phase transitions. The phase diagram reveals regions featuring weak and strong entangled states of spin and momentum atomic degrees of freedom. These states exhibit different dynamical responses, ranging from slow to fast relaxation, with the added option of persistent entanglement temporal oscillations. We discuss the role of cavity losses in steering the system's dynamics into such entangled states and propose a readout scheme that leverages different light polarizations within the cavity. Our work paves the way to connect the rich variety of non-equilibrium phase transitions that occur in many-body cavity QED to the buildup of quantum correlations in systems with multi-level atom descriptions.
翻訳日:2024-06-28 20:06:29 公開日:2024-06-27
# 離散非マルコフ拡散モデルによる高速サンプリング

Fast Sampling via Discrete Non-Markov Diffusion Models ( http://arxiv.org/abs/2312.09193v2 )

ライセンス: Link先を確認
Zixiang Chen, Huizhuo Yuan, Yongqian Li, Yiwen Kou, Junkai Zhang, Quanquan Gu, (参考訳) 離散拡散モデルは、高品質なデータ生成のための強力なツールとして登場した。 テキスト生成タスクのような離散空間での成功にもかかわらず、離散拡散モデルの加速はまだ検討中である。 本稿では,離散データ生成のための高速化された逆サンプリングを許容する離散非マルコフ拡散モデルを提案する。 提案手法は, ニューラルネットワークに対する関数評価の回数を大幅に削減し, サンプリング処理を高速化する。 さらに,有限ステップサンプリングから無限ステップサンプリングへの移行について検討し,離散拡散モデルに対する離散過程と連続過程のギャップを埋めるための新たな洞察を提供する。 自然言語生成および機械翻訳タスクに関する大規模な実験は,従来の離散拡散モデルの手法と比較して,生成速度とサンプル品質の両方の観点から,本手法の優れた性能を示す。

Discrete diffusion models have emerged as powerful tools for high-quality data generation. Despite their success in discrete spaces, such as text generation tasks, the acceleration of discrete diffusion models remains under explored. In this paper, we propose a discrete non-Markov diffusion model, which admits an accelerated reverse sampling for discrete data generation. Our method significantly reduces the number of function evaluations (i.e., calls to the neural network), making the sampling process much faster. Furthermore, we study the transition from finite to infinite step sampling, offering new insights into bridging the gap between discrete and continuous-time processes for discrete diffusion models. Extensive experiments on natural language generation and machine translation tasks demonstrate the superior performance of our method in terms of both generation speed and sample quality compared to existing methods for discrete diffusion models.
翻訳日:2024-06-28 20:06:29 公開日:2024-06-27
# PlaNet-S: 胎盤の自動セマンティックセグメンテーション

PlaNet-S: Automatic Semantic Segmentation of Placenta ( http://arxiv.org/abs/2312.11580v2 )

ライセンス: Link先を確認
Shinnosuke Yamamoto, Isso Saito, Eichi Takaya, Ayaka Harigai, Tomomi Sato, Tomoya Kobayashi, Kei Takase, Takuya Ueda, (参考訳) [目的]アンサンブル学習を通じてU-NetとSegNeXtアーキテクチャを統合する完全に自動化されたセマンティックプレースンタセグメンテーションモデルを開発する。 方法]MRIを施行した胎盤異常を疑う妊婦218名を対象に,胎盤分画の深層学習モデルを開発するための注釈画像1090枚を作成した。 画像は標準化され、トレーニングセットとテストセットに分割された。 U-NetとSegNeXtをアンサンブルフレームワークに統合したPlaNet-Sの性能は、Intersection over Union(IoU)と接続コンポーネント(CCC)をU-Netモデルと比較して評価した。 結果]PlaNet-SはU-Net (0.78 +/-0.010) よりもIoU (0.73 +/- 0.13) が有意に高かった(p<0.01。 PlaNet-S の CCC は U-Net の 86.0\% と 56.7\% で一致した (p<0.01) 。 結論]PlaNet-Sは胎盤分割タスクにおいて従来のU-Netよりも優れていた。 本モデルは,医師支援手動セグメンテーションの時間的課題に対処し,胎盤画像解析における多様な応用の可能性を提供する。

[Purpose] To develop a fully automated semantic placenta segmentation model that integrates the U-Net and SegNeXt architectures through ensemble learning. [Methods] A total of 218 pregnant women with suspected placental anomalies who underwent magnetic resonance imaging (MRI) were enrolled, yielding 1090 annotated images for developing a deep learning model for placental segmentation. The images were standardized and divided into training and test sets. The performance of PlaNet-S, which integrates U-Net and SegNeXt within an ensemble framework, was assessed using Intersection over Union (IoU) and counting connected components (CCC) against the U-Net model. [Results] PlaNet-S had significantly higher IoU (0.73 +/- 0.13) than that of U-Net (0.78 +/- 0.010) (p<0.01). The CCC for PlaNet-S was significantly higher than that for U-Net (p<0.01), matching the ground truth in 86.0\% and 56.7\% of the cases, respectively. [Conclusion]PlaNet-S performed better than the traditional U-Net in placental segmentation tasks. This model addresses the challenges of time-consuming physician-assisted manual segmentation and offers the potential for diverse applications in placental imaging analyses.
翻訳日:2024-06-28 20:06:29 公開日:2024-06-27
# 回路レベルでシミュレートされた誤り補正アダマールゲート

Error-corrected Hadamard gate simulated at the circuit level ( http://arxiv.org/abs/2312.11605v2 )

ライセンス: Link先を確認
György P. Gehér, Campbell McLauchlan, Earl T. Campbell, Alexandra E. Moylett, Ophelia Crawford, (参考訳) 我々は、回路レベルのノイズモデルの下で、表面コード中の論理的アダマールゲートをシミュレートし、正方形グリッド接続ハードウェア上の物理回路にコンパイルする。 本論文は,量子誤り訂正符号上の論理的ユニタリゲートに対して,これを初めて行うものである。 パッチデフォーメーションにより、論理的な$X$と$Z$の文字列を交換するために超越的なアダマールゲート(すなわち時間を通してのドメインウォール)を適用するものと、この交換を達成するために空間を通してドメインウォールを適用するものである。 量子誤り訂正ラウンド毎に安定化器と論理演算子がどのように変換されるかを追跡することにより、なぜ論理アダマールゲートを行うのかを詳細に説明する。 我々は、物理回路を最適化し、それらの論理的故障確率を評価する。これは、同じ数の量子エラー補正ラウンドに対する量子メモリ実験に匹敵するものである。 本稿では,現象ノイズと同一の有効距離を回路レベルで保持するシンドローム抽出回路を提案する。 さらに、SWAP$-quantumエラー訂正ラウンド(パッチを初期位置に戻そうとしている)を4つの2ビットゲート層にコンパイルする方法も説明します。 これはより一般的なシナリオに適用でき、副産物として、最近のGoogle論文(McEwen, Bacon, and Gidney, Quantum 7, 1172 (2023))の「ステッピング」回路をどのように構築するかを第一原理から説明できる。

We simulate the logical Hadamard gate in the surface code under a circuit-level noise model, compiling it to a physical circuit on square-grid connectivity hardware. Our paper is the first to do this for a logical unitary gate on a quantum error-correction code. We consider two proposals, both via patch-deformation: one that applies a transversal Hadamard gate (i.e. a domain wall through time) to interchange the logical $X$ and $Z$ strings, and another that applies a domain wall through space to achieve this interchange. We explain in detail why they perform the logical Hadamard gate by tracking how the stabilisers and the logical operators are transformed in each quantum error-correction round. We optimise the physical circuits and evaluate their logical failure probabilities, which we find to be comparable to those of a quantum memory experiment for the same number of quantum error-correction rounds. We present syndrome-extraction circuits that maintain the same effective distance under circuit-level noise as under phenomenological noise. We also explain how a $SWAP$-quantum error-correction round (required to return the patch to its initial position) can be compiled to only four two-qubit gate layers. This can be applied to more general scenarios and, as a byproduct, explains from first principles how the "stepping" circuits of the recent Google paper [McEwen, Bacon, and Gidney, Quantum 7, 1172 (2023)] can be constructed.
翻訳日:2024-06-28 19:56:44 公開日:2024-06-27
# 完全および部分入力依存対称性の自己教師付き検出

Self-Supervised Detection of Perfect and Partial Input-Dependent Symmetries ( http://arxiv.org/abs/2312.12223v3 )

ライセンス: Link先を確認
Alonso Urbano, David W. Romero, (参考訳) 群の同値性は、群の対称性がデータで観測されたものと異なる場合、過度にモデルを制約することができる。 一般的な手法では、データセットレベルで適切な対称性のレベルを決定することでこの問題に対処するが、同じデータセットに複数の対称性が共存するシナリオは、教師付き設定と無視に限られる。 本稿では,ラベルを使わずに各入力の対称性のレベルを検出する手法を提案する。 我々のフレームワークは、任意の単調分布、対称分布、離散群など、連続的および離散的対称性分布の異なる族に対応するのに十分である。 本研究は, クラスごとの対称性の異なる合成データセットに対するアプローチの有効性を検証し, アウト・オブ・ディストリビューション対称性の検出などの実践的応用を実証する。 私たちのコードはhttps://github.com/aurban0/ssl-sym.comで公開されています。

Group equivariance can overly constrain models if the symmetries in the group differ from those observed in data. While common methods address this by determining the appropriate level of symmetry at the dataset level, they are limited to supervised settings and ignore scenarios in which multiple levels of symmetry co-exist in the same dataset. In this paper, we propose a method able to detect the level of symmetry of each input without the need for labels. Our framework is general enough to accommodate different families of both continuous and discrete symmetry distributions, such as arbitrary unimodal, symmetric distributions and discrete groups. We validate the effectiveness of our approach on synthetic datasets with different per-class levels of symmetries, and demonstrate practical applications such as the detection of out-of-distribution symmetries. Our code is publicly available at https://github.com/aurban0/ssl-sym.
翻訳日:2024-06-28 19:56:44 公開日:2024-06-27
# テキスト-画像拡散モデルのための正規化ニュートンラフソンインバージョン

Regularized Newton Raphson Inversion for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2312.12540v3 )

ライセンス: Link先を確認
Dvir Samuel, Barak Meiri, Nir Darshan, Shai Avidan, Gal Chechik, Rami Ben-Ari, (参考訳) 拡散反転は、画像とそれを記述したテキストプロンプトを取り込み、画像を生成する雑音消音器を見つけるという問題である。 現在のほとんどのインバージョン技術は、暗黙の方程式を解くことで動作し、ゆっくりと収束するか、再構成された画像が貧弱になる可能性がある。 そこで我々は,この問題を暗黙の方程式の根源として定式化し,効率的な解法を設計する。 我々の解法は、数値解析においてよく知られた手法であるNewton-Raphson (NR) に基づいている。 NRの単純な応用は計算不可能であり、誤った解に収束する傾向がある。 高品質な再構成を提供する解に迅速に収束する効率的な正規化定式化について述べる。 また,インバージョンプロセス中の条件付けによる不整合の原因を同定し,インバージョン品質を著しく低下させる。 この問題に対処するため、我々はエンコーディングの即時調整を導入し、この問題を効果的に修正する。 我々のソリューションであるRegularized Newton-Raphson Inversionは、遅延一貫性モデルのために0.5秒以内に画像を反転させ、インタラクティブな画像編集のための扉を開く。 さらに、画像補間と希少物体の生成における改善された結果を示す。

Diffusion inversion is the problem of taking an image and a text prompt that describes it and finding a noise latent that would generate the image. Most current inversion techniques operate by approximately solving an implicit equation and may converge slowly or yield poor reconstructed images. Here, we formulate the problem as finding the roots of an implicit equation and design a method to solve it efficiently. Our solution is based on Newton-Raphson (NR), a well-known technique in numerical analysis. A naive application of NR may be computationally infeasible and tends to converge to incorrect solutions. We describe an efficient regularized formulation that converges quickly to a solution that provides high-quality reconstructions. We also identify a source of inconsistency stemming from prompt conditioning during the inversion process, which significantly degrades the inversion quality. To address this, we introduce a prompt-aware adjustment of the encoding, effectively correcting this issue. Our solution, Regularized Newton-Raphson Inversion, inverts an image within 0.5 sec for latent consistency models, opening the door for interactive image editing. We further demonstrate improved results in image interpolation and generation of rare objects.
翻訳日:2024-06-28 19:56:44 公開日:2024-06-27
# モニタリングシステムにおけるエンタングルメントダイナミクスと量子ジャンプの役割

Entanglement Dynamics in Monitored Systems and the Role of Quantum Jumps ( http://arxiv.org/abs/2312.13419v3 )

ライセンス: Link先を確認
Youenn Le Gal, Xhek Turkeshi, Marco Schirò, (参考訳) 監視された量子多体系は、この非単位的な設定に特有の、絡み合いの豊富なパターンを示す。 この研究は、決定論的非エルミート進化に対応する無クリック極限を超える絡み合い力学に対する量子ジャンプの効果を研究する。 観測されたSSHモデルと量子イジングチェーンの2つの例を考えると、ジャンプは待ち時間分布でエンコードされた統計と同じ統計を持つにもかかわらず、アンタングルメントに著しく異なる効果を示す。 この違いを理解するために,ジャンプと非エルミット進化による絡み合いの利得と損失の統計を新たに導入する。 この知見により、部分的リセットを伴うランダムウォークの簡単な確率モデルを構築し、絡み合いのダイナミクスを再現し、絡み合いのスケーリングにおけるジャンプと非エルミート進化の相互の役割を解き明かすことができる。 我々は、量子ジャンプが非エルミート力学を強く再正規化するときに、非クリック極限からの有意な偏差が生じることを示した。 一方、Ising鎖の弱いモニタリングフェーズは、弱い再正規化非エルミート力学により、ロバストなサブボリューム対数相をもたらすことを示す。

Monitored quantum many-body systems display a rich pattern of entanglement dynamics, which is unique to this non-unitary setting. This work studies the effect of quantum jumps on the entanglement dynamics beyond the no-click limit corresponding to a deterministic non-Hermitian evolution. We consider two examples, a monitored SSH model and a quantum Ising chain, for which we show the jumps have remarkably different effects on the entanglement despite having the same statistics as encoded in their waiting-time distribution. To understand this difference, we introduce a new metric, the statistics of entanglement gain and loss due to jumps and non-Hermitian evolution. This insight allows us to build a simple stochastic model of a random walk with partial resetting, which reproduces the entanglement dynamics, and to dissect the mutual role of jumps and non-Hermitian evolution on the entanglement scaling. We demonstrate that significant deviations from the no-click limit arise whenever quantum jumps strongly renormalize the non-Hermitian dynamics, as in the case of the SSH model at weak monitoring or in the Ising chain at large transverse field. On the other hand, we show that the weak monitoring phase of the Ising chain leads to a robust sub-volume logarithmic phase due to weakly renormalized non-Hermitian dynamics.
翻訳日:2024-06-28 19:56:44 公開日:2024-06-27
# MMGPL:グラフプロンプト学習によるマルチモーダル医療データ分析

MMGPL: Multimodal Medical Data Analysis with Graph Prompt Learning ( http://arxiv.org/abs/2312.14574v2 )

ライセンス: Link先を確認
Liang Peng, Songyue Cai, Zongqian Wu, Huifang Shang, Xiaofeng Zhu, Xiaoxiao Li, (参考訳) プロンプト学習は、広範囲の下流タスクに対するマルチモーダル大モデルの微調整において顕著な効果を示した。 それでも、神経疾患の診断に既存の素早い学習法を適用することは、以下の2つの課題に悩まされている。 (i)既存の方法では、神経イメージングにおいて少数のパッチだけが疾患と関連しているにもかかわらず、すべてのパッチを平等に扱うのが一般的である。 (II)神経疾患の理解と診断に不可欠である脳接続ネットワークに固有の構造情報を無視する。 これらの課題に対処するために、我々は、神経疾患の診断のための多モード大規模モデルの微調整過程において、グラフプロンプトを学習することで、新しいプロンプト学習モデルを導入する。 具体的には、まずGPT-4を利用して、関連する疾患の概念を取得し、これらの概念とすべてのパッチのセマンティックな類似性を計算する。 第2に、各パッチと疾患関連概念のセマンティックな類似性に応じて、無関係パッチの重量を減少させる。 さらに、これらの概念に基づいてトークン間でグラフを構築し、グラフ畳み込みネットワーク層を用いてグラフの構造情報を抽出する。 以上の結果より, 神経疾患の診断において, 最先端の診断法と比較して, 臨床医が評価し, 優れた評価が得られたことが示唆された。

Prompt learning has demonstrated impressive efficacy in the fine-tuning of multimodal large models to a wide range of downstream tasks. Nonetheless, applying existing prompt learning methods for the diagnosis of neurological disorder still suffers from two issues: (i) existing methods typically treat all patches equally, despite the fact that only a small number of patches in neuroimaging are relevant to the disease, and (ii) they ignore the structural information inherent in the brain connection network which is crucial for understanding and diagnosing neurological disorders. To tackle these issues, we introduce a novel prompt learning model by learning graph prompts during the fine-tuning process of multimodal large models for diagnosing neurological disorders. Specifically, we first leverage GPT-4 to obtain relevant disease concepts and compute semantic similarity between these concepts and all patches. Secondly, we reduce the weight of irrelevant patches according to the semantic similarity between each patch and disease-related concepts. Moreover, we construct a graph among tokens based on these concepts and employ a graph convolutional network layer to extract the structural information of the graph, which is used to prompt the pre-trained multimodal large models for diagnosing neurological disorders. Extensive experiments demonstrate that our method achieves superior performance for neurological disorder diagnosis compared with state-of-the-art methods and validated by clinicians.
翻訳日:2024-06-28 19:56:44 公開日:2024-06-27
# $μ$GUIDE:ディープラーニングを用いた一般化不確実性駆動推論による定量的イメージングのためのフレームワーク

$μ$GUIDE: a framework for quantitative imaging via generalized uncertainty-driven inference using deep learning ( http://arxiv.org/abs/2312.17293v3 )

ライセンス: Link先を確認
Maëliss Jallais, Marco Palombo, (参考訳) 生体物理モデルやMRI信号の表現から組織組織パラメータの後方分布を推定する一般的なベイズフレームワークである$\mu$GUIDEを提案する。 シミュレーションに基づく推論と後方分布の効率的なサンプリングを併用した自動信号特徴選択のための新しいディープラーニングアーキテクチャにより、$\mu$GUIDEは従来のベイズ的手法の計算コストと時間コストを回避し、モデル固有の要約統計を定義するために取得制約に依存しない。 得られた後続分布は、モデル定義に存在する退化をハイライトし、推定されたパラメータの不確かさとあいまいさを定量化する。

This work proposes $\mu$GUIDE: a general Bayesian framework to estimate posterior distributions of tissue microstructure parameters from any given biophysical model or MRI signal representation, with exemplar demonstration in diffusion-weighted MRI. Harnessing a new deep learning architecture for automatic signal feature selection combined with simulation-based inference and efficient sampling of the posterior distributions, $\mu$GUIDE bypasses the high computational and time cost of conventional Bayesian approaches and does not rely on acquisition constraints to define model-specific summary statistics. The obtained posterior distributions allow to highlight degeneracies present in the model definition and quantify the uncertainty and ambiguity of the estimated parameters.
翻訳日:2024-06-28 19:56:44 公開日:2024-06-27
# 因果推論におけるデフレシビリティの探求

Exploring Defeasibility in Causal Reasoning ( http://arxiv.org/abs/2401.03183v2 )

ライセンス: Link先を確認
Shaobo Cui, Lazar Milikic, Yiyang Feng, Mete Ismayilzada, Debjit Paul, Antoine Bosselut, Boi Faltings, (参考訳) 因果推論における定義可能性とは、原因と効果の因果関係を強化するか弱めることができることを意味する。 すなわち、原因と効果の因果的強度は、それぞれ強化された議論(サポーター)または弱まる議論(デファター)を取り入れることで増大または減少するべきである。 しかし、既存の研究は因果推論における非実現可能性を無視し、非実現可能な設定における既存の因果強度指標を評価できない。 本研究では,因果推論における非実現可能性を研究するための最初のベンチマークデータセットである$\delta$-CAUSALを提案する。 $\delta$-CAUSALは10のドメインにまたがる約1万1千のイベントを含み、デファシブルな因果関係のペア、すなわちサポーターと敗者が伴う因果関係のペアを特徴とする。 さらに,現在の因果強度指標は,デルタ$-CAUSALの支持者や敗者の導入による因果強度の変化を反映していないことを示す。 この目的のために,トークンレベルの因果関係に基づいて因果強度を測定する尺度であるCESAR(Causal Embedding aSsociation with Attention Rating)を提案する。 CESARは、既存の指標に対する69.7%の相対的な改善を達成し、支持者や敗者による因果力の変化を捉えることで47.2%から80.1%に増加した。 さらに、GPT-3.5のような大規模言語モデル(LLM)さえも、支持者や敗者を生み出す上で、人間よりも4.5と10.7ポイント遅れており、$\delta$-CAUSALの課題を強調している。

Defeasibility in causal reasoning implies that the causal relationship between cause and effect can be strengthened or weakened. Namely, the causal strength between cause and effect should increase or decrease with the incorporation of strengthening arguments (supporters) or weakening arguments (defeaters), respectively. However, existing works ignore defeasibility in causal reasoning and fail to evaluate existing causal strength metrics in defeasible settings. In this work, we present $\delta$-CAUSAL, the first benchmark dataset for studying defeasibility in causal reasoning. $\delta$-CAUSAL includes around 11K events spanning ten domains, featuring defeasible causality pairs, i.e., cause-effect pairs accompanied by supporters and defeaters. We further show current causal strength metrics fail to reflect the change of causal strength with the incorporation of supporters or defeaters in $\delta$-CAUSAL. To this end, we propose CESAR (Causal Embedding aSsociation with Attention Rating), a metric that measures causal strength based on token-level causal relationships. CESAR achieves a significant 69.7% relative improvement over existing metrics, increasing from 47.2% to 80.1% in capturing the causal strength change brought by supporters and defeaters. We further demonstrate even Large Language Models (LLMs) like GPT-3.5 still lag 4.5 and 10.7 points behind humans in generating supporters and defeaters, emphasizing the challenge posed by $\delta$-CAUSAL.
翻訳日:2024-06-28 19:56:44 公開日:2024-06-27
# MuTox:Universal MUltilingual Audio-based TOXicity DatasetとZero-shot Detector

MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector ( http://arxiv.org/abs/2401.05060v2 )

ライセンス: Link先を確認
Marta R. Costa-jussà, Mariano Coria Meglioli, Pierre Andrews, David Dale, Prangthip Hansanti, Elahe Kalbassi, Alex Mourachko, Christophe Ropers, Carleigh Wood, (参考訳) 音声に基づく自然言語処理における毒性検出の研究は、特に英語以外の言語では、非常に限られている。 これらの制限に対処し、真に多言語音声ベースの毒性検出の基盤となるために、毒性ラベルを持つ最初の多言語音声ベースのデータセットであるMuToxを紹介する。 データセットは、英語とスペイン語で20,000の音声発声と、他の19言語で4,000の音声発声で構成されている。 このデータセットの品質を示すために、幅広い言語でゼロショット毒性の検出を可能にする、MuToxオーディオベースの毒性分類器を訓練した。 この分類器は、既存のテキストベースのトレーニング可能な分類器を1%以上のAUCで上回り、言語カバレッジを10倍以上に拡大する。 同じ数の言語をカバーするワードリストベースの分類器と比較して、MuToxは精度とリコールを約2.5倍改善する。 この大幅な改善は、オーディオベースの毒性検出の分野を前進させる MuTox の可能性を強調している。

Research in toxicity detection in natural language processing for the speech modality (audio-based) is quite limited, particularly for languages other than English. To address these limitations and lay the groundwork for truly multilingual audio-based toxicity detection, we introduce MuTox, the first highly multilingual audio-based dataset with toxicity labels. The dataset comprises 20,000 audio utterances for English and Spanish, and 4,000 for the other 19 languages. To demonstrate the quality of this dataset, we trained the MuTox audio-based toxicity classifier, which enables zero-shot toxicity detection across a wide range of languages. This classifier outperforms existing text-based trainable classifiers by more than 1% AUC, while expanding the language coverage more than tenfold. When compared to a wordlist-based classifier that covers a similar number of languages, MuTox improves precision and recall by approximately 2.5 times. This significant improvement underscores the potential of MuTox in advancing the field of audio-based toxicity detection.
翻訳日:2024-06-28 19:56:44 公開日:2024-06-27
# オプトエレクトロメカニクスシステムにおける電波周波数の高感度センシング

Optics-assisted enhanced sensing at radio-frequencies in an optoelectromechanical system ( http://arxiv.org/abs/2401.07887v3 )

ライセンス: Link先を確認
Najmeh Eshaqi-Sani, Stefano Zippilli, David Vitali, (参考訳) 無線周波数でのシステム応答を検出することにより、オプトエレクトロメカニカルシステムのパラメータの弱い変動を検出する際の感度を高める手法について検討する。 1つまたは2つのメカニカルモードが光キャビティとrf共振器の相互作用を媒介するセットアップを考える。 このシステムは、系素子間で熱ゆらぎが再分配されるインピーダンスマッチング方式で動作することができ、特にrf出力ノイズを量子真空ノイズレベルまで低減することができる。 この効果は,高熱雑音のレジームにおいてもパラメータ変動を検出する感度を高めるために有効であることを示す。 我々は、rf共振器の容量変化を検出する際に、このプロトコルの性能を特徴付ける。

We investigate a scheme to enhance the sensitivity in detecting weak variations in a parameter of an optoelectromechanical system by detecting the system response at radio frequencies. We consider a setup, where either one or two mechanical modes mediate the interaction between an optical cavity and an rf resonator. This system can be operated in a regime of impedance matching where thermal fluctuations are redistributed among the system elements, and, in particular, rf output noise can be reduced to the quantum vacuum noise level. We show that this effect can be used to boost the sensitivity in detecting parameter variations also in regimes of high thermal noise. We characterize the performance of this protocol in detecting variations in the capacitance of the rf resonator.
翻訳日:2024-06-28 19:56:44 公開日:2024-06-27
# ReFT:強化ファインチューニングによる推論

ReFT: Reasoning with Reinforced Fine-Tuning ( http://arxiv.org/abs/2401.08967v2 )

ライセンス: Link先を確認
Trung Quoc Luong, Xinbo Zhang, Zhanming Jie, Peng Sun, Xiaoran Jin, Hang Li, (参考訳) LLM(Large Language Models)の推論能力を高める方法の1つは、Chain-of-Thought(CoT)アノテーションを使用して、Supervised Fine-Tuning(SFT)を実行することである。 このアプローチは、与えられたCoTデータにのみ依存するため、十分に強力な一般化能力を示すものではない。 例えば、数学の問題解決では、通常、トレーニングデータには各質問に対する注釈付き推論パスが1つしかない。 直感的には、与えられた複数の注釈付き推論パスから学習する方がよい。 この問題に対処するために,Reinforced Fine-Tuning (ReFT) というシンプルな手法を提案する。 ReFTはまずSFTを用いてモデルをウォームアップし、続いてオンライン強化学習(特に本論文のPPOアルゴリズム)を用いてモデルをさらに微調整する。 GSM8K、MathQA、SVAMPデータセットの大規模な実験により、ReFTはSFTを大きく上回っており、多数決や再選といった推論時戦略を組み合わせることで、パフォーマンスがさらに向上する可能性が示唆された。 注意すべき点は、ReFTがSFTと同じトレーニング質問から学習することで、余分なトレーニング質問や強化されたトレーニング質問に頼らずに改善が得られることである。 これはReFTの優れた一般化能力を示している。

One way to enhance the reasoning capability of Large Language Models (LLMs) is to conduct Supervised Fine-Tuning (SFT) using Chain-of-Thought (CoT) annotations. This approach does not show sufficiently strong generalization ability, however, because the training only relies on the given CoT data. In math problem-solving, for example, there is usually only one annotated reasoning path for each question in the training data. Intuitively, it would be better for the algorithm to learn from multiple annotated reasoning paths given a question. To address this issue, we propose a simple yet effective approach called Reinforced Fine-Tuning (ReFT) to enhance the generalizability of learning LLMs for reasoning, with math problem-solving as an example. ReFT first warmups the model with SFT, and then employs on-line reinforcement learning, specifically the PPO algorithm in this paper, to further fine-tune the model, where an abundance of reasoning paths are automatically sampled given the question and the rewards are naturally derived from the ground-truth answers. Extensive experiments on GSM8K, MathQA, and SVAMP datasets show that ReFT significantly outperforms SFT, and the performance can be potentially further boosted by combining inference-time strategies such as majority voting and re-ranking. Note that ReFT obtains the improvement by learning from the same training questions as SFT, without relying on extra or augmented training questions. This indicates a superior generalization ability for ReFT.
翻訳日:2024-06-28 19:56:44 公開日:2024-06-27
# アンチ・フォワード・トランスファーによるマルチモーダル・インストラクション・チューニング

Beyond Anti-Forgetting: Multimodal Continual Instruction Tuning with Positive Forward Transfer ( http://arxiv.org/abs/2401.09181v3 )

ライセンス: Link先を確認
Junhao Zheng, Qianli Ma, Zhen Liu, Binquan Wu, Huawen Feng, (参考訳) MCIT(Multimodal Continual Instruction Tuning)は、Multimodal Large Language Models(MLLM)が、高価なリトレーニングなしで継続的な要求を満たすことを可能にする。 MCITは、破滅的な忘れ(古い知識が忘れられる)と負の転送(将来のタスクのパフォーマンスが劣化する)という2つの大きな障害に直面します。 既存の手法は破滅的な忘れを大いに軽減してきたが、それでも負の転送に悩まされている。 入力埋め込みにおいて特異値分解(SVD)を行うことにより、異なる入力埋め込みにおいて大きな相違点を発見する。 この不一致は、古いタスクと事前訓練されたタスクの無関係な学習をもたらし、破滅的な忘れ込みと負の転送をもたらす。 これらの問題に対処するため,Phmpt Tuning with Positive Forward Transfer (Fwd-Prompt) を提案する。 実験により,Fwd-Promptは,少ないパラメータを更新し,古いサンプルを必要とせず,最先端の性能を実現することを示した。 本研究は,命令チューニングパラダイムの下でMLLMを新たなタスクに継続的に適用する可能性を照らし,今後のMCITの探索を奨励するものである。

Multimodal Continual Instruction Tuning (MCIT) enables Multimodal Large Language Models (MLLMs) to meet continuously emerging requirements without expensive retraining. MCIT faces two major obstacles: catastrophic forgetting (where old knowledge is forgotten) and negative forward transfer (where the performance of future tasks is degraded). Although existing methods have greatly alleviated catastrophic forgetting, they still suffer from negative forward transfer. We discover a large discrepancy in different input embeddings by performing singular value decomposition (SVD) on input embeddings. This discrepancy results in the model learning irrelevant information for old and pre-trained tasks, leading to catastrophic forgetting and negative forward transfer. To address these issues, we propose Prompt Tuning with Positive Forward Transfer (Fwd-Prompt), a prompt-based method that projects the prompt gradient to the residual space to minimize interference between tasks and to the pre-trained subspace for reusing pre-trained knowledge. Our experiments demonstrate that Fwd-Prompt achieves state-of-the-art performance while updating fewer parameters and requiring no old samples. Our research illuminates the potential of continuously adapting MLLMs to new tasks under the instruction tuning paradigm and encourages future studies to explore MCIT.
翻訳日:2024-06-28 19:56:44 公開日:2024-06-27
# オントロジー誘導干渉によるLLMの数学的・符号化能力の評価

Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions ( http://arxiv.org/abs/2401.09395v4 )

ライセンス: Link先を確認
Pengfei Hong, Navonil Majumder, Deepanway Ghosal, Somak Aditya, Rada Mihalcea, Soujanya Poria, (参考訳) 最近のLLM(Large Language Models)の進歩は、既存の論理的推論ベンチマークにおいて顕著な結果を示しており、一部のモデルは人間のパフォーマンスを超越している。 しかしながら、タスクの推論における彼らの能力と堅牢性の真の深さは、未解決の問題のままである。 そこで本稿では,算術的推論とコード生成という2つの一般的な推論タスクに注目した。 特に紹介する。 一 数学及びコーディング問題に対する摂動の一般的なオントロジー (二)これらの摂動を応用するための半自動的方法、及び 三 数値推論及び符号化タスクにおけるLLM能力の限界を探索するため、摂動数学と符号化問題の2つのデータセットMOREとCORE。 オープンソース LLM とオープンソース LLM の総合的な評価を通じて,すべてのモデルにおいて,難解な問題に対する大幅な性能低下が見られ,現在の LLM には,オントロジーで定義されているような,堅牢な問題解決スキルと構造化推論能力が欠如していることが示唆された。 データセットとソースコードは、https://github.com/declare-lab/llm_robustness.comで公開しています。

Recent advancements in Large Language Models (LLMs) have showcased striking results on existing logical reasoning benchmarks, with some models even surpassing human performance. However, the true depth of their competencies and robustness in reasoning tasks remains an open question. To this end, in this paper, we focus on two popular reasoning tasks: arithmetic reasoning and code generation. Particularly, we introduce: (i) a general ontology of perturbations for maths and coding questions, (ii) a semi-automatic method to apply these perturbations, and (iii) two datasets, MORE and CORE, respectively, of perturbed maths and coding problems to probe the limits of LLM capabilities in numeric reasoning and coding tasks. Through comprehensive evaluations of both closed-source and open-source LLMs, we show a significant performance drop across all the models against the perturbed questions, suggesting that the current LLMs lack robust problem solving skills and structured reasoning abilities in many areas, as defined by our ontology. We open source the datasets and source codes at: https://github.com/declare-lab/llm_robustness.
翻訳日:2024-06-28 19:56:44 公開日:2024-06-27
# 準周期ポテンシャルによる局在相のレベル間隔分布

Level spacing distribution of localized phases induced by quasiperiodic potentials ( http://arxiv.org/abs/2401.10067v4 )

ライセンス: Link先を確認
Chao Yang, Yucheng Wang, (参考訳) レベル統計は、局在化物理学の探索において重要なツールである。 乱れた局所化相のレベル間隔分布はポアソン統計に従い、多くの研究が準周期的局所化相に自然に適用している。 ここで、準周期局所化位相のレベル間隔分布を解析的に取得し、ポアソン統計から逸脱することを示した。 さらに、このレベル統計に基づいて、隣接するギャップの比率を導出し、1つのサンプルに対して$\delta$関数であることが判明し、数値的な研究とよく一致している。 さらに、乱れたシステムとは異なり、準周期系では、スペクトルの異なる領域にまたがるレベル間隔の分布にばらつきがあり、サイズを増やしてサンプルを増やすことは等価ではない。 本研究は、準周期系におけるレベル統計の再評価と、準周期ポテンシャルと障害誘発局所化の異なる影響の深い理解に重要な意味を持つ。

Level statistics is a crucial tool in the exploration of localization physics. The level spacing distribution of the disordered localized phase follows Poisson statistics, and many studies naturally apply it to the quasiperiodic localized phase. Here we analytically obtain the level spacing distribution of the quasiperiodic localized phase, and find that it deviates from Poisson statistics. Moreover, based on this level statistics, we derive the ratio of adjacent gaps and find that for a single sample, it is a $\delta$ function, which is in excellent agreement with numerical studies. Additionally, unlike disordered systems, in quasiperiodic systems, there are variations in the level spacing distribution across different regions of the spectrum, and increasing the size and increasing the sample are non-equivalent. Our findings carry significant implications for the reevaluation of level statistics in quasiperiodic systems and a profound understanding of the distinct effects of quasiperiodic potentials and disorder induced localization.
翻訳日:2024-06-28 19:56:44 公開日:2024-06-27
# 大規模言語モデル要約器は多様な科学コミュニケーション目標に適応できるか?

Can Large Language Model Summarizers Adapt to Diverse Scientific Communication Goals? ( http://arxiv.org/abs/2401.10415v2 )

ライセンス: Link先を確認
Marcio Fonseca, Shay B. Cohen, (参考訳) 本研究では,大規模言語モデル(LLM)の科学的要約タスクにおける制御可能性について検討する。 論文レビュー,要約,レイ・サマリーなど,異なる種類の要約を特徴付ける重要なスタイリスティック・コンテンツカバレッジ要因を同定する。 構造的特徴を制御することにより,非微調整LDMは,参照要約と人間の嗜好の両方において,MuPレビュー生成タスクにおいて人間よりも優れることがわかった。 また,キーワードベースの分類器フリーガイダンス (CFG) を用いて, arXiv および PubMed 上での強い微調整ベースラインに匹敵する語彙オーバーラップを実現しつつ, LLM の制御性を向上させることができることを示す。 しかし,本研究の結果から,LLMは8文以上の長文の要約を連続的に生成できないことが示唆された。 さらに、これらのモデルは高度に抽象的なレイサマリーを生成する能力に限界がある。 LLMは強力な汎用的な要約能力を示すが、コストのかかる微調整のない高度なコンテンツ制御はドメイン固有のアプリケーションには未解決の問題である。

In this work, we investigate the controllability of large language models (LLMs) on scientific summarization tasks. We identify key stylistic and content coverage factors that characterize different types of summaries such as paper reviews, abstracts, and lay summaries. By controlling stylistic features, we find that non-fine-tuned LLMs outperform humans in the MuP review generation task, both in terms of similarity to reference summaries and human preferences. Also, we show that we can improve the controllability of LLMs with keyword-based classifier-free guidance (CFG) while achieving lexical overlap comparable to strong fine-tuned baselines on arXiv and PubMed. However, our results also indicate that LLMs cannot consistently generate long summaries with more than 8 sentences. Furthermore, these models exhibit limited capacity to produce highly abstractive lay summaries. Although LLMs demonstrate strong generic summarization competency, sophisticated content control without costly fine-tuning remains an open problem for domain-specific applications.
翻訳日:2024-06-28 19:46:58 公開日:2024-06-27
# オンデマンド軌道を持つ非断熱的幾何学的量子ゲート

Nonadiabatic geometric quantum gates with on-demand trajectories ( http://arxiv.org/abs/2401.11147v3 )

ライセンス: Link先を確認
Yan Liang, Zheng-Yuan Xue, (参考訳) 高忠実度量子ゲートは、大規模量子計算に必須の前提条件である。 実用的な量子システムを操作する場合、環境および運用上のエラーは避けられないため、高速であることに加えて、異なるエラーに対して本質的に堅牢であることが好ましい。 本稿では, システムの進化軌道を規定するパルス形状を変調することにより, オンデマンドトラジェクトリを用いた幾何学的量子ゲートを構築するための一般的なプロトコルを提案する。 提案手法では,スムーズパルスを用いた対象ハミルトニアンのリバースエンジニアリングを採用し,任意の軌道の幾何位相を計算することの難しさを解消する。 さらに,特定の幾何学的ゲートを様々な軌跡によって誘導できるため,異なるシナリオ下でのゲート性能をさらに最適化することが可能であり,数値シミュレーションの結果,この最適化によりゲートの品質が大幅に向上することが示された。 また,超伝導回路を用いた提案手法の実装を行い,従来の方式に比べてゲート性能が大幅に向上したことを示す。 そこで本プロトコルは,大規模量子計算のための高忠実かつ強ロバストな幾何量子ゲートに対して,有望なアプローチを示す。

High-fidelity quantum gates are an essential prerequisite for large-scale quantum computation. When manipulating practical quantum systems, environmentally and operationally induced errors are inevitable, and thus, in addition to being fast, it is preferable that operations should be intrinsically robust against different errors. Here, we propose a general protocol for constructing geometric quantum gates with on-demand trajectories by modulating the applied pulse shapes that define the system's evolution trajectory. Our scheme adopts reverse engineering of the target Hamiltonian using smooth pulses, which also eliminates the difficulty of calculating geometric phases for an arbitrary trajectory. Furthermore, because a particular geometric gate can be induced by various different trajectories, we can further optimize the gate performance under different scenarios; the results of numerical simulations indicate that this optimization can greatly enhance the quality of the gate. In addition, we present an implementation of our proposal using superconducting circuits, showcasing substantial enhancements in gate performance compared with conventional schemes. Our protocol thus presents a promising approach for high-fidelity and strong-robust geometric quantum gates for large-scale quantum computation.
翻訳日:2024-06-28 19:46:58 公開日:2024-06-27
# マフィンかチワワか? マルチパネルVQAを用いたマルチモーダル大言語モデル

Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA ( http://arxiv.org/abs/2401.15847v3 )

ライセンス: Link先を確認
Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang, Ching-Chen Kuo, Xinze Guan, Xin Eric Wang, (参考訳) ウェブスクリーンショットやポスターとしてよく見られるマルチパネル画像は、私たちの日常生活に浸透します。 これらの画像は、異なるレイアウトの複数のサブフィギュアの合成によって特徴づけられ、効果的に人に情報を伝える。 複雑なシーンを理解し、Webページをナビゲートするエージェントなど、高度なマルチモーダルAIアプリケーションを構築するためには、マルチパネル・ビジュアル推論のスキルが不可欠であり、この点におけるモデルの包括的な評価が重要である。 そこで本研究では,6,600の質問,回答,マルチパネル画像からなる新しいベンチマークであるMultipanel Visual Question Answering(MultipanelVQA)を紹介した。 評価の結果,MultipanelVQAベンチマークの質問は,人間が約99%の精度が得られるにもかかわらず,最先端のMLLM(Multimodal Large Language Models)テストに重大な課題をもたらすことがわかった。 特に、MultipanelVQAベンチマークは、MLLMのマルチパネルイメージ理解能力に対するレイアウトなどの様々な要因の影響を分離し評価するために特別に作られた、合成されたマルチパネルイメージを特徴としている。 その結果、マルチパネル画像の理解におけるMLLMの能力のベンチマークに加えて、合成データを用いてMLLMのパフォーマンスに影響を与えるマルチパネル画像の様々な要因を分析し、拡張のための洞察を提供する。 コードとデータはhttps://sites.google.com/view/multipanelvqa/home.comで公開されている。

Multipanel images, commonly seen as web screenshots, posters, etc., pervade our daily lives. These images, characterized by their composition of multiple subfigures in distinct layouts, effectively convey information to people. Toward building advanced multimodal AI applications, such as agents that understand complex scenes and navigate through webpages, the skill of multipanel visual reasoning is essential, and a comprehensive evaluation of models in this regard is important. Therefore, we introduce Multipanel Visual Question Answering (MultipanelVQA), a novel benchmark comprising 6,600 triplets of questions, answers, and multipanel images that specifically challenge models in comprehending multipanel images. Our evaluation shows that questions in the MultipanelVQA benchmark pose significant challenges to the state-of-the-art Multimodal Large Language Models (MLLMs) tested, even though humans can attain approximately 99% accuracy on these questions. Distinctively, the MultipanelVQA benchmark features synthetically generated multipanel images specifically crafted to isolate and assess the impact of various factors, such as the layout, on MLLMs' multipanel image comprehension abilities. As a result, in addition to benchmarking the capabilities of MLLMs in understanding multipanel images, we analyze various factors of the multipanel image that affect MLLMs' performance with synthetic data and offer insights for enhancement. Code and data are released at https://sites.google.com/view/multipanelvqa/home.
翻訳日:2024-06-28 19:46:58 公開日:2024-06-27
# 心電図診断における伝達学習は有効か?

Transfer Learning in ECG Diagnosis: Is It Effective? ( http://arxiv.org/abs/2402.02021v2 )

ライセンス: Link先を確認
Cuong V. Nguyen, Cuong D. Do, (参考訳) ECG診断におけるディープラーニングの採用は、現実のシナリオにおいて、大規模でラベルの付いたデータセットの不足によって妨げられ、大きなデータセットから学んだ機能を活用するために、転送学習が使用される。 しかし、移行学習がスクラッチからトレーニングを継続的に上回るという一般的な仮定は、体系的に検証されることはなかった。 本研究では,多ラベル心電図分類における伝達学習の有効性について,各種心電図データセットと深部神経ネットワークを網羅し,スクラッチからのトレーニングと微調整性能を比較して検討した。 しかし、データセットが十分に大きい場合には、スクラッチからのトレーニングは同等のパフォーマンスを達成できます。 さらに、転送学習は、時系列ECGアプリケーションにおいて最も一般的な2つのアーキテクチャであるリカレントニューラルネットワークよりも畳み込みニューラルネットワークとの互換性が優れていることが判明した。 本研究は,心電図診断における伝達学習の重要性を裏付けるものであるが,データ量によっては,事前学習に伴う非無視的なコストを考慮すると,使用しない方がよい。

The adoption of deep learning in ECG diagnosis is often hindered by the scarcity of large, well-labeled datasets in real-world scenarios, leading to the use of transfer learning to leverage features learned from larger datasets. Yet the prevailing assumption that transfer learning consistently outperforms training from scratch has never been systematically validated. In this study, we conduct the first extensive empirical study on the effectiveness of transfer learning in multi-label ECG classification, by investigating comparing the fine-tuning performance with that of training from scratch, covering a variety of ECG datasets and deep neural networks. We confirm that fine-tuning is the preferable choice for small downstream datasets; however, when the dataset is sufficiently large, training from scratch can achieve comparable performance, albeit requiring a longer training time to catch up. Furthermore, we find that transfer learning exhibits better compatibility with convolutional neural networks than with recurrent neural networks, which are the two most prevalent architectures for time-series ECG applications. Our results underscore the importance of transfer learning in ECG diagnosis, yet depending on the amount of available data, researchers may opt not to use it, considering the non-negligible cost associated with pre-training.
翻訳日:2024-06-28 19:46:58 公開日:2024-06-27
# AdaTreeFormer: 単一高分解能画像からの樹木数に対するショット領域適応

AdaTreeFormer: Few Shot Domain Adaptation for Tree Counting from a Single High-Resolution Image ( http://arxiv.org/abs/2402.02956v3 )

ライセンス: Link先を確認
Hamed Amini Amirkolaee, Miaojing Shi, Lianghua He, Mark Mulligan, (参考訳) 測光とリモートセンシングの分野では,1つの空中・衛星画像のみを用いて木密度を推定・計数する作業は難しい課題である。 しかし、森林管理において重要な役割を担っている。 様々な地形の多種多様な木は、木を数えてうまく機能させるのを著しく妨げている。 本研究の目的は,ソースドメインから十分なラベル付き木を用いて学習し,限られたラベル付き木数で対象ドメインに適応するフレームワークを提案することである。 我々の手法はAdaTreeFormerと呼ばれ、ソースとターゲットドメインからロバストな特徴を抽出する階層的特徴抽出方式を備えた1つの共有エンコーダを含んでいる。 また、ソースドメインとターゲットドメインから自己ドメインアテンションマップを抽出する2つのサブネットと、クロスドメインアテンションマップを抽出する1つのサブネットで構成されている。 後者では,木密度マップの生成中に異なるドメインから関連情報を抽出するアテンション・ツー・アダプティブ・メカニズムを導入し,ソース・ターゲット領域の特徴を段階的に整列する階層的クロスドメイン特徴アライメントスキームを提案する。 我々はまた、ソースドメインとターゲットドメインのギャップをさらに減らすために、フレームワークに敵対的学習を取り入れています。 我々のAdaTreeFormerは,3つのツリーカウントデータセット,Shaie Jiangsu,Yosemite,Londonの6つの設計されたドメイン適応タスクで評価されている。 実験の結果、AdaTreeFormerはヨセミテから江蘇データセットのクロスドメインにおける最先端の \eg を著しく上回り、絶対的なカウント誤差と検出された木の位置の精度の10.8\%の増加から15.9ポイントの削減を実現していることがわかった。 コードとデータセットはhttps://github.com/HAAClassic/AdaTreeFormer.comで公開されている。

The process of estimating and counting tree density using only a single aerial or satellite image is a difficult task in the fields of photogrammetry and remote sensing. However, it plays a crucial role in the management of forests. The huge variety of trees in varied topography severely hinders tree counting models to perform well. The purpose of this paper is to propose a framework that is learnt from the source domain with sufficient labeled trees and is adapted to the target domain with only a limited number of labeled trees. Our method, termed as AdaTreeFormer, contains one shared encoder with a hierarchical feature extraction scheme to extract robust features from the source and target domains. It also consists of three subnets: two for extracting self-domain attention maps from source and target domains respectively and one for extracting cross-domain attention maps. For the latter, an attention-to-adapt mechanism is introduced to distill relevant information from different domains while generating tree density maps; a hierarchical cross-domain feature alignment scheme is proposed that progressively aligns the features from the source and target domains. We also adopt adversarial learning into the framework to further reduce the gap between source and target domains. Our AdaTreeFormer is evaluated on six designed domain adaptation tasks using three tree counting datasets, \ie Jiangsu, Yosemite, and London. Experimental results show that AdaTreeFormer significantly surpasses the state of the art, \eg in the cross domain from the Yosemite to Jiangsu dataset, it achieves a reduction of 15.9 points in terms of the absolute counting errors and an increase of 10.8\% in the accuracy of the detected trees' locations. The codes and datasets are available at https://github.com/HAAClassic/AdaTreeFormer.
翻訳日:2024-06-28 19:46:58 公開日:2024-06-27
# 一般化量子信号処理のためのロバストアングル探索

Robust Angle Finding for Generalized Quantum Signal Processing ( http://arxiv.org/abs/2402.03016v2 )

ライセンス: Link先を確認
Shuntaro Yamamoto, Nobuyuki Yoshioka, (参考訳) 量子信号処理(QSP、Quantum Signal Processing)は、量子特異値変換とともに、量子シミュレーション、量子機械学習、量子暗号など多くの分野において、その効率性と一般化のために中心的な量子アルゴリズムの1つである。 QSPとその家族の最大のボトルネックは、信号処理の位相角列を見つけることの難しさである。 これは、QSPの一般化形式(GQSP)を用いて信号処理演算子に任意の単一量子ユニタリを用いる場合、特に顕著である。 本研究では,GQSPの枠組みを拡張し,頑健な角度探索アルゴリズムを提案する。 提案アルゴリズムは,Pronyの手法に基づいて,1秒以内の多項式次数まで精度10^{-13}$の角度列を生成する。 この手法をハミルトンシミュレーションに適用することにより、信号演算子に対する呼び出し数やクエリはQSPの通常のフレームワークに比べて半減することがわかった。

Quantum Signal Processing (QSP), together with the quantum singular value transformation, is one of the central quantum algorithms due to its efficiency and generality in many fields including quantum simulation, quantum machine learning, and quantum cryptography. The largest bottleneck of QSP and its family is its difficulty in finding the phase angle sequence for signal processing. We find that this is in particular prominent when one employs the generalized formalism of the QSP, or the GQSP, to employ arbitrary single-qubit unitaries for signal processing operator. In this work, we extend the framework of GQSP and propose a robust angle finding algorithm. The proposed angle finding algorithm, based on Prony's method, successfully generates angle sequence of precision $10^{-13}$ up to polynomial degrees of hundreds within a second. By applying our method to Hamiltonian simulation, we find that the number of calls, or queries, to signal operators are essentially halved compared to the ordinary framework of QSP.
翻訳日:2024-06-28 19:46:58 公開日:2024-06-27
# ビデオ異常検出の高速化:簡潔なレビューと新しいデータセット

Advancing Video Anomaly Detection: A Concise Review and a New Dataset ( http://arxiv.org/abs/2402.04857v2 )

ライセンス: Link先を確認
Liyun Zhu, Lei Wang, Arjun Raj, Tom Gedeon, Chen Chen, (参考訳) ビデオ異常検出(VAD)は、セキュリティ監視、交通監視、産業監視、医療に広く応用されている。 大規模な研究努力にもかかわらず、研究者に洞察力のあるガイダンスを提供する簡潔なレビューは残っていない。 このようなレビューは、現在の課題や研究トレンド、今後の方向性を理解するための簡単な参考資料として役立ちます。 本稿では,様々な視点からモデルとデータセットを考察する。 モデルとデータセットの間には,データセットの品質と多様性がモデルのパフォーマンスに大きく影響し,データセット開発が進化するアプローチのニーズに適応する,という重要な関係性が強調される。 本レビューでは,多様なシナリオを持つ包括的データセットの欠如など,現実的な課題を取り上げている。 そこで我々は,様々なカメラビューから捉えた14のシナリオからなる新しいデータセット,Multi-Scenario Anomaly Detection (MSAD)を導入する。 私たちのデータセットには、様々な動きパターンと、異なる照明や天候条件などの困難なバリエーションがあり、優れたモデルをトレーニングするための堅牢な基盤を提供します。 我々は,MSADを用いた最近の代表モデルの詳細な分析を行い,多様かつ進化する監視シナリオにおける異常検出の課題に対処する上で,その可能性を強調した。 私たちのデータセットはこちらで利用可能です。

Video Anomaly Detection (VAD) finds widespread applications in security surveillance, traffic monitoring, industrial monitoring, and healthcare. Despite extensive research efforts, there remains a lack of concise reviews that provide insightful guidance for researchers. Such reviews would serve as quick references to grasp current challenges, research trends, and future directions. In this paper, we present such a review, examining models and datasets from various perspectives. We emphasize the critical relationship between model and dataset, where the quality and diversity of datasets profoundly influence model performance, and dataset development adapts to the evolving needs of emerging approaches. Our review identifies practical issues, including the absence of comprehensive datasets with diverse scenarios. To address this, we introduce a new dataset, Multi-Scenario Anomaly Detection (MSAD), comprising 14 distinct scenarios captured from various camera views. Our dataset has diverse motion patterns and challenging variations, such as different lighting and weather conditions, providing a robust foundation for training superior models. We conduct an in-depth analysis of recent representative models using MSAD and highlight its potential in addressing the challenges of detecting anomalies across diverse and evolving surveillance scenarios. Our dataset is available here.
翻訳日:2024-06-28 19:46:58 公開日:2024-06-27
# プルーニングと低ランク改造による安全アライメントの脆性評価

Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications ( http://arxiv.org/abs/2402.05162v2 )

ライセンス: Link先を確認
Boyi Wei, Kaixuan Huang, Yangsibo Huang, Tinghao Xie, Xiangyu Qi, Mengzhou Xia, Prateek Mittal, Mengdi Wang, Peter Henderson, (参考訳) 大規模言語モデル(LLM)は、脱獄や非致死的な微調整への感受性から証明されるように、その安全性メカニズムに固有の脆さを示す。 本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。 我々は,安全ガードレールに不可欠な重要な領域を同定する手法を開発し,ニューロンレベルとランクレベルの両方で実用関連領域から切り離されている。 驚いたことに、私たちが見つけた孤立した領域はスパースであり、パラメータレベルではおよそ$3\%、ランクレベルでは$2.5\%である。 これらの領域を除去することは、実用性に大きな影響を及ぼすことなく安全性を損なう。 さらに,LLMは安全クリティカル領域への変更が制限された場合でも,低コストの微調整攻撃に対して脆弱であることを示す。 これらの結果は,LSMのより堅牢な安全戦略の必要性を浮き彫りにした。

Large language models (LLMs) show inherent brittleness in their safety mechanisms, as evidenced by their susceptibility to jailbreaking and even non-malicious fine-tuning. This study explores this brittleness of safety alignment by leveraging pruning and low-rank modifications. We develop methods to identify critical regions that are vital for safety guardrails, and that are disentangled from utility-relevant regions at both the neuron and rank levels. Surprisingly, the isolated regions we find are sparse, comprising about $3\%$ at the parameter level and $2.5\%$ at the rank level. Removing these regions compromises safety without significantly impacting utility, corroborating the inherent brittleness of the model's safety mechanisms. Moreover, we show that LLMs remain vulnerable to low-cost fine-tuning attacks even when modifications to the safety-critical regions are restricted. These findings underscore the urgent need for more robust safety strategies in LLMs.
翻訳日:2024-06-28 19:46:58 公開日:2024-06-27
# 環境に結合した北エフ模型の磁場効果

Magnetic field effects on the Kitaev model coupled to environment ( http://arxiv.org/abs/2402.05516v2 )

ライセンス: Link先を確認
Kiyu Fukui, Yasuyuki Kato, Yukitoshi Motome, (参考訳) オープン量子系は、新しい位相位相や非伝統的な位相遷移のような閉系では見られない異常な現象を示す。 興味深い例として、Kモデルにおける量子スピン液体について研究した。 Yang, S. C. Morampudi, E. J. Bergholtz, Phys レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・ ${\bf 126}$, 077201 (2021)], 散逸効果を含む有効非エルミート・キタエフ模型は、マヨラナ分散に例外的な点を持つ無ギャップスピン状態を引き起こすことを示した。 エルミートの場合、外部磁場がマヨラナ位相状態のギャップを誘導することを考えると、例外的な点は磁場の下で興味深い量子現象をもたらす可能性がある。 ここでは磁場に乱される非エルミート・キータエフモデルについて検討する。 無限小磁場がギャップを開くエルミートの場合とは対照的に、例外点が有限臨界磁場までギャップのないままであることを示す。 ギャップレス状態は特定のパラメータ集合の広い範囲で安定であり、特別な場合には、ギャップを開かずに例外点の周りで異なる巻数を持つ別のギャップレス状態への位相的遷移を行う。 また, エッジを持つシステムでは, 非エルミート皮膚効果が磁場によって誘導されることが, ゼロ磁場で皮膚効果が欠落しているパラメータに対しても明らかとなった。 エッジ状態のキラリティは、三次元ワイル半金属中のワイル点によって連結された表面フェルミ弧と同様に、例外点を通して切替される。 この結果から, 磁場下でのトポロジカルギャップのない量子スピン液体の散逸を安定化させる新たな経路が得られた。

Open quantum systems display unusual phenomena not seen in closed systems, such as new topological phases and unconventional phase transitions. An interesting example was studied for a quantum spin liquid in the Kitaev model [K. Yang, S. C. Morampudi, and E. J. Bergholtz, Phys. Rev. Lett. ${\bf 126}$, 077201 (2021)]; an effective non-Hermitian Kitaev model, which incorporates dissipation effects, was shown to give rise to a gapless spin liquid state with exceptional points in the Majorana dispersions. Given that an external magnetic field induces a gapped Majorana topological state in the Hermitian case, the exceptional points may bring about intriguing quantum phenomena under a magnetic field. Here we investigate the non-Hermitian Kitaev model perturbed by the magnetic field. We show that the exceptional points remain gapless up to a finite critical magnetic field, in stark contrast to the Hermitian case where an infinitesimal field opens a gap. The gapless state is stable over a wide range of the magnetic field for some particular parameter sets, and in special cases, undergoes topological transitions to another gapless state with different winding number around the exceptional points without opening a gap. In addition, in the system with edges, we find that the non-Hermitian skin effect is induced by the magnetic field, even for the parameters where the skin effect is absent at zero field. The chirality of edge states is switched through the exceptional points, similarly to the surface Fermi arcs connected by the Weyl points in three-dimensional Weyl semimetals. Our results provide a new possible route to stabilize topological gapless quantum spin liquids under the magnetic field in the presence of dissipation.
翻訳日:2024-06-28 19:46:58 公開日:2024-06-27
# 心筋梗塞再定義 : 1クラス分類における新しい多モード複合カーネル戦略

Refining Myocardial Infarction Detection: A Novel Multi-Modal Composite Kernel Strategy in One-Class Classification ( http://arxiv.org/abs/2402.06530v3 )

ライセンス: Link先を確認
Muhammad Uzair Zahid, Aysen Degerli, Fahad Sohrab, Serkan Kiranyaz, Tahir Hamid, Rashid Mazhar, Moncef Gabbouj, (参考訳) 冠状動脈疾患(CAD)による急性心筋梗塞(MI)の早期発見は、さらなる心筋梗塞の予防に不可欠である。 本研究では,心エコー法における一クラス分類法(OCC)を用いた早期MI検出法を提案する。 本研究は,マルチモーダルサブスペースサポートベクトルデータ記述に基づく新しいアプローチを採用することで,限られた心エコーデータ提供の課題を克服する。 提案手法は, 複合カーネルを非線形投影法に組み込んだ多視点心エコー法を用いて, ガウスとラプラシアのシグモイド関数を融合したMI検出フレームワークを含む。 さらに、最適化過程におけるモダリティの最大化と最大化を両立させることにより、プロジェクション行列の更新戦略を強化する。 心エコーデータから抽出した特徴を最適化された低次元部分空間に効率よく変換することでMI検出能力を向上する。 複数の心エコー図を含む総合的HMC-QUデータセットから、ターゲットクラスインスタンスに特化してトレーニングされたOCCモデルは、MI検出精度が著しく向上したことを示している。 心エコー図に基づくMI診断の大幅な進歩を示唆し,より正確かつ効率的な診断ツールを提供するため,提案したマルチビューアプローチは71.24%の幾何学的平均値を達成した。

Early detection of myocardial infarction (MI), a critical condition arising from coronary artery disease (CAD), is vital to prevent further myocardial damage. This study introduces a novel method for early MI detection using a one-class classification (OCC) algorithm in echocardiography. Our study overcomes the challenge of limited echocardiography data availability by adopting a novel approach based on Multi-modal Subspace Support Vector Data Description. The proposed technique involves a specialized MI detection framework employing multi-view echocardiography incorporating a composite kernel in the non-linear projection trick, fusing Gaussian and Laplacian sigmoid functions. Additionally, we enhance the update strategy of the projection matrices by adapting maximization for both or one of the modalities in the optimization process. Our method boosts MI detection capability by efficiently transforming features extracted from echocardiography data into an optimized lower-dimensional subspace. The OCC model trained specifically on target class instances from the comprehensive HMC-QU dataset that includes multiple echocardiography views indicates a marked improvement in MI detection accuracy. Our findings reveal that our proposed multi-view approach achieves a geometric mean of 71.24%, signifying a substantial advancement in echocardiography-based MI diagnosis and offering more precise and efficient diagnostic tools.
翻訳日:2024-06-28 19:46:58 公開日:2024-06-27
# Step-On-Feet Tuning: ブートストラップによるLCMの自己アライメントのスケーリング

Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping ( http://arxiv.org/abs/2402.07610v3 )

ライセンス: Link先を確認
Haoyu Wang, Guozheng Ma, Ziqiao Meng, Zeyu Qin, Li Shen, Zhong Zhang, Bingzhe Wu, Liu Liu, Yatao Bian, Tingyang Xu, Xueqian Wang, Peilin Zhao, (参考訳) 自己調整は、有望なモデル能力を確保しつつ、人間のアノテーションのコストを削減する効果的な方法である。 しかし、現在のほとんどの手法は単一のラウンドでデータ収集とトレーニングのステップを完了しており、自己整合モデルの継続的な改善能力を見落としている可能性がある。 マルチタイムで自己アライメントをブートストラップする場合はどうでしょう? この戦略はモデルの性能を高めるのか、それとも急速な劣化につながるのか? 本稿では,大規模言語モデルにおける自己アライメントのブートストラップの影響について考察する。 この結果から,自己アライメントの自己アライメントは,コンテキスト内学習によるデータの多様性を保証することによって,シングルラウンドアプローチを著しく上回っていることが明らかとなった。 ブートストレッピングの能力をさらに活用するため,データのトレーニング順序を調査・調整し,モデルの性能向上を図った。 これらの知見に基づいて,モデルが継続的に強化した小ショット機能を活用し,ゼロまたはワンショットのパフォーマンスを向上させるステップオン・フェート・チューニング(SOFT)を提案する。 簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。 実験では,SOFT(SOFT+)の多種多様な分類・生成タスクにおける効率を実証し,モデルアライメント性能を継続的に向上させる自己アライメントのブートストラップの可能性を強調した。

Self-alignment is an effective way to reduce the cost of human annotation while ensuring promising model capability. However, most current methods complete the data collection and training steps in a single round, which may overlook the continuously improving ability of self-aligned models. This gives rise to a key query: What if we do multi-time bootstrapping self-alignment? Does this strategy enhance model performance or lead to rapid degradation? In this paper, our pioneering exploration delves into the impact of bootstrapping self-alignment on large language models. Our findings reveal that bootstrapping self-alignment markedly surpasses the single-round approach, by guaranteeing data diversity from in-context learning. To further exploit the capabilities of bootstrapping, we investigate and adjust the training order of data, which yields improved performance of the model. Drawing on these findings, we propose Step-On-Feet Tuning (SOFT) which leverages model's continuously enhanced few-shot ability to boost zero or one-shot performance. Based on easy-to-hard training recipe, we propose SOFT+ which further boost self-alignment's performance. Our experiments demonstrate the efficiency of SOFT (SOFT+) across various classification and generation tasks, highlighting the potential of bootstrapping self-alignment on continually enhancing model alignment performance.
翻訳日:2024-06-28 19:46:58 公開日:2024-06-27
# 真剣な訓練の実践 : 人工知能の人的指導と管理に基づく規制

Taking Training Seriously: Human Guidance and Management-Based Regulation of Artificial Intelligence ( http://arxiv.org/abs/2402.08466v2 )

ライセンス: Link先を確認
Cary Coglianese, Colton R. Crum, (参考訳) 人工知能(AI)に関連する害のより堅牢なガバナンスを求めるFerventは、規制学者が規制に対する管理ベースのアプローチと呼ぶものの世界的普及につながっている。 近年の米国と欧州におけるイニシアチブと、国際標準化機構による主要な自己規制標準の採用は、共通してコアマネジメントベースのパラダイムを共有している。 これらのマネジメントベースのイニシアチブは、AIツールのトレーニングと開発に関する人間の監視の増大を動機付けようとしている。 したがって、この新たな管理ベースの規制パラダイムの時代に適合するためには、人間誘導訓練技術の強化と体系化が必要である。 真剣に考えると、人間の指導によるトレーニングはAIの技術的なプレッシャーや倫理的なプレッシャーを和らげ、人間の直感によってAIのパフォーマンスを高め、公正性と効果的な説明可能性の必要性に対処する。 本稿では、AIを統括する新たなマネジメントベースの規制フレームワークと、トレーニング中の人間の監視の必要性との関係について論じる。 そして、規制当局に最も関心を抱くAIの高度なユースケースの種類は、データのみのトレーニングよりも、人間の指導によるトレーニングにもっと頼るべきである、と論じる。 我々は、法学者とコンピュータ科学者の間で、その応用とリスクにおいて、巨大で異質でダイナミックな技術の領域を管理する方法についての議論を促進することを望んでいます。

Fervent calls for more robust governance of the harms associated with artificial intelligence (AI) are leading to the adoption around the world of what regulatory scholars have called a management-based approach to regulation. Recent initiatives in the United States and Europe, as well as the adoption of major self-regulatory standards by the International Organization for Standardization, share in common a core management-based paradigm. These management-based initiatives seek to motivate an increase in human oversight of how AI tools are trained and developed. Refinements and systematization of human-guided training techniques will thus be needed to fit within this emerging era of management-based regulatory paradigm. If taken seriously, human-guided training can alleviate some of the technical and ethical pressures on AI, boosting AI performance with human intuition as well as better addressing the needs for fairness and effective explainability. In this paper, we discuss the connection between the emerging management-based regulatory frameworks governing AI and the need for human oversight during training. We broadly cover some of the technical components involved in human-guided training and then argue that the kinds of high-stakes use cases for AI that appear of most concern to regulators should lean more on human-guided training than on data-only training. We hope to foster a discussion between legal scholars and computer scientists involving how to govern a domain of technology that is vast, heterogenous, and dynamic in its applications and risks.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# 積分可能なスピン量子電池における量子相転移のエネルギー貯蔵制御

Controlling energy storage crossing quantum phase transitions in an integrable spin quantum battery ( http://arxiv.org/abs/2402.09169v2 )

ライセンス: Link先を確認
Riccardo Grazi, Daniel Sacco Shaikh, Maura Sassetti, Niccolò Traverso Ziani, Dario Ferraro, (参考訳) スピン量子電池としての1次元二量化XY鎖の性能について検討する。 このような可積分モデルは、スピンを補助フェルミオン度にマッピングすることで生じる豊富な量子相図を示す。 我々は、内部パラメータの二重クエンチ、すなわち二量体化の強さに依存した充電プロトコルを検討し、システムに格納されるエネルギーに対処する。 充電の時間的特性によって異なる3つの状態が観察される: 単一二量体の力学に関連する短時間の状態、有限サイズの系の繰り返し時間に関連する長期の状態、および熱力学的極限時間状態である。 後者では、クエンチが量子相転移を横切ると、蓄積されるエネルギーは充電時間と充電パラメータの正確な値にほとんど影響を受けない。 このような頑健な多体効果は、我々が解析的に証明したように、逆場における量子イジング鎖のような他のモデルも特徴付けるが、安定な固体量子電池の設計において重要な役割を果たす。

We investigate the performance of a one-dimensional dimerized XY chain as a spin quantum battery. Such integrable model shows a rich quantum phase diagram that emerges through a mapping of the spins onto auxiliary fermionic degrees of freedom. We consider a charging protocol relying on the double quench of an internal parameter, namely the strength of the dimerization, and address the energy stored in the systems. We observe three distinct regimes, depending on the time-scale characterizing the duration of the charging: a short-time regime related to the dynamics of the single dimers, a long-time regime related to the recurrence time of the system at finite size, and a thermodynamic limit time regime. In the latter, the energy stored is almost unaffected by the charging time and the precise values of the charging parameters, provided the quench crosses a quantum phase transition. Such a robust many-body effect, that characterizes also other models like the quantum Ising chain in a transverse field, as we prove analytically, can play a relevant role in the design of stable solid-state quantum batteries.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# データ再構成攻撃と防衛:システム評価

Data Reconstruction Attacks and Defenses: A Systematic Evaluation ( http://arxiv.org/abs/2402.09478v2 )

ライセンス: Link先を確認
Sheng Liu, Zihan Wang, Yuxiao Chen, Qi Lei, (参考訳) 再構築攻撃と防御は、機械学習におけるデータ漏洩問題を理解する上で不可欠である。 しかし、先行研究は、勾配反転攻撃の実証的な観察、理論的正当化の欠如、攻撃方法の計算的制限から防御方法の有用性を遠ざけることはできない。 本研究では,この問題を逆問題とみなし,理論的,定量的,体系的にデータ再構成問題を評価することを提案する。 種々の防御手法を用いて, 2層ニューラルネットワークの再構成誤差に基づいて, アルゴリズム上界とマッチング(特徴次元とモデル幅)の情報理論下界を導出した。 理論的な結果を補完し,ユーティリティ・プライバシ・トレードオフを解明するために,最強攻撃のうち,同様の実用的損失を伴う防衛手法の自然な評価基準を定義した。 さらに,本評価基準に基づく防衛手法の強みの事前理解の更新を支援する強力な再構築攻撃を提案する。

Reconstruction attacks and defenses are essential in understanding the data leakage problem in machine learning. However, prior work has centered around empirical observations of gradient inversion attacks, lacks theoretical justifications, and cannot disentangle the usefulness of defending methods from the computational limitation of attacking methods. In this work, we propose to view the problem as an inverse problem, enabling us to theoretically, quantitatively, and systematically evaluate the data reconstruction problem. On various defense methods, we derived the algorithmic upper bound and the matching (in feature dimension and model width) information-theoretical lower bound on the reconstruction error for two-layer neural networks. To complement the theoretical results and investigate the utility-privacy trade-off, we defined a natural evaluation metric of the defense methods with similar utility loss among the strongest attacks. We further propose a strong reconstruction attack that helps update some previous understanding of the strength of defense methods under our proposed evaluation metric.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# 1次元を超えた格子モデルにおけるケネディ・タサキ変換と非可逆対称性

Kennedy-Tasaki transformation and non-invertible symmetry in lattice models beyond one dimension ( http://arxiv.org/abs/2402.09520v2 )

ライセンス: Link先を確認
Aswin Parayil Mana, Yabo Li, Hiroki Sukeno, Tzu-Chieh Wei, (参考訳) 1次元横場イジングモデルの構成を一般化する高次元サブシステム対称モデルにおいて、クラマース・ワニエ双対変換の(逐次回路と対称部分空間への射影による)明示的な作用素表現を与える。 クラマース・ワニエ双対作用素を用いて、サブシステムで保護された位相位相位相を自発的なサブシステム対称性の破れ位相にマッピングするケネディ・タサキ変換も構成し、前者の対称性群は$\mathbb{Z}_2\times\mathbb{Z}_2$または$\mathbb{Z}_2$である。 このことは最近提案された1次元ケネディ・タサキ変換の図面を、ギャグと積層対称性で保護された位相位相を高次元に含む操作の合成として一般化する。

We give an explicit operator representation (via a sequential circuit and projection to symmetry subspaces) of Kramers-Wannier duality transformation in higher-dimensional subsystem symmetric models generalizing the construction in the 1D transverse-field Ising model. Using the Kramers-Wannier duality operator, we also construct the Kennedy-Tasaki transformation that maps subsystem symmetry-protected topological phases to spontaneous subsystem symmetry breaking phases, where the symmetry group for the former is either $\mathbb{Z}_2\times\mathbb{Z}_2$ or $\mathbb{Z}_2$. This generalizes the recently proposed picture of one-dimensional Kennedy-Tasaki transformation as a composition of manipulations involving gauging and stacking symmetry-protected topological phases to higher dimensions.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# AI病院:マルチエージェント医療インタラクションシミュレータにおける大規模言語モデルのベンチマーク

AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator ( http://arxiv.org/abs/2402.09742v3 )

ライセンス: Link先を確認
Zhihao Fan, Jialong Tang, Wei Chen, Siyuan Wang, Zhongyu Wei, Jun Xi, Fei Huang, Jingren Zhou, (参考訳) 人工知能は、特に医学的質問応答ベンチマークで優れている大規模言語モデル(LLM)を通じて、医療を著しく進歩させてきた。 しかし、医師と患者との相互作用の複雑さのため、実際の臨床応用は限られている。 そこで,本稿では,プレイヤとして \emph{Doctor} と NPC の動的医療相互作用をシミュレートするマルチエージェントフレームワークである \textbf{AI Hospital} を紹介する。 この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。 症状収集, 診察勧告, 診断において, 高品質な中国医療記録とNPCを用いた多視点医療評価(MVME)ベンチマークを作成し, LLMの性能評価を行った。 さらに、反復的な議論を通じて診断精度を高めるために、紛争解決協調機構を提案する。 改良にもかかわらず、現在のLLMは1段階のアプローチに比べて、マルチターン相互作用において大きな性能差を示す。 本研究は, これらのギャップを埋め, LLMの臨床的診断能力を改善するために, さらなる研究の必要性を浮き彫りにするものである。 我々のデータ、コード、実験結果は、すべて、 \url{https://github.com/LibertFan/AI_Hospital}でオープンソース化されています。

Artificial intelligence has significantly advanced healthcare, particularly through large language models (LLMs) that excel in medical question answering benchmarks. However, their real-world clinical application remains limited due to the complexities of doctor-patient interactions. To address this, we introduce \textbf{AI Hospital}, a multi-agent framework simulating dynamic medical interactions between \emph{Doctor} as player and NPCs including \emph{Patient}, \emph{Examiner}, \emph{Chief Physician}. This setup allows for realistic assessments of LLMs in clinical scenarios. We develop the Multi-View Medical Evaluation (MVME) benchmark, utilizing high-quality Chinese medical records and NPCs to evaluate LLMs' performance in symptom collection, examination recommendations, and diagnoses. Additionally, a dispute resolution collaborative mechanism is proposed to enhance diagnostic accuracy through iterative discussions. Despite improvements, current LLMs exhibit significant performance gaps in multi-turn interactions compared to one-step approaches. Our findings highlight the need for further research to bridge these gaps and improve LLMs' clinical diagnostic capabilities. Our data, code, and experimental results are all open-sourced at \url{https://github.com/LibertFan/AI_Hospital}.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# NutePrune:大規模言語モデルのための多数の教師による効率的なプログレッシブ・プルーニング

NutePrune: Efficient Progressive Pruning with Numerous Teachers for Large Language Models ( http://arxiv.org/abs/2402.09773v2 )

ライセンス: Link先を確認
Shengrui Li, Junzhe Chen, Xueting Han, Jing Bai, (参考訳) LLM(Large Language Models)のかなりのサイズは、特にリソース制約のあるハードウェアにおいて、注目すべきデプロイメント課題を提示している。 構造化プルーニング(Structured pruning)は、LLMを圧縮し、ストレージコストを削減し、より効率的な利用のために推論速度を向上する効果的な手段を提供する。 本研究では,データ効率と資源効率を両立させる構造解析手法について検討した。 知識蒸留はプルーニングに適しており、無傷モデルはプルーニングの学生にとって優れた教師として機能する。 しかし、メモリ制約のため、LLMの文脈では困難になる。 そこで本稿では, 効率的なプログレッシブなNumerous-Teacher pruning法(NutePrune)を提案する。 NutePruneは、1つの無傷モデルのみを読み込んで、さまざまなマスクとLoRAモジュールに統合することで、過剰なメモリコストを軽減し、教師と学生の役割をシームレスに切り替えることを可能にする。 このアプローチにより、様々な能力を持つ教師を活用でき、段階的にプルーニングモデルを指導し、全体的な性能を向上させることができる。 さまざまなタスクにわたる大規模な実験は、NutePruneの有効性を示している。 LLaMA-7Bゼロショット実験では、NutePruneはオリジナルのモデルの性能の97.17%を20%の間隔で、95.07%を25%の間隔で保持している。 私たちのコードはhttps://github.com/Lucius-lsr/NutePrune.comで利用可能です。

The considerable size of Large Language Models (LLMs) presents notable deployment challenges, particularly on resource-constrained hardware. Structured pruning, offers an effective means to compress LLMs, thereby reducing storage costs and enhancing inference speed for more efficient utilization. In this work, we study data-efficient and resource-efficient structure pruning methods to obtain smaller yet still powerful models. Knowledge Distillation is well-suited for pruning, as the intact model can serve as an excellent teacher for pruned students. However, it becomes challenging in the context of LLMs due to memory constraints. To address this, we propose an efficient progressive Numerous-teacher pruning method (NutePrune). NutePrune mitigates excessive memory costs by loading only one intact model and integrating it with various masks and LoRA modules, enabling it to seamlessly switch between teacher and student roles. This approach allows us to leverage numerous teachers with varying capacities to progressively guide the pruned model, enhancing overall performance. Extensive experiments across various tasks demonstrate the effectiveness of NutePrune. In LLaMA-7B zero-shot experiments, NutePrune retains 97.17% of the performance of the original model at 20% sparsity and 95.07% at 25% sparsity. Our code is available at https://github.com/Lucius-lsr/NutePrune.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# 確率凸最適化における適応性の価格

The Price of Adaptivity in Stochastic Convex Optimization ( http://arxiv.org/abs/2402.10898v3 )

ライセンス: Link先を確認
Yair Carmon, Oliver Hinder, (参考訳) 非滑らかな確率凸最適化における適応性に対する不合理性を証明した。 適応したい問題パラメータのセットが与えられた場合、我々は、大まかに言えば、これらのパラメータの不確実性によるサブ最適性の乗法的増加を測定する「適応性(price of adaptivity)」(PoA)を定義する。 最適点への初期距離が不明で勾配ノルム境界が知られている場合、PoAは期待される準最適点に対して少なくとも対数的であり、中央値の準最適点に対して二重対数的であることを示す。 距離ノルムと勾配ノルムの両方に不確実性が存在する場合、PoA は不確実性のレベルにおける多項式でなければならないことを示す。 我々の下限は、既存の上限とほぼ一致し、パラメータフリーランチがないことを証明します。 また,重み付き雑音と有界雑音を用いた高確率確率確率凸最適化のための高次および低次境界をそれぞれ確立する。

We prove impossibility results for adaptivity in non-smooth stochastic convex optimization. Given a set of problem parameters we wish to adapt to, we define a "price of adaptivity" (PoA) that, roughly speaking, measures the multiplicative increase in suboptimality due to uncertainty in these parameters. When the initial distance to the optimum is unknown but a gradient norm bound is known, we show that the PoA is at least logarithmic for expected suboptimality, and double-logarithmic for median suboptimality. When there is uncertainty in both distance and gradient norm, we show that the PoA must be polynomial in the level of uncertainty. Our lower bounds nearly match existing upper bounds, and establish that there is no parameter-free lunch. En route, we also establish tight upper and lower bounds for (known-parameter) high-probability stochastic convex optimization with heavy-tailed and bounded noise, respectively.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# M4GT-Bench:ブラックボックスマシン生成テキスト検出のための評価ベンチマーク

M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection ( http://arxiv.org/abs/2402.11175v2 )

ライセンス: Link先を確認
Yuxia Wang, Jonibek Mansurov, Petar Ivanov, Jinyan Su, Artem Shelmanov, Akim Tsvigun, Osama Mohanned Afzal, Tarek Mahmoud, Giovanni Puccetti, Thomas Arnold, Alham Fikri Aji, Nizar Habash, Iryna Gurevych, Preslav Nakov, (参考訳) LLM(Large Language Models)の出現は、様々なチャネルにわたる機械生成テキスト(MGT)の急上昇をもたらした。 このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。 これらの内容と本物の人間生成テキストを識別し区別することの必要性は、偽情報と戦うこと、教育と科学分野の整合性を維持すること、コミュニケーションへの信頼を維持するために重要である。 本研究では,MGTs-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを導入することで,この問題に対処する。 本ベンチマークは,(1)単言語および多言語バイナリMGT検出,(2)特定のモデルが生成したテキストを識別するマルチウェイ検出,(3)人文コンテンツからMGTを識別する単語境界を決定する,3つのタスクからなる。 開発したベンチマークでは,複数のMGT検出基準線を試験し,人体の性能評価を行った。 MGT検出において優れた性能を得るには、通常、同じドメインとジェネレータからトレーニングデータにアクセスする必要がある。 ベンチマークはhttps://github.com/mbzuai-nlp/M4GT-Benchで公開されている。

The advent of Large Language Models (LLMs) has brought an unprecedented surge in machine-generated text (MGT) across diverse channels. This raises legitimate concerns about its potential misuse and societal implications. The need to identify and differentiate such content from genuine human-generated text is critical in combating disinformation, preserving the integrity of education and scientific fields, and maintaining trust in communication. In this work, we address this problem by introducing a new benchmark based on a multilingual, multi-domain, and multi-generator corpus of MGTs -- M4GT-Bench. The benchmark is compiled of three tasks: (1) mono-lingual and multi-lingual binary MGT detection; (2) multi-way detection where one need to identify, which particular model generated the text; and (3) mixed human-machine text detection, where a word boundary delimiting MGT from human-written content should be determined. On the developed benchmark, we have tested several MGT detection baselines and also conducted an evaluation of human performance. We see that obtaining good performance in MGT detection usually requires an access to the training data from the same domain and generators. The benchmark is available at https://github.com/mbzuai-nlp/M4GT-Bench.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# Koopman演算子を用いたニューラルネットワークにおける非線形性の抽出

Extraction of nonlinearity in neural networks with Koopman operator ( http://arxiv.org/abs/2402.11740v3 )

ライセンス: Link先を確認
Naoki Sugishita, Kayo Kinjo, Jun Ohkubo, (参考訳) 非線形性はディープニューラルネットワークにおいて重要な役割を果たす。 本稿では,ニューラルネットワークの非線形性が不可欠である程度について検討する。 この目的のために、Koopman演算子、拡張動的モード分解、テンソルトレイン形式を用いる。 クープマン作用素のアプローチは近年物理学や非線形科学において発展しており、クープマン作用素は状態空間の代わりに観測可能な空間における時間発展を扱う。 状態空間の非線形性を可観測空間の線型性に置き換えることができるので、非線形系における複素挙動を理解するための希望的な候補である。 ここでは,学習したニューラルネットワークを分類問題に対して解析する。 その結果、非線形中間層をクープマン行列に置き換えることで、数値実験で十分な精度が得られる。 さらに, 圧縮率が高い場合でも, クープマン行列のプルーニングによって十分な精度が得られることを確認した。 これらの結果は、ニューラルネットワークにおけるいくつかの特徴をクープマン演算子アプローチで抽出する可能性を示している。

Nonlinearity plays a crucial role in deep neural networks. In this paper, we investigate the degree to which the nonlinearity of the neural network is essential. For this purpose, we employ the Koopman operator, extended dynamic mode decomposition, and the tensor-train format. The Koopman operator approach has been recently developed in physics and nonlinear sciences; the Koopman operator deals with the time evolution in the observable space instead of the state space. Since we can replace the nonlinearity in the state space with the linearity in the observable space, it is a hopeful candidate for understanding complex behavior in nonlinear systems. Here, we analyze learned neural networks for the classification problems. As a result, the replacement of the nonlinear middle layers with the Koopman matrix yields enough accuracy in numerical experiments. In addition, we confirm that the pruning of the Koopman matrix gives sufficient accuracy even at high compression ratios. These results indicate the possibility of extracting some features in the neural networks with the Koopman operator approach.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# 雇用・機会のためのネットワーク形成における均衡・効率・不平等

Equilibria, Efficiency, and Inequality in Network Formation for Hiring and Opportunity ( http://arxiv.org/abs/2402.13841v2 )

ライセンス: Link先を確認
Cynthia Dwork, Chris Hays, Jon Kleinberg, Manish Raghavan, (参考訳) 特定の仕事の列にいる人たちのソーシャルネットワークであるプロフェッショナルネットワークは、仕事の見通しやその他の機会のコンジットとして機能する。 本稿では,そのようなネットワークの形成と,その内における機会の移動に関するモデルを提案する。 我々の理論モデルでは、個人は他者と戦略的に結びつき、機会を得られる確率を最大化する。 プロのネットワークがコネクティビティのバランスをとる方法を探るため、外部のソースからアクセスできない人たちへのコネクティビティの転送や、コネクティビティから多くの機会を受け取りすぎたり、その一部を無駄にしたりといった渋滞について検討する。 戦略的個人は、社会的最適性に対して均衡が過大に結びついており、ほぼ漸近的な境界を導き出すアナキシーの価格に繋がることを示す。 また、平衡においては、個人が他人に提供したのと同様の利益を提供する人々と結びつくことも示しています。 このように、我々のモデルは、ホモフィリの基本的社会学的原理である「類似性はつながりを生み出す」ために、プロのネットワークコンテキストにマイクロファウンデーションを提供し、これは、個人の利益のアライメントに基づくステータス・ホモフィリの一形態として実現される。 さらに、たとえ個人が外部からの機会を平等に受け取ることができるような先駆者であったとしても、均衡は不平等になり得ること、そして、どのように不平等になるかについて、ほぼ厳密な境界線を提供するかについても検討する。 最後に、オンラインプラットフォームが社会福祉改善に介入する能力について検討し、自然ヒューリスティックスが均衡に悪影響を及ぼすことを示した。 我々の単純なモデルは、プロのネットワークにおける調整問題の驚くほど豊富な分析を可能にし、さらなる探索のための多くの方向を示唆する。

Professional networks -- the social networks among people in a given line of work -- can serve as a conduit for job prospects and other opportunities. Here we propose a model for the formation of such networks and the transfer of opportunities within them. In our theoretical model, individuals strategically connect with others to maximize the probability that they receive opportunities from them. We explore how professional networks balance connectivity, where connections facilitate opportunity transfers to those who did not get them from outside sources, and congestion, where some individuals receive too many opportunities from their connections and waste some of them. We show that strategic individuals are over-connected at equilibrium relative to a social optimum, leading to a price of anarchy for which we derive nearly tight asymptotic bounds. We also show that, at equilibrium, individuals form connections to those who provide similar benefit to them as they provide to others. Thus, our model provides a microfoundation in professional networking contexts for the fundamental sociological principle of homophily, that "similarity breeds connection," which in our setting is realized as a form of status homophily based on alignment in individual benefit. We further explore how, even if individuals are a priori equally likely to receive opportunities from outside sources, equilibria can be unequal, and we provide nearly tight bounds on how unequal they can be. Finally, we explore the ability for online platforms to intervene to improve social welfare and show that natural heuristics may result in adverse effects at equilibrium. Our simple model allows for a surprisingly rich analysis of coordination problems in professional networks and suggests many directions for further exploration.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# Daisy-TTS:韻律埋め込み分解による感情スペクトルのシミュレーション

Daisy-TTS: Simulating Wider Spectrum of Emotions via Prosody Embedding Decomposition ( http://arxiv.org/abs/2402.14523v2 )

ライセンス: Link先を確認
Rendi Chevi, Alham Fikri Aji, (参考訳) 私たちはしばしば多面的に感情を表現するが、その強さは様々であり、単独ではなく、感情の混合として表現されることもある。 この広い範囲の感情は感情の構造モデルにおいてよく研究されており、様々な感情を様々な強度の一次感情の派生生成物として表している。 本稿では,構造モデルに基づく感情の幅広いスペクトルをシミュレートする感情的テキスト音声設計を提案する。 提案したデザインであるDaisy-TTSは、感情のプロキシとして感情的に分離可能な韻律埋め込みを学習するための韻律エンコーダを組み込んでいる。 この感情表現は,(1)訓練サンプルから学習した一次感情,(2)一次感情の混合による二次感情,(3)感情の埋め込みを拡大するインテンシティレベル,(4)感情の埋め込みを否定する感情の極性など,モデルをシミュレートすることができる。 一連の知覚的評価を通じて,Daisy-TTSはベースラインに比べて感情の自然さと感情の知覚性が全体的に高いことを示した。

We often verbally express emotions in a multifaceted manner, they may vary in their intensities and may be expressed not just as a single but as a mixture of emotions. This wide spectrum of emotions is well-studied in the structural model of emotions, which represents variety of emotions as derivative products of primary emotions with varying degrees of intensity. In this paper, we propose an emotional text-to-speech design to simulate a wider spectrum of emotions grounded on the structural model. Our proposed design, Daisy-TTS, incorporates a prosody encoder to learn emotionally-separable prosody embedding as a proxy for emotion. This emotion representation allows the model to simulate: (1) Primary emotions, as learned from the training samples, (2) Secondary emotions, as a mixture of primary emotions, (3) Intensity-level, by scaling the emotion embedding, and (4) Emotions polarity, by negating the emotion embedding. Through a series of perceptual evaluations, Daisy-TTS demonstrated overall higher emotional speech naturalness and emotion perceiveability compared to the baseline.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# MobileLLM:オンデバイスユースケースのためのサブビリオンパラメータ言語モデル最適化

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases ( http://arxiv.org/abs/2402.14905v2 )

ライセンス: Link先を確認
Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra, (参考訳) 本稿では、クラウドコストの増大とレイテンシの懸念から、モバイルデバイス上での効率的な大規模言語モデル(LLM)の必要性の高まりに対処する。 モバイルデプロイメントの実践的な選択として,10億未満のパラメータで高品質なLLMを設計することに重点を置いています。 モデル品質決定におけるデータの役割とパラメータ量の重要性を強調した一般的な信念とは対照的に,本研究では,サブビリオンスケールLLMにおけるモデルアーキテクチャの重要性を強調した。 深層および薄層アーキテクチャを活用し,組込み共有とグループ化クエリアテンション機構を併用して,MobileLLMと呼ばれる強力なベースラインネットワークを構築し,125M/350Mの最先端モデルよりも2.7%/4.3%の精度向上を実現した。 さらに,モデルサイズが増加せず,限界遅延のみのオーバーヘッドを伴わない即時ブロック単位の重み共有手法を提案する。 結果として得られたモデルはMobileLLM-LSと呼ばれ、MobileLLM 125M/350Mよりも精度が0.7%/0.8%向上した。 さらに、MobileLLMモデルファミリは、チャットベンチマークの以前のサブビリオンモデルに比べて大幅に改善され、API呼び出しタスクにおけるLLaMA-v2 7Bの精度が向上し、一般的なオンデバイスユースケース向けの小さなモデルの性能が強調された。

This paper addresses the growing need for efficient large language models (LLMs) on mobile devices, driven by increasing cloud costs and latency concerns. We focus on designing top-quality LLMs with fewer than a billion parameters, a practical choice for mobile deployment. Contrary to prevailing belief emphasizing the pivotal role of data and parameter quantity in determining model quality, our investigation underscores the significance of model architecture for sub-billion scale LLMs. Leveraging deep and thin architectures, coupled with embedding sharing and grouped-query attention mechanisms, we establish a strong baseline network denoted as MobileLLM, which attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M state-of-the-art models. Additionally, we propose an immediate block-wise weight-sharing approach with no increase in model size and only marginal latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover, MobileLLM model family shows significant improvements compared to previous sub-billion models on chat benchmarks, and demonstrates close correctness to LLaMA-v2 7B in API calling tasks, highlighting the capability of small models for common on-device use cases.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# サンプリングによる最適情報

Optimistic Information Directed Sampling ( http://arxiv.org/abs/2402.15411v2 )

ライセンス: Link先を確認
Gergely Neu, Matteo Papini, Ludovic Schwartz, (参考訳) 本研究では、損失関数が既知のパラメトリック関数クラスに属すると仮定された文脈的帯域幅問題におけるオンライン学習の問題について検討する。 我々は、Russo と Van Roy (2018) によるベイズ的情報指向サンプリングの理論と、決定推定係数に基づく Foster, Kakade, Qian, Rakhlin (2021) の最悪のケース理論を橋渡しする新しい分析フレームワークを提案する。 両作業の行から、最適化情報指向サンプリング(Optimistic Information-Directed Smpling)と呼ばれるアルゴリズムテンプレートを提案し、古典的ベイズIDS法で達成可能なものと類似した、インスタンス依存の後悔保証を実現することができるが、ベイズ的な仮定を必要としないという大きな利点があることを示す。 我々の分析の重要な技術的革新は、後悔に対する楽観的な代理モデルを導入し、それを使って、RussoとVan RoyのInformation Ratioの頻繁なバージョン(2018年)と、FosterらによるDecision Estimation Coefficient(2021年)のより保守的なバージョン(2021年)を定義します。 キーワード: コンテキストブレイディット、情報指向サンプリング、決定推定係数、一階後悔境界。

We study the problem of online learning in contextual bandit problems where the loss function is assumed to belong to a known parametric function class. We propose a new analytic framework for this setting that bridges the Bayesian theory of information-directed sampling due to Russo and Van Roy (2018) and the worst-case theory of Foster, Kakade, Qian, and Rakhlin (2021) based on the decision-estimation coefficient. Drawing from both lines of work, we propose a algorithmic template called Optimistic Information-Directed Sampling and show that it can achieve instance-dependent regret guarantees similar to the ones achievable by the classic Bayesian IDS method, but with the major advantage of not requiring any Bayesian assumptions. The key technical innovation of our analysis is introducing an optimistic surrogate model for the regret and using it to define a frequentist version of the Information Ratio of Russo and Van Roy (2018), and a less conservative version of the Decision Estimation Coefficient of Foster et al. (2021). Keywords: Contextual bandits, information-directed sampling, decision estimation coefficient, first-order regret bounds.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# EHRNoteQA:放電補助剤を用いた実世界の臨床実習のためのLLMベンチマーク

EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries ( http://arxiv.org/abs/2402.16040v4 )

ライセンス: Link先を確認
Sunjun Kweon, Jiyoun Kim, Heeyoung Kwak, Dongchul Cha, Hangyul Yoon, Kwanghyun Kim, Jeewon Yang, Seunghyun Won, Edward Choi, (参考訳) エレクトロニック・ヘルス・レコード(EHR)の放電サマリーは臨床診断に不可欠であるが、その長さと複雑さは情報抽出を困難にしている。 大規模言語モデル(LLM)は、広大で複雑なデータを効率的に分析することで、この問題に対処する上で有望であることを示す。 しかし、既存のベンチマークでは、通常はシングルノート情報や限られたトピックに焦点を合わせ、臨床医が要求する現実世界の問い合わせを反映しないため、この文脈でLLMの能力を適切に評価するに不足している。 このギャップを埋めるために,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを導入する。 各QAペアは、最初はGPT-4を使用して生成され、3人の臨床医が臨床関連性を確保するために手動でレビューし、精製する。 EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。 EHRNoteQAを2つの形式で提供し、それぞれに対して信頼性の高い評価手法を提案する。 EHRNoteQAを用いて27個のLCMを評価し,モデル性能に影響を与える諸要因について検討した。 さらに,臨床実習における専門家評価の信頼性指標として EHRNoteQA を検証するために,臨床医が手作業で評価する LLM と EHRNoteQA の LLM 性能の相関を計測した。 その結果, EHRNoteQA における LLM の成績は, 臨床評価値 (Spearman: 0.78, Kendall: 0.62) と他のベンチマークと比較して高い相関性を示し, 臨床評価における LLM の有効性を実証した。

Discharge summaries in Electronic Health Records (EHRs) are crucial for clinical decision-making, but their length and complexity make information extraction challenging, especially when dealing with accumulated summaries across multiple patient admissions. Large Language Models (LLMs) show promise in addressing this challenge by efficiently analyzing vast and complex data. Existing benchmarks, however, fall short in properly evaluating LLMs' capabilities in this context, as they typically focus on single-note information or limited topics, failing to reflect the real-world inquiries required by clinicians. To bridge this gap, we introduce EHRNoteQA, a novel benchmark built on the MIMIC-IV EHR, comprising 962 different QA pairs each linked to distinct patients' discharge summaries. Every QA pair is initially generated using GPT-4 and then manually reviewed and refined by three clinicians to ensure clinical relevance. EHRNoteQA includes questions that require information across multiple discharge summaries and covers eight diverse topics, mirroring the complexity and diversity of real clinical inquiries. We offer EHRNoteQA in two formats: open-ended and multi-choice question answering, and propose a reliable evaluation method for each. We evaluate 27 LLMs using EHRNoteQA and examine various factors affecting the model performance (e.g., the length and number of discharge summaries). Furthermore, to validate EHRNoteQA as a reliable proxy for expert evaluations in clinical practice, we measure the correlation between the LLM performance on EHRNoteQA, and the LLM performance manually evaluated by clinicians. Results show that LLM performance on EHRNoteQA have higher correlation with clinician-evaluated performance (Spearman: 0.78, Kendall: 0.62) compared to other benchmarks, demonstrating its practical relevance in evaluating LLMs in clinical settings.
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# 質問に焦点をあてて!コモンセンス推論における有害CoT問題の解釈と緩和

Focus on Your Question! Interpreting and Mitigating Toxic CoT Problems in Commonsense Reasoning ( http://arxiv.org/abs/2402.18344v2 )

ライセンス: Link先を確認
Jiachun Li, Pengfei Cao, Chenhao Wang, Zhuoran Jin, Yubo Chen, Daojian Zeng, Kang Liu, Jun Zhao, (参考訳) 大規模言語モデルは、特にChain-of-Thought (CoT)のような拡張手法で、高いレベルのコモンセンス推論能力を示す。 しかし、これらのCoTライクな手法は、Toxic CoT問題と定義する、元の正解が誤りを犯す原因となる。 この問題を解釈し緩和するために,まず帰属的追跡法と因果的追跡法を用いて,COT推論中のLLMの内部動作機構を探索する。 比較により,本モデルが有理性や回答を生成する際に,浅い注意層上の質問から情報損失を生じさせることを示す。 探索結果に基づいて、復号とシリアルポジションの両方の観点からモデルにおける情報不足を補うRIDERS(Residual decodIng and serial-position Swap)と呼ばれる新しい手法を設計する。 複数のコモンセンス推論ベンチマークに関する広範な実験を通じて、この手法がトキシックCoT問題を著しく排除するだけでなく(23.6%)、モデル全体のコモンセンス推論性能を効果的に改善する(5.5%増加)ことを検証した。

Large language models exhibit high-level commonsense reasoning abilities, especially with enhancement methods like Chain-of-Thought (CoT). However, we find these CoT-like methods lead to a considerable number of originally correct answers turning wrong, which we define as the Toxic CoT problem. To interpret and mitigate this problem, we first utilize attribution tracing and causal tracing methods to probe the internal working mechanism of the LLM during CoT reasoning. Through comparisons, we prove that the model exhibits information loss from the question over the shallow attention layers when generating rationales or answers. Based on the probing findings, we design a novel method called RIDERS (Residual decodIng and sERial-position Swap), which compensates for the information deficit in the model from both decoding and serial-position perspectives. Through extensive experiments on multiple commonsense reasoning benchmarks, we validate that this method not only significantly eliminates Toxic CoT problems (decreased by 23.6%), but also effectively improves the model's overall commonsense reasoning performance (increased by 5.5%).
翻訳日:2024-06-28 19:37:12 公開日:2024-06-27
# Hamiltonian Monte Carlo によるベイズ不確かさの推定 : 心臓MRIセグメントへの応用

Bayesian Uncertainty Estimation by Hamiltonian Monte Carlo: Applications to Cardiac MRI Segmentation ( http://arxiv.org/abs/2403.02311v3 )

ライセンス: Link先を確認
Yidong Zhao, Joao Tourais, Iain Pierce, Christian Nitsche, Thomas A. Treibel, Sebastian Weingärtner, Artur M. Schweidtmann, Qian Tao, (参考訳) 深層学習(DL)に基づく手法は,多くの医用画像セグメンテーションタスクにおいて最先端のパフォーマンスを達成した。 しかし、最近の研究では、ディープニューラルネットワーク(DNN)が誤診され、過信され、臨床応用にリスクがある「サイレント障害」につながることが示されている。 ベイジアンDLは、後続確率推定に基づいて、DL故障検出に対する直感的なアプローチを提供する。 しかし,大面積の医用画像分割DNNでは後部が難治性である。 この課題に対処するために,HMC-CP(Hachian Monte Carlo)を用いたベイズ学習フレームワークを提案する。 HMC計算では, 局所的および大域的分布の両測地を捕捉し, 単一のDNNを訓練するのと同じ計算予算で, 高効率なベイズDNN訓練を可能にする循環型アニール方式を提案する。 その結果、ベイズDNNは、セグメンテーションの不確実性とともにアンサンブルセグメンテーションを出力する。 提案したHMC-CPは心磁気共鳴画像(MRI)のセグメンテーションにおいて,SSFPシネ画像および定量的T1およびT2マッピングの外部データセットを用いて広範に評価した。 提案手法は,モンテカルロ・ドロップアウトやディープ・アンサンブルなどの確立されたベースライン法と比較して,領域内および領域外データのセグメンテーション精度と不確実性評価の両方を改善した。 さらに,HMCと一般に知られている確率勾配降下(SGD)の概念的リンクを確立し,DLの不確実性に関する一般的な知見を提供する。 この不確実性は、トレーニングダイナミクスに暗黙的にエンコードされるが、しばしば見過ごされる。 本手法は信頼性の高い不確実性推定を行い,臨床応用における信頼性の高いDLに向けた有望な方向を提供する。

Deep learning (DL)-based methods have achieved state-of-the-art performance for many medical image segmentation tasks. Nevertheless, recent studies show that deep neural networks (DNNs) can be miscalibrated and overconfident, leading to "silent failures" that are risky for clinical applications. Bayesian DL provides an intuitive approach to DL failure detection, based on posterior probability estimation. However, the posterior is intractable for large medical image segmentation DNNs. To tackle this challenge, we propose a Bayesian learning framework using Hamiltonian Monte Carlo (HMC), tempered by cold posterior (CP) to accommodate medical data augmentation, named HMC-CP. For HMC computation, we further propose a cyclical annealing strategy, capturing both local and global geometries of the posterior distribution, enabling highly efficient Bayesian DNN training with the same computational budget as training a single DNN. The resulting Bayesian DNN outputs an ensemble segmentation along with the segmentation uncertainty. We evaluate the proposed HMC-CP extensively on cardiac magnetic resonance image (MRI) segmentation, using in-domain steady-state free precession (SSFP) cine images as well as out-of-domain datasets of quantitative T1 and T2 mapping. Our results show that the proposed method improves both segmentation accuracy and uncertainty estimation for in- and out-of-domain data, compared with well-established baseline methods such as Monte Carlo Dropout and Deep Ensembles. Additionally, we establish a conceptual link between HMC and the commonly known stochastic gradient descent (SGD) and provide general insight into the uncertainty of DL. This uncertainty is implicitly encoded in the training dynamics but often overlooked. With reliable uncertainty estimation, our method provides a promising direction toward trustworthy DL in clinical applications.
翻訳日:2024-06-28 19:26:57 公開日:2024-06-27
# 混合変分ファミリによる不完全データからの変分オートエンコーダ推定の改善

Improving Variational Autoencoder Estimation from Incomplete Data with Mixture Variational Families ( http://arxiv.org/abs/2403.03069v2 )

ライセンス: Link先を確認
Vaidotas Simkus, Michael U. Gutmann, (参考訳) トレーニングデータが不完全である場合に,変分オートエンコーダ(VAE)を推定する作業を検討する。 完全観測の場合と比較して,データ不足は潜在変数に対するモデル後部分布の複雑さを増大させることを示す。 複雑さの増大は、モデル後部分布とモデル後部分布のミスマッチに起因するモデルの適合性に悪影響を及ぼす可能性がある。 我々は2つの戦略を導入する。 (i)有限変分混合 (II) 後続複雑さの増加に対処するため, インプチューションに基づく変分混合分布について検討した。 提案手法を包括的に評価することにより,不完全データからVAE推定の精度を向上させるために,変量混合が有効であることを示す。

We consider the task of estimating variational autoencoders (VAEs) when the training data is incomplete. We show that missing data increases the complexity of the model's posterior distribution over the latent variables compared to the fully-observed case. The increased complexity may adversely affect the fit of the model due to a mismatch between the variational and model posterior distributions. We introduce two strategies based on (i) finite variational-mixture and (ii) imputation-based variational-mixture distributions to address the increased posterior complexity. Through a comprehensive evaluation of the proposed approaches, we show that variational mixtures are effective at improving the accuracy of VAE estimation from incomplete data.
翻訳日:2024-06-28 19:26:56 公開日:2024-06-27
# 強結合原子配列におけるモロー三重項のFate

Fate of the Mollow triplet in strongly-coupled atomic arrays ( http://arxiv.org/abs/2403.03679v2 )

ライセンス: Link先を確認
Orazio Scarlatella, Nigel R. Cooper, (参考訳) 量子エミッタのサブ波長アレイは、アプリケーションに利用できる顕著な集合効果を示す興味深いプラットフォームとして登場した。 ここでは、強いコヒーレント駆動の下でそのような配列を研究し、強い非線形状態におけるオープン量子多体問題を実現する。 散乱光のスペクトルは、単一の原子に対して有名なモロー三重項によって特徴づけられ、双極子相互作用によって決定される平坦な側バンドを持つ特性線状に発達することを示す。 注目すべきは、これは特定の幾何学とは独立であるが、原子の秩序な配置に敏感である。 したがって、このラインシェイプは原子配列を特徴づけ、混乱したアンサンブルや相互作用しないエミッターと区別する。 我々の予測は、この問題に対する新しい力学平均場理論(DMFT)アプローチに基づいており、これらのシステムのさらなる研究の道を開く。

Subwavelength arrays of quantum emitters have emerged as an interesting platform displaying prominent collective effects that can be harnessed for applications. Here we study such arrays under strong coherent driving, realizing an open quantum many-body problem in a strongly non-linear regime. We show that the spectrum of scattered light, characterized by the famous Mollow triplet for a single atom, develops a characteristic lineshape with flat sidebands determined by dipolar interactions. Remarkably, this is independent of the specific geometry, but is sensitive to the ordered arrangement of the atoms. This lineshape therefore characterizes atomic arrays and distinguishes them from disordered ensembles and non-interacting emitters. Our predictions are based on a novel dynamical mean-field theory (DMFT) approach to the problem, paving the way for further studies of these systems.
翻訳日:2024-06-28 19:26:56 公開日:2024-06-27
# BSDA:医療画像分類のためのベイジアンランダムセマンティックデータ拡張

BSDA: Bayesian Random Semantic Data Augmentation for Medical Image Classification ( http://arxiv.org/abs/2403.06138v2 )

ライセンス: Link先を確認
Yaoyao Zhu, Xiuding Cai, Xueyao Wang, Xiaoqing Chen, Yu Yao, Zhongliang Fu, (参考訳) データ拡張はディープニューラルネットワーク、特に医用画像分類において重要な正規化技術である。 メインストリームデータ拡張(DA)法は通常、画像レベルで適用される。 医用画像の特異性と多様性のため、効果的なDA戦略を設計するために必要な専門知識がしばしば必要であり、不適切な拡張操作はモデル性能を劣化させる可能性がある。 自動拡張法は存在するが、計算集約性が高い。 セマンティックデータ拡張は、機能空間の機能を翻訳することで実装できる。 しかし、過剰翻訳は画像ラベルに違反する可能性がある。 これらの問題に対処するために,計算効率が良く,手作業の不要な特徴量DA法である \emph{Bayesian Random Semantic Data Augmentation} (BSDA) を提案する。 BSDAは変分ベイジアンを用いて拡張可能な大きさの分布を推定し、この分布からのサンプルを元の特徴に追加して意味データ拡張を行う。 9つの2次元および5つの医用画像データセットについて実験を行った。 実験の結果,BSDAは現在のDA法よりも優れていた。 さらにBSDAはプラグイン・アンド・プレイモジュールとしてCNNやTransformersに簡単に組み込むことができ、ネットワークの性能が向上する。 コードは \url{https://github.com/YaoyaoZhu19/BSDA} でオンラインで公開されている。

Data augmentation is a crucial regularization technique for deep neural networks, particularly in medical image classification. Mainstream data augmentation (DA) methods are usually applied at the image level. Due to the specificity and diversity of medical imaging, expertise is often required to design effective DA strategies, and improper augmentation operations can degrade model performance. Although automatic augmentation methods exist, they are computationally intensive. Semantic data augmentation can implemented by translating features in feature space. However, over-translation may violate the image label. To address these issues, we propose \emph{Bayesian Random Semantic Data Augmentation} (BSDA), a computationally efficient and handcraft-free feature-level DA method. BSDA uses variational Bayesian to estimate the distribution of the augmentable magnitudes, and then a sample from this distribution is added to the original features to perform semantic data augmentation. We performed experiments on nine 2D and five 3D medical image datasets. Experimental results show that BSDA outperforms current DA methods. Additionally, BSDA can be easily assembled into CNNs or Transformers as a plug-and-play module, improving the network's performance. The code is available online at \url{https://github.com/YaoyaoZhu19/BSDA}.
翻訳日:2024-06-28 19:26:56 公開日:2024-06-27
# GlossLM:低リソースインターリニアグロースのための多言語事前学習

GlossLM: Multilingual Pretraining for Low-Resource Interlinear Glossing ( http://arxiv.org/abs/2403.06399v2 )

ライセンス: Link先を確認
Michael Ginn, Lindia Tjuatja, Taiqi He, Enora Rice, Graham Neubig, Alexis Palmer, Lori Levin, (参考訳) 言語ドキュメンテーションのプロジェクトは、しばしば、インターリニアグロステキスト(IGT)のようなフォーマットで注釈付きテキストを作成することを含み、これはモルフォスシンタクティック解析をモルフォスメ・バイ・モルフォスメ形式で捉えている。 しかし,IGTデータへのアクセスが容易で,言語研究への適用性が制限され,NLPモデリングにおいてそのようなデータの使用が困難になるような,膨大な量の標準データを提供する既存のリソースは少ない。 我々は、さまざまなソースからIGTデータの最大のコーパスをコンパイルし、1.8k言語にまたがる450万以上のサンプルを網羅し、クロスリンガル転送とIGT生成の研究を可能にする。 私たちは、多くのデータを標準化して、言語間でのラベルの標準セットに従います。 さらに、文書作成プロジェクトを支援するため、IGTの自動生成の課題についても検討する。 多くの言語が十分な単言語データを持っていないため、私たちはコーパス上で大きな多言語モデルを事前訓練します。 モノリンガルコーパスを微調整し,SOTAモデルを最大6.6%向上させることにより,本モデルの有用性を実証する。 トレーニング済みのモデルとデータセットをHugging Faceを通じて利用可能にするとともに、言語ドキュメントの作業で使用するWebインターフェースを通じてアクセスします。

Language documentation projects often involve the creation of annotated text in a format such as interlinear glossed text (IGT), which captures fine-grained morphosyntactic analyses in a morpheme-by-morpheme format. However, there are few existing resources providing large amounts of standardized, easily accessible IGT data, limiting their applicability to linguistic research, and making it difficult to use such data in NLP modeling. We compile the largest existing corpus of IGT data from a variety of sources, covering over 450k examples across 1.8k languages, to enable research on crosslingual transfer and IGT generation. We normalize much of our data to follow a standard set of labels across languages. Furthermore, we explore the task of automatically generating IGT in order to aid documentation projects. As many languages lack sufficient monolingual data, we pretrain a large multilingual model on our corpus. We demonstrate the utility of this model by finetuning it on monolingual corpora, outperforming SOTA models by up to 6.6%. We will make our pretrained model and dataset available through Hugging Face, as well as provide access through a web interface for use in language documentation efforts.
翻訳日:2024-06-28 19:26:56 公開日:2024-06-27
# 医用画像セグメンテーションにおけるショートカット学習

Shortcut Learning in Medical Image Segmentation ( http://arxiv.org/abs/2403.06748v2 )

ライセンス: Link先を確認
Manxi Lin, Nina Weng, Kamil Mikolaj, Zahra Bashir, Morten Bo Søndergaard Svendsen, Martin Tolsgaard, Anders Nymark Christensen, Aasa Feragen, (参考訳) ショートカット学習(英: Shortcut learning)とは、機械学習モデルが、トレーニングセットを超えて一般化されていないデータから、単純な、潜在的に誤解を招く可能性のある学習キューを優先する現象である。 既存の研究では、画像分類の領域でこれを主に研究しているが、この研究はショートカット学習の医学的イメージセグメンテーションへの探究を拡張している。 キャリパーやゼロパッドド・コンボリューションとセンタークロッピード・トレーニング・セットの組み合わせは必然的にショートカットとして機能し,セグメンテーションの精度に影響を及ぼすことを示した。 2つの異なる医用画像分割作業において,ショートカット学習を識別し,評価する。 さらに,ショートカット学習の影響を緩和し,セグメンテーションモデルの一般化性を向上させる戦略を提案する。 医用画像セグメンテーションにおけるショートカットの存在と意義を明らかにすることで,この普及課題を評価し克服するための洞察と方法論を提供し,セグメンテーションにおけるショートカットをコミュニティに求めている。 私たちのコードはhttps://github.com/nina-weng/shortcut_skinsegで公開されています。

Shortcut learning is a phenomenon where machine learning models prioritize learning simple, potentially misleading cues from data that do not generalize well beyond the training set. While existing research primarily investigates this in the realm of image classification, this study extends the exploration of shortcut learning into medical image segmentation. We demonstrate that clinical annotations such as calipers, and the combination of zero-padded convolutions and center-cropped training sets in the dataset can inadvertently serve as shortcuts, impacting segmentation accuracy. We identify and evaluate the shortcut learning on two different but common medical image segmentation tasks. In addition, we suggest strategies to mitigate the influence of shortcut learning and improve the generalizability of the segmentation models. By uncovering the presence and implications of shortcuts in medical image segmentation, we provide insights and methodologies for evaluating and overcoming this pervasive challenge and call for attention in the community for shortcuts in segmentation. Our code is public at https://github.com/nina-weng/shortcut_skinseg .
翻訳日:2024-06-28 19:26:56 公開日:2024-06-27
# SoK: トラジェクトリ生成はプライバシとユーティリティを組み合わせられるか?

SoK: Can Trajectory Generation Combine Privacy and Utility? ( http://arxiv.org/abs/2403.07218v2 )

ライセンス: Link先を確認
Erik Buchholz, Alsharif Abuadbba, Shuo Wang, Surya Nepal, Salil S. Kanhere, (参考訳) 位置情報トラジェクトリは、分析や位置情報ベースのサービスに有用なデータソースであるが、政治的、宗教的嗜好などの機密情報を明らかにすることができる。 厳格なプライバシー保証の下での分析を可能にするために、異なるプライベートパブリッシングメカニズムが提案されている。 しかし、従来の保護策はプライバシーとユーティリティのトレードオフの制限に悩まされており、相関攻撃やリコンストラクション攻撃に弱い。 合成軌道データ生成とリリースは、保護アルゴリズムに代わる有望な選択肢である。 最初の提案は目覚ましい実用性を達成するが、厳格なプライバシー保証の提供には失敗した。 本稿では,5つの設計目標を定義し,特に適切なプライバシ単位を選択することの重要性を強調することによって,プライバシ保護トラジェクトリパブリッシングアプローチを設計するためのフレームワークを提案する。 本枠組みを基礎として,既存の軌道保護手法の問題点を簡潔に考察し,その問題点を強調した。 本研究は,提案フレームワークの文脈におけるトラジェクトリの最先端生成モデルの体系化に焦点をあてる。 既存のソリューションがすべての要件を満たしていないことが分かりました。 そこで本研究では,6つの連続生成モデルの軌道領域への適用性を評価する実験を行った。 最後に,意味的保証を提供する生成軌道モデルが未解決の課題であり,今後の研究に向けた具体的な次のステップを提案する。

While location trajectories represent a valuable data source for analyses and location-based services, they can reveal sensitive information, such as political and religious preferences. Differentially private publication mechanisms have been proposed to allow for analyses under rigorous privacy guarantees. However, the traditional protection schemes suffer from a limiting privacy-utility trade-off and are vulnerable to correlation and reconstruction attacks. Synthetic trajectory data generation and release represent a promising alternative to protection algorithms. While initial proposals achieve remarkable utility, they fail to provide rigorous privacy guarantees. This paper proposes a framework for designing a privacy-preserving trajectory publication approach by defining five design goals, particularly stressing the importance of choosing an appropriate Unit of Privacy. Based on this framework, we briefly discuss the existing trajectory protection approaches, emphasising their shortcomings. This work focuses on the systematisation of the state-of-the-art generative models for trajectories in the context of the proposed framework. We find that no existing solution satisfies all requirements. Thus, we perform an experimental study evaluating the applicability of six sequential generative models to the trajectory domain. Finally, we conclude that a generative trajectory model providing semantic guarantees remains an open research question and propose concrete next steps for future research.
翻訳日:2024-06-28 19:26:56 公開日:2024-06-27
# クリニカル・アクセシブル・ラジオロジー・ファンデーション・モデルに向けて--オープン・アクセスとライトウェイト--自動評価による検討

Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation ( http://arxiv.org/abs/2403.08002v5 )

ライセンス: Link先を確認
Juan Manuel Zambrano Chaves, Shih-Cheng Huang, Yanbo Xu, Hanwen Xu, Naoto Usuyama, Sheng Zhang, Fei Wang, Yujia Xie, Mahmoud Khademi, Ziyi Yang, Hany Awadalla, Julia Gong, Houdong Hu, Jianwei Yang, Chunyuan Li, Jianfeng Gao, Yu Gu, Cliff Wong, Mu Wei, Tristan Naumann, Muhao Chen, Matthew P. Lungren, Akshay Chaudhari, Serena Yeung-Levy, Curtis P. Langlotz, Sheng Wang, Hoifung Poon, (参考訳) 大規模基盤モデルのスケーリング法則と異常な性能は, バイオメディシンにおけるそのようなモデルの開発と利用を動機付けている。 しかしながら、いくつかのバイオメディカル・ベンチマークで早期に有望な結果が得られたにもかかわらず、これらのモデルが現実の診療所で使用される前に対処する必要がある大きな課題がまだ残っている。 GPT-4Vのような最前線の一般ドメインモデルは、マルチモーダルなバイオメディカル応用において依然として大きな性能差がある。 さらに重要なのは、アクセシビリティ、モデルコスト、退屈な手作業による評価など、理解されていない実用的な問題によって、臨床医が最先端の大規模モデルをプライベートな患者データで直接使うのが難しくなることだ。 そこで我々は,SMM(Small Multimodal Model)をオープンソースで訓練し,放射線学における非メカニカルニーズに対する能力ギャップを埋める方法について検討する。 データ効率を最大化するために、画像とテキストのモダリティに関する最先端の事前訓練モデルを導入し、LLaVA-Medが示すように、各モダリティをテキスト埋め込み空間に接地するための軽量アダプタのトレーニングに重点を置いて、モジュラーアプローチを採用する。 トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。 評価のために,GPT-4に基づく実測値CheXpromptを提案する。 ベストプラクティスとして、データエンジニアリングとマルチモーダルトレーニングにおける様々な選択肢に関する体系的アブレーション研究を行う。 結果として得られたLlaVA-Rad (7B) モデルは、レポート生成やクロスモーダル検索といった標準的な放射線学のタスクにおいて、GPT-4VやMed-PaLM M (84B) のようなはるかに大きなモデルよりも優れた結果が得られる。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。

The scaling laws and extraordinary performance of large foundation models motivate the development and utilization of such models in biomedicine. However, despite early promising results on some biomedical benchmarks, there are still major challenges that need to be addressed before these models can be used in real-world clinics. Frontier general-domain models such as GPT-4V still have significant performance gaps in multimodal biomedical applications. More importantly, less-acknowledged pragmatic issues, including accessibility, model cost, and tedious manual evaluation make it hard for clinicians to use state-of-the-art large models directly on private patient data. Here, we explore training open-source small multimodal models (SMMs) to bridge competency gaps for unmet clinical needs in radiology. To maximize data efficiency, we adopt a modular approach by incorporating state-of-the-art pre-trained models for image and text modalities, and focusing on training a lightweight adapter to ground each modality to the text embedding space, as exemplified by LLaVA-Med. For training, we assemble a large dataset of over 697 thousand radiology image-text pairs. For evaluation, we propose CheXprompt, a GPT-4-based metric for factuality evaluation, and demonstrate its parity with expert evaluation. For best practice, we conduct a systematic ablation study on various choices in data engineering and multimodal training. The resulting LlaVA-Rad (7B) model attains state-of-the-art results on standard radiology tasks such as report generation and cross-modal retrieval, even outperforming much larger models such as GPT-4V and Med-PaLM M (84B). The inference of LlaVA-Rad is fast and can be performed on a single V100 GPU in private settings, offering a promising state-of-the-art tool for real-world clinical applications.
翻訳日:2024-06-28 19:26:56 公開日:2024-06-27
# 温度計:大規模言語モデルの普遍的校正に向けて

Thermometer: Towards Universal Calibration for Large Language Models ( http://arxiv.org/abs/2403.08819v2 )

ライセンス: Link先を確認
Maohao Shen, Subhro Das, Kristjan Greenewald, Prasanna Sattigeri, Gregory Wornell, Soumya Ghosh, (参考訳) 大規模言語モデル(LLM)におけるキャリブレーションの問題について考察する。 近年の研究では、インストラクションチューニングのような一般的な介入は、しばしば校正の不十分なLLMをもたらすことが判明している。 キャリブレーションは従来の用途ではよく研究されているが、LCMのキャリブレーションは独特な課題である。 これらの課題は、LLMの厳密な計算要件と、その汎用性から生じるものであり、多様なタスクに適用することができる。 これらの課題に対処するため,LLMに適したキャリブレーション手法であるTheRMOMETERを提案する。 TheRMOMETERは、複数のタスクから与えられたデータに基づいて補助モデルを学び、LLMを校正する。 計算効率が高く、LLMの精度を保ち、新しいタスクに対してより良い校正された応答を生成する。 提案手法の有効性を,様々なベンチマークで評価した。

We consider the issue of calibration in large language models (LLM). Recent studies have found that common interventions such as instruction tuning often result in poorly calibrated LLMs. Although calibration is well-explored in traditional applications, calibrating LLMs is uniquely challenging. These challenges stem as much from the severe computational requirements of LLMs as from their versatility, which allows them to be applied to diverse tasks. Addressing these challenges, we propose THERMOMETER, a calibration approach tailored to LLMs. THERMOMETER learns an auxiliary model, given data from multiple tasks, for calibrating a LLM. It is computationally efficient, preserves the accuracy of the LLM, and produces better-calibrated responses for new tasks. Extensive empirical evaluations across various benchmarks demonstrate the effectiveness of the proposed method.
翻訳日:2024-06-28 19:26:56 公開日:2024-06-27
# JAXbind: どんな関数もJAXに結合する

JAXbind: Bind any function to JAX ( http://arxiv.org/abs/2403.08847v2 )

ライセンス: Link先を確認
Jakob Roth, Martin Reinecke, Gordian Edenhofer, (参考訳) JAXは機械学習や科学計算で広く使われていますが、後者はJAXに組み込むのが理想的な既存の高性能コードに依存しています。 カスタムコードをバインディングするためのJAXの既存のインターフェースは、ユーザを単一のJacobian製品に制限するか、あるいは一般的なJacobian製品に対してJAXとそのC++バックエンドの深い知識を必要とする。 JAXbindでは、Jacobian-vector製品とbector-Jacobian製品を完全にJAXにサポートすることで、他のプログラミング言語で実装されたカスタム関数をJAXに結合するために必要な労力を大幅に削減します。 具体的には、JAXbindは、カスタムでいわゆるJAXプリミティブを定義するための使い易いPythonインターフェースを提供する。 JAXbindを使用すると、Pythonから呼び出し可能な関数は、JAXプリミティブとして公開することができる。 JAXbindは、ユーザがカスタムデリバティブとバッチルールでJAX関数変換エンジンをインターフェースすることができ、カスタムプリミティブに対するすべてのJAX変換を可能にする。

JAX is widely used in machine learning and scientific computing, the latter of which often relies on existing high-performance code that we would ideally like to incorporate into JAX. Reimplementing the existing code in JAX is often impractical and the existing interface in JAX for binding custom code either limits the user to a single Jacobian product or requires deep knowledge of JAX and its C++ backend for general Jacobian products. With JAXbind we drastically reduce the effort required to bind custom functions implemented in other programming languages with full support for Jacobian-vector products and vector-Jacobian products to JAX. Specifically, JAXbind provides an easy-to-use Python interface for defining custom, so-called JAX primitives. Via JAXbind, any function callable from Python can be exposed as a JAX primitive. JAXbind allows a user to interface the JAX function transformation engine with custom derivatives and batching rules, enabling all JAX transformations for the custom primitive.
翻訳日:2024-06-28 19:26:56 公開日:2024-06-27
# 非滑らかな非凸最適化のための分散確率勾配法

Decentralized Stochastic Subgradient Methods for Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2403.11565v2 )

ライセンス: Link先を確認
Siyuan Zhang, Nachuan Xiao, Xin Liu, (参考訳) 本稿では,非凸および非平滑な目的関数を用いた分散最適化問題,特に非平滑なニューラルネットワークの分散トレーニングに焦点をあてる。 本稿では,分散確率下次手法のグローバル収束を解析するための統一フレームワークを提案する。 生成した系列が関連する差分包摂の軌跡を漸近的に近似することを確立することで、軽度条件下で提案する枠組みのグローバル収束を証明した。 さらに,本提案手法は,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD ,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGDとDSGD,DSGD-M,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSGD,DSG,DSGD,DSGD,DSD,DSG,D SGD,DSD,DSGD,DS さらに,DSGD-Mの更新方向を正規化するためのサインマップを導入し,提案フレームワークに格納されていることを示す。 その結果,非滑らかな非凸対象に適用した場合に,これらの手法のグローバル収束を初めて確立した。 予備的な数値実験により,提案手法は非滑らかなニューラルネットワークのトレーニングにおいて,収束性を保証する高効率な分散的下位段階法を導出することを示した。

In this paper, we concentrate on decentralized optimization problems with nonconvex and nonsmooth objective functions, especially on the decentralized training of nonsmooth neural networks. We introduce a unified framework to analyze the global convergence of decentralized stochastic subgradient-based methods. We prove the global convergence of our proposed framework under mild conditions, by establishing that the generated sequence asymptotically approximates the trajectories of its associated differential inclusion. Furthermore, we establish that our proposed framework covers a wide range of existing efficient decentralized subgradient-based methods, including decentralized stochastic subgradient descent (DSGD), DSGD with gradient-tracking technique (DSGD-T), and DSGD with momentum (DSGD-M). In addition, we introduce the sign map to regularize the update directions in DSGD-M, and show it is enclosed in our proposed framework. Consequently, our convergence results establish, for the first time, global convergence of these methods when applied to nonsmooth nonconvex objectives. Preliminary numerical experiments demonstrate that our proposed framework yields highly efficient decentralized subgradient-based methods with convergence guarantees in the training of nonsmooth neural networks.
翻訳日:2024-06-28 19:26:56 公開日:2024-06-27
# オフライン分布ロバストな線形マルコフ決定過程のサンプル複雑さ

Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes ( http://arxiv.org/abs/2403.12946v2 )

ライセンス: Link先を確認
He Wang, Laixi Shi, Yuejie Chi, (参考訳) オフライン強化学習(RL)では、シミュレーション環境とデプロイ環境の相違が学習ポリシーの性能を著しく損なう可能性があるため、モデルロバスト性に注意が向けられる。 本稿では,高次元状態-作用空間の存在下での学習方針をサンプル効率で実現するために,オフラインデータを用いた全変動距離を特徴とする不確実性セットを用いて,分布的に堅牢な線形マルコフ決定過程(MDPs)のサンプル複雑性を考察する。 我々は悲観的なモデルベースアルゴリズムを開発し、そのサンプルの複雑さを最小限のデータカバレッジの仮定の下で確立し、少なくとも$\widetilde{O}(d)$で先行技術より優れており、$d$は特徴次元である。 我々は、慎重に設計された分散推定器を組み込むことにより、提案アルゴリズムの性能保証をさらに改善する。

In offline reinforcement learning (RL), the absence of active exploration calls for attention on the model robustness to tackle the sim-to-real gap, where the discrepancy between the simulated and deployed environments can significantly undermine the performance of the learned policy. To endow the learned policy with robustness in a sample-efficient manner in the presence of high-dimensional state-action space, this paper considers the sample complexity of distributionally robust linear Markov decision processes (MDPs) with an uncertainty set characterized by the total variation distance using offline data. We develop a pessimistic model-based algorithm and establish its sample complexity bound under minimal data coverage assumptions, which outperforms prior art by at least $\widetilde{O}(d)$, where $d$ is the feature dimension. We further improve the performance guarantee of the proposed algorithm by incorporating a carefully-designed variance estimator.
翻訳日:2024-06-28 19:26:56 公開日:2024-06-27
# 心室内ベクトルフローマッピングのための物理誘導型ニューラルネットワーク

Physics-Guided Neural Networks for Intraventricular Vector Flow Mapping ( http://arxiv.org/abs/2403.13040v2 )

ライセンス: Link先を確認
Hang Jung Ling, Salomé Bru, Julia Puig, Florian Vixège, Simon Mendez, Franck Nicoud, Pierre-Yves Courand, Olivier Bernard, Damien Garcia, (参考訳) 心内ベクターフローマッピング(iVFM)は、心臓画像におけるカラードプラの増強と定量化を目的としている。 本研究では,物理インフォームドニューラルネットワーク (PINN) と物理誘導 nnU-Net を用いた教師付きアプローチを用いて,従来の iVFM 最適化手法に代わる新しい手法を提案する。 患者固有の流体力学モデルと生体内ドップラー取得モデルから得られたシミュレーションカラードップラー画像を用いて評価すると、どちらの手法も元のiVFMアルゴリズムに匹敵する再構成性能を示す。 PINNの効率は2段最適化と事前最適化により向上する。 一方、nnU-Net法は一般化性とリアルタイム性に優れる。 特に、nnU-Netは、明示的な境界条件からの独立性を維持しつつ、スパースおよびトランケートドップラーデータに優れたロバスト性を示す。 以上の結果から,心室内ベクター血流の再建におけるこれらの方法の有効性が示唆された。 この研究は、超高速カラードプライメージングにおけるPINNの潜在的な応用と、血流に基づく心臓血管疾患のバイオマーカーを導出するための流体力学方程式の導入についても示唆している。

Intraventricular vector flow mapping (iVFM) seeks to enhance and quantify color Doppler in cardiac imaging. In this study, we propose novel alternatives to the traditional iVFM optimization scheme by utilizing physics-informed neural networks (PINNs) and a physics-guided nnU-Net-based supervised approach. When evaluated on simulated color Doppler images derived from a patient-specific computational fluid dynamics model and in vivo Doppler acquisitions, both approaches demonstrate comparable reconstruction performance to the original iVFM algorithm. The efficiency of PINNs is boosted through dual-stage optimization and pre-optimized weights. On the other hand, the nnU-Net method excels in generalizability and real-time capabilities. Notably, nnU-Net shows superior robustness on sparse and truncated Doppler data while maintaining independence from explicit boundary conditions. Overall, our results highlight the effectiveness of these methods in reconstructing intraventricular vector blood flow. The study also suggests potential applications of PINNs in ultrafast color Doppler imaging and the incorporation of fluid dynamics equations to derive biomarkers for cardiovascular diseases based on blood flow.
翻訳日:2024-06-28 19:26:56 公開日:2024-06-27
# T1-MRIを用いた脳ネットワークを用いた認知障害変換予測のための適応的クリティカルサブグラフマイニング

Adaptive Critical Subgraph Mining for Cognitive Impairment Conversion Prediction with T1-MRI-based Brain Network ( http://arxiv.org/abs/2403.13338v2 )

ライセンス: Link先を確認
Yilin Leng, Wenju Cui, Bai Chen, Xi Jiang, Shuangqing Chen, Jian Zheng, (参考訳) 早期認知症への転換を予測することは、その進行を緩和するために重要であるが、微妙な認知障害と構造的脳の変化のために依然として困難である。 従来のT1-weighted magnetic resonance imaging (T1-MRI)研究は、脳萎縮領域の同定に重点を置いているが、しばしばそれらの間の複雑な接続に対処できない。 この制限は、脳の複雑なネットワークを包括的に理解するために、地域間接続の必要性を浮き彫りにする。 さらに、重要な情報を適応的に保存し、抽出する手法、特に脳ネットワークのための特殊なサブグラフマイニング技術への需要が高まっている。 これらは、構造的脳の変化とそのトポロジーの重要な空間的影響を明らかにする、高品質な特徴表現を開発するために不可欠である。 本稿では,T1-MRIに基づく重要な部分グラフをマイニングし,拡張する新しいグラフ表現ネットワークであるBrain-SubGNNを提案する。 このネットワークはサブグラフレベルの解釈を提供し、グラフ解析の解釈可能性と洞察を高める。 このプロセスは、ノードの特徴とノード間の相関行列を抽出してタスク指向の脳ネットワークを構築することから始まります。 Brain-SubGNNは、臨界部分グラフを適応的に識別し、拡張し、ループと隣接部分グラフの両方をキャプチャする。 この方法は、ループトポロジと局所的な変化を反映し、長距離接続を示し、局所的および大域的な脳特性を維持する。 広範囲にわたる実験は、脳-サブGNNの有効性と利点を検証し、早期認知症を理解し診断するための強力なツールとしての可能性を示している。 ソースコードはhttps://github.com/Leng-10/Brain-SubGNNで入手できる。

Prediction the conversion to early-stage dementia is critical for mitigating its progression but remains challenging due to subtle cognitive impairments and structural brain changes. Traditional T1-weighted magnetic resonance imaging (T1-MRI) research focus on identifying brain atrophy regions but often fails to address the intricate connectivity between them. This limitation underscores the necessity of focuing on inter-regional connectivity for a comprehensive understand of the brain's complex network. Moreover, there is a pressing demand for methods that adaptively preserve and extract critical information, particularly specialized subgraph mining techniques for brain networks. These are essential for developing high-quality feature representations that reveal critical spatial impacts of structural brain changes and its topology. In this paper, we propose Brain-SubGNN, a novel graph representation network to mine and enhance critical subgraphs based on T1-MRI. This network provides a subgraph-level interpretation, enhancing interpretability and insights for graph analysis. The process begins by extracting node features and a correlation matrix between nodes to construct a task-oriented brain network. Brain-SubGNN then adaptively identifies and enhances critical subgraphs, capturing both loop and neighbor subgraphs. This method reflects the loop topology and local changes, indicative of long-range connections, and maintains local and global brain attributes. Extensive experiments validate the effectiveness and advantages of Brain-SubGNN, demonstrating its potential as a powerful tool for understanding and diagnosing early-stage dementia. Source code is available at https://github.com/Leng-10/Brain-SubGNN.
翻訳日:2024-06-28 19:16:49 公開日:2024-06-27
# 不均一脳波データセットを用いた機械学習のための物理インフォームドおよび教師なしリーマン領域適応

Physics-informed and Unsupervised Riemannian Domain Adaptation for Machine Learning on Heterogeneous EEG Datasets ( http://arxiv.org/abs/2403.15415v2 )

ライセンス: Link先を確認
Apolline Mellot, Antoine Collas, Sylvain Chevallier, Denis Engemann, Alexandre Gramfort, (参考訳) 教師あり機械学習(ML)のための脳波(EEG)データセットの組み合わせは、セッション、主題、デバイスの多様性のために困難である。 MLアルゴリズムは通常、トレーニング時とテスト時に同じ機能を必要とし、データセット間のセンサー数や位置の変化による分析を複雑にする。 単純なチャネル選択は、貴重なデータを破棄し、特に少ないチャネルを共有するデータセットにおいて、パフォーマンスが低下する。 そこで本研究では,脳波信号物理を利用した教師なしアプローチを提案する。 我々は脳波チャンネルをフィールド補間を用いて固定位置にマッピングし、ソースフリーなドメイン適応を容易にする。 本手法は,脳-コンピュータインタフェース(BCI)タスクおよび潜在的なバイオマーカー応用における頑健な性能を示す。 ComImpと呼ばれる信号に基づく計算法であるDigitality Transcendingと、共通チャネル選択法と球面スプライン補間法を比較した。 数値実験により、列車や試験において共有チャネルが少ない場合、フィールド補間は他の手法よりも優れた性能を示し、全てのデータセットの分類性能が向上することを示した。 より多くのチャネルが共有されると、フィールド補間は他のメソッドと競合し、ソースに依存したメソッドよりも高速に計算できることが判明した。

Combining electroencephalogram (EEG) datasets for supervised machine learning (ML) is challenging due to session, subject, and device variability. ML algorithms typically require identical features at train and test time, complicating analysis due to varying sensor numbers and positions across datasets. Simple channel selection discards valuable data, leading to poorer performance, especially with datasets sharing few channels. To address this, we propose an unsupervised approach leveraging EEG signal physics. We map EEG channels to fixed positions using field interpolation, facilitating source-free domain adaptation. Leveraging Riemannian geometry classification pipelines and transfer learning steps, our method demonstrates robust performance in brain-computer interface (BCI) tasks and potential biomarker applications. Comparative analysis against a statistical-based approach known as Dimensionality Transcending, a signal-based imputation called ComImp, source-dependent methods, as well as common channel selection and spherical spline interpolation, was conducted with leave-one-dataset-out validation on six public BCI datasets for a right-hand/left-hand classification task. Numerical experiments show that in the presence of few shared channels in train and test, the field interpolation consistently outperforms other methods, demonstrating enhanced classification performance across all datasets. When more channels are shared, field interpolation was found to be competitive with other methods and faster to compute than source-dependent methods.
翻訳日:2024-06-28 19:16:49 公開日:2024-06-27
# ディープサポートベクトル

Deep Support Vectors ( http://arxiv.org/abs/2403.17329v2 )

ライセンス: Link先を確認
Junhoo Lee, Hyunho Lee, Kyomin Hwang, Nojun Kwak, (参考訳) ディープラーニングは素晴らしい成功を収めました。 直接的な意思決定基準を提供し、小さなデータセットでトレーニングできるSVMとは異なり、トレーニング中に大量のデータセットを必要とすることや、意思決定基準のブラックボックス特性のために、依然として重大な弱点がある。 この論文は、ディープラーニングモデルにおけるサポートベクトルを特定することによって、これらの問題に対処する。 そこで本研究では,ディープラーニングモデルに対する従来のKKT条件の適応であるDeepKKT条件を提案し,この条件を用いたDeep Support Vectors(DSV)が,従来のサポートベクトルに類似した特性を示すことを確認した。 これにより,本手法を数発のデータセット蒸留問題に適用し,深層学習モデルのブラックボックス特性を緩和することができる。 さらに,DeepKKT条件は,従来の分類モデルを高忠実度な生成モデルに変換することができることを示す。 汎用アーキテクチャ (ResNet と ConvNet) における共通データセット (ImageNet, CIFAR10 \nj{and} CIFAR100) を用いた DSVs \nj{using の有効性を検証する。 (Fig〜\ref{fig: generated}参照)

Deep learning has achieved tremendous success. \nj{However,} unlike SVMs, which provide direct decision criteria and can be trained with a small dataset, it still has significant weaknesses due to its requirement for massive datasets during training and the black-box characteristics on decision criteria. \nj{This paper addresses} these issues by identifying support vectors in deep learning models. To this end, we propose the DeepKKT condition, an adaptation of the traditional Karush-Kuhn-Tucker (KKT) condition for deep learning models, and confirm that generated Deep Support Vectors (DSVs) using this condition exhibit properties similar to traditional support vectors. This allows us to apply our method to few-shot dataset distillation problems and alleviate the black-box characteristics of deep learning models. Additionally, we demonstrate that the DeepKKT condition can transform conventional classification models into generative models with high fidelity, particularly as latent \jh{generative} models using class labels as latent variables. We validate the effectiveness of DSVs \nj{using common datasets (ImageNet, CIFAR10 \nj{and} CIFAR100) on the general architectures (ResNet and ConvNet)}, proving their practical applicability. (See Fig.~\ref{fig:generated})
翻訳日:2024-06-28 19:16:49 公開日:2024-06-27
# MAGIS: GitHubイシュー解決のためのLLMベースのマルチエージェントフレームワーク

MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution ( http://arxiv.org/abs/2403.17927v2 )

ライセンス: Link先を確認
Wei Tao, Yucheng Zhou, Yanlin Wang, Wenqiang Zhang, Hongyu Zhang, Yu Cheng, (参考訳) ソフトウェア開発では、GitHubリポジトリ内で発生した問題の解決は、新しいコードの導入だけでなく、既存のコードのメンテナンスも伴う複雑な課題である。 大規模言語モデル(LLM)は、コード生成において有望であるが、Githubの問題、特にリポジトリレベルで解決する上で困難に直面している。 この課題を克服するために、LLMがGitHubの問題を解決するのに失敗した理由を実証的に研究し、主要な要因を分析します。 経験的発見に触発されて,ソフトウェア進化用にカスタマイズされた4つのエージェント(マネージャ,リポジトリ・カストディア,開発者,品質保証エンジニアエージェント)からなる,GitHub Issue Resolutionのための新しいLLMベースのマルチエージェントフレームワーク(MAGIS)を提案する。 このフレームワークは、計画とコーディングプロセスにおけるさまざまなエージェントの協力を利用して、LLMの可能性を解き放ち、GitHubの問題を解決する。 実験では, GPT-3.5, GPT-4, Claude-2 など, MAGIS を一般的な LLM と比較するために, SWE-bench ベンチマークを用いた。 MAGISは13.94%のGitHub問題を解決でき、ベースラインを大幅に上回っている。 特に, MAGISは, GPT-4, 高度なLCMの直接適用よりも, 8倍の分解率の増大を実現している。

In software development, resolving the emergent issues within GitHub repositories is a complex challenge that involves not only the incorporation of new code but also the maintenance of existing code. Large Language Models (LLMs) have shown promise in code generation but face difficulties in resolving Github issues, particularly at the repository level. To overcome this challenge, we empirically study the reason why LLMs fail to resolve GitHub issues and analyze the major factors. Motivated by the empirical findings, we propose a novel LLM-based Multi-Agent framework for GitHub Issue reSolution, MAGIS, consisting of four agents customized for software evolution: Manager, Repository Custodian, Developer, and Quality Assurance Engineer agents. This framework leverages the collaboration of various agents in the planning and coding process to unlock the potential of LLMs to resolve GitHub issues. In experiments, we employ the SWE-bench benchmark to compare MAGIS with popular LLMs, including GPT-3.5, GPT-4, and Claude-2. MAGIS can resolve 13.94% GitHub issues, significantly outperforming the baselines. Specifically, MAGIS achieves an eight-fold increase in resolved ratio over the direct application of GPT-4, the advanced LLM.
翻訳日:2024-06-28 19:16:49 公開日:2024-06-27
# ホルシュタインモデルにおける導電率の頂点補正:数値解析による研究

Vertex corrections to conductivity in the Holstein model: A numerical-analytical study ( http://arxiv.org/abs/2403.18394v2 )

ライセンス: Link先を確認
Veljko Janković, Petar Mitrić, Darko Tanasković, Nenad Vukmirović, (参考訳) 光伝導率プロファイルは、相互作用する量子多体系における電子力学の情報を運ぶ。 その計算は、通常、単一粒子(気泡)近似を呼び出し、頂点補正を無視し、その重要性は、モデルハミルトンの計算でさえも解明される。 ここでは,解析的議論と,有限温度実時間相関関数の数値的および近似計算における最近のブレークスルーを組み合わせ,一次元ホルシュタインポーラロンモデルにおける頂点補正の重要性を徹底的に評価する。 解析的にも数値的にも、ゼロ電子-フォノン相互作用、ゼロ電子帯域幅、無限温度の限界における光伝導率に対する頂点補正は消滅する。 さらに, 電子移動度に対する頂点補正は, これらの限界間の多くのパラメータ状態において消失することを示した。 これらの場合、バーテックス補正は、自己エネルギーがほぼ局所的に残っているにもかかわらず、気泡近似と比較して光学伝導率プロファイルに重要な定性的変化をもたらす。 これらの変化は、弾道輸送と拡散輸送の間の中間時間スケールにおいて、時間制限された電子のスローダウンを完全に捉えないバブル近似に遡る。 頂点補正は、中間電子-フォノン相互作用において全体的に最も顕著であり、モデルパラメータの値に応じて気泡-近似モビリティを増大または減少させる可能性がある。

The optical-conductivity profile carries information on electronic dynamics in interacting quantum many-body systems. Its computation is a formidable task that is usually approached by invoking the single-particle (bubble) approximation and neglecting the vertex corrections, the importance of which remains elusive even in model Hamiltonian calculations. Here, we combine analytical arguments with our recent breakthroughs in numerically exact and approximate calculations of finite-temperature real-time correlation functions to thoroughly assess the importance of vertex corrections in the one-dimensional Holstein polaron model. We find, both analytically and numerically, vanishing vertex corrections to optical conductivity in the limits of zero electron--phonon interaction, zero electronic bandwidth, and infinite temperature. Furthermore, our numerical results show that vertex corrections to the electron mobility also vanish in many parameter regimes between these limits. In some of these cases, the vertex corrections still introduce important qualitative changes to the optical-conductivity profile in comparison to the bubble approximation even though the self-energy remains approximately local. We trace these changes back to the bubble approximation not fully capturing a time-limited slow-down of the electron on intermediate time scales between ballistic and diffusive transport. We find that the vertex corrections are overall most pronounced for intermediate electron--phonon interaction and may increase or decrease the bubble-approximation mobility depending on the values of model parameters.
翻訳日:2024-06-28 19:16:49 公開日:2024-06-27
# MM-MATH:プロセス評価ときめ細かい分類によるマルチモーダル数学評価の改善

MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification ( http://arxiv.org/abs/2404.05091v3 )

ライセンス: Link先を確認
Kai Sun, Yushi Bai, Ji Qi, Lei Hou, Juanzi Li, (参考訳) 大規模マルチモーダルモデル(LMM)におけるマルチモーダル数学推論の評価を前進させるために,新しいベンチマークMM-MATHを提案する。 MM-MATHは、5,929個のオープンエンド中等教育数学問題と視覚的文脈を持ち、難易度、学級レベル、知識点の詳細な分類を行う。 従来のベンチマークではバイナリ回答の比較に頼っていたが、MM-MATHは結果評価とプロセス評価の両方を取り入れている。 プロセス評価では、LMM-as-a-judgeを使用して、ソリューションステップを自動的に分析し、エラーを特定のエラータイプに識別し、分類する。 MM-MATH上での10モデルの広範囲な評価は、既存のLMMにとって重要な課題であり、視覚情報の利用が限られており、より難易度の高い問題に苦しむことを強調している。 最高の性能モデルはMM-MATHで31%の精度しか達成していないが、人間では82%である。 これは、既存のモデルに対するベンチマークの難しさと、現在のモデルと人間のマルチモーダル推論能力の間の大きなギャップを強調します。 プロセス評価の結果,複数モーダル推論における画像理解の改善の必要性を強調し,誤りケース全体の半数以上を占め,誤解釈が最も多いことが判明した。

To advance the evaluation of multimodal math reasoning in large multimodal models (LMMs), this paper introduces a novel benchmark, MM-MATH. MM-MATH consists of 5,929 open-ended middle school math problems with visual contexts, with fine-grained classification across difficulty, grade level, and knowledge points. Unlike existing benchmarks relying on binary answer comparison, MM-MATH incorporates both outcome and process evaluations. Process evaluation employs LMM-as-a-judge to automatically analyze solution steps, identifying and categorizing errors into specific error types. Extensive evaluation of ten models on MM-MATH reveals significant challenges for existing LMMs, highlighting their limited utilization of visual information and struggles with higher-difficulty problems. The best-performing model achieves only 31% accuracy on MM-MATH, compared to 82% for humans. This highlights the challenging nature of our benchmark for existing models and the significant gap between the multimodal reasoning capabilities of current models and humans. Our process evaluation reveals that diagram misinterpretation is the most common error, accounting for more than half of the total error cases, underscoring the need for improved image comprehension in multimodal reasoning.
翻訳日:2024-06-28 19:16:49 公開日:2024-06-27
# 重粒子の絡み合い抑制と低エネルギー散乱

Entanglement suppression and low-energy scattering of heavy mesons ( http://arxiv.org/abs/2404.05958v3 )

ライセンス: Link先を確認
Tao-Ran Hu, Su Chen, Feng-Kun Guo, (参考訳) 近年、エンタングルメント抑制が創発対称性の起源の1つとして提案されている。 ここでは、重中間子散乱の文脈でこの予想をテストする。 D^{(*)}\bar D^{(*)}$ と $D^{(*)} D^{(*)}$ の低エネルギー相互作用はそれぞれ、ハドロン分子候補 $X(3872)$ と $T_{cc}(3875)^+$ と密接に関連しており、重クォークスピン対称性を示す非相対論的有効ラグランジアンによって説明できる。 我々は、等スピンとスピンの自由度の両方を扱うために、テンソル積のフレームワークにおける絡み込み抑制について検討する。 入力として$X(3872)$と$T_{cc}(3875)^+$を用いると、絡み合いの抑制は実際には光クォークスピン対称性、すなわち、$D^{(*)}\bar D^{(*)}$または$D^{(*)D^{(*)}$のような創発的な対称性をもたらす。 X(3872)$ と $T_{cc}(3875)^+$ はそれぞれ 5 と 1 の等方体パートナーを持つと予測され、重クォークスピン対称性からのみ導かれる対応するパートナー数は 3 と 1 である。 この予測は、絡み込み抑制予測を更にテストするために、実験データと格子量子色力学の結果に直面する必要がある。

Recently entanglement suppression was proposed to be one possible origin of emergent symmetries. Here we test this conjecture in the context of heavy meson scatterings. The low-energy interactions of $D^{(*)}\bar D^{(*)}$ and $D^{(*)} D^{(*)}$ are closely related to the hadronic molecular candidates $X(3872)$ and $T_{cc}(3875)^+$, respectively, and can be described by a nonrelativistic effective Lagrangian manifesting heavy-quark spin symmetry, which includes only constant contact potentials at leading order. We explore entanglement suppression in a tensor-product framework to treat both the isospin and spin degrees of freedom. Using the $X(3872)$ and $T_{cc}(3875)^+$ as inputs, we find that entanglement suppression indeed leads to an emergent symmetry, namely, a light-quark spin symmetry, and as such the $D^{(*)}\bar D^{(*)}$ or $D^{(*)} D^{(*)}$ interaction strengths for a given total isospin do not depend on the total angular momentum of light (anti)quarks. The $X(3872)$ and $T_{cc}(3875)^+$ are predicted to have five and one isoscalar partner, respectively, while the corresponding partner numbers derived solely from heavy-quark spin symmetry are three and one, respectively. The predictions need to be confronted with experimental data and lattice quantum chromodynamics results to further test the entanglement suppression conjecture.
翻訳日:2024-06-28 19:16:49 公開日:2024-06-27
# InfiBench: 大規模言語モデルの質問応答能力の評価

InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models ( http://arxiv.org/abs/2404.07940v2 )

ライセンス: Link先を確認
Linyi Li, Shijie Geng, Zhenwen Li, Yibo He, Hao Yu, Ziyue Hua, Guanghan Ning, Siwei Wang, Tao Xie, Hongxia Yang, (参考訳) コードのための大規模言語モデル(コードLLM)は、近年大きく進歩している。 コードLLMの急速な開発に伴い、HumanEval、DS-1000、MBPPといった多くの評価ベンチマークが登場し、コードLLMのパフォーマンスをコード生成タスクに特化して測定している。 しかし、コード生成から様々なコーディング関連質問への回答まで、コードLLMの期待される機能の全範囲をカバーするには不十分です。 このギャップを埋めるために,我々は,15のプログラミング言語にまたがる高品質なStack Overflow質問を慎重に選択した234のコードを対象とした,最初の大規模フリーフォーム質問回答(QA)ベンチマークであるInfiBenchを提案する。 InfiBenchは4種類のモデルフリー自動メトリクスを使用して応答の正しさを評価する。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。 より詳細な分析により,LLMのさらなる発展の道筋が明らかとなった。 InfiBenchは完全にオープンソースで、LLM評価のためのより科学的かつ体系的なプラクティスを育むために継続的に拡張されている。

Large Language Models for code (code LLMs) have witnessed tremendous progress in recent years. With the rapid development of code LLMs, many popular evaluation benchmarks, such as HumanEval, DS-1000, and MBPP, have emerged to measure the performance of code LLMs with a particular focus on code generation tasks. However, they are insufficient to cover the full range of expected capabilities of code LLMs, which span beyond code generation to answering diverse coding-related questions. To fill this gap, we propose InfiBench, the first large-scale freeform question-answering (QA) benchmark for code to our knowledge, comprising 234 carefully selected high-quality Stack Overflow questions that span across 15 programming languages. InfiBench uses four types of model-free automatic metrics to evaluate response correctness where domain experts carefully concretize the criterion for each question. We conduct a systematic evaluation for over 100 latest code LLMs on InfiBench, leading to a series of novel and insightful findings. Our detailed analyses showcase potential directions for further advancement of code LLMs. InfiBench is fully open source and continuously expanding to foster more scientific and systematic practices for code LLM evaluation.
翻訳日:2024-06-28 19:16:49 公開日:2024-06-27
# 自動運転コーナ症例における大規模視線モデルの自動評価

Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases ( http://arxiv.org/abs/2404.10595v3 )

ライセンス: Link先を確認
Kai Chen, Yanze Li, Wenhua Zhang, Yanxin Liu, Pengxiang Li, Ruiyuan Gao, Lanqing Hong, Meng Tian, Xinhai Zhao, Zhenguo Li, Dit-Yan Yeung, Huchuan Lu, Xu Jia, (参考訳) LVLM(Large Vision-Language Models)は、解釈可能な自動運転の推進において広く注目を集めている。 LVLMの既存の評価は、主に自然環境における多面的能力に焦点を当てており、厳しい道路角のケースだけでなく、自動的かつ定量的な自動運転評価が欠如している。 本稿では,自動運転コーナーにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。 我々は,強力なLVLMデータ構造を採用し,複雑な運転シーンを解析し,人間のアノテータに対して高品質な事前アノテーションを生成する。 さらに,CODA-LMでは,CODA-LM上でのオープンソース環境を超越した新しい運転用LVLMであるCODA-VLMを構築した。 CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。 我々は,CODA-LMがLVLMによる解釈可能な自動運転を促進する触媒になることを期待している。

Large Vision-Language Models (LVLMs) have received widespread attention in advancing the interpretable self-driving. Existing evaluations of LVLMs primarily focus on the multi-faceted capabilities in natural circumstances, lacking automated and quantifiable assessment for self-driving, let alone the severe road corner cases. In this paper, we propose CODA-LM, the very first benchmark for the automatic evaluation of LVLMs for self-driving corner cases. We adopt a hierarchical data structure to prompt powerful LVLMs to analyze complex driving scenes and generate high-quality pre-annotation for human annotators, and for LVLM evaluation, we show that using the text-only large language models (LLMs) as judges reveals even better alignment with human preferences than the LVLM judges. Moreover, with CODA-LM, we build CODA-VLM, a new driving LVLM surpassing all the open-sourced counterparts on CODA-LM. Our CODA-VLM performs comparably with GPT-4V, even surpassing GPT-4V by +21.42% on the regional perception task. We hope CODA-LM can become the catalyst to promote interpretable self-driving empowered by LVLMs.
翻訳日:2024-06-28 19:16:49 公開日:2024-06-27
# トークンレベルの直接参照最適化

Token-level Direct Preference Optimization ( http://arxiv.org/abs/2404.11999v4 )

ライセンス: Link先を確認
Yongcheng Zeng, Guoqing Liu, Weiyu Ma, Ning Yang, Haifeng Zhang, Jun Wang, (参考訳) 微調整された事前訓練された大規模言語モデル(LLM)は、それらを人間の価値観や意図と整合させるのに不可欠である。 このプロセスは、モデルが生成した全回答の評価に焦点をあてて、ペア比較や基準LLMに対するKL分散といった手法を利用することが多い。 しかしながら、これらの応答の生成は、シーケンシャルで自己回帰的な方法でトークンレベルで行われる。 本稿では,トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を提案する。 分散効率の課題に直面している従来の方法とは異なり、TDPOはトークンごとに前方KL分散制約を導入し、アライメントと多様性を改善している。 トークンベースの報酬システムのためのBradley-Terryモデルを利用することで、TDPOは、明示的な報酬モデリングを必要とせずに単純さを保ちながら、KL分散の規制を強化する。 テキストタスク間の実験結果は、TDPOが生成多様性との整合性に優れた性能を示す。 特に、TDPOによる微調整は、制御された感情生成とシングルターン対話データセットにおいてDPOよりもバランスが良く、DPOおよびPPOベースのRLHF手法と比較して、生成した応答の品質が著しく向上する。 我々のコードはhttps://github.com/Vance0124/Token-level-Direct-Preference-Optimizationでオープンソース化されています。

Fine-tuning pre-trained Large Language Models (LLMs) is essential to align them with human values and intentions. This process often utilizes methods like pairwise comparisons and KL divergence against a reference LLM, focusing on the evaluation of full answers generated by the models. However, the generation of these responses occurs in a token level, following a sequential, auto-regressive fashion. In this paper, we introduce Token-level Direct Preference Optimization (TDPO), a novel approach to align LLMs with human preferences by optimizing policy at the token level. Unlike previous methods, which face challenges in divergence efficiency, TDPO incorporates forward KL divergence constraints for each token, improving alignment and diversity. Utilizing the Bradley-Terry model for a token-based reward system, TDPO enhances the regulation of KL divergence, while preserving simplicity without the need for explicit reward modeling. Experimental results across various text tasks demonstrate TDPO's superior performance in balancing alignment with generation diversity. Notably, fine-tuning with TDPO strikes a better balance than DPO in the controlled sentiment generation and single-turn dialogue datasets, and significantly improves the quality of generated responses compared to both DPO and PPO-based RLHF methods. Our code is open-sourced at https://github.com/Vance0124/Token-level-Direct-Preference-Optimization.
翻訳日:2024-06-28 19:16:49 公開日:2024-06-27
# ASID:ロボットマニピュレーションにおけるシステム同定のためのアクティブ探索

ASID: Active Exploration for System Identification in Robotic Manipulation ( http://arxiv.org/abs/2404.12308v2 )

ライセンス: Link先を確認
Marius Memmel, Andrew Wagenmaker, Chuning Zhu, Patrick Yin, Dieter Fox, Abhishek Gupta, (参考訳) 強化学習のようなモデルフリー制御戦略は、世界の正確なモデルやシミュレータを必要とせずに制御戦略を学習する能力を示している。 これは、モデリング要件の欠如により魅力的であるが、そのような手法はサンプル非効率であり、現実世界の多くのドメインでは非現実的である。 一方、正確なシミュレータを利用するモデルベース制御技術は、これらの課題を回避し、大量の安価なシミュレーションデータを用いて、現実の世界へ効果的に移行できるコントローラを学習することができる。 このようなモデルに基づく手法の課題は、適切なシミュレーション資産の仕様と物理パラメータの両方を必要とする非常に正確なシミュレーションの必要性である。 これは考慮されているすべての環境のために設計するためのかなりの人的努力を必要とする。 本研究では,少数の実世界のデータを活用して,シミュレーションモデルを自律的に洗練し,現実世界に展開可能な正確な制御戦略を立案する学習システムを提案する。 提案手法は,実環境に配備された場合,高品質なデータを収集する効率的な探索ポリシーを設計するために,初期的(おそらく不正確な)シミュレータを利用することに批判的に依存する。 本研究は, ロボット操作作業における調音, 質量, その他の物理パラメータの同定において, このパラダイムの有効性を実証し, 実世界の少数のデータしか効果的にシミュレート・トゥ・リアル・トランスファーを行うことができないことを示す。 Project website at https://weirdlabuw.github.io/asid

Model-free control strategies such as reinforcement learning have shown the ability to learn control strategies without requiring an accurate model or simulator of the world. While this is appealing due to the lack of modeling requirements, such methods can be sample inefficient, making them impractical in many real-world domains. On the other hand, model-based control techniques leveraging accurate simulators can circumvent these challenges and use a large amount of cheap simulation data to learn controllers that can effectively transfer to the real world. The challenge with such model-based techniques is the requirement for an extremely accurate simulation, requiring both the specification of appropriate simulation assets and physical parameters. This requires considerable human effort to design for every environment being considered. In this work, we propose a learning system that can leverage a small amount of real-world data to autonomously refine a simulation model and then plan an accurate control strategy that can be deployed in the real world. Our approach critically relies on utilizing an initial (possibly inaccurate) simulator to design effective exploration policies that, when deployed in the real world, collect high-quality data. We demonstrate the efficacy of this paradigm in identifying articulation, mass, and other physical parameters in several challenging robotic manipulation tasks, and illustrate that only a small amount of real-world data can allow for effective sim-to-real transfer. Project website at https://weirdlabuw.github.io/asid
翻訳日:2024-06-28 19:16:49 公開日:2024-06-27
# DeepFake-O-Meter v2.0: DeepFake検出のためのオープンプラットフォーム

DeepFake-O-Meter v2.0: An Open Platform for DeepFake Detection ( http://arxiv.org/abs/2404.13146v2 )

ライセンス: Link先を確認
Yan Ju, Chengzhe Sun, Shan Jia, Shuwei Hou, Zhaofeng Si, Soumyya Kanti Datta, Lipeng Ke, Riky Zhou, Anita Nikolich, Siwei Lyu, (参考訳) AI生成メディアとしてのDeepfakesは、メディアの完全性と個人のプライバシーを、現実的で偽のデジタルコンテンツで脅かしている。 本研究では,Deepfakeイメージ,ビデオ,オーディオを検出する最先端の手法を統合した,オープンソースのユーザフレンドリなオンラインプラットフォームDeepFake-O-Meter v2.0を紹介する。 DeepFake-O-Meter v1.0をベースとして、ユーザインタラクション、検出器統合、ジョブバランシング、セキュリティ管理など、プラットフォームアーキテクチャ設計の大幅なアップグレードと改善を行いました。 このプラットホームは、日常的なユーザに、複数の最先端検出アルゴリズムを使ってDeepFakeメディアを分析する便利なサービスを提供することを目指している。 分析結果の安全かつプライベートなデリバリを保証する。 さらに、デジタルメディア法医学の研究者にとって、同じ入力上で複数のアルゴリズムのパフォーマンスを比較するための評価とベンチマークのプラットフォームとして機能する。 また、収集したデータに基づいて詳細な利用分析を行い、プラットフォームの統計についてより深い洞察を得ました。 これには、ユーザアクティビティの2ヶ月のトレンドを分析し、各検出器の処理効率を評価することが含まれる。

Deepfakes, as AI-generated media, have increasingly threatened media integrity and personal privacy with realistic yet fake digital content. In this work, we introduce an open-source and user-friendly online platform, DeepFake-O-Meter v2.0, that integrates state-of-the-art methods for detecting Deepfake images, videos, and audio. Built upon DeepFake-O-Meter v1.0, we have made significant upgrades and improvements in platform architecture design, including user interaction, detector integration, job balancing, and security management. The platform aims to offer everyday users a convenient service for analyzing DeepFake media using multiple state-of-the-art detection algorithms. It ensures secure and private delivery of the analysis results. Furthermore, it serves as an evaluation and benchmarking platform for researchers in digital media forensics to compare the performance of multiple algorithms on the same input. We have also conducted detailed usage analysis based on the collected data to gain deeper insights into our platform's statistics. This involves analyzing two-month trends in user activity and evaluating the processing efficiency of each detector.
翻訳日:2024-06-28 19:16:49 公開日:2024-06-27
# Bi-Mamba+:時系列予測のための双方向マンバ

Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting ( http://arxiv.org/abs/2404.15772v3 )

ライセンス: Link先を確認
Aobo Liang, Xingguo Jiang, Yan Sun, Xiaohou Shi, Ke Li, (参考訳) 長期時系列予測(LTSF)は、将来のトレンドとパターンに関するより長い洞察を提供する。 過去数年間、ディープラーニングモデル、特にトランスフォーマーはLTSFタスクで高度なパフォーマンスを実現してきた。 しかしLTSFは、長期的な依存関係のキャプチャやスパースなセマンティック特性といった、固有の課題に直面している。 近年,Mamba という新しい状態空間モデル (SSM) が提案されている。 入力データに対する選択的機能とハードウェア対応並列計算アルゴリズムにより、Mambaはトランスフォーマーと比較して予測性能と計算効率のバランスをとる大きな可能性を示した。 より長い範囲で歴史的情報を保存するマンバの能力を高めるため,マンバ内部に忘れ門を付加して新しいマンバ+ブロックを設計し,その特徴と歴史的特徴を補完的に選択的に組み合わせた。 さらに,Mamba+を前後の両方に適用し,時系列要素間の相互作用を捉えるモデルの能力を促進することを目的としたBi-Mamba+を提案する。 さらに、異なるシナリオにおける多変量時系列データは、シリーズ内またはシリーズ間依存関係に様々な重点を置いている可能性がある。 そこで本研究では,特定のデータセットに対するチャネル非依存もしくはチャネル混合トークン化戦略の活用を制御できる系列関係対応型決定器を提案する。 8つの実世界のデータセットに対する大規模な実験により、我々のモデルは最先端の手法と比較してより正確な予測を達成できることを示した。

Long-term time series forecasting (LTSF) provides longer insights into future trends and patterns. Over the past few years, deep learning models especially Transformers have achieved advanced performance in LTSF tasks. However, LTSF faces inherent challenges such as long-term dependencies capturing and sparse semantic characteristics. Recently, a new state space model (SSM) named Mamba is proposed. With the selective capability on input data and the hardware-aware parallel computing algorithm, Mamba has shown great potential in balancing predicting performance and computational efficiency compared to Transformers. To enhance Mamba's ability to preserve historical information in a longer range, we design a novel Mamba+ block by adding a forget gate inside Mamba to selectively combine the new features with the historical features in a complementary manner. Furthermore, we apply Mamba+ both forward and backward and propose Bi-Mamba+, aiming to promote the model's ability to capture interactions among time series elements. Additionally, multivariate time series data in different scenarios may exhibit varying emphasis on intra- or inter-series dependencies. Therefore, we propose a series-relation-aware decider that controls the utilization of channel-independent or channel-mixing tokenization strategy for specific datasets. Extensive experiments on 8 real-world datasets show that our model achieves more accurate predictions compared with state-of-the-art methods.
翻訳日:2024-06-28 19:06:57 公開日:2024-06-27
# AIライフサイクルに沿ったフェアネスのための説明可能なAIの可能性のマッピング

Mapping the Potential of Explainable AI for Fairness Along the AI Lifecycle ( http://arxiv.org/abs/2404.18736v4 )

ライセンス: Link先を確認
Luca Deck, Astrid Schomäcker, Timo Speith, Jakob Schöffer, Lena Kästner, Niklas Kühl, (参考訳) さまざまな領域で人工知能(AI)システムが広く使われるようになると、アルゴリズムの公平性、特にハイテイクなシナリオに関する問題がますます表面化しつつある。 したがって、AIシステムにおける公正性がどのように改善され、このプロセスを支援するために何が利用可能なのかという批判的な考察が過度に進んでいる。 多くの研究者や政策立案者は、AIシステムの公正性を高めるための有望な方法として説明可能なAI(XAI)を考えている。 しかし、異なるデシダラタを表すXAIの方法やフェアネスの概念は様々であり、XAIとフェアネスの正確な関係はいまだに不明瞭である。 さらに、アルゴリズムの公正性を高めるためのさまざまな手段が、AIシステムのライフサイクルを通して異なるポイントに適用できる可能性がある。 しかし、AIライフサイクルに沿って、現在フェアネスデシダータのコヒーレントなマッピングはありません。 本稿では,8つのフェアネスデシダータを蒸留し,それらをAIライフサイクルに沿ってマップし,XAIがそれぞれにどのように対処できるかについて議論する。 我々は,これらのフェアネス・デシダータに特化して,実践的応用のためのオリエンテーションを提供し,XAI研究のインスピレーションを期待する。

The widespread use of artificial intelligence (AI) systems across various domains is increasingly surfacing issues related to algorithmic fairness, especially in high-stakes scenarios. Thus, critical considerations of how fairness in AI systems might be improved -- and what measures are available to aid this process -- are overdue. Many researchers and policymakers see explainable AI (XAI) as a promising way to increase fairness in AI systems. However, there is a wide variety of XAI methods and fairness conceptions expressing different desiderata, and the precise connections between XAI and fairness remain largely nebulous. Besides, different measures to increase algorithmic fairness might be applicable at different points throughout an AI system's lifecycle. Yet, there currently is no coherent mapping of fairness desiderata along the AI lifecycle. In this paper, we we distill eight fairness desiderata, map them along the AI lifecycle, and discuss how XAI could help address each of them. We hope to provide orientation for practical applications and to inspire XAI research specifically focused on these fairness desiderata.
翻訳日:2024-06-28 19:06:57 公開日:2024-06-27
# 光子確率振幅の干渉を示すために単一光子を検出する必要があるか?

Do we need to detect single photons to evidence interference of photon probability amplitudes? ( http://arxiv.org/abs/2405.01050v3 )

ライセンス: Link先を確認
Eric Lantz, Fabrice Devaux, Serge Massar, (参考訳) 偶然の偶然の抽出は、量子光学実験の一般的な実践である。 真空圧縮のようなゼロ平均ガウス状態の場合、偶然の一致を取り除いた場合、測定結果は、非常に低いフラックスでの光子偶然と強度の共分散の両方で定量的に同じであることを示す。 したがって、光子波動関数の干渉や光子束の干渉のような光子レベルの純粋な量子効果は、自発的なダウン変換から発行されるマクロビームのゆらぎの相関で再現される。 これは、検出分解能がコヒーレンスセル(モードのサイズ)よりも小さい場合と、ウィグナー関数のサンプリングに基づく確率シミュレーションの場合の両方に当てはまる。 本稿では,ベルの不等式(偶発的偶然を減じることができない),量子イメージングなどの多モードな状況,高次相関など,この対応の限界について論じる。

Subtracting accidental coincidences is a common practice quantum optics experiments. For zero mean Gaussian states, such as squeezed vacuum, we show that if one removes accidental coincidences the measurement results are quantitatively the same, both for photon coincidences at very low flux and for intensity covariances. Consequently, pure quantum effects at the photon level, like interference of photon wave functions or photon bunching, are reproduced in the correlation of fluctuations of macroscopic beams issued from spontaneous down conversion. This is true both in experiment if the detection resolution is smaller than the coherence cell (size of the mode), and in stochastic simulations based on sampling the Wigner function. We discuss the limitations of this correspondence, such as Bell inequalities (for which one cannot substract accidental coincidences), highly multimode situations such as quantum imaging, and higher order correlations.
翻訳日:2024-06-28 19:06:57 公開日:2024-06-27
# S4: スペクトルを横断するセルフ・スーパービジョン・センシング

S4: Self-Supervised Sensing Across the Spectrum ( http://arxiv.org/abs/2405.01656v2 )

ライセンス: Link先を確認
Jayanth Shenoy, Xingjian Davis Zhang, Shlok Mehrotra, Bill Tao, Rem Yang, Han Zhao, Deepak Vasisht, (参考訳) 衛星画像時系列(SITS)セグメンテーションは、環境モニタリング、土地被覆マッピング、農作物の種類分類など、多くの用途に欠かせない。 しかし、SITSセグメンテーションのトレーニングモデルは、詳細なアノテーションを必要とする豊富なトレーニングデータがないため、依然として困難な課題である。 我々は,2つの新たな洞察を生かしてラベル付きトレーニングデータの要求を大幅に低減する,自己指導型事前学習手法S4を提案する。 (a)衛星は、電波周波数や可視周波数などのスペクトルの異なる部分の画像を取得する。 (b)衛星画像は、微細な空間アライメントが可能なジオ登録されている。 これらの知見をS4における事前学習タスクの定式化に活用する。 また、S4の代表的な事前学習データとして機能する、ラベルなし、空間整列、マルチモーダル、地理的特化SITSの大規模データセットであるm2s2-SITSをキュレートする。 最後に、複数のSITSセグメンテーションデータセット上でS4を評価し、ラベル付き限られたデータを用いて競合するベースラインに対して有効性を示す。

Satellite image time series (SITS) segmentation is crucial for many applications like environmental monitoring, land cover mapping and agricultural crop type classification. However, training models for SITS segmentation remains a challenging task due to the lack of abundant training data, which requires fine grained annotation. We propose S4 a new self-supervised pre-training approach that significantly reduces the requirement for labeled training data by utilizing two new insights: (a) Satellites capture images in different parts of the spectrum such as radio frequencies, and visible frequencies. (b) Satellite imagery is geo-registered allowing for fine-grained spatial alignment. We use these insights to formulate pre-training tasks in S4. We also curate m2s2-SITS, a large-scale dataset of unlabeled, spatially-aligned, multi-modal and geographic specific SITS that serves as representative pre-training data for S4. Finally, we evaluate S4 on multiple SITS segmentation datasets and demonstrate its efficacy against competing baselines while using limited labeled data.
翻訳日:2024-06-28 19:06:57 公開日:2024-06-27
# 地下施設における超電導帯電騒音の初観測

First Measurement of Correlated Charge Noise in Superconducting Qubits at an Underground Facility ( http://arxiv.org/abs/2405.04642v3 )

ライセンス: Link先を確認
G. Bratrud, S. Lewis, K. Anyang, A. Colón Cesaní, T. Dyson, H. Magoon, D. Sabhari, G. Spahn, G. Wagner, R. Gualtieri, N. A. Kurinsky, R. Linehan, R. McDermott, S. Sussman, D. J. Temples, S. Uemura, C. Bathurst, G. Cancelo, R. Chen, A. Chou, I. Hernandez, M. Hollister, L. Hsu, C. James, K. Kennard, R. Khatiwada, P. Lukens, V. Novati, N. Raha, S. Ray, R. Ren, A. Rodriguez, B. Schmidt, K. Stifter, J. Yu, D. Baxter, E. Figueroa-Feliciano, D. Bowring, (参考訳) 低閾値粒子検出器のキャラクタリゼーションのために設計された低放射能低温発生施設において、地球の地表から107メートル下を走行する4ビットデバイス上での空間的および時間的関連電荷ジャンプを測定した。 この施設の岩が埋まると、宇宙線ミューオンのフラックスは海面実験室に比べて99%以上減少する。 可動型鉛シールドの4$\pi$カバレッジと組み合わせることで、この施設は、量子ビットデバイス上の電離放射線のフラックスを定量的に制御することができる。 これらの弱電荷感受性クビットの長時間電荷トモグラフィー測定は、クビット島での誘導電荷の不連続ジャンプを捉え、クビット基板と電離放射線の相互作用に対応する。 これらの電荷の速度は、クビットパッケージ上の電離放射線のフラックスと共にスケールし、クビットと同一のクライオスタットで同時に動作する別のエネルギー分解検出器の一連の独立測定によって特徴づけられる。 鉛遮蔽法を用いて最小電荷ジャンプ率0.19$^{+0.04}_{-0.03}$ mHz, 表面試験で測定した値よりも約1桁低いが, 周囲ガンマの減少による予測よりも約8倍高い値が得られる。 我々は、22時間以上連続して4量子ビットを動作させ、3ミリ以上の長さで無相関の電荷ジャンプを行う。

We measure space- and time-correlated charge jumps on a four-qubit device, operating 107 meters below the Earth's surface in a low-radiation, cryogenic facility designed for the characterization of low-threshold particle detectors. The rock overburden of this facility reduces the cosmic ray muon flux by over 99% compared to laboratories at sea level. Combined with 4$\pi$ coverage of a movable lead shield, this facility enables quantifiable control over the flux of ionizing radiation on the qubit device. Long-time-series charge tomography measurements on these weakly charge-sensitive qubits capture discontinuous jumps in the induced charge on the qubit islands, corresponding to the interaction of ionizing radiation with the qubit substrate. The rate of these charge jumps scales with the flux of ionizing radiation on the qubit package, as characterized by a series of independent measurements on another energy-resolving detector operating simultaneously in the same cryostat with the qubits. Using lead shielding, we achieve a minimum charge jump rate of 0.19$^{+0.04}_{-0.03}$ mHz, almost an order of magnitude lower than that measured in surface tests, but a factor of roughly eight higher than expected based on reduction of ambient gammas alone. We operate four qubits for over 22 consecutive hours with zero correlated charge jumps at length scales above three millimeters.
翻訳日:2024-06-28 19:06:57 公開日:2024-06-27
# MLに基づくマルチモーダル超解像測定による隠れ物理の発見と核融合プラズマへの応用

Discovering hidden physics using ML-based multimodal super-resolution measurement and its application to fusion plasmas ( http://arxiv.org/abs/2405.05908v3 )

ライセンス: Link先を確認
Azarakhsh Jalalvand, SangKyeun Kim, Jaemin Seo, Qiming Hu, Max Curie, Peter Steiner, Andrew Oakleigh Nelson, Yong-Su Na, Egemen Kolemen, (参考訳) 多空間・多時間物理スケールが支配する非線形複雑系は、それぞれが部分的なビューのみを提供し、データ抽出中に多くの情報が失われるため、単一の診断では完全には理解できない。 複数の診断を組み合わせることで、システムの物理が不完全になる。 診断間の隠れた相関関係を同定することにより、これらのギャップを埋めるために相互サポートを利用することができるが、これらの相関関係を解析的に発見するには複雑すぎる。 この問題に対処するための画期的な機械学習手法を紹介します。 我々のマルチモーダルアプローチは、複数の物理現象を含む超分解能データを生成し、詳細な構造進化と、以前に観測できなかった摂動に対する応答をキャプチャする。 この手法は核融合プラズマにおいて重要な問題であるエッジ局在モード(ELM: Edge Localized Mode)に対処する。 ELMを安定化させる方法の1つは、共鳴磁気摂動を用いて磁気アイランドをトリガーする方法である。 しかし、低空間分解能と時間分解能は、その小さな大きさ、急激なダイナミクス、プラズマ内部の複雑な相互作用により、これらの磁気諸島の分析を制限している。 超高分解能診断により、磁気アイランドの理論モデルが初めて検証され、EMM安定化におけるそれらの役割について前例のない知見が得られる。 この進歩は、ITERのような将来の核融合炉の効率的なEMM抑制戦略の開発に役立ち、天文学、天体物理学、医用画像などの分野における診断に革命をもたらす可能性がある。

A non-linear complex system governed by multi-spatial and multi-temporal physics scales cannot be fully understood with a single diagnostic, as each provides only a partial view and much information is lost during data extraction. Combining multiple diagnostics also results in imperfect projections of the system's physics. By identifying hidden inter-correlations between diagnostics, we can leverage mutual support to fill in these gaps, but uncovering these inter-correlations analytically is too complex. We introduce a groundbreaking machine learning methodology to address this issue. Our multimodal approach generates super resolution data encompassing multiple physics phenomena, capturing detailed structural evolution and responses to perturbations previously unobservable. This methodology addresses a critical problem in fusion plasmas: the Edge Localized Mode (ELM), a plasma instability that can severely damage reactor walls. One method to stabilize ELM is using resonant magnetic perturbation to trigger magnetic islands. However, low spatial and temporal resolution of measurements limits the analysis of these magnetic islands due to their small size, rapid dynamics, and complex interactions within the plasma. With super-resolution diagnostics, we can experimentally verify theoretical models of magnetic islands for the first time, providing unprecedented insights into their role in ELM stabilization. This advancement aids in developing effective ELM suppression strategies for future fusion reactors like ITER and has broader applications, potentially revolutionizing diagnostics in fields such as astronomy, astrophysics, and medical imaging.
翻訳日:2024-06-28 19:06:57 公開日:2024-06-27
# VLSMアダプタ:軽量ブロックを用いた高精細ビジョン言語セグメンテーション

VLSM-Adapter: Finetuning Vision-Language Segmentation Efficiently with Lightweight Blocks ( http://arxiv.org/abs/2405.06196v2 )

ライセンス: Link先を確認
Manish Dhakal, Rabin Adhikari, Safal Thapaliya, Bishesh Khanal, (参考訳) 大規模オープンドメインイメージとテキストペアを使用してトレーニングされたVLM(Foundation Vision-Language Models)は、最近、イメージセグメンテーションをガイドする推論中にテキストプロンプトを提供するVLSM(Vision-Language Segmentation Models)の開発に適応している。 医用画像のために堅牢で強力なVLSMを構築できれば、医療従事者が関心の対象構造をかなり詳細に説明しなければならない多くの臨床業務に役立てることができる。 医用画像のVLSMは、注釈付き画像データセットが少ないため、オープンドメインの自然画像データセットで事前訓練された細調整ベースVLMまたはVLSMを利用する。 近年,プリトレーニング済みモデルを凍結し,微調整時にのみアダプタを訓練するVLMでは,アダプタと呼ばれる軽量なブロックが提案されている。 本稿では,トランスコーダを用いて事前学習した視覚言語セグメンテーションモデルを微調整できる新しいアダプタ VLSM-Adapter を提案する。 広く使われているCLIPを用いたセグメンテーションモデルによる実験では、トレーニング可能なパラメータは300万個に過ぎず、VLSM-Adapterは最先端よりも優れており、上層境界のエンドツーエンドファインチューニングに匹敵する。 ソースコードは、https://github.com/naamiinepal/vlsm-adapter.comで入手できる。

Foundation Vision-Language Models (VLMs) trained using large-scale open-domain images and text pairs have recently been adapted to develop Vision-Language Segmentation Models (VLSMs) that allow providing text prompts during inference to guide image segmentation. If robust and powerful VLSMs can be built for medical images, it could aid medical professionals in many clinical tasks where they must spend substantial time delineating the target structure of interest. VLSMs for medical images resort to fine-tuning base VLM or VLSM pretrained on open-domain natural image datasets due to fewer annotated medical image datasets; this fine-tuning is resource-consuming and expensive as it usually requires updating all or a significant fraction of the pretrained parameters. Recently, lightweight blocks called adapters have been proposed in VLMs that keep the pretrained model frozen and only train adapters during fine-tuning, substantially reducing the computing resources required. We introduce a novel adapter, VLSM-Adapter, that can fine-tune pretrained vision-language segmentation models using transformer encoders. Our experiments in widely used CLIP-based segmentation models show that with only 3 million trainable parameters, the VLSM-Adapter outperforms state-of-the-art and is comparable to the upper bound end-to-end fine-tuning. The source code is available at: https://github.com/naamiinepal/vlsm-adapter.
翻訳日:2024-06-28 19:06:57 公開日:2024-06-27
# ヒューマンインストラクションからの行動木生成のためのインテント理解と最適行動計画の統合

Integrating Intent Understanding and Optimal Behavior Planning for Behavior Tree Generation from Human Instructions ( http://arxiv.org/abs/2405.07474v2 )

ライセンス: Link先を確認
Xinglin Chen, Yishuai Cai, Yunxin Mao, Minglong Li, Wenjing Yang, Weixia Xu, Ji Wang, (参考訳) 家庭や産業環境で人間の指示に従ってタスクを実行するロボットは、基本的に適応性と信頼性の両方を必要とする。 振舞い木(BT)は、モジュラリティと反応性のためにこれらのシナリオに対して適切な制御アーキテクチャとして現れる。 しかし、既存のBT生成法は自然言語の解釈を伴わないか、理論上BTの成功を保証できないかのいずれかである。 本稿では,まず大規模言語モデル(LLM)を用いて高レベルの命令から目標を解釈し,次に最適行動木拡張アルゴリズム(OBTEA)を用いて効率的な目標固有BTを構築する,BT生成のための2段階フレームワークを提案する。 我々は、一階述語論理における目的と十分に整形された公式を表現し、意図の理解と最適な行動計画を効果的にブリッジする。 サービスロボットにおける実験は,文法的に正確かつ正確に解釈された目標を生成する上でのLLMの習熟度を検証し,様々な指標においてBT拡張アルゴリズムよりもOCTEAの方が優れていることを実証し,最終的に本フレームワークの実用的展開性を確認した。 プロジェクトのWebサイトはhttps://dids-ei.github.io/Project/LLM-OBTEA/である。

Robots executing tasks following human instructions in domestic or industrial environments essentially require both adaptability and reliability. Behavior Tree (BT) emerges as an appropriate control architecture for these scenarios due to its modularity and reactivity. Existing BT generation methods, however, either do not involve interpreting natural language or cannot theoretically guarantee the BTs' success. This paper proposes a two-stage framework for BT generation, which first employs large language models (LLMs) to interpret goals from high-level instructions, then constructs an efficient goal-specific BT through the Optimal Behavior Tree Expansion Algorithm (OBTEA). We represent goals as well-formed formulas in first-order logic, effectively bridging intent understanding and optimal behavior planning. Experiments in the service robot validate the proficiency of LLMs in producing grammatically correct and accurately interpreted goals, demonstrate OBTEA's superiority over the baseline BT Expansion algorithm in various metrics, and finally confirm the practical deployability of our framework. The project website is https://dids-ei.github.io/Project/LLM-OBTEA/.
翻訳日:2024-06-28 19:06:57 公開日:2024-06-27
# 部分情報分解:情報のボトルネックとしての冗長性

Partial information decomposition: redundancy as information bottleneck ( http://arxiv.org/abs/2405.07665v2 )

ライセンス: Link先を確認
Artemy Kolchinsky, (参考訳) 部分情報分解(PID)は、ソースのセットがターゲットに提供している冗長な情報の量を定量化することを目的としている。 ここでは、この目標を「冗長ボトルネック」(RB)と呼ばれる情報ボトルネック(IB)問題の一種として定式化できることを示す。 RBは予測と圧縮のトレードオフを形式化し、情報を提供するソースを明らかにすることなく、最もターゲットを予測するソースから情報を抽出する。 PID冗長性の原理的尺度として提案した「ブラックウェル冗長性」の一般化として理解することができる。 RB曲線」は予測-圧縮トレードオフを複数のスケールで定量化する。 この曲線は個々のソースに対して定量化することもできるので、組合せ最適化なしで冗長なソースのサブセットを特定できる。 RB曲線を計算するための効率的な反復アルゴリズムを提案する。

The partial information decomposition (PID) aims to quantify the amount of redundant information that a set of sources provides about a target. Here, we show that this goal can be formulated as a type of information bottleneck (IB) problem, termed the "redundancy bottleneck" (RB). The RB formalizes a tradeoff between prediction and compression: it extracts information from the sources that best predict the target, without revealing which source provided the information. It can be understood as a generalization of "Blackwell redundancy", which we previously proposed as a principled measure of PID redundancy. The "RB curve" quantifies the prediction--compression tradeoff at multiple scales. This curve can also be quantified for individual sources, allowing subsets of redundant sources to be identified without combinatorial optimization. We provide an efficient iterative algorithm for computing the RB curve.
翻訳日:2024-06-28 19:06:57 公開日:2024-06-27
# ディープニューラルネットワークのスペクトル複雑性

Spectral complexity of deep neural networks ( http://arxiv.org/abs/2405.09541v2 )

ライセンス: Link先を確認
Simmaco Di Lillo, Domenico Marinucci, Michele Salvi, Stefano Vigogna, (参考訳) ランダムに初期化され、プッシュフォワードで完全に接続されたニューラルネットワークは、すべての層の幅が無限大になる極限において、等方的ガウス過程に弱収束することが知られている。 本稿では,ネットワークアーキテクチャの複雑さを特徴付けるために,制限フィールドの角パワースペクトルを用いることを提案する。 特に、角パワースペクトルに付随するランダム変数の列を定義し、これらの列の漸近分布を深度分岐として、ネットワークの複雑さをフルに評価する。 そこで我々は,ニューラルネットワークを低次,スパース,高次と分類し,この分類が標準アクティベーション関数の様々な特徴,特にReLUネットワークの空間特性を如何に強調するかを示す。 また, 数値シミュレーションにより, 理論的結果も検証した。

It is well-known that randomly initialized, push-forward, fully-connected neural networks weakly converge to isotropic Gaussian processes, in the limit where the width of all layers goes to infinity. In this paper, we propose to use the angular power spectrum of the limiting field to characterize the complexity of the network architecture. In particular, we define sequences of random variables associated with the angular power spectrum, and provide a full characterization of the network complexity in terms of the asymptotic distribution of these sequences as the depth diverges. On this basis, we classify neural networks as low-disorder, sparse, or high-disorder; we show how this classification highlights a number of distinct features for standard activation functions, and in particular, sparsity properties of ReLU networks. Our theoretical results are also validated by numerical simulations.
翻訳日:2024-06-28 19:06:57 公開日:2024-06-27
# グローバルベンチマークデータベース

Global Benchmark Database ( http://arxiv.org/abs/2405.10045v2 )

ライセンス: Link先を確認
Markus Iser, Christoph Jabs, (参考訳) 本稿では,Global Benchmark Database(GBD)について述べる。 ベンチマークメタデータの可用性は、例えば、ベンチマークのデータ駆動コンパイル、ランタイム実験のドメイン固有の分析、ソルバのインスタンス固有の選択など、経験的な研究において多くのタスクに不可欠である。 本稿では,GBDのデータモデルとそのインタフェースについて紹介し,それらとのインタラクションの例を示す。 また、カスタムデータソースの統合を実演し、GBDを新たな問題領域、インスタンス形式、特徴抽出器で拡張する方法を説明します。

This paper presents Global Benchmark Database (GBD), a comprehensive suite of tools for provisioning and sustainably maintaining benchmark instances and their metadata. The availability of benchmark metadata is essential for many tasks in empirical research, e.g., for the data-driven compilation of benchmarks, the domain-specific analysis of runtime experiments, or the instance-specific selection of solvers. In this paper, we introduce the data model of GBD as well as its interfaces and provide examples of how to interact with them. We also demonstrate the integration of custom data sources and explain how to extend GBD with additional problem domains, instance formats and feature extractors.
翻訳日:2024-06-28 19:06:57 公開日:2024-06-27
# 誤分類ペナルティを用いた仮説検証のためのサブモジュール情報選択

Submodular Information Selection for Hypothesis Testing with Misclassification Penalties ( http://arxiv.org/abs/2405.10930v2 )

ライセンス: Link先を確認
Jayanth Bhargav, Mahsa Ghasemi, Shreyas Sundaram, (参考訳) 本研究では,仮説テスト/分類タスクにおいて,仮説から得られた有限観測サンプルに基づいて,仮説の集合から世界の真の状態を特定することを目的とする情報ソースの最適サブセットを選択することの問題点を考察する。 学習性能を特徴付けるために,異なる誤分類誤りに対する一様でない処理を可能にする誤分類ペナルティフレームワークを提案する。 集中型ベイズ学習環境では、部分集合選択問題の2つの変種について研究する。 一 真仮説の誤分類の最大刑罰が有界であることを保証するため、最小限の費用情報を選択すること。 二 限られた予算で設定した最適情報を選択し、真仮説の誤分類の最大刑罰を最小化する。 ある仮定の下では、これらの組合せ最適化問題の目的(あるいは制約)が弱(あるいは近似)な部分モジュラーであることが証明され、グリードアルゴリズムの高確率性能保証が確立される。 さらに,誤分類の合計値に基づく情報集合選択のための代替指標を提案する。 我々は,この指標が準モジュラであることを示すとともに,両情報集合選択問題に対するグリーディアルゴリズムのほぼ最適保証を確立する。 最後に, ランダムに生成した複数のインスタンスに対して, 理論的結果を検証する数値シミュレーションを提案する。

We consider the problem of selecting an optimal subset of information sources for a hypothesis testing/classification task where the goal is to identify the true state of the world from a finite set of hypotheses, based on finite observation samples from the sources. In order to characterize the learning performance, we propose a misclassification penalty framework, which enables non-uniform treatment of different misclassification errors. In a centralized Bayesian learning setting, we study two variants of the subset selection problem: (i) selecting a minimum cost information set to ensure that the maximum penalty of misclassifying the true hypothesis remains bounded and (ii) selecting an optimal information set under a limited budget to minimize the maximum penalty of misclassifying the true hypothesis. Under certain assumptions, we prove that the objective (or constraints) of these combinatorial optimization problems are weak (or approximate) submodular, and establish high-probability performance guarantees for greedy algorithms. Further, we propose an alternate metric for information set selection which is based on the total penalty of misclassification. We prove that this metric is submodular and establish near-optimal guarantees for the greedy algorithms for both the information set selection problems. Finally, we present numerical simulations to validate our theoretical results over several randomly generated instances.
翻訳日:2024-06-28 19:06:57 公開日:2024-06-27
# ジャカード空間の計量次元と可解性

Metric Dimension and Resolvability of Jaccard Spaces ( http://arxiv.org/abs/2405.11424v2 )

ライセンス: Link先を確認
Manuel E. Lladser, Alexander J. Paradise, (参考訳) 計量空間内の点の部分集合は、空間内の各点が部分集合内の各点への距離によって一意に特徴づけられるとき、それを解くと言われる。 特に、解集合は抽象計量空間の点をユークリッドベクトルとして表すのに使うことができる。 重要なことに、三角形の不等式のため、空間の近傍の点は同様の座標を持つベクトルとして表現され、適度に選択された測度の下で記号的対象の分類問題に応用できる。 この写本では、ジャカード空間の可解性、すなわち、$(2^X,\text{Jac})$ という形の計量空間に対処し、$2^X$ は有限集合 $X$ のパワー集合であり、$\text{Jac}$ は$X$ の部分集合の間のジャカード距離である。 具体的には、異なる$a,b\in 2^X$, $\text{Jac}(a,b)=|a\Delta b|/|a\cup b|$に対して、$|\cdot|$はサイズ(すなわち濃度)を表し、$\Delta$は集合の対称差を表す。 確率的および線型代数的引数を組み合わさって、非常に確率的だがほぼ最適(最小サイズ)な$(2^X,\text{Jac})$の解集合を構成する。 特に、計量次元が$(2^X,\text{Jac})$、すなわち、この空間の解集合の最小サイズは$\Theta(|X|/\ln|X|)$であることを示す。 さらに、高い確率で 2^X$ suffices のより小さな部分集合が、最大で $\sqrt{|X|}/\ln|X|$ の濃度のすべての異なる集合の集合を、最大で 1 つの因子まで解決することを示した。

A subset of points in a metric space is said to resolve it if each point in the space is uniquely characterized by its distance to each point in the subset. In particular, resolving sets can be used to represent points in abstract metric spaces as Euclidean vectors. Importantly, due to the triangle inequality, points close by in the space are represented as vectors with similar coordinates, which may find applications in classification problems of symbolic objects under suitably chosen metrics. In this manuscript, we address the resolvability of Jaccard spaces, i.e., metric spaces of the form $(2^X,\text{Jac})$, where $2^X$ is the power set of a finite set $X$, and $\text{Jac}$ is the Jaccard distance between subsets of $X$. Specifically, for different $a,b\in 2^X$, $\text{Jac}(a,b)=|a\Delta b|/|a\cup b|$, where $|\cdot|$ denotes size (i.e., cardinality) and $\Delta$ denotes the symmetric difference of sets. We combine probabilistic and linear algebra arguments to construct highly likely but nearly optimal (i.e., of minimal size) resolving sets of $(2^X,\text{Jac})$. In particular, we show that the metric dimension of $(2^X,\text{Jac})$, i.e., the minimum size of a resolving set of this space, is $\Theta(|X|/\ln|X|)$. In addition, we show that a much smaller subset of $2^X$ suffices to resolve, with high probability, all different pairs of subsets of $X$ of cardinality at most $\sqrt{|X|}/\ln|X|$, up to a factor.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# 加速コロナ磁場モデルのためのニューラル演算子

Neural Operator for Accelerating Coronal Magnetic Field Model ( http://arxiv.org/abs/2405.12754v2 )

ライセンス: Link先を確認
Yutao Du, Qin Li, Raghav Gnanasambandam, Mengnan Du, Haimin Wang, Bo Shen, (参考訳) 太陽の大気の研究は、太陽活動に影響を及ぼす複雑な磁場のために難しい。 磁気流体力学(MHD)シミュレーションはこれらの相互作用をモデル化するのに役立つが、非常に時間がかかる(通常は数日のスケールで)。 我々の研究は、FNO(Fourier Neural Operator)を用いて、コロナ磁場モデリング、特にBifrost MHDモデルを加速する。 本研究では, 3次元領域上の偏微分方程式(PDE)から解を生成するために, TFNO (Tensorized FNO) を適用した。 TFNOの性能は他のディープラーニング手法と比較され、その正確さとスケーラビリティを強調している。 物理解析により、TFNOは信頼性が高く、高精度でMHDシミュレーションを加速できることを確認した。 この進歩はデータ処理の効率を改善し、予測能力を高め、磁気トポロジをよりよく理解する。

Studying the sun's outer atmosphere is challenging due to its complex magnetic fields impacting solar activities. Magnetohydrodynamics (MHD) simulations help model these interactions but are extremely time-consuming (usually on a scale of days). Our research applies the Fourier Neural Operator (FNO) to accelerate the coronal magnetic field modeling, specifically, the Bifrost MHD model. We apply Tensorized FNO (TFNO) to generate solutions from partial differential equations (PDEs) over a 3D domain efficiently. TFNO's performance is compared with other deep learning methods, highlighting its accuracy and scalability. Physics analysis confirms that TFNO is reliable and capable of accelerating MHD simulations with high precision. This advancement improves efficiency in data handling, enhances predictive capabilities, and provides a better understanding of magnetic topologies.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# FAITH:時系列予測のための2つのホライズンにおける周波数領域の注意

FAITH: Frequency-domain Attention In Two Horizons for Time Series Forecasting ( http://arxiv.org/abs/2405.13300v2 )

ライセンス: Link先を確認
Ruiqi Li, Maowei Jiang, Kai Wang, Kaiduo Feng, Quangao Liu, Yue Sun, Xiufang Zhou, (参考訳) 時系列予測は、産業機器の保守、気象学、エネルギー消費、交通流、金融投資など、様々な分野で重要な役割を果たしている。 しかし、従来の統計的アプローチよりもかなりの利点があるにもかかわらず、現在のディープラーニングベースの予測モデルは、予測結果と基礎的真実の間に大きなずれを示すことが多い。 この違いは、配列の潜伏情報、特に周波数領域内の大域的な情報、および異なる変数間の関係の抽出が不十分なためである。 そこで本研究では,時系列を時系列と季節成分に分解する2つのホライズンズにおける周波数領域注意モデルを提案する。 FAITHは、周波数チャンネル特徴抽出モジュールと周波数時間特徴抽出モジュールを使用して、シーケンス内のチャネル間関係と時間的グローバル情報をキャプチャし、長期依存や複雑なパターンを扱う能力を大幅に改善する。 さらに、FAITHは時間周波数領域変換法を変更して理論的に線形な複雑性を実現し、計算コストを効果的に削減する。 長期予測のための6つのベンチマークと短期予測のための3つのベンチマークに関する大規模な実験は、FAITHが電気、天気、交通など多くの分野で既存のモデルよりも優れており、長期および短期の時系列予測タスクにおいてその効果と優越性を証明していることを示している。 私たちのコードとデータはhttps://github.com/LRQ577/FAITH.comで公開されています。

Time Series Forecasting plays a crucial role in various fields such as industrial equipment maintenance, meteorology, energy consumption, traffic flow and financial investment. However, despite their considerable advantages over traditional statistical approaches, current deep learning-based predictive models often exhibit a significant deviation between their forecasting outcomes and the ground truth. This discrepancy is largely due to an insufficient emphasis on extracting the sequence's latent information, particularly its global information within the frequency domain and the relationship between different variables. To address this issue, we propose a novel model Frequency-domain Attention In Two Horizons, which decomposes time series into trend and seasonal components using a multi-scale sequence adaptive decomposition and fusion architecture, and processes them separately. FAITH utilizes Frequency Channel feature Extraction Module and Frequency Temporal feature Extraction Module to capture inter-channel relationships and temporal global information in the sequence, significantly improving its ability to handle long-term dependencies and complex patterns. Furthermore, FAITH achieves theoretically linear complexity by modifying the time-frequency domain transformation method, effectively reducing computational costs. Extensive experiments on 6 benchmarks for long-term forecasting and 3 benchmarks for short-term forecasting demonstrate that FAITH outperforms existing models in many fields, such as electricity, weather and traffic, proving its effectiveness and superiority both in long-term and short-term time series forecasting tasks. Our codes and data are available at https://github.com/LRQ577/FAITH.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# CHESS: 効率的なSQL合成のためのコンテキストハラスメント

CHESS: Contextual Harnessing for Efficient SQL Synthesis ( http://arxiv.org/abs/2405.16755v2 )

ライセンス: Link先を確認
Shayan Talaei, Mohammadreza Pourreza, Yu-Chen Chang, Azalia Mirhoseini, Amin Saberi, (参考訳) 自然言語の質問をSQLクエリ(text-to-SQL)に変換するための大規模言語モデル(LLM)の利用は、特に複雑で広範なスキーマを持つ現実世界のデータベースに適用する場合、有望で難しいアプローチである。 特に、SQL生成のためのデータカタログとデータベース値を効果的に組み込むことは、依然として障害であり、亜最適ソリューションに繋がる。 この問題に対処するために、関連するデータやコンテキストを効率的に検索し、効率的なスキーマを選択し、正しいSQLクエリを合成する新しいパイプラインを提案する。 検索精度を向上させるために,モデル生成キーワード,局所性に敏感なハッシュインデックス,ベクトルデータベースを活用した階層的検索手法を提案する。 さらに、問題の複雑さとモデルのコンテキストサイズに基づいて、適応的なスキーマプルーニング手法を開発した。 我々のアプローチは、GPT-4のようなフロンティアプロプライエタリモデルと、Llama-3-70Bのようなオープンソースモデルの両方に一般化されている。 一連のアブレーション研究を通じて、パイプラインの各コンポーネントの有効性と、エンドツーエンドのパフォーマンスへの影響を実証する。 提案手法は,BIRDデータセットの領域横断における最先端性能を実現する。

Utilizing large language models (LLMs) for transforming natural language questions into SQL queries (text-to-SQL) is a promising yet challenging approach, particularly when applied to real-world databases with complex and extensive schemas. In particular, effectively incorporating data catalogs and database values for SQL generation remains an obstacle, leading to suboptimal solutions. We address this problem by proposing a new pipeline that effectively retrieves relevant data and context, selects an efficient schema, and synthesizes correct and efficient SQL queries. To increase retrieval precision, our pipeline introduces a hierarchical retrieval method leveraging model-generated keywords, locality-sensitive hashing indexing, and vector databases. Additionally, we have developed an adaptive schema pruning technique that adjusts based on the complexity of the problem and the model's context size. Our approach generalizes to both frontier proprietary models like GPT-4 and open-source models such as Llama-3-70B. Through a series of ablation studies, we demonstrate the effectiveness of each component of our pipeline and its impact on the end-to-end performance. Our method achieves new state-of-the-art performance on the cross-domain challenging BIRD dataset.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# グラウバー生成モデル:二項分類による離散拡散モデル

Glauber Generative Model: Discrete Diffusion Models via Binary Classification ( http://arxiv.org/abs/2405.17035v2 )

ライセンス: Link先を確認
Harshit Varma, Dheeraj Nagaraj, Karthikeyan Shanmugam, (参考訳) 離散拡散モデルの新たなクラスであるGlauber Generative Model (GGM)を導入し、離散空間から与えられた分布から新しいサンプルを得る。 GGMは、熱浴力学(またはグラウバー力学)と呼ばれる離散マルコフ連鎖を展開させ、離散トークンの連成分布からサンプルにノイズトークンの列を分解する。 我々の新しい概念的枠組みは、マルコフ連鎖を二項分類タスクのクラスを解くために学習するタスクを正確に削減するものである。 より具体的には、モデルは与えられたトークンをノイズシーケンスで信号またはノイズとして分類することを学ぶ。 対照的に、離散拡散モデルに関する先行研究は、回帰問題を解くか、重要度を学習するか、あるいは変分近似によって与えられる損失関数を最小化する。 本稿では,言語モデリングや画像生成にGGMを適用し,VQGANなどの画像トークンを用いて画像の識別を行う。 言語生成において既存の離散拡散モデルより優れており、データセット固有の画像トークンーザを使わずに、画像生成に強い性能を示す。 また,本モデルでは,テキストや画像の入力などのゼロショット制御設定でも良好に動作可能であることを示す。

We introduce the Glauber Generative Model (GGM), a new class of discrete diffusion models, to obtain new samples from a distribution given samples from a discrete space. GGM deploys a discrete Markov chain called the heat bath dynamics (or the Glauber dynamics) to denoise a sequence of noisy tokens to a sample from a joint distribution of discrete tokens. Our novel conceptual framework provides an exact reduction of the task of learning the denoising Markov chain to solving a class of binary classification tasks. More specifically, the model learns to classify a given token in a noisy sequence as signal or noise. In contrast, prior works on discrete diffusion models either solve regression problems to learn importance ratios, or minimize loss functions given by variational approximations. We apply GGM to language modeling and image generation, where images are discretized using image tokenizers like VQGANs. We show that it outperforms existing discrete diffusion models in language generation, and demonstrates strong performance for image generation without using dataset-specific image tokenizers. We also show that our model is capable of performing well in zero-shot control settings like text and image infilling.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# QUB-Cirdan at "Discharge Me!

QUB-Cirdan at "Discharge Me!": Zero shot discharge letter generation by open-source LLM ( http://arxiv.org/abs/2406.00041v2 )

ライセンス: Link先を確認
Rui Guo, Greg Farnan, Niall McLaughlin, Barry Devereux, (参考訳) BioNLP ACL'24 Shared Task on Streamlining Discharge Documentation は、患者の退院手紙のクリティカルセクションの自動作成によって、診療者の管理負担を軽減することを目的としている。 本稿では,Llama3 8B量子化モデルを用いて「Brief Hospital Course」と「Discharge Instructions」のセクションを生成する手法を提案する。 我々は、簡潔で文脈的に正確な要約を生成するために、ゼロショット法とRAG(Retrieval-Augmented Generation)を併用する。 コントリビューションには、信頼性と一貫性を確保するためのテンプレートベースのキュレートアプローチの開発や、単語カウント予測のためのRAGの統合が含まれている。 また、競争の経路に関する洞察を提供するために、いくつかの失敗した実験についても記述する。 その結果,提案手法の有効性と有効性を示し,複数の評価指標で高いスコアを得ることができた。

The BioNLP ACL'24 Shared Task on Streamlining Discharge Documentation aims to reduce the administrative burden on clinicians by automating the creation of critical sections of patient discharge letters. This paper presents our approach using the Llama3 8B quantized model to generate the "Brief Hospital Course" and "Discharge Instructions" sections. We employ a zero-shot method combined with Retrieval-Augmented Generation (RAG) to produce concise, contextually accurate summaries. Our contributions include the development of a curated template-based approach to ensure reliability and consistency, as well as the integration of RAG for word count prediction. We also describe several unsuccessful experiments to provide insights into our pathway for the competition. Our results demonstrate the effectiveness and efficiency of our approach, achieving high scores across multiple evaluation metrics.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# 推論攻撃:分類学・調査・予測の方向性

Inference Attacks: A Taxonomy, Survey, and Promising Directions ( http://arxiv.org/abs/2406.02027v2 )

ライセンス: Link先を確認
Feng Wu, Lei Cui, Shaowen Yao, Shui Yu, (参考訳) 機械学習の繁栄は、データのプライバシに関する人々の懸念も引き起こした。 中でも推論攻撃は、さまざまなMLaaSシナリオやモデルトレーニング/予測フェーズで、プライバシ侵害を実装することができる。 具体的には、推論攻撃は、統計、会員シップ、セマンティクス、データ表現などを含むターゲットモデルの出力に基づいて、未開示のターゲットトレーニングセットに対して、プライバシ推論を実行することができる。 例えば、ターゲットデータにAIDSの特性があるかどうかを推測する。 さらに、近年の機械学習コミュニティの急速な発展、特にモデルタイプやアプリケーションシナリオの急増は、推論攻撃の研究をさらに刺激している。 したがって、推論攻撃を研究し、それらを深く分析することは緊急かつ重要なことである。 しかし、分類学、世界的視点、攻撃、防衛の観点からの推論攻撃に関する体系的な議論には、まだギャップがある。 この調査は、分類学および最新の研究に基づくML-as-a-serviceにおける攻撃の詳細な包括的推測とそれに対応する対策を提供する。 研究者の直感を損なうことなく,まず,コミュニティ研究状況に基づく3MP分類法を提案する。 また、各種類の推論攻撃の長所と短所、ワークフロー、対策、およびそれらが他の攻撃とどのように相互作用するかを分析する。 最後に、より包括的で斬新な視点から研究者に有望な方向性をいくつか指摘する。

The prosperity of machine learning has also brought people's concerns about data privacy. Among them, inference attacks can implement privacy breaches in various MLaaS scenarios and model training/prediction phases. Specifically, inference attacks can perform privacy inference on undisclosed target training sets based on outputs of the target model, including but not limited to statistics, membership, semantics, data representation, etc. For instance, infer whether the target data has the characteristics of AIDS. In addition, the rapid development of the machine learning community in recent years, especially the surge of model types and application scenarios, has further stimulated the inference attacks' research. Thus, studying inference attacks and analyzing them in depth is urgent and significant. However, there is still a gap in the systematic discussion of inference attacks from taxonomy, global perspective, attack, and defense perspectives. This survey provides an in-depth and comprehensive inference of attacks and corresponding countermeasures in ML-as-a-service based on taxonomy and the latest researches. Without compromising researchers' intuition, we first propose the 3MP taxonomy based on the community research status, trying to normalize the confusing naming system of inference attacks. Also, we analyze the pros and cons of each type of inference attack, their workflow, countermeasure, and how they interact with other attacks. In the end, we point out several promising directions for researchers from a more comprehensive and novel perspective.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# ローカル・トゥ・グローバル:学習ダイナミクスと変圧器の初期化の効果

Local to Global: Learning Dynamics and Effect of Initialization for Transformers ( http://arxiv.org/abs/2406.03072v2 )

ライセンス: Link先を確認
Ashok Vardhan Makkuva, Marco Bondaschi, Chanakya Ekbote, Adway Girish, Alliot Nagle, Hyeji Kim, Michael Gastpar, (参考訳) 近年、トランスフォーマーベースのモデルは、特にシーケンスモデリングにおいてディープラーニングに革命をもたらした。 この現象をよりよく理解するために、マルコフ入力プロセスを用いてトランスフォーマーを研究することへの関心が高まっている。 しかしながら、この点に関する我々の現在の理解は、トランスフォーマーがマルコフ連鎖を学習する方法に関する多くの基本的な質問に限られている。 本稿では,一階のマルコフ連鎖と単層変圧器に着目し,この文脈における学習力学の包括的特徴を提供する。 具体的には、次トーケン予測損失に基づいて訓練されたトランスフォーマーパラメータが、大域的または局所的なミニマに収束し、初期化とマルコフ的データ特性に依存することを証明し、それが起こる正確な条件を特徴付ける。 私たちの知る限りでは、これは、初期化の役割を強調するこの種の結果の最初のものです。 さらに、我々の理論的な発見が実証的な証拠によって裏付けられていることを実証する。 これらの知見に基づき、変換器パラメータの初期化のためのガイドラインを提供し、その有効性を実証する。 最後に、この領域におけるいくつかのオープンな問題を概説する。 コードは、https://github.com/Bond1995/Markov.comで入手できる。

In recent years, transformer-based models have revolutionized deep learning, particularly in sequence modeling. To better understand this phenomenon, there is a growing interest in using Markov input processes to study transformers. However, our current understanding in this regard remains limited with many fundamental questions about how transformers learn Markov chains still unanswered. In this paper, we address this by focusing on first-order Markov chains and single-layer transformers, providing a comprehensive characterization of the learning dynamics in this context. Specifically, we prove that transformer parameters trained on next-token prediction loss can either converge to global or local minima, contingent on the initialization and the Markovian data properties, and we characterize the precise conditions under which this occurs. To the best of our knowledge, this is the first result of its kind highlighting the role of initialization. We further demonstrate that our theoretical findings are corroborated by empirical evidence. Based on these insights, we provide guidelines for the initialization of transformer parameters and demonstrate their effectiveness. Finally, we outline several open problems in this arena. Code is available at: https://github.com/Bond1995/Markov.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# 情報理論からみた教師付き分類の誤り境界

Error Bounds of Supervised Classification from Information-Theoretic Perspective ( http://arxiv.org/abs/2406.04567v2 )

ライセンス: Link先を確認
Binchuan Qi, Wei Gong, Li Li, (参考訳) ディープラーニング(DL)に関する未解決の研究質問のリストには、過度にパラメータ化されたニューラルネットワークの顕著な一般化力、非凸性にもかかわらず効率的な最適化性能、一般化におけるフラットミニマのメカニズムなどが含まれている。 本稿では,ディープニューラルネットワーク(DNN)を用いた教師付き分類の理論的基礎を探るため,情報理論的視点を採用する。 本分析では, 適応誤差とモデルリスクの概念を導入し, 一般化誤差とともに, 期待されるリスクの上限を構成する。 一般化誤差は, 分布の滑らかさとサンプルサイズの両方に影響され, 複雑さによって境界づけられていることを示す。 その結果、タスクの複雑さはデータセットの品質の信頼できる指標として機能し、正規化ハイパーパラメータの設定を導く。 さらに、導出された上界嵌合誤差は、バックプロパゲート勾配、ニューラルタンジェントカーネル(NTK)、およびモデルのパラメータ数と嵌合誤差をリンクする。 三角形の不等式を用いることで、期待されるリスクに上限を定めます。 このバウンダリは、DNNにおける過度パラメータ化、非凸最適化、および平坦なミニマの影響に関する貴重な知見を提供する。

There remains a list of unanswered research questions on deep learning (DL), including the remarkable generalization power of overparametrized neural networks, the efficient optimization performance despite the non-convexity, and the mechanisms behind flat minima in generalization. In this paper, we adopt an information-theoretic perspective to explore the theoretical foundations of supervised classification using deep neural networks (DNNs). Our analysis introduces the concepts of fitting error and model risk, which, together with generalization error, constitute an upper bound on the expected risk. We demonstrate that the generalization errors are bounded by the complexity, influenced by both the smoothness of distribution and the sample size. Consequently, task complexity serves as a reliable indicator of the dataset's quality, guiding the setting of regularization hyperparameters. Furthermore, the derived upper bound fitting error links the back-propagated gradient, Neural Tangent Kernel (NTK), and the model's parameter count with the fitting error. Utilizing the triangle inequality, we establish an upper bound on the expected risk. This bound offers valuable insights into the effects of overparameterization, non-convex optimization, and the flat minima in DNNs.Finally, empirical verification confirms a significant positive correlation between the derived theoretical bounds and the practical expected risk, confirming the practical relevance of the theoretical findings.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# マルチモーダルLDMにおけるトークン化のセマンティックな等価性を目指して

Towards Semantic Equivalence of Tokenization in Multimodal LLM ( http://arxiv.org/abs/2406.05127v2 )

ライセンス: Link先を確認
Shengqiong Wu, Hao Fei, Xiangtai Li, Jiayi Ji, Hanwang Zhang, Tat-Seng Chua, Shuicheng Yan, (参考訳) MLLM(Multimodal Large Language Models)は、視覚言語タスクの処理において、例外的な機能を示す。 MLLMの要点の1つは視覚トークン化であり、入力された視覚信号をLLMにとって最も有用な特徴表現に効率よく変換する。 しかし、視覚と言語間のセマンティックアライメントに不可欠な既存の視覚トークンーザは依然として問題である。 既存の手法は視覚的な入力を積極的に断片化し、視覚的な意味的整合性を損なう。 そこで本研究では,動的クラスタリングアルゴリズムを用いて視覚的特徴を意味単位にグループ化し,画像の複雑さに基づいてトークンの数を柔軟に決定する,新しい動的セマンティック・等価視覚Tokenizer(SeTok)を提案する。 結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。 SeTokを内蔵したMLLM (Setokim) は, 実験結果から, 各種タスクにおいて優れた性能を示した。 プロジェクトページはhttps://chocowu.github.io/SeTok-web/にある。

Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in processing vision-language tasks. One of the crux of MLLMs lies in vision tokenization, which involves efficiently transforming input visual signals into feature representations that are most beneficial for LLMs. However, existing vision tokenizers, essential for semantic alignment between vision and language, remain problematic. Existing methods aggressively fragment visual input, corrupting the visual semantic integrity. To address this, this paper proposes a novel dynamic Semantic-Equivalent Vision Tokenizer (SeTok), which groups visual features into semantic units via a dynamic clustering algorithm, flexibly determining the number of tokens based on image complexity. The resulting vision tokens effectively preserve semantic integrity and capture both low-frequency and high-frequency visual features. The proposed MLLM (Setokim) equipped with SeTok significantly demonstrates superior performance across various tasks, as evidenced by our experimental results. The project page is at https://chocowu.github.io/SeTok-web/.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# G-transformer:動的および時間変化処理レジームにおける実測結果予測

G-Transformer: Counterfactual Outcome Prediction under Dynamic and Time-varying Treatment Regimes ( http://arxiv.org/abs/2406.05504v3 )

ライセンス: Link先を確認
Hong Xiong, Feng Wu, Leon Deng, Megan Su, Li-wei H Lehman, (参考訳) 医学的意思決定の文脈では、反事実予測により、臨床医は、観察された患者の歴史に与えられた治療行動の代替コースの下で、興味のある治療結果を予測することができる。 従来の機械学習アプローチは、過去の共変量履歴に依存しない静的な時間変化治療体制に重点を置いている。 本稿では,G-Transformerについて述べる。G-Transformerは動的および時間的処理戦略の下での対実予測のためのg-computationをサポートするトランスフォーマーベースのフレームワークである。 G-Transfomerは、Transformerアーキテクチャを用いて、時間変化の共変量における複雑な長距離依存関係をキャプチャする。 G-Transformerは、エンコーダアーキテクチャを用いて、各時点における関連共変量および処理履歴の条件分布を推定し、興味ある治療戦略の下で患者軌道をシミュレートすることで、偽結果のモンテカルロ推定を生成する。 メカニスティックモデルによる2つのシミュレーション時系列データセットとMIMIC-IVによる実世界のセシスICUデータセットを用いて,G-Transformerを広範囲に評価した。 G-Transformerは、これらの設定において、古典的および最先端の対実予測モデルの両方を上回っている。 我々の知る限り、このアーキテクチャは動的かつ時間的に変化する治療戦略の下で、対実的な結果予測を行う最初のTransformerベースのアーキテクチャである。

In the context of medical decision making, counterfactual prediction enables clinicians to predict treatment outcomes of interest under alternative courses of therapeutic actions given observed patient history. Prior machine learning approaches for counterfactual predictions under time-varying treatments focus on static time-varying treatment regimes where treatments do not depend on previous covariate history. In this work, we present G-Transformer, a Transformer-based framework supporting g-computation for counterfactual prediction under dynamic and time-varying treatment strategies. G-Transfomer captures complex, long-range dependencies in time-varying covariates using a Transformer architecture. G-Transformer estimates the conditional distribution of relevant covariates given covariate and treatment history at each time point using an encoder architecture, then produces Monte Carlo estimates of counterfactual outcomes by simulating forward patient trajectories under treatment strategies of interest. We evaluate G-Transformer extensively using two simulated longitudinal datasets from mechanistic models, and a real-world sepsis ICU dataset from MIMIC-IV. G-Transformer outperforms both classical and state-of-the-art counterfactual prediction models in these settings. To the best of our knowledge, this is the first Transformer-based architecture for counterfactual outcome prediction under dynamic and time-varying treatment strategies.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# SRC-Net:変更検出のための時空間関係ネットワーク

SRC-Net: Bi-Temporal Spatial Relationship Concerned Network for Change Detection ( http://arxiv.org/abs/2406.05668v2 )

ライセンス: Link先を確認
Hongjia Chen, Xin Xu, Fangling Pu, (参考訳) リモートセンシング画像における変化検出(CD)は, 環境モニタリング, 都市開発, 災害管理における重要な課題である。 CDは、時間とともに変化する変化を特定するために、バイテンポラルなイメージを利用する。 異なるタイミングで同じ位置にある特徴間の時間的空間的関係は、このプロセスにおいて重要な役割を果たす。 しかし、既存の変化検出ネットワークは、時間的特徴抽出と融合の間、これらの空間的関係を完全に活用しないことが多い。 本研究では,CDのための時空間関係ネットワークであるSRC-Netを提案する。 提案するSRC-Netは,空間的関係を組み込んだ知覚・相互作用モジュールを備え,特徴抽出の精度と堅牢性を高めるクロスブランチ認識機構を確立する。 さらに,現在の手法における情報損失に対応するために,Patch-Mode 共同機能融合モジュールが導入された。 異なる変化モードと空間的関係に対する関心を考慮し、より表現力のある融合特徴をもたらす。 さらに,これら2つの関係モジュールを用いて新しいネットワークを構築し,LEVIR-CDとWHUビルディングデータセットを用いて実験を行った。 実験結果から,本ネットワークはパラメータ数を一定に保ちながら,最先端(SOTA)手法より優れていることが示された。 我々は、我々のアプローチが変化検出の新しいパラダイムを定めており、この分野のさらなる進歩を促すだろうと考えている。 コードとモデルはhttps://github.com/Chnja/SRCNetで公開されている。

Change detection (CD) in remote sensing imagery is a crucial task with applications in environmental monitoring, urban development, and disaster management. CD involves utilizing bi-temporal images to identify changes over time. The bi-temporal spatial relationships between features at the same location at different times play a key role in this process. However, existing change detection networks often do not fully leverage these spatial relationships during bi-temporal feature extraction and fusion. In this work, we propose SRC-Net: a bi-temporal spatial relationship concerned network for CD. The proposed SRC-Net includes a Perception and Interaction Module that incorporates spatial relationships and establishes a cross-branch perception mechanism to enhance the precision and robustness of feature extraction. Additionally, a Patch-Mode joint Feature Fusion Module is introduced to address information loss in current methods. It considers different change modes and concerns about spatial relationships, resulting in more expressive fusion features. Furthermore, we construct a novel network using these two relationship concerned modules and conducted experiments on the LEVIR-CD and WHU Building datasets. The experimental results demonstrate that our network outperforms state-of-the-art (SOTA) methods while maintaining a modest parameter count. We believe our approach sets a new paradigm for change detection and will inspire further advancements in the field. The code and models are publicly available at https://github.com/Chnja/SRCNet.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# mHuBERT-147:小型多言語 HuBERT モデル

mHuBERT-147: A Compact Multilingual HuBERT Model ( http://arxiv.org/abs/2406.06371v3 )

ライセンス: Link先を確認
Marcely Zanon Boito, Vivek Iyer, Nikolaos Lagos, Laurent Besacier, Ioan Calapodescu, (参考訳) 我々は90K時間のクリーンでオープンなデータに基づいて訓練された最初の汎用多言語HuBERT音声表現モデルであるmHuBERT-147を提案する。 マルチイテレーションの HuBERT アプローチをスケールアップするために,ファイスベースのクラスタリングを用い,元の手法よりも5.2倍高速なラベル割り当てを実現した。 また、言語とデータセットの多様性の両面を活用した、新しい多言語バッチアップサンプリング戦略を適用します。 3回のトレーニングを行った後、95MパラメータmHuBERT-147は、かなり多くのデータに基づいてトレーニングされたより大きなモデルよりも優れています。 ML-SUPERB 10minと1hのリーダーボードでは、SOTAスコアが3タスクで2位と1位です。 ASR/LIDタスク全体で、我々のモデルは一貫してXLS-R(300Mパラム、436K時間)を超え、はるかに大きなMSM(1Bパラム、491K時間)に対して強い競争力を示す。 以上の結果から,mHuBERT-147は多言語音声タスクの有望なモデルであり,高い性能とパラメータ効率のバランスを保っていることが示唆された。

We present mHuBERT-147, the first general-purpose massively multilingual HuBERT speech representation model trained on 90K hours of clean, open-license data. To scale up the multi-iteration HuBERT approach, we use faiss-based clustering, achieving 5.2x faster label assignment than the original method. We also apply a new multilingual batching up-sampling strategy, leveraging both language and dataset diversity. After 3 training iterations, our compact 95M parameter mHuBERT-147 outperforms larger models trained on substantially more data. We rank second and first on the ML-SUPERB 10min and 1h leaderboards, with SOTA scores for 3 tasks. Across ASR/LID tasks, our model consistently surpasses XLS-R (300M params; 436K hours) and demonstrates strong competitiveness against the much larger MMS (1B params; 491K hours). Our findings indicate that mHuBERT-147 is a promising model for multilingual speech tasks, offering an unprecedented balance between high performance and parameter efficiency.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# AsyncDiff: Asynchronous Denoisingによる拡散モデルの並列化

AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising ( http://arxiv.org/abs/2406.06911v2 )

ライセンス: Link先を確認
Zigeng Chen, Xinyin Ma, Gongfan Fang, Zhenxiong Tan, Xinchao Wang, (参考訳) 拡散モデルは、様々なアプリケーションにまたがる優れた生成能力に対して、コミュニティから大きな関心を集めてきた。 しかし、その典型的な多重ステップのシーケンシャルデノジング特性は、高い累積遅延を生じさせ、それによって並列計算の可能性が排除される。 そこで本研究では,複数のデバイスにまたがるモデル並列化を実現する,汎用的でプラグアンドプレイなアクセラレーション方式であるAsyncDiffを紹介する。 提案手法では、ノイズ予測モデルを複数のコンポーネントに分割し、それぞれが異なるデバイスに割り当てる。 これらのコンポーネント間の依存関係連鎖を断ち切るために、連続拡散ステップにおいて隠蔽状態間の高い類似性を利用して、従来のシーケンシャルなdenoisingを非同期プロセスに変換する。 その結果、各コンポーネントは別々のデバイス上で並列に計算される。 提案手法は、生成品質に最小限の影響を与えながら、推論遅延を著しく低減する。 具体的には、安定拡散 v2.1 では、AsyncDiff は NVIDIA A5000 GPU の 4 台の CLIP Score で 0.38 をわずかに削減するだけで、無視できる劣化と 4.0 のスピードアップで 2.7 倍のスピードアップを達成する。 我々の実験は、AsyncDiffがビデオ拡散モデルに容易に適用でき、性能を向上できることを示した。 コードはhttps://github.com/czg1225/AsyncDiffで公開されている。

Diffusion models have garnered significant interest from the community for their great generative ability across various applications. However, their typical multi-step sequential-denoising nature gives rise to high cumulative latency, thereby precluding the possibilities of parallel computation. To address this, we introduce AsyncDiff, a universal and plug-and-play acceleration scheme that enables model parallelism across multiple devices. Our approach divides the cumbersome noise prediction model into multiple components, assigning each to a different device. To break the dependency chain between these components, it transforms the conventional sequential denoising into an asynchronous process by exploiting the high similarity between hidden states in consecutive diffusion steps. Consequently, each component is facilitated to compute in parallel on separate devices. The proposed strategy significantly reduces inference latency while minimally impacting the generative quality. Specifically, for the Stable Diffusion v2.1, AsyncDiff achieves a 2.7x speedup with negligible degradation and a 4.0x speedup with only a slight reduction of 0.38 in CLIP Score, on four NVIDIA A5000 GPUs. Our experiments also demonstrate that AsyncDiff can be readily applied to video diffusion models with encouraging performances. The code is available at https://github.com/czg1225/AsyncDiff.
翻訳日:2024-06-28 18:56:54 公開日:2024-06-27
# D-GRIL: 2-parameter Persistence を用いたエンド・ツー・エンドトポロジカルラーニング

D-GRIL: End-to-End Topological Learning with 2-parameter Persistence ( http://arxiv.org/abs/2406.07100v2 )

ライセンス: Link先を確認
Soham Mukherjee, Shreyas N. Samaga, Cheng Xin, Steve Oudot, Tamal K. Dey, (参考訳) 1パラメータ永続性を用いたエンドツーエンドのトポロジ学習はよく知られている。 GRILと呼ばれる最近導入された2パラメータ永続性に基づくベクトル化手法を用いて,2パラメータ永続性を用いてフレームワークを拡張可能であることを示す。 我々は,D-GRILを生産するGRILを識別する理論的基盤を確立する。 D-GRILは,標準ベンチマークグラフデータセット上での2次フィルタ関数の学習に利用できることを示す。 さらに, この枠組みは, 薬物発見における生物活性予測の文脈において適用可能であることを示す。

End-to-end topological learning using 1-parameter persistence is well-known. We show that the framework can be enhanced using 2-parameter persistence by adopting a recently introduced 2-parameter persistence based vectorization technique called GRIL. We establish a theoretical foundation of differentiating GRIL producing D-GRIL. We show that D-GRIL can be used to learn a bifiltration function on standard benchmark graph datasets. Further, we exhibit that this framework can be applied in the context of bio-activity prediction in drug discovery.
翻訳日:2024-06-28 18:47:10 公開日:2024-06-27
# 次世代データベースインタフェース: LLM-based Text-to-SQL の調査

Next-Generation Database Interfaces: A Survey of LLM-based Text-to-SQL ( http://arxiv.org/abs/2406.08426v2 )

ライセンス: Link先を確認
Zijin Hong, Zheng Yuan, Qinggang Zhang, Hao Chen, Junnan Dong, Feiran Huang, Xiao Huang, (参考訳) 自然言語の質問(text-to-SQL)に基づいて正確なSQLを生成することは、ユーザ質問の理解、データベーススキーマの理解、SQL生成にまつわる複雑さのため、長年にわたる課題である。 人間のエンジニアリングとディープニューラルネットワークからなる従来のテキスト-SQLシステムは、かなりの進歩を遂げた。 その後、事前訓練された言語モデル(PLM)が開発され、テキストからSQLまでのタスクに利用され、有望なパフォーマンスを実現している。 現代のデータベースがより複雑になるにつれて、対応するユーザ質問もより難しくなり、誤ったSQLを生成するための限定的な理解能力を持つPLMへと導かれる。 これは PLM のより洗練された最適化手法を必要とし、それによって PLM ベースのシステムの応用が制限される。 最近では、大規模言語モデル(LLM)が、モデルスケールが増加し続けるにつれて、自然言語理解において重要な能力を示している。 したがって、LLMベースの実装を統合することで、テキスト-SQL研究にユニークな機会、改善、ソリューションをもたらすことができる。 本稿では LLM ベースのテキスト-to-SQL の総合的なレビューを行う。 具体的には,テキスト・トゥ・SQLの技術的課題と進化過程について概説する。 次に、テキスト・トゥ・SQLシステムを評価するために設計されたデータセットとメトリクスの詳細を紹介する。 その後、LLMベースのテキスト・トゥ・SQLの最近の進歩を体系的に分析する。 最後に,この分野での課題について考察し,今後の研究の方向性を期待する。

Generating accurate SQL according to natural language questions (text-to-SQL) is a long-standing challenge due to the complexities involved in user question understanding, database schema comprehension, and SQL generation. Conventional text-to-SQL systems, comprising human engineering and deep neural networks, have made substantial progress. Subsequently, pre-trained language models (PLMs) have been developed and utilized for text-to-SQL tasks, achieving promising performance. As modern databases become more complex, the corresponding user questions also grow more challenging, leading PLMs with limited comprehension capabilities to produce incorrect SQL. This necessitates more sophisticated and tailored optimization methods for PLMs, which, in turn, restricts the applications of PLM-based systems. Most recently, large language models (LLMs) have demonstrated significant capabilities in natural language understanding as the model scale remains increasing. Therefore, integrating the LLM-based implementation can bring unique opportunities, improvements, and solutions to text-to-SQL research. In this survey, we present a comprehensive review of LLM-based text-to-SQL. Specifically, we propose a brief overview of the technical challenges and the evolutionary process of text-to-SQL. Then, we provide a detailed introduction to the datasets and metrics designed to evaluate text-to-SQL systems. After that, we present a systematic analysis of recent advances in LLM-based text-to-SQL. Finally, we discuss the remaining challenges in this field and propose expectations for future research directions.
翻訳日:2024-06-28 18:47:10 公開日:2024-06-27
# オーバーラップされたアクティベーション再計算による大規模モデルトレーニングの最適化

Optimizing Large Model Training through Overlapped Activation Recomputation ( http://arxiv.org/abs/2406.08756v2 )

ライセンス: Link先を確認
Ping Chen, Wenjie Zhang, Shuibing He, Yingjie Gu, Zhuwei Peng, Kexin Huang, Xuan Zhan, Weijian Chen, Yi Zheng, Zhefeng Wang, Yanlong Yin, Gang Chen, (参考訳) 大規模なモデルトレーニングでは、データ、テンソル、デバイスの並列性を活用するために、メモリプレッシャーとパイプライニングを緩和するために再計算を使用してきた。 既存の再計算アプローチでは、22BパラメータのGPTモデルをトレーニングする際に最大40%のオーバーヘッドが発生する可能性がある。 これは、クリティカルトレーニングパスで要求に応じて実行されるためです。 本稿では,新たな再計算フレームワークであるLynxを設計し,トレーニングパイプラインで発生する通信と再計算を重複させることによりオーバヘッドを低減する。 最適スケジューリングアルゴリズム(OPT)とヒューリスティックベースのスケジューリングアルゴリズム(HEU)から構成される。 OPTはグローバルな最適化を実現しているが、長い検索時間に悩まされている。 HEUは、大きなDNNモデルに同じ構造が存在するという観測に基づいて設計されており、同じスケジューリングポリシーを全ての同一構造に適用することができる。 HEUは局所的な最適化を実現するが、OPTと比較して検索時間を99%削減する。 1.3B-20Bパラメータを持つGPTモデルを用いた総合評価の結果、OPTとHEUはどちらも最先端の再計算手法(例えばMegatron-LMとCheckmake)を1.02-1.53xで上回っている。 HEUは平均0.16秒の検索時間でOPTと同等のパフォーマンスを達成している。

Large model training has been using recomputation to alleviate the memory pressure and pipelining to exploit the parallelism of data, tensor, and devices. The existing recomputation approaches may incur up to 40% overhead when training real-world models, e.g., the GPT model with 22B parameters. This is because they are executed on demand in the critical training path. In this paper, we design a new recomputation framework, Lynx, to reduce the overhead by overlapping the recomputation with communication occurring in training pipelines. It consists of an optimal scheduling algorithm (OPT) and a heuristic-based scheduling algorithm (HEU). OPT achieves a global optimum but suffers from a long search time. HEU was designed based on our observation that there are identical structures in large DNN models so that we can apply the same scheduling policy to all identical structures. HEU achieves a local optimum but reduces the search time by 99% compared to OPT. Our comprehensive evaluation using GPT models with 1.3B-20B parameters shows that both OPT and HEU outperform the state-of-the-art recomputation approaches (e.g., Megatron-LM and Checkmake) by 1.02-1.53x. HEU achieves a similar performance as OPT with a search time of 0.16s on average.
翻訳日:2024-06-28 18:47:10 公開日:2024-06-27
# PET/CT画像におけるAI損傷追跡に向けて:PSMA PET/CTスキャンに応用したシームズベースのCNNパイプライン

Towards AI Lesion Tracking in PET/CT Imaging: A Siamese-based CNN Pipeline applied on PSMA PET/CT Scans ( http://arxiv.org/abs/2406.09327v2 )

ライセンス: Link先を確認
Stefan P. Hein, Manuel Schultheiss, Andrei Gafita, Raphael Zaum, Farid Yagubbayli, Robert Tauber, Isabel Rauscher, Matthias Eiber, Franz Pfeiffer, Wolfgang A. Weber, (参考訳) 全身療法による腫瘍反応の評価はPET/CTの主な応用の1つである。 定期的に、複数の病変のうち、インデックス病変の小さなサブセットのみが分析される。 しかし、この操作者による選択は、治療に対する反応の有意な転移間不均一性により、結果をバイアスする可能性がある。 自動AIベースの病変追跡アプローチは、より多くの病変の分析を可能にし、腫瘍反応のより良い評価を可能にすることを約束する。 本研究はPET/CTスキャン間の病変追跡のためのSamese CNNアプローチを導入する。 転移性前立腺癌に対する[177Lu]Lu-PSMA療法の2サイクル後の全身ベースラインおよび[68Ga]Ga-または[18F]F-PSMA PET/CTスキャンにおける骨病変の追跡について検討した。 データ準備には病変のセグメンテーションとアフィンの登録が含まれる。 本アルゴリズムは適切な病変のパッチを抽出し,対応する病変または非対応病変として病変のパッチペアを分類する訓練を施したシームズCNNに転送する。 異なる入力パッチタイプと2Dおよび3DのSiameseネットワークで実験が行われた。 CNNモデルは病変の特定に成功し、AUC=0.91の最良の構成で病変追跡精度は83 %に達した。 残存病変では, 再同定率は89 %であった。 我々は,PSMA PET/CTスキャンにおいて,CNNが多発病変の追跡を容易にすることを証明した。 治療結果の予測を改善するためには,今後の臨床研究が必要である。

Assessing tumor response to systemic therapies is one of the main applications of PET/CT. Routinely, only a small subset of index lesions out of multiple lesions is analyzed. However, this operator dependent selection may bias the results due to possible significant inter-metastatic heterogeneity of response to therapy. Automated, AI based approaches for lesion tracking hold promise in enabling the analysis of many more lesions and thus providing a better assessment of tumor response. This work introduces a Siamese CNN approach for lesion tracking between PET/CT scans. Our approach is applied on the laborious task of tracking a high number of bone lesions in full-body baseline and follow-up [68Ga]Ga- or [18F]F-PSMA PET/CT scans after two cycles of [177Lu]Lu-PSMA therapy of metastatic castration resistant prostate cancer patients. Data preparation includes lesion segmentation and affine registration. Our algorithm extracts suitable lesion patches and forwards them into a Siamese CNN trained to classify the lesion patch pairs as corresponding or non-corresponding lesions. Experiments have been performed with different input patch types and a Siamese network in 2D and 3D. The CNN model successfully learned to classify lesion assignments, reaching a lesion tracking accuracy of 83 % in its best configuration with an AUC = 0.91. For remaining lesions the pipeline accomplished a re-identification rate of 89 %. We proved that a CNN may facilitate the tracking of multiple lesions in PSMA PET/CT scans. Future clinical studies are necessary if this improves the prediction of the outcome of therapies.
翻訳日:2024-06-28 18:47:10 公開日:2024-06-27
# 集中型注意:言語モデルに対するドメイン一般化型プロンプト最適化を目指して

Concentrate Attention: Towards Domain-Generalizable Prompt Optimization for Language Models ( http://arxiv.org/abs/2406.10584v3 )

ライセンス: Link先を確認
Chengzhengxu Li, Xiaoming Liu, Zhaohan Zhang, Yichen Wang, Chen Liu, Yu Lan, Chao Shen, (参考訳) 近年のプロンプト最適化の進歩により、下流タスクにおける事前学習言語モデル(PLM)の性能が向上している。 しかし、ドメイン一般化における最適化されたプロンプトの可能性は、まだ解明されていない。 未知の領域に対する迅速な一般化の性質を探るため、パイロット実験を行い、それを見つける。 一 PLM の深層からより注目されるプロンプトはより一般化可能であること。 (II) PLMの深層におけるより安定した注意分布を持つプロンプトはより一般化可能である。 そこで我々は,現在デコードトークンからプロンプトトークンへの"振り返り"の注意を表す"集中"というドメイン一般化可能なプロンプト最適化に向けて,新たな目標を提案し,プロンプトに対する注意力を高め,注意分布の変動を低減する。 我々は,この新たな目的を,それぞれ一般的なソフトプロンプトとハードプロンプトの最適化手法に適用する。 拡張実験により,提案手法は,ソフトプロンプトの一般化において1.42%,マルチソース領域の一般化設定においてハードプロンプトの一般化において2.16%向上し,ドメイン内性能の満足度を維持しつつ比較プロンプトの最適化手法の改善を図っている。 提案したプロンプト最適化手法の有効性を検証し,ドメイン一般化可能なプロンプトに対する重要な洞察を提供する。

Recent advances in prompt optimization have notably enhanced the performance of pre-trained language models (PLMs) on downstream tasks. However, the potential of optimized prompts on domain generalization has been under-explored. To explore the nature of prompt generalization on unknown domains, we conduct pilot experiments and find that (i) Prompts gaining more attention weight from PLMs' deep layers are more generalizable and (ii) Prompts with more stable attention distributions in PLMs' deep layers are more generalizable. Thus, we offer a fresh objective towards domain-generalizable prompts optimization named "Concentration", which represents the "lookback" attention from the current decoding token to the prompt tokens, to increase the attention strength on prompts and reduce the fluctuation of attention distribution. We adapt this new objective to popular soft prompt and hard prompt optimization methods, respectively. Extensive experiments demonstrate that our idea improves comparison prompt optimization methods by 1.42% for soft prompt generalization and 2.16% for hard prompt generalization in accuracy on the multi-source domain generalization setting, while maintaining satisfying in-domain performance. The promising results validate the effectiveness of our proposed prompt optimization objective and provide key insights into domain-generalizable prompts.
翻訳日:2024-06-28 18:47:10 公開日:2024-06-27
# MetaGPT: モデル排他的タスク算術を用いた大規模言語モデルの統合

MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic ( http://arxiv.org/abs/2406.11385v2 )

ライセンス: Link先を確認
Yuyan Zhou, Liang Song, Bingning Wang, Weipeng Chen, (参考訳) GPT-4のような大規模言語モデル(LLM)の出現は、マルチタスク学習(MTL)の探索を触媒し、単一のモデルが様々なタスクの習熟度を示す。 タスク算術は、MLLのコスト効率の高いアプローチとして登場した。 トレーニング済みモデルに対応するタスクベクトルを追加することで、複数のタスクのパフォーマンス向上を可能にする。 しかし、現在、最適な性能、計算効率、データのプライバシを同時に達成できる手法が欠如しているため、アプリケーションはLLMに制限される。 本稿では, モデルがマルチタスク学習フレームワークにマージする目的を定式化し, マージモデルと各タスクモデルの平均損失差を最小化することを目的とした, \textbf{M}odel \textbf{E}xclusive \textbf{T}ask \textbf{A}rithmetic for merging \textbf{GPT}-scale modelを提案する。 データプライバシはマルチタスクトレーニングデータの使用を制限するため、LLMの局所線形性とタスクベクトルの直交性を利用して、データ項とスケーリング係数項を分離し、モデル排他的タスク算術法を導出する。 提案するMetaGPTは,データに依存しない多元探索処理を回避し,コスト効率が高く,LLMの実装が容易である。

The advent of large language models (LLMs) like GPT-4 has catalyzed the exploration of multi-task learning (MTL), in which a single model demonstrates proficiency across diverse tasks. Task arithmetic has emerged as a cost-effective approach for MTL. It enables performance enhancement across multiple tasks by adding their corresponding task vectors to a pre-trained model. However, the current lack of a method that can simultaneously achieve optimal performance, computational efficiency, and data privacy limits their application to LLMs. In this paper, we propose \textbf{M}odel \textbf{E}xclusive \textbf{T}ask \textbf{A}rithmetic for merging \textbf{GPT}-scale models, which formalizes the objective of model merging into a multi-task learning framework, aiming to minimize the average loss difference between the merged model and each individual task model. Since data privacy limits the use of multi-task training data, we leverage LLMs' local linearity and task vectors' orthogonality to separate the data term and scaling coefficients term and derive a model-exclusive task arithmetic method. Our proposed MetaGPT is data-agnostic and bypasses the heavy search process, making it cost-effective and easy to implement for LLMs.Extensive experiments demonstrate that MetaGPT leads to improvements in task arithmetic and achieves state-of-the-art performance on multiple tasks.
翻訳日:2024-06-28 18:47:10 公開日:2024-06-27
# CrAM:RAGにおける誤情報伝達のためのLCMの信頼性を考慮した注意修正

CrAM: Credibility-Aware Attention Modification in LLMs for Combating Misinformation in RAG ( http://arxiv.org/abs/2406.11497v2 )

ライセンス: Link先を確認
Boyi Deng, Wenjie Wang, Fengbin Zhu, Qifan Wang, Fuli Feng, (参考訳) Retrieval-Augmented Generation (RAG)は、外部文書を参照することにより、LLM(Large Language Models)の幻覚を軽減することができる。 しかし、外部文書の誤報はLLMの世代を誤解させる可能性がある。 この問題に対処するために,LLM が検索した文書の信頼度スコアに基づく影響を自動的に調整し,誤情報に対処する "Credibility-Aware RAG" の課題について検討する。 この目的のために,プラグイン・アンド・プレイ方式である$\textbf{Cr}$edibility-aware $\textbf{A}$ttention $\textbf{M}$odification (CrAM)を導入する。 CrAM は LLM における影響力のある注意を識別し,文書の信頼性に基づいて注意重みを調整することにより,低信頼度文書の影響を低減する。 Llama2-13B, Llama3-8B, Qwen-7B を用いた自然質問・トリビアQA実験の結果, CrAM は誤情報汚染に対する LLM のRAG 性能を20%以上改善し, 教師付き微調整法を超越した。

Retrieval-Augmented Generation (RAG) can alleviate hallucinations of Large Language Models (LLMs) by referencing external documents. However, the misinformation in external documents may mislead LLMs' generation. To address this issue, we explore the task of "credibility-aware RAG", in which LLMs automatically adjust the influence of retrieved documents based on their credibility scores to counteract misinformation. To this end, we introduce a plug-and-play method named $\textbf{Cr}$edibility-aware $\textbf{A}$ttention $\textbf{M}$odification (CrAM). CrAM identifies influential attention heads in LLMs and adjusts their attention weights based on the credibility of the documents, thereby reducing the impact of low-credibility documents. Experiments on Natual Questions and TriviaQA using Llama2-13B, Llama3-8B, and Qwen-7B show that CrAM improves the RAG performance of LLMs against misinformation pollution by over 20%, even surpassing supervised fine-tuning methods.
翻訳日:2024-06-28 18:47:10 公開日:2024-06-27
# ChatGPTは、禁止されている国では科学にもっと使われる

Where there's a will there's a way: ChatGPT is used more for science in countries where it is prohibited ( http://arxiv.org/abs/2406.11583v4 )

ライセンス: Link先を確認
Honglin Bao, Mengyi Sun, Misha Teplitskiy, (参考訳) AIの規制は重要な社会的課題であるが、どの規制方法が効果的かは不明だ。 本研究は、ChatGPTに着目し、地理的にAIサービスを制限する効果を測定する。 OpenAIは中国やロシアを含むいくつかの国でChatGPTアクセスを制限している。 制限が有効であれば、これらの国ではChatGPTの使用は最小限にすべきである。 そこで我々は,ChatGPTの初期バージョンに見られる特徴的単語使用量に基づく分類器を用いて,その使用量を測定した。 我々は、ChatGPTの事前およびポストChatGPTの「ポリケート」抽象化に基づいて分類器を訓練し、自己報告されたAI使用論文を含む検証セットにおいて、GPTZeroとZeroGPTよりも優れた性能を示した。 Arxiv、BioRxiv、MedRxivのプリプリントに分類器を適用すると、2023年8月までにChatGPTが約12.6%使用され、制限された国では7.7%高用量であった。 このギャップは、中国の最初の主要な法的LLMが広く利用できるようになる前に現れた。 高い需要のため、制限のない国での使用がさらに増加していた可能性をテストするため、高い需要のアジア諸国(英語は公用語ではない)を比較し、制限のある国では使用が増加していた。 ChatGPTの使用は、より高いビューやダウンロードと相関していたが、引用やジャーナルの配置は行わなかった。 全体として、ChatGPTを地理的に制限することは、おそらく広範囲にわたる回避策のために、科学や他の分野では効果がないことが証明されている。

Regulating AI is a key societal challenge, but which regulation methods are effective is unclear. This study measures the effectiveness of restricting AI services geographically, focusing on ChatGPT. OpenAI restricts ChatGPT access in several countries, including China and Russia. If restrictions are effective, ChatGPT use should be minimal in these countries. We measured use with a classifier based on distinctive word usage found in early versions of ChatGPT, e.g. "delve." We trained the classifier on pre- and post-ChatGPT "polished" abstracts and found it outperformed GPTZero and ZeroGPT on validation sets, including papers with self-reported AI use. Applying the classifier to preprints from Arxiv, BioRxiv, and MedRxiv showed ChatGPT was used in about 12.6% of preprints by August 2023, with 7.7% higher usage in restricted countries. The gap appeared before China's first major legal LLM became widely available. To test the possibility that, due to high demand, use in restricted countries would have been even higher without restrictions, we compared Asian countries with high expected demand (where English is not an official language) and found that use was higher in those with restrictions. ChatGPT use was correlated with higher views and downloads, but not citations or journal placement. Overall, restricting ChatGPT geographically has proven ineffective in science and possibly other domains, likely due to widespread workarounds.
翻訳日:2024-06-28 18:47:10 公開日:2024-06-27
# 1000のアフリカ音声: 包括的多話者音声合成の促進

1000 African Voices: Advancing inclusive multi-speaker multi-accent speech synthesis ( http://arxiv.org/abs/2406.11727v2 )

ライセンス: Link先を確認
Sewade Ogun, Abraham T. Owodunni, Tobi Olatunji, Eniola Alese, Babatunde Oladimeji, Tejumade Afonja, Kayode Olaleye, Naome A. Etori, Tosin Adewumi, (参考訳) 音声合成の最近の進歩は、Google Mapsの音声方向案内、スクリーンリーダー、TikTokのようなプラットフォーム上の自動コンテンツ生成など、多くの有用なアプリケーションを可能にしている。 しかし、これらのシステムは、主にデータ豊富な地理から派生した音声に支配されており、その元データを表すペルソナが存在する。 世界の言語のうち3000語はアフリカでドミミル化されているが、アフリカ人の声やペルソナはこれらのシステムではあまり表現されていない。 音声合成が民主化されるにつれて、アフリカ英語のアクセントの表現を増やすことが望ましい。 Afro-TTSは、アフリカで86のアクセントで音声を生成することができる最初のパン・アフリカアクセント付き英語音声合成システムであり、教育、公衆衛生、自動コンテンツ作成における下流の応用のために、大陸の豊かな音韻学的多様性を表す1000人の人格を提示する。 話者補間は自然さとアクセントを保ち、新しい声を作り出すことができる。

Recent advances in speech synthesis have enabled many useful applications like audio directions in Google Maps, screen readers, and automated content generation on platforms like TikTok. However, these systems are mostly dominated by voices sourced from data-rich geographies with personas representative of their source data. Although 3000 of the world's languages are domiciled in Africa, African voices and personas are under-represented in these systems. As speech synthesis becomes increasingly democratized, it is desirable to increase the representation of African English accents. We present Afro-TTS, the first pan-African accented English speech synthesis system able to generate speech in 86 African accents, with 1000 personas representing the rich phonological diversity across the continent for downstream application in Education, Public Health, and Automated Content Creation. Speaker interpolation retains naturalness and accentedness, enabling the creation of new voices.
翻訳日:2024-06-28 18:47:10 公開日:2024-06-27
# MedCalc-Bench:医学計算のための大規模言語モデルの評価

MedCalc-Bench: Evaluating Large Language Models for Medical Calculations ( http://arxiv.org/abs/2406.12036v3 )

ライセンス: Link先を確認
Nikhil Khandekar, Qiao Jin, Guangzhi Xiong, Soren Dunn, Serina S Applebaum, Zain Anwar, Maame Sarfo-Gyamfi, Conrad W Safranek, Abid A Anwar, Andrew Zhang, Aidan Gilson, Maxwell B Singer, Amisha Dave, Andrew Taylor, Aidong Zhang, Qingyu Chen, Zhiyong Lu, (参考訳) 計算と論理ベースの推論を評価するのとは対照的に、医学における大規模言語モデル(LLM)を評価するための現在のベンチマークは、主にドメイン知識と記述的推論を含む質問応答に焦点を当てている。 このような定性的な能力は医学的診断に不可欠であるが、現実のシナリオでは、医師はしばしば、定量的方程式に従う臨床電卓と、エビデンスベースの意思決定支援のためのルールベースの推論パラダイムを使用する。 この目的のために, LLMの医療計算能力を評価することを目的とした, 第一種データセットであるMedCalc-Benchを提案する。 MedCalc-Benchには、55の異なる医療計算タスクから1000以上のレビュー済みのインスタンスの評価セットが含まれている。 MedCalc-Benchの各インスタンスは、患者ノート、特定の医学的価値の計算を要求する質問、真実の答え、そしてその答えがどのように得られるかを示すステップバイステップの説明からなる。 以上の結果から, 当科におけるLSMsの有用性が示唆されるが, 臨床検査に十分な効果は得られていない。 一般的な問題としては、不正なエンティティを抽出すること、計算タスクに正しい方程式や規則を使わないこと、計算の算術を誤って実行することなどがある。 医療現場におけるLSMの量的知識と推論のギャップを強調し,様々な臨床計算タスクにおけるLCMの今後の改善を促すことを願っている。

As opposed to evaluating computation and logic-based reasoning, current benchmarks for evaluating large language models (LLMs) in medicine are primarily focused on question-answering involving domain knowledge and descriptive reasoning. While such qualitative capabilities are vital to medical diagnosis, in real-world scenarios, doctors frequently use clinical calculators that follow quantitative equations and rule-based reasoning paradigms for evidence-based decision support. To this end, we propose MedCalc-Bench, a first-of-its-kind dataset focused on evaluating the medical calculation capability of LLMs. MedCalc-Bench contains an evaluation set of over 1000 manually reviewed instances from 55 different medical calculation tasks. Each instance in MedCalc-Bench consists of a patient note, a question requesting to compute a specific medical value, a ground truth answer, and a step-by-step explanation showing how the answer is obtained. While our evaluation results show the potential of LLMs in this area, none of them are effective enough for clinical settings. Common issues include extracting the incorrect entities, not using the correct equation or rules for a calculation task, or incorrectly performing the arithmetic for the computation. We hope our study highlights the quantitative knowledge and reasoning gaps in LLMs within medical settings, encouraging future improvements of LLMs for various clinical calculation tasks.
翻訳日:2024-06-28 18:47:10 公開日:2024-06-27
# 心拍予測のための時系列モデリング:ARIMAから変圧器へ

Time Series Modeling for Heart Rate Prediction: From ARIMA to Transformers ( http://arxiv.org/abs/2406.12199v2 )

ライセンス: Link先を確認
Haowei Ni, Shuchen Meng, Xieming Geng, Panfeng Li, Zhuoying Li, Xupeng Chen, Xiaotong Wang, Shiyao Zhang, (参考訳) 心臓血管疾患(CVD)は世界的な死因であり、心拍数、血圧、心電図などの重要な兆候を監視するための正確な予測モデルを必要とする。 ARIMAやProphetのような伝統的なモデルは、手動パラメータチューニングの必要性とノイズやスパース、高度に可変した医療データを扱う際の課題によって制限されている。 本研究では,MIT-BIHデータベースから心拍数時系列を予測するためのLSTMやトランスフォーマーベースアーキテクチャを含む高度なディープラーニングモデルについて検討する。 結果は、ディープラーニングモデル、特にPatchTSTが、複数のメトリクスで従来のモデルを大幅に上回っており、複雑なパターンや依存関係をより効率的にキャプチャしていることを示している。 本研究は,患者モニタリングとCVD管理の深層学習の可能性を強調し,臨床効果を示唆するものである。 今後は、これらの研究成果を、より大規模で多様なデータセットや実世界の臨床応用に拡張して、モデルのパフォーマンスをさらに検証し、最適化する予定である。

Cardiovascular disease (CVD) is a leading cause of death globally, necessitating precise forecasting models for monitoring vital signs like heart rate, blood pressure, and ECG. Traditional models, such as ARIMA and Prophet, are limited by their need for manual parameter tuning and challenges in handling noisy, sparse, and highly variable medical data. This study investigates advanced deep learning models, including LSTM, and transformer-based architectures, for predicting heart rate time series from the MIT-BIH Database. Results demonstrate that deep learning models, particularly PatchTST, significantly outperform traditional models across multiple metrics, capturing complex patterns and dependencies more effectively. This research underscores the potential of deep learning to enhance patient monitoring and CVD management, suggesting substantial clinical benefits. Future work should extend these findings to larger, more diverse datasets and real-world clinical applications to further validate and optimize model performance.
翻訳日:2024-06-28 18:47:10 公開日:2024-06-27
# 核スピンと光時計キュービットのハイブリッド原子トウィーザーアレイ

A hybrid atom tweezer array of nuclear spin and optical clock qubits ( http://arxiv.org/abs/2406.12247v2 )

ライセンス: Link先を確認
Yuma Nakamura, Toshi Kusano, Rei Yokoyama, Keito Saito, Koichiro Higashi, Naoya Ozawa, Tetsushi Takano, Yosuke Takasu, Yoshiro Takahashi, (参考訳) 量子情報の保存には長いコヒーレンス時間を持つデータ量子ビットが不可欠であるが、フォールトトレラント量子コンピューティングの量子エラー補正(QEC)では、アシラ量子ビットが中心となる。 大規模量子ビットアレイや高忠実ゲート演算などの光ツイーザアレイの最近の開発は、QECプロトコルを実現する可能性を提供しており、次の重要な課題の1つは、原子損失とクロストークを最小化しながら、アンシラ量子ビットを制御および検出することである。 ここでは、フェルミオン${}^{171}\mathrm{Yb}$とボソニック${}^{174}\mathrm{Yb}$の原子核スピンキュービットを非破壊的クビット読み出し能力を持つアンシラキュービットとして利用することができる二重同位体イッテルビウム(Yb)原子配列からなるハイブリッドシステムの実現について述べる。 本研究では,核スピン量子ビットのコヒーレンスに対する影響に関するクビット間のクロストークを${}^{174}\mathrm{Yb}$で評価した。 556nmのプローブビームを持つラムゼイ系列は、100ミリ秒の露光時間までのコヒーレンスに無視できる影響を示す。 399nmのプローブと556nmの冷却ビームを${}^{174}\mathrm{Yb}$とすることで、30msの露光下で98.4(2.1)のコヒーレンスを保持するのを観察する。 この結果は、Acilla-qubitベースのQECプロトコルのためのハイブリッドYb原子アレイの可能性を強調している。

While data qubits with a long coherence time are essential for the storage of quantum information, ancilla qubits are pivotal in quantum error correction (QEC) for fault-tolerant quantum computing. The recent development of optical tweezer arrays, such as the preparation of large-scale qubit arrays and high-fidelity gate operations, offers the potential for realizing QEC protocols, and one of the important next challenges is to control and detect ancilla qubits while minimizing atom loss and crosstalk. Here, we present the realization of a hybrid system consisting of a dual-isotope ytterbium (Yb) atom array, in which we can utilize a nuclear spin qubit of fermionic ${}^{171}\mathrm{Yb}$ as a data qubit and an optical clock qubit of bosonic ${}^{174}\mathrm{Yb}$ as an ancilla qubit with a capacity of non-destructive qubit readout. We evaluate the crosstalk between qubits regarding the impact on the coherence of the nuclear spin qubits from the imaging light for ${}^{174}\mathrm{Yb}$. The Ramsey sequence with a 556 nm probe beam shows negligible influence on the coherence up to 100 ms exposure time. In the Hahn-echo sequence with a 399 nm probe and 556 nm cooling beams for ${}^{174}\mathrm{Yb}$, we observe retaining a 98.4(2.1) % coherence under 30 ms exposure. This result highlights the potential of the hybrid-Yb atom array for ancilla-qubit-based QEC protocols.
翻訳日:2024-06-28 18:47:10 公開日:2024-06-27
# WebCanvas: オンライン環境におけるWebエージェントのベンチマーク

WebCanvas: Benchmarking Web Agents in Online Environments ( http://arxiv.org/abs/2406.12373v2 )

ライセンス: Link先を確認
Yichen Pan, Dehan Kong, Sida Zhou, Cheng Cui, Yifei Leng, Bing Jiang, Hangyu Liu, Yanyi Shang, Shuyan Zhou, Tongshuang Wu, Zhengyang Wu, (参考訳) Webエージェントが実用的に有用であるためには、ユーザインターフェースやコンテンツへの頻繁な更新を特徴とする、継続的な進化するWeb環境に適応する必要がある。 しかし、既存のベンチマークのほとんどは、Webの静的な側面のみをキャプチャしている。 このギャップを埋めるために、WebCanvasはWebエージェントのための革新的なオンライン評価フレームワークであり、Webインタラクションの動的な性質を効果的に解決する。 現実的な評価を促進するために, WebCanvas には3つの主要な要素がある。(1) 重要な中間動作やタスク完了に必要な状態を確実に捉えつつ,重要イベントや変更された Web 要素によるノイズを無視した,新たな評価指標。 2) Mind2Web-Liveと呼ばれるベンチマークデータセットは、オリジナルのMind2Web静的データセットの洗練されたバージョンで、2439の中間評価状態を持つ542のタスクを含む。 WebCanvas上に構築したエージェントフレームワークは,推論のための拡張可能なモジュールを備えたオープンソースであり,コミュニティがオンライン推論と評価を行うための基盤を提供する。 ベストパフォーマンスエージェントは,Mind2Web-Liveテストセット上でのタスク成功率23.1%,タスク完了率48.8%を達成する。 さらに,様々なWebサイト,ドメイン,実験環境におけるパフォーマンスの相違について分析する。 我々は、オンラインエージェント評価に関するさらなる知見をコミュニティに提供し、この研究分野を前進させることを奨励する。

For web agents to be practically useful, they must adapt to the continuously evolving web environment characterized by frequent updates to user interfaces and content. However, most existing benchmarks only capture the static aspects of the web. To bridge this gap, we introduce WebCanvas, an innovative online evaluation framework for web agents that effectively addresses the dynamic nature of web interactions. WebCanvas contains three main components to facilitate realistic assessments: (1) A novel evaluation metric which reliably capture critical intermediate actions or states necessary for task completions while disregarding noise caused by insignificant events or changed web-elements. (2) A benchmark dataset called Mind2Web-Live, a refined version of original Mind2Web static dataset containing 542 tasks with 2439 intermediate evaluation states; (3) Lightweight and generalizable annotation tools and testing pipelines that enables the community to collect and maintain the high-quality, up-to-date dataset. Building on WebCanvas, we open-source an agent framework with extensible modules for reasoning, providing a foundation for the community to conduct online inference and evaluations. Our best-performing agent achieves a task success rate of 23.1% and a task completion rate of 48.8% on the Mind2Web-Live test set. Additionally, we analyze the performance discrepancies across various websites, domains, and experimental environments. We encourage the community to contribute further insights on online agent evaluation, thereby advancing this field of research.
翻訳日:2024-06-28 18:47:10 公開日:2024-06-27
# アンダーアライメントを超えて:大規模言語モデルのためのアトミックな優先度向上によるファクチュアリティチューニング

Beyond Under-Alignment: Atomic Preference Enhanced Factuality Tuning for Large Language Models ( http://arxiv.org/abs/2406.12416v2 )

ライセンス: Link先を確認
Hongbang Yuan, Yubo Chen, Pengfei Cao, Zhuoran Jin, Kang Liu, Jun Zhao, (参考訳) 大型言語モデル(LLM)は目覚ましい成功を収めているが、いまだに幻覚と呼ばれる現象である事実的に誤った反応を生じさせる傾向がある。 最近のトレンドは、好みの学習を使ってモデルを微調整し、事実と一致させることである。 しかし、既存の研究は主にドメイン内(ID)データセットの微調整モデルを評価しており、ドメイン外(OOD)データセットの事実はいまだ調査されていない。 本稿では,様々な選好学習アルゴリズムによって調整された異なるモデルの事実性を総合的に評価し,OODデータセット上での性能が最小限に向上するか低下するかを示す。 その後、モデルが現実性を維持できなかった主な原因は、調整前後のモデルのトークン分布シフトを分析することによって、 \textbf{under-alignment} ではなく \textbf{under-alignment} であることが明らかとなった。 最後に、個々の事実の粒度におけるモデルによる事実の認識を高めるフレームワークである \textbf{APEFT} (\textbf{A}tomic \textbf{P}reference \textbf{E}nhanced \textbf{F}actuality \textbf{T}uning) を提案する。 APEFTは、IDデータセットとOODデータセットの両方で平均$\boldsymbol{3.45\%}$でモデル性能を向上し、非常に効果的であることを示した。

Large language models (LLMs) have achieved remarkable success but still tend to generate factually erroneous responses, a phenomenon known as hallucination. A recent trend is to use preference learning to fine-tune models to align with factuality. However, existing work primarily evaluates fine-tuned models on in-domain (ID) datasets and the factuality on out-of-domain (OOD) datasets remains underexplored. In this paper, we conduct a comprehensive evaluation of the factuality of different models tuned by various preference learning algorithms and demonstrate that their performance on OOD datasets either increases minimally or decreases. Subsequently, we reveal that the main cause of model's failure to uphold factuality under a distribution shift is \textbf{under-alignment}, rather than \textbf{over-alignment}, by analyzing the token distribution shift of the models before and after tuning. Finally, we propose \textbf{APEFT} (\textbf{A}tomic \textbf{P}reference \textbf{E}nhanced \textbf{F}actuality \textbf{T}uning), a framework that enhances model's awareness of factuality at the granularity of individual facts. Extensive experiments demonstrate that APEFT improves model performance by an average of $\boldsymbol{3.45\%}$ on both ID and OOD datasets, which is highly effective.
翻訳日:2024-06-28 18:37:21 公開日:2024-06-27
# 検索機能強化のための統一型アクティブ検索

Unified Active Retrieval for Retrieval Augmented Generation ( http://arxiv.org/abs/2406.12534v3 )

ライセンス: Link先を確認
Qinyuan Cheng, Xiaonan Li, Shimin Li, Qin Zhu, Zhangyue Yin, Yunfan Shao, Linyang Li, Tianxiang Sun, Hang Yan, Xipeng Qiu, (参考訳) Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。 したがって、回収するかどうかを決定することは、通常Active Retrievalと呼ばれるRAGにとって不可欠である。 しかし、既存のアクティブ検索手法は2つの課題に直面している。 1 通常は、様々な種類の命令を扱うのに苦労する単一の基準に依存する。 2. 特殊・高度に差別化された手順に依存しており,RAGシステムをより複雑にし,応答遅延を増大させる。 これらの課題に対処するため、我々はUnified Active Retrieval (UAR)を提案する。 UARは4つの直交基準を含み、それらをプラグアンドプレイ分類タスクにキャストし、無視可能な余分な推論コストで多面的検索タイミング判定を行う。 さらに、標準化された手順で多様なアクティブ検索シナリオを処理するために設計されたUnified Active Retrieval Criteria (UAR-Criteria)を紹介する。 4種類のユーザインストラクションを用いた実験により,UARは検索タイミング判断や下流タスクのパフォーマンスにおいて,既存の作業よりも大幅に優れており,UARの有効性と下流タスクへの有用性を示している。

In Retrieval-Augmented Generation (RAG), retrieval is not always helpful and applying it to every instruction is sub-optimal. Therefore, determining whether to retrieve is crucial for RAG, which is usually referred to as Active Retrieval. However, existing active retrieval methods face two challenges: 1. They usually rely on a single criterion, which struggles with handling various types of instructions. 2. They depend on specialized and highly differentiated procedures, and thus combining them makes the RAG system more complicated and leads to higher response latency. To address these challenges, we propose Unified Active Retrieval (UAR). UAR contains four orthogonal criteria and casts them into plug-and-play classification tasks, which achieves multifaceted retrieval timing judgements with negligible extra inference cost. We further introduce the Unified Active Retrieval Criteria (UAR-Criteria), designed to process diverse active retrieval scenarios through a standardized procedure. Experiments on four representative types of user instructions show that UAR significantly outperforms existing work on the retrieval timing judgement and the performance of downstream tasks, which shows the effectiveness of UAR and its helpfulness to downstream tasks.
翻訳日:2024-06-28 18:37:21 公開日:2024-06-27
# 階層型プロンプト分類:大規模言語モデルのための普遍的評価フレームワーク

Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models ( http://arxiv.org/abs/2406.12644v2 )

ライセンス: Link先を確認
Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha, (参考訳) 大きな言語モデル(LLM)が様々なタスクに対処する効果を評価することは、その強みと弱さを理解するのに不可欠である。 従来の評価手法は、通常、タスクの複雑さの度合いを考慮せず、データセット全体で一様に単一のプロンプト戦略を適用する。 階層型プロンプト・フレームワーク(HPF)を用いた分類法である階層型プロンプト分類法(HPT)を導入し,最も単純なものから最も複雑なものへと配置し,LCMをより正確に評価し,より明確な視点を提供する。 この分類学はヒエラルキー・プロンプトスコア(HP-Score)と呼ばれるスコアを分類学の規則に基づくデータセットとLLMに割り当て、多様なタスクを解く能力の微妙な理解を提供し、タスクの複雑さの普遍的な尺度を提供する。 さらに,タスク毎に適切なプロンプト戦略の選択を自動化するAdaptive Hierarchical Promptフレームワークを導入する。 本研究では,Llama 3 8B,Phi 3 3.8B,Mistral 7B,Gemma 7Bの4つの命令調整LDMを,BoolQ,CommonSenseQA (CSQA),IWSLT-2017 en-fr (IWSLT),SamSumの4つのデータセットで比較した。 実験はHPTの有効性を示し、異なるタスクとLLM機能を比較する信頼性の高い方法を提供する。 本稿では,LLMの複雑性と能力の両面を評価できる普遍的評価指標の開発に繋がる。 手動HPFと適応HPFの両方の実装が公開されている。

Assessing the effectiveness of large language models (LLMs) in addressing diverse tasks is essential for comprehending their strengths and weaknesses. Conventional evaluation techniques typically apply a single prompting strategy uniformly across datasets, not considering the varying degrees of task complexity. We introduce the Hierarchical Prompting Taxonomy (HPT), a taxonomy that employs a Hierarchical Prompt Framework (HPF) composed of five unique prompting strategies, arranged from the simplest to the most complex, to assess LLMs more precisely and to offer a clearer perspective. This taxonomy assigns a score, called the Hierarchical Prompting Score (HP-Score), to datasets as well as LLMs based on the rules of the taxonomy, providing a nuanced understanding of their ability to solve diverse tasks and offering a universal measure of task complexity. Additionally, we introduce the Adaptive Hierarchical Prompt framework, which automates the selection of appropriate prompting strategies for each task. This study compares manual and adaptive hierarchical prompt frameworks using four instruction-tuned LLMs, namely Llama 3 8B, Phi 3 3.8B, Mistral 7B, and Gemma 7B, across four datasets: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT), and SamSum. Experiments demonstrate the effectiveness of HPT, providing a reliable way to compare different tasks and LLM capabilities. This paper leads to the development of a universal evaluation metric that can be used to evaluate both the complexity of the datasets and the capabilities of LLMs. The implementation of both manual HPF and adaptive HPF is publicly available.
翻訳日:2024-06-28 18:37:21 公開日:2024-06-27
# ネットワーク医療とGenAIによる複雑疾患治療の加速 : 乳癌に対する薬物治療を事例として

Accelerating Complex Disease Treatment through Network Medicine and GenAI: A Case Study on Drug Repurposing for Breast Cancer ( http://arxiv.org/abs/2406.13106v3 )

ライセンス: Link先を確認
Ahmed Abdeen Hamed, Tamer E. Fandy, (参考訳) 本研究の目的は, 臨床治験や生医学文献など, 現実の証拠資料を調査し, 再活用可能な薬剤の予測を専門とするネットワークを導入することである。 具体的には、複雑な疾患(例えば、がん、アルツハイマー病)に対する薬物併用療法を作成することを目的としている。 本稿では,高度に構成されたChatGPTプロンプト・エンジニアリング・システムによる多層ネットワーク・メディカル・アプローチを提案する。 さらに,現実の証拠を病原性シグナル伝達経路(KEGGデータベースなど)に結びつける新しいアルゴリズムを提案する。 これは、シグナル伝達経路の1つ以上のタンパク質成分と結合すると、薬の再利用可能性に光を当てる。 その結果,46の乳癌シグナル伝達経路のうち,少なくとも2つの薬剤を投与した38の経路が同定された。 この証拠はこれらの薬物を組み合わせる可能性を示唆している。 具体的には、最もカバーされたシグナル伝達経路であるID hsa:2064は、108の薬物でカバーされ、そのうちのいくつかは組み合わせることができる。 逆に、シグナル伝達経路 ID hsa:1499 はわずか2つの薬物で覆われており、さらなる研究には大きなギャップがあることが示されている。 GenAIによって強化された我々のネットワーク医療フレームワークは、標的となるシグナル伝達経路やタンパク質を正確に把握し、薬物の組み合わせを高い特異度で識別する可能性を示しています。 ChatGPTは、臨床試験で薬物の言及を識別する過程をうまく加速したが、薬物の言及間の関係を判断するためには、さらなる調査が必要である。

The objective of this research is to introduce a network specialized in predicting drugs that can be repurposed by investigating real-world evidence sources, such as clinical trials and biomedical literature. Specifically, it aims to generate drug combination therapies for complex diseases (e.g., cancer, Alzheimer's). We present a multilayered network medicine approach, empowered by a highly configured ChatGPT prompt engineering system, which is constructed on the fly to extract drug mentions in clinical trials. Additionally, we introduce a novel algorithm that connects real-world evidence with disease-specific signaling pathways (e.g., KEGG database). This sheds light on the repurposability of drugs if they are found to bind with one or more protein constituents of a signaling pathway. To demonstrate, we instantiated the framework for breast cancer and found that, out of 46 breast cancer signaling pathways, the framework identified 38 pathways that were covered by at least two drugs. This evidence signals the potential for combining those drugs. Specifically, the most covered signaling pathway, ID hsa:2064, was covered by 108 drugs, some of which can be combined. Conversely, the signaling pathway ID hsa:1499 was covered by only two drugs, indicating a significant gap for further research. Our network medicine framework, empowered by GenAI, shows promise in identifying drug combinations with a high degree of specificity, knowing the exact signaling pathways and proteins that serve as targets. It is noteworthy that ChatGPT successfully accelerated the process of identifying drug mentions in clinical trials, though further investigations are required to determine the relationships among the drug mentions.
翻訳日:2024-06-28 18:37:21 公開日:2024-06-27
# VDebugger: ビジュアルプログラムのデバッグに実行時のフィードバックを損なう

VDebugger: Harnessing Execution Feedback for Debugging Visual Programs ( http://arxiv.org/abs/2406.13444v2 )

ライセンス: Link先を確認
Xueqing Wu, Zongyu Lin, Songyan Zhao, Te-Lin Wu, Pan Lu, Nanyun Peng, Kai-Wei Chang, (参考訳) ビジュアルプログラムは、視覚的推論問題に対処するために、大きな言語モデルによって生成された実行可能なコードである。 複雑な質問を複数の推論ステップに分解し、各ステップで特別なモデルを実行して問題を解決する。 しかし,これらのプログラムは論理エラーを起こしやすいため,予備評価の結果,総エラーの58%がプログラム論理エラーによるものであることが判明した。 複雑なビジュアルプログラムのデバッグは、視覚的推論の大きなボトルネックである。 VDebuggerは、視覚プログラムのローカライズとデバッグを段階的に行うことで、視覚プログラムのローカライズとデバッグを訓練した、新しい評論家/リファイナフレームワークである。 VDebuggerは、詳細な実行フィードバックを活用してプログラムエラーを特定し、修正する。 トレーニングデータは、新しいマスク-ベストデコーディング技術を用いて、エラーを正しい視覚プログラムに注入する自動パイプラインを通じて生成される。 6つのデータセットの評価は、VDebuggerの有効性を示し、ダウンストリームタスクの精度が最大3.2%向上したことを示している。 さらなる研究は、VDebuggerが未確認のタスクに一般化する能力を示し、未確認のCOVRタスクに対して2.3%の顕著な改善をもたらしたことを示している。 コード、データ、モデルはhttps://github.com/shirley-wu/vdebugger/で公開されている。

Visual programs are executable code generated by large language models to address visual reasoning problems. They decompose complex questions into multiple reasoning steps and invoke specialized models for each step to solve the problems. However, these programs are prone to logic errors, with our preliminary evaluation showing that 58% of the total errors are caused by program logic errors. Debugging complex visual programs remains a major bottleneck for visual reasoning. To address this, we introduce VDebugger, a novel critic-refiner framework trained to localize and debug visual programs by tracking execution step by step. VDebugger identifies and corrects program errors leveraging detailed execution feedback, improving interpretability and accuracy. The training data is generated through an automated pipeline that injects errors into correct visual programs using a novel mask-best decoding technique. Evaluations on six datasets demonstrate VDebugger's effectiveness, showing performance improvements of up to 3.2% in downstream task accuracy. Further studies show VDebugger's ability to generalize to unseen tasks, bringing a notable improvement of 2.3% on the unseen COVR task. Code, data and models are made publicly available at https://github.com/shirley-wu/vdebugger/
翻訳日:2024-06-28 18:37:21 公開日:2024-06-27
# 空間ボット:視覚言語モデルを用いた精密空間理解

SpatialBot: Precise Spatial Understanding with Vision Language Models ( http://arxiv.org/abs/2406.13642v2 )

ライセンス: Link先を確認
Wenxiao Cai, Yaroslav Ponomarenko, Jianhao Yuan, Xiaoqi Li, Wankou Yang, Hao Dong, Bo Zhao, (参考訳) 視覚言語モデル(VLM)は2次元画像理解において目覚ましい性能を達成しているが、Embodied AIの基盤である空間的理解に苦慮している。 本稿では,RGB画像と深度画像の両方をフィードすることで,空間的理解を向上させるためのSpatialBotを提案する。 さらに、深度理解のためのVLMを訓練するために、多段階の深度関連質問を含むSpatialQAデータセットを構築した。 最後に、異なるレベルでの空間理解におけるVLMの能力を総合的に評価するために、SpatialBenchを提案する。 我々の空間理解ベンチマーク、一般的なVLMベンチマーク、Embodied AIタスクに関する大規模な実験は、SpatialQAでトレーニングされたSpatialBotの顕著な改善を実証している。 モデル、コード、データはhttps://github.com/BAAI-DCAI/SpatialBotで入手できる。

Vision Language Models (VLMs) have achieved impressive performance in 2D image understanding, however they are still struggling with spatial understanding which is the foundation of Embodied AI. In this paper, we propose SpatialBot for better spatial understanding by feeding both RGB and depth images. Additionally, we have constructed the SpatialQA dataset, which involves multi-level depth-related questions to train VLMs for depth understanding. Finally, we present SpatialBench to comprehensively evaluate VLMs' capabilities in spatial understanding at different levels. Extensive experiments on our spatial-understanding benchmark, general VLM benchmarks and Embodied AI tasks, demonstrate the remarkable improvements of SpatialBot trained on SpatialQA. The model, code and data are available at https://github.com/BAAI-DCAI/SpatialBot.
翻訳日:2024-06-28 18:37:21 公開日:2024-06-27
# LLMの低ランク知識蒸留はマイクロ電子共鳴に有効か?

Can Low-Rank Knowledge Distillation in LLMs be Useful for Microelectronic Reasoning? ( http://arxiv.org/abs/2406.13808v3 )

ライセンス: Link先を確認
Nirjhor Rouf, Fin Amin, Paul D. Franzon, (参考訳) 本研究では、電子設計自動化(EDA)の文脈において、オフラインの大規模言語モデル(LLM)の使用の可能性に関する実証的な結果を示す。 本研究の目的は,マイクロエレクトロニックQ&Aエキスパートとして機能する現代言語モデル(Llama-2-7B)の機能とその推論,およびマイクロエレクトロニック関連問題を解くための生成能力について検討・評価することである。 Llama-2-7Bは、新しいローランク知識蒸留法(LoRA-KD)の導入など、様々な適応法で試験された。 我々の実験は質的かつ定量的な結果をもたらす。

In this work, we present empirical results regarding the feasibility of using offline large language models (LLMs) in the context of electronic design automation (EDA). The goal is to investigate and evaluate a contemporary language model's (Llama-2-7B) ability to function as a microelectronic Q & A expert as well as its reasoning, and generation capabilities in solving microelectronic-related problems. Llama-2-7B was tested across a variety of adaptation methods, including introducing a novel low-rank knowledge distillation (LoRA-KD) scheme. Our experiments produce both qualitative and quantitative results.
翻訳日:2024-06-28 18:37:21 公開日:2024-06-27
# LayerMatch: 擬似ラベルはすべての層に相応しいか?

LayerMatch: Do Pseudo-labels Benefit All Layers? ( http://arxiv.org/abs/2406.14207v3 )

ライセンス: Link先を確認
Chaoqi Liang, Guanglei Yang, Lifeng Qiao, Zitong Huang, Hongliang Yan, Yunchao Wei, Wangmeng Zuo, (参考訳) ディープニューラルネットワークは、大規模ラベル付きデータの提供によって、さまざまなタスクにわたって顕著なパフォーマンスを実現している。 しかし、ラベル付きデータの収集には時間と労力がかかります。 半教師付き学習(SSL)、特に自己学習のために擬似ラベルを反復的に割り当てる擬似ラベルアルゴリズムは、ラベル付きデータの依存性を軽減するための有望なソリューションを提供する。 従来の研究は、すべてのモデル層に均一な擬似ラベル戦略を適用しており、擬似ラベルが全体にわたって一様の影響を及ぼしていると仮定していた。 これとは対照的に、我々の理論的分析と実証実験は、特徴抽出層と線形分類層が擬似ラベルに応答して異なる学習行動を持つことを示した。 これらの知見に基づき,Grad-ReLUとAvg-Clusteringという2つの層固有の擬似ラベル戦略を開発した。 Grad-ReLUは、線形分類層における擬似ラベルの勾配劣化効果を除去することにより、ノイズのある擬似ラベルの影響を緩和する。 Avg-Clusteringは、一貫した出力を統合することで、特徴抽出層の安定したクラスタリング中心への収束を加速する。 この2つの戦略を統合したLayerMatchは,特徴抽出層のクラスタリング能力を向上しつつ,線形分類層におけるノイズの多い擬似ラベルの深刻な干渉を回避することができる。 大規模な実験を通じて,本手法は標準半教師付き学習ベンチマークにおける例外的性能を一貫して証明し,ベースライン法よりも10.38%向上し,最先端法に比べて2.44%向上した。

Deep neural networks have achieved remarkable performance across various tasks when supplied with large-scale labeled data. However, the collection of labeled data can be time-consuming and labor-intensive. Semi-supervised learning (SSL), particularly through pseudo-labeling algorithms that iteratively assign pseudo-labels for self-training, offers a promising solution to mitigate the dependency of labeled data. Previous research generally applies a uniform pseudo-labeling strategy across all model layers, assuming that pseudo-labels exert uniform influence throughout. Contrasting this, our theoretical analysis and empirical experiment demonstrate feature extraction layer and linear classification layer have distinct learning behaviors in response to pseudo-labels. Based on these insights, we develop two layer-specific pseudo-label strategies, termed Grad-ReLU and Avg-Clustering. Grad-ReLU mitigates the impact of noisy pseudo-labels by removing the gradient detrimental effects of pseudo-labels in the linear classification layer. Avg-Clustering accelerates the convergence of feature extraction layer towards stable clustering centers by integrating consistent outputs. Our approach, LayerMatch, which integrates these two strategies, can avoid the severe interference of noisy pseudo-labels in the linear classification layer while accelerating the clustering capability of the feature extraction layer. Through extensive experimentation, our approach consistently demonstrates exceptional performance on standard semi-supervised learning benchmarks, achieving a significant improvement of 10.38% over baseline method and a 2.44% increase compared to state-of-the-art methods.
翻訳日:2024-06-28 18:37:21 公開日:2024-06-27
# REVEAL-IT:InTerpretabilityのための進化エージェントpoLicyの可視性を用いた強化学習

REVEAL-IT: REinforcement learning with Visibility of Evolving Agent poLicy for InTerpretability ( http://arxiv.org/abs/2406.14214v3 )

ライセンス: Link先を確認
Shuang Ao, Simon Khan, Haris Aziz, Flora D. Salim, (参考訳) エージェントの学習過程、特にその成功や訓練後の失敗に寄与する要因を理解することは、エージェントの意思決定プロセスの背後にある根拠を理解するために重要である。 従来の手法では、構造因果モデル(SCM)を作成したり、価値関数の分布を視覚的に表現することで学習過程を明らかにする。 しかしながら、これらのアプローチは2次元環境や複雑でない遷移力学でのみ機能するので制約がある。 複雑な環境やタスクでエージェントの学習プロセスを理解することはより難しい。 本稿では,複雑な環境下でエージェントの学習過程を説明するための新しいフレームワークであるREVEAL-ITを提案する。 まず,様々な学習課題に対する政策構造とエージェントの学習過程を可視化する。 これらの知見を可視化することにより、特定のトレーニングタスクやステージがテストにおけるエージェントのパフォーマンスにどの程度影響するかを理解することができる。 そして、GNNベースの説明者がポリシーの最も重要な部分を強調することを学び、エージェントの学習プロセスについてより明確で堅牢な説明を提供する。 実験により,本フレームワークから導出した説明は,学習効率の向上と最終性能の向上に有効であることが示された。

Understanding the agent's learning process, particularly the factors that contribute to its success or failure post-training, is crucial for comprehending the rationale behind the agent's decision-making process. Prior methods clarify the learning process by creating a structural causal model (SCM) or visually representing the distribution of value functions. Nevertheless, these approaches have constraints as they exclusively function in 2D-environments or with uncomplicated transition dynamics. Understanding the agent's learning process in complicated environments or tasks is more challenging. In this paper, we propose REVEAL-IT, a novel framework for explaining the learning process of an agent in complex environments. Initially, we visualize the policy structure and the agent's learning process for various training tasks. By visualizing these findings, we can understand how much a particular training task or stage affects the agent's performance in test. Then, a GNN-based explainer learns to highlight the most important section of the policy, providing a more clear and robust explanation of the agent's learning process. The experiments demonstrate that explanations derived from this framework can effectively help in the optimization of the training tasks, resulting in improved learning efficiency and final performance.
翻訳日:2024-06-28 18:37:21 公開日:2024-06-27
# Q*: 検討計画によるLLMのマルチステップ推論の改善

Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning ( http://arxiv.org/abs/2406.14283v3 )

ライセンス: Link先を確認
Chaojie Wang, Yanchen Deng, Zhiyi Lv, Zeng Liang, Jujie He, Shuicheng Yan, An Bo, (参考訳) 大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 しかし、自己回帰生成プロセスにより、多段階推論を行う場合、LSMは誤り、幻覚、矛盾する文を生成するのが難しくなる。 本稿では,LLMの多段階的推論をヒューリスティックな探索問題とすることで,LLMの復号化プロセスの汎用的,汎用的,アジャイル的な枠組みであるQ*を導入することにより,病理の緩和を図る。 将来期待される報酬を推定するヒューリスティック関数としてプラグアンドプレイQ値モデルを学習することにより、我々のQ*はLLMを現在のタスクに微調整することなく、最も有望な次の推論ステップを選択することができる。 GSM8K, MATH, MBPPの大規模実験により, 提案手法の優位性を実証し, 既存のオープンソースLCMの推論性能の向上に寄与した。

Large Language Models (LLMs) have demonstrated impressive capability in many natural language tasks. However, the auto-regressive generation process makes LLMs prone to produce errors, hallucinations and inconsistent statements when performing multi-step reasoning. In this paper, by casting multi-step reasoning of LLMs as a heuristic search problem, we aim to alleviate the pathology by introducing Q*, a general, versatile and agile framework for guiding LLMs decoding process with deliberative planning. By learning a plug-and-play Q-value model as heuristic function for estimating expected future rewards, our Q* can effectively guide LLMs to select the most promising next reasoning step without fine-tuning LLMs for the current task, which avoids the significant computational overhead and potential risk of performance degeneration on other tasks. Extensive experiments on GSM8K, MATH and MBPP demonstrate the superiority of our method, contributing to improving the reasoning performance of existing open-source LLMs.
翻訳日:2024-06-28 18:37:21 公開日:2024-06-27
# 安定ギャップの緩和による連続的事前学習の効率化

Efficient Continual Pre-training by Mitigating the Stability Gap ( http://arxiv.org/abs/2406.14833v2 )

ライセンス: Link先を確認
Yiduo Guo, Jie Fu, Huishuai Zhang, Dongyan Zhao, Yikang Shen, (参考訳) 継続的な事前学習は、大規模言語モデル(LLM)を新しいドメインに適用するための主要なアプローチになりつつある。 このプロセスでは、トレーニング済みのLLMを新しいドメインからコーパスで更新することで、トレーニング分布がシフトする。 このシフト中のLLMの挙動を調べるため,連続的な事前学習過程を通じてモデルの性能を測定した。 最初は一時的な性能低下がみられ,その後に回復期,すなわち「安定ギャップ」と呼ばれる現象が出現した。 この課題に対処し、固定された計算予算内でのLLM性能を向上させるために、(1)複数のエポックに対して適切な大きさのサブセット上でLLMを継続的に事前訓練し、単一のエポックにおいて大規模コーパス上でLLMを事前訓練するよりも高速な性能回復をもたらすこと、(2)ドメイン性能を急速に向上させる高品質サブコーパスにのみLLMを事前訓練すること、(3)事前学習データと類似したデータを用いて、分散ギャップを低減すること、の3つの効果的な戦略を提案する。 我々は,Llamaファミリーモデルを用いた様々な実験を行い,医療継続訓練と指導訓練における戦略の有効性を検証した。 例えば、OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し、当初のトレーニング予算の40%に留まり、忘れることなく平均一般タスクパフォーマンスを向上させました。 さらに,この戦略をLlama-3-8Bモデルに適用する。 結果として得られたモデルであるLlama-3-Physicianは、現在のオープンソースモデルの中で最高の医療性能を達成し、いくつかの医療ベンチマークにおいて、GPT-4と同等かそれ以上に性能を発揮する。 We release our model at \url{https://huggingface.co/YiDuo 1999/Llama-3-Physician-8B-Instruct}。

Continual pre-training has increasingly become the predominant approach for adapting Large Language Models (LLMs) to new domains. This process involves updating the pre-trained LLM with a corpus from a new domain, resulting in a shift in the training distribution. To study the behavior of LLMs during this shift, we measured the model's performance throughout the continual pre-training process. we observed a temporary performance drop at the beginning, followed by a recovery phase, a phenomenon known as the "stability gap," previously noted in vision models classifying new classes. To address this issue and enhance LLM performance within a fixed compute budget, we propose three effective strategies: (1) Continually pre-training the LLM on a subset with a proper size for multiple epochs, resulting in faster performance recovery than pre-training the LLM on a large corpus in a single epoch; (2) Pre-training the LLM only on high-quality sub-corpus, which rapidly boosts domain performance; and (3) Using a data mixture similar to the pre-training data to reduce distribution gap. We conduct various experiments on Llama-family models to validate the effectiveness of our strategies in both medical continual pre-training and instruction tuning. For example, our strategies improve the average medical task performance of the OpenLlama-3B model from 36.2% to 40.7% with only 40% of the original training budget and enhance the average general task performance without causing forgetting. Furthermore, we apply our strategies to the Llama-3-8B model. The resulting model, Llama-3-Physician, achieves the best medical performance among current open-source models, and performs comparably to or even better than GPT-4 on several medical benchmarks. We release our models at \url{https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct}.
翻訳日:2024-06-28 18:37:21 公開日:2024-06-27
# DiffExplainer:ブラックボックスのモデルを発表

DiffExplainer: Unveiling Black Box Models Via Counterfactual Generation ( http://arxiv.org/abs/2406.15182v2 )

ライセンス: Link先を確認
Yingying Fang, Shuang Wu, Zihao Jin, Caiwen Xu, Shiyi Wang, Simon Walsh, Guang Yang, (参考訳) 医療画像の分野では、特に早期疾患の検出や予後に関連するタスクにおいて、AIモデル予測の背後にある理由を理解することは、その信頼性を評価するのに不可欠である。 医用画像分類における決定的特徴を識別する従来の説明法は、特に識別的特徴が微妙であるか、即時に明らかでない場合に問題となる。 この制限に対処するために,ブラックボックスモデルに接続した場合に異なる決定を誘導する反ファクト画像を生成するエージェントモデルを提案する。 このエージェントモデルを用いることで、ブラックモデルの最終予測に影響を与える影響のあるイメージパターンを明らかにすることができる。 提案手法により,深いブラックボックスの決定に影響を及ぼす特徴を効率的に同定する。 我々は,医学的予後タスクの厳密な領域におけるアプローチを検証し,既存の解釈法と比較して,医用画像分類における深層学習モデルの信頼性を高める効果と可能性を示した。 コードはhttps://github.com/ayanglab/DiffExplainer.comで公開される。

In the field of medical imaging, particularly in tasks related to early disease detection and prognosis, understanding the reasoning behind AI model predictions is imperative for assessing their reliability. Conventional explanation methods encounter challenges in identifying decisive features in medical image classifications, especially when discriminative features are subtle or not immediately evident. To address this limitation, we propose an agent model capable of generating counterfactual images that prompt different decisions when plugged into a black box model. By employing this agent model, we can uncover influential image patterns that impact the black model's final predictions. Through our methodology, we efficiently identify features that influence decisions of the deep black box. We validated our approach in the rigorous domain of medical prognosis tasks, showcasing its efficacy and potential to enhance the reliability of deep learning models in medical image classification compared to existing interpretation methods. The code will be publicly available at https://github.com/ayanglab/DiffExplainer.
翻訳日:2024-06-28 18:37:21 公開日:2024-06-27
# トロイダルトラップによるスピン軌道結合原子のスピン電流の共鳴制御

Photon-assisted tunneling resonantly controlling spin current of a spin-orbit-coupled atom in a toroidal trap ( http://arxiv.org/abs/2406.16002v2 )

ライセンス: Link先を確認
Zhiqiang Li, Xiaoxiao Hu, Zhao-Yun Zeng, Ai-Xi Chen, Xiaobing Luo, (参考訳) 周期的な点滅ポテンシャルは、指向性原子電流を調査するための強力なツールであることが証明されている。 スピン軌道(SO)結合、非相互作用ボース・アインシュタイン凝縮(BEC)系に点滅リング形状のポテンシャルを適用し、光子支援トンネル(共鳴)技術を用いて、方向と強度で正確に制御できる可変交互(AC)スピンと原子質量電流の生成を実証する。 この現象の背後にあるメカニズムは、発光電位がラビ振動を誘発するのに十分な光子を供給し、スピンと原子輸送のための運動量移動を与えることである。 未飽和SO結合BECの単一粒子基底状態はラマン結合強度に依存するため、初期状態が単一井戸または二重井戸相にある場合の交流スピン電流の生成と制御を実証する。 特に、単光子共鳴過程を通じて質量電流を伴わない純交流スピン電流の発生機構を解明し、説明する。 これらの興味深い共鳴現象は、スピン力学の透明な制御の可能性を生み出す単純な3レベルモデルによってのみ解析的に説明できることが示されている。

The periodic flashing potential has proven to be a powerful tool for investigating directed atomic currents. By applying the flashing ring-shaped potential to spin-orbit (SO) coupled, noninteracting Bose-Einstein condensate (BEC) systems, through photon-assisted tunneling (resonance) techniques, we demonstrate the generation of tunable alternating (AC) spin and atomic mass currents that can be precisely controlled in terms of direction and strength. The underlying mechanism behind this phenomenon is that the flashing potential supplies enough photons to induce Rabi oscillations and provides momentum transfer for spin and atomic transport. As the single-particle ground state of the unperturbed SO-coupled BEC depends on the Raman coupling strength, we demonstrate how to generate and control AC spin currents in the cases where the initial state resides in a single-well or double-well phase. In particular, we realize and explain the mechanism of generating a net AC spin current without mass current through single-photon resonance processes. It is shown that these interesting resonance phenomena can be analytically described only by the simple three-level model, which creates the possibility of transparent controls of spin dynamics.
翻訳日:2024-06-28 18:37:21 公開日:2024-06-27
# 高忠実化量子アニーリングにおける正当性条件

Validity condition for high-fidelity Digitized Quantum Annealing ( http://arxiv.org/abs/2406.16385v2 )

ライセンス: Link先を確認
Alan C. Santos, (参考訳) アディアバティック進化のデジタル化は、ゲートベースの量子プロセッサの優れた性能とアディアバティックアルゴリズムの利点を組み合わせ、効率的な量子情報処理のためのハイブリッドモデルを提供する戦略である。 本研究では,高忠実度ディジタルアディバティックタスクの妥当性について検討する。 これにより$Digitized$$Adiabatic$$Theorem$を導入することができる。 この定理の結果として、そのようなハイブリッドモデルの性能は、理想的な量子プロセッサにおいても、断熱定理の妥当性に関する基本的な制約によって制限されることを示す。 我々は、R. Barends $et$$al$で報告された本質的な非断熱誤差の存在を予測する方法について議論する。 Nature 534, 222 (2016) by a empirical study of digital annealing。 また,本手法により,最適なデジタル回路におけるスズキ・トロッターブロック数のスケーリングの存在を,G.B.Mbeng $et$$al$, Physにより報告された最適断熱総進化時間に関して説明することができる。 B100, 224201 (2019) のディジタルアニールの頑健な数値解析 本稿では,2-qubitsの完全被覆問題と21の3-qubitsの断熱分解という,デジタル化された断熱アルゴリズムの2つの例を例に紹介する。

Digitizing an adiabatic evolution is a strategy able to combine the good performance of gate-based quantum processors with the advantages of adiabatic algorithms, providing then a hybrid model for efficient quantum information processing. In this work we develop validity conditions for high fidelity digital adiabatic tasks. To this end, we assume a digitizing process based on the Suzuki-Trotter decomposition, which allows us to introduce a $Digitized$ $Adiabatic$ $Theorem$. As consequence of this theorem, we show that the performance of such a hybrid model is limited by the fundamental constraints on the adiabatic theorem validity, even in ideal quantum processors. We argue how our approach predicts the existence of intrinsic non-adiabatic errors reported by R. Barends $et$ $al$., Nature 534, 222 (2016) through an empirical study of digital annealing. In addition, our approach allows us to explain the existence of a scaling of the number of Suzuki-Trotter blocks for the optimal digital circuit with respect to the optimal adiabatic total evolution time, as reported by G. B. Mbeng $et$ $al$, Phys. Rev. B 100, 224201 (2019) through robust numerical analysis of digital annealing. We illustrate our results through two examples of digitized adiabatic algorithms, namely, the two-qubits exact-cover problem and the three-qubits adiabatic factorization of the number 21.
翻訳日:2024-06-28 18:27:13 公開日:2024-06-27
# EVALALIGN:テキスト・画像・モデル評価のためのヒューマン・アラインデータによる細調整型マルチモーダルLCM

EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models ( http://arxiv.org/abs/2406.16562v2 )

ライセンス: Link先を確認
Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Mengping Yang, Cheng Zhang, Hao Li, (参考訳) 近年のテキスト・画像生成モデルの発展は目覚ましい。 しかし、この分野はこれらのモデルの性能を正確に反映する評価指標の欠如に悩まされており、特にモデルの最適化を導くための詳細な指標が欠如している。 本稿では,その精度,安定性,粒度を特徴とする計量であるEvalAlignを提案する。 我々のアプローチは、広範囲なデータセットで事前訓練されたMLLM(Multimodal Large Language Models)の機能を活用する。 画像の忠実度とテキスト画像のアライメントという2つの重要な側面に焦点を当てた評価プロトコルを開発する。 各プロトコルは、特定のスコアリングオプションにリンクされた詳細できめ細かな命令で構成されており、生成された画像の正確な手動スコアリングを可能にする。 我々は,人間の評価判断と密接に一致させるために,MLLMのファインチューン(SFT)を監督し,堅牢な評価モデルを得た。 24のテキスト・ツー・イメージ生成モデルを対象とした総合的なテストでは、EvalAlignは優れたメートル法安定性を提供するだけでなく、既存のメトリクスよりも人間の好みと密に一致し、モデルアセスメントにおけるその有効性と有用性を確認している。

The recent advancements in text-to-image generative models have been remarkable. Yet, the field suffers from a lack of evaluation metrics that accurately reflect the performance of these models, particularly lacking fine-grained metrics that can guide the optimization of the models. In this paper, we propose EvalAlign, a metric characterized by its accuracy, stability, and fine granularity. Our approach leverages the capabilities of Multimodal Large Language Models (MLLMs) pre-trained on extensive datasets. We develop evaluation protocols that focus on two key dimensions: image faithfulness and text-image alignment. Each protocol comprises a set of detailed, fine-grained instructions linked to specific scoring options, enabling precise manual scoring of the generated images. We Supervised Fine-Tune (SFT) the MLLM to align closely with human evaluative judgments, resulting in a robust evaluation model. Our comprehensive tests across 24 text-to-image generation models demonstrate that EvalAlign not only provides superior metric stability but also aligns more closely with human preferences than existing metrics, confirming its effectiveness and utility in model assessment.
翻訳日:2024-06-28 18:27:13 公開日:2024-06-27
# CLIMATELI: 気候変動データに基づくエンティティリンクの評価

CLIMATELI: Evaluating Entity Linking on Climate Change Data ( http://arxiv.org/abs/2406.16732v2 )

ライセンス: Link先を確認
Shijia Zhou, Siyao Peng, Barbara Plank, (参考訳) 気候変動(CC)は、社会科学から自然言語処理(NLP)まで、研究分野に注目が集まっている。 CCはまた、学術出版物からソーシャルメディアフォーラムまで、様々な設定やコミュニケーションプラットフォームで議論されている。 このようなデータで言及されている誰と何を理解することは、CCに対する新たな洞察を得るための最初の重要なステップである。 今回,CLIMATELI(CLIMATe Entity LInking)について紹介する。 CLIMATELI(CLIMATe Entity Linking)を用いて,CCトピック上の既存のエンティティリンク(EL)システムの評価を行い,CCエンティティの自動フィルタリング手法を提案する。 ELモデルの性能はトークンレベルとエンティティレベルの両方で人間に遅れていることが判明した。 非nominalおよび/または非CCエンティティの保持または除外の範囲内でのテストは、特にモデルのパフォーマンスに影響を与える。

Climate Change (CC) is a pressing topic of global importance, attracting increasing attention across research fields, from social sciences to Natural Language Processing (NLP). CC is also discussed in various settings and communication platforms, from academic publications to social media forums. Understanding who and what is mentioned in such data is a first critical step to gaining new insights into CC. We present CLIMATELI (CLIMATe Entity LInking), the first manually annotated CC dataset that links 3,087 entity spans to Wikipedia. Using CLIMATELI (CLIMATe Entity LInking), we evaluate existing entity linking (EL) systems on the CC topic across various genres and propose automated filtering methods for CC entities. We find that the performance of EL models notably lags behind humans at both token and entity levels. Testing within the scope of retaining or excluding non-nominal and/or non-CC entities particularly impacts the models' performances.
翻訳日:2024-06-28 18:27:13 公開日:2024-06-27
# コンパニオンの少ない画像分類器の高速化

Speeding Up Image Classifiers with Little Companions ( http://arxiv.org/abs/2406.17117v2 )

ライセンス: Link先を確認
Yang Liu, Kowshik Thopalli, Jayaraman Thiagarajan, (参考訳) ニューラルネットワークのスケールアップは、大規模な言語とビジョンモデルの成功の鍵となるレシピである。 例えば、EfficientViT-L3-384は、ベースとなるL1-224モデルよりもImageNet-1Kの精度が2%向上し、14\times$1,4\times$ more multiply-accumulate operation (MACs) を必要とする。 本稿では、画像分類のためのニューラルネットワークの一般的なファミリーのスケーリング特性について検討し、スケールアップモデルが「難易度」サンプルに大きく寄与していることを見出した。 サンプルを難解に分解し、まず軽量の"リトル"モデルを用いて全てのサンプルを予測し、"ビッグ"モデルが解決する難しいモデルのみをパスする、単純なモデルに依存しない2パスのリトル・ビッグアルゴリズムを開発した。 良い小さな仲間は、様々なモデルファミリとスケールに対して劇的なMAC還元を達成する。 既存のモデルの精度や修正を欠くことなく、私たちのLittle-Bigモデルは、効率的なViT-L3-384で76%、効率的なNet-B7-600で81%、ImageNet-1KでDeiT3-L-384で71%のMAC削減を実現しています。 Little-BigはIntern Image-G-512モデルを62%高速化し、90%のImageNet-1Kトップ-1精度を実現した。

Scaling up neural networks has been a key recipe to the success of large language and vision models. However, in practice, up-scaled models can be disproportionately costly in terms of computations, providing only marginal improvements in performance; for example, EfficientViT-L3-384 achieves <2% improvement on ImageNet-1K accuracy over the base L1-224 model, while requiring $14\times$ more multiply-accumulate operations (MACs). In this paper, we investigate scaling properties of popular families of neural networks for image classification, and find that scaled-up models mostly help with "difficult" samples. Decomposing the samples by difficulty, we develop a simple model-agnostic two-pass Little-Big algorithm that first uses a light-weight "little" model to make predictions of all samples, and only passes the difficult ones for the "big" model to solve. Good little companion achieve drastic MACs reduction for a wide variety of model families and scales. Without loss of accuracy or modification of existing models, our Little-Big models achieve MACs reductions of 76% for EfficientViT-L3-384, 81% for EfficientNet-B7-600, 71% for DeiT3-L-384 on ImageNet-1K. Little-Big also speeds up the InternImage-G-512 model by 62% while achieving 90% ImageNet-1K top-1 accuracy, serving both as a strong baseline and as a simple practical method for large model compression.
翻訳日:2024-06-28 18:27:13 公開日:2024-06-27
# CLERC: 判例検索と検索強化分析生成のためのデータセット

CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation ( http://arxiv.org/abs/2406.17186v2 )

ライセンス: Link先を確認
Abe Bohan Hou, Orion Weller, Guanghui Qin, Eugene Yang, Dawn Lawrie, Nils Holzenberger, Andrew Blair-Stanek, Benjamin Van Durme, (参考訳) 法律専門家は、関連する前例、すなわち以前の判例決定に引用に依存する分析を書く必要がある。 このような文書を書く際に法律専門家を支援するインテリジェントなシステムは大きな利益をもたらすが、設計は困難である。 このようなシステムは、有用であるためには、健全な前例の発見、要約、推論を支援する必要がある。 このようなタスクのシステムを実現するために、我々は法律専門家と協力して、大規模なオープンソース法定コーパスを、情報検索(IR)と検索強化生成(RAG)という2つの重要なバックボーンタスクをサポートするデータセットに変換する。 このデータセットCLERC(Case Law Evaluation Retrieval Corpus)は、(1)法的な分析の対応する引用を見つけ、(2)これらの引用のテキスト(および以前の文脈)を、推論目標をサポートするコジェント分析にコンパイルする能力に基づいて、モデルを訓練し、評価するために構築される。 GPT-4oは高いROUGE Fスコアを持つ分析結果を生成するが、最も幻覚的であり、ゼロショットIRモデルは48.3%のリコール@1000しか得られない。

Legal professionals need to write analyses that rely on citations to relevant precedents, i.e., previous case decisions. Intelligent systems assisting legal professionals in writing such documents provide great benefits but are challenging to design. Such systems need to help locate, summarize, and reason over salient precedents in order to be useful. To enable systems for such tasks, we work with legal professionals to transform a large open-source legal corpus into a dataset supporting two important backbone tasks: information retrieval (IR) and retrieval-augmented generation (RAG). This dataset CLERC (Case Law Evaluation Retrieval Corpus), is constructed for training and evaluating models on their ability to (1) find corresponding citations for a given piece of legal analysis and to (2) compile the text of these citations (as well as previous context) into a cogent analysis that supports a reasoning goal. We benchmark state-of-the-art models on CLERC, showing that current approaches still struggle: GPT-4o generates analyses with the highest ROUGE F-scores but hallucinates the most, while zero-shot IR models only achieve 48.3% recall@1000.
翻訳日:2024-06-28 18:27:13 公開日:2024-06-27
# MindSpore Quantum: ユーザフレンドリー、高性能、AI対応の量子コンピューティングフレームワーク

MindSpore Quantum: A User-Friendly, High-Performance, and AI-Compatible Quantum Computing Framework ( http://arxiv.org/abs/2406.17248v2 )

ライセンス: Link先を確認
Xusheng Xu, Jiangyu Cui, Zidong Cui, Runhong He, Qingyu Li, Xiaowei Li, Yanling Lin, Jiale Liu, Wuxin Liu, Jiale Lu, Maolin Luo, Chufan Lyu, Shijie Pan, Mosharev Pavel, Runqiu Shu, Jialiang Tang, Ruoqian Xu, Shu Xu, Kang Yang, Fan Yu, Qingguo Zeng, Haiying Zhao, Qiang Zheng, Junyuan Zhou, Xu Zhou, Yikang Zhu, Zuoheng Zou, Abolfazl Bayat, Xi Cao, Wei Cui, Zhendong Li, Guilu Long, Zhaofeng Su, Xiaoting Wang, Zizhu Wang, Shijie Wei, Re-Bing Wu, Pan Zhang, Man-Hong Yung, (参考訳) 我々は、ノイズの多い中間規模量子(NISQ)アルゴリズムの設計と実装に重点を置いた、先駆的なハイブリッド量子古典フレームワークであるMindSpore Quantumを紹介する。 高度なオープンソースのディープラーニングトレーニング/推論フレームワークであるMindSporeの堅牢なサポートを活用して、MindSpore Quantumは、CPUとGPUプラットフォームの両方で変動量子アルゴリズムの設計とトレーニングにおいて、優れたパフォーマンスを提供する。 さらに、このフレームワークは、実際の量子ハードウェア上で実行される場合の量子アルゴリズムの運用効率の向上に重点を置いている。 これは量子回路のコンパイルと量子ビットマッピングのためのアルゴリズムの開発を含み、量子プロセッサ上で最適な性能を達成するための重要なコンポーネントである。 コアフレームワークに加えて,量子コンピューティングアクセラレーションエンジンQuPackを紹介する。 QuPackは、特に変分量子固有解法(VQE)、量子近似最適化アルゴリズム(QAOA)、およびテンソルネットワークシミュレーションにおいて、MindSpore Quantumのシミュレーション速度を著しく加速し、驚くべき速度を提供する。 この最先端技術の組み合わせは、研究者や実践者が前例のない効率と性能で量子コンピューティングのフロンティアを探索することを可能にする。

We introduce MindSpore Quantum, a pioneering hybrid quantum-classical framework with a primary focus on the design and implementation of noisy intermediate-scale quantum (NISQ) algorithms. Leveraging the robust support of MindSpore, an advanced open-source deep learning training/inference framework, MindSpore Quantum exhibits exceptional efficiency in the design and training of variational quantum algorithms on both CPU and GPU platforms, delivering remarkable performance. Furthermore, this framework places a strong emphasis on enhancing the operational efficiency of quantum algorithms when executed on real quantum hardware. This encompasses the development of algorithms for quantum circuit compilation and qubit mapping, crucial components for achieving optimal performance on quantum processors. In addition to the core framework, we introduce QuPack, a meticulously crafted quantum computing acceleration engine. QuPack significantly accelerates the simulation speed of MindSpore Quantum, particularly in variational quantum eigensolver (VQE), quantum approximate optimization algorithm (QAOA), and tensor network simulations, providing astonishing speed. This combination of cutting-edge technologies empowers researchers and practitioners to explore the frontiers of quantum computing with unprecedented efficiency and performance.
翻訳日:2024-06-28 18:27:13 公開日:2024-06-27
# オープンセットカメラ3Dオブジェクト検出に向けて

Towards Open-set Camera 3D Object Detection ( http://arxiv.org/abs/2406.17297v2 )

ライセンス: Link先を確認
Zhuolin He, Xinrun Li, Heng Gao, Jiachen Tang, Shoumeng Qiu, Wenfu Wang, Lvjian Lu, Xuchong Qiu, Xiangyang Xue, Jian Pu, (参考訳) 従来のカメラ3Dオブジェクト検出器は通常、既定の既知のオブジェクトの集合を認識するために訓練される。 現実のシナリオでは、これらの検出器は訓練カテゴリー外の未知の物体に遭遇し、それらを正しく識別することができない。 このギャップに対処するため,OS-Det3D (Open-set Camera 3D Object Detection) は,カメラ3D検出器が未知の物体と未知の物体の両方を識別する能力を高めるための2段階のトレーニングフレームワークである。 提案する3Dオブジェクト探索ネットワーク(ODN3D)は,一般的な3Dオブジェクトを見つけるために,3Dボックスの位置や規模などの幾何学的手がかりを用いて特別に訓練されている。 ODN3Dはクラスに依存しない方法で訓練され、提供される3Dオブジェクト領域の提案には本質的にデータノイズが伴う。 未知のオブジェクトを識別する際の精度を高めるために,JOSモジュールを導入する。 JOSは、ODN3Dオブジェクトネスとカメラ特徴注目オブジェクトネスを組み合わせたODN3Dの3Dオブジェクト領域提案から、未知のオブジェクトに対する擬似基底真理を選択する。 nuScenesとKITTIデータセットの実験は、カメラ3D検出器が未知の物体を識別し、未知の物体の性能を向上する上で、我々のフレームワークの有効性を実証している。

Traditional camera 3D object detectors are typically trained to recognize a predefined set of known object classes. In real-world scenarios, these detectors may encounter unknown objects outside the training categories and fail to identify them correctly. To address this gap, we present OS-Det3D (Open-set Camera 3D Object Detection), a two-stage training framework enhancing the ability of camera 3D detectors to identify both known and unknown objects. The framework involves our proposed 3D Object Discovery Network (ODN3D), which is specifically trained using geometric cues such as the location and scale of 3D boxes to discover general 3D objects. ODN3D is trained in a class-agnostic manner, and the provided 3D object region proposals inherently come with data noise. To boost accuracy in identifying unknown objects, we introduce a Joint Objectness Selection (JOS) module. JOS selects the pseudo ground truth for unknown objects from the 3D object region proposals of ODN3D by combining the ODN3D objectness and camera feature attention objectness. Experiments on the nuScenes and KITTI datasets demonstrate the effectiveness of our framework in enabling camera 3D detectors to successfully identify unknown objects while also improving their performance on known objects.
翻訳日:2024-06-28 18:27:13 公開日:2024-06-27
# エンド・ツー・エンド低音源音声翻訳のための合成音声データの活用

Leveraging Synthetic Audio Data for End-to-End Low-Resource Speech Translation ( http://arxiv.org/abs/2406.17363v2 )

ライセンス: Link先を確認
Yasmin Moslem, (参考訳) 本稿では,アイルランド語から英語への音声翻訳のための国際音声翻訳会議(IWSLT 2024)へのシステム提出について述べる。 我々はWhisperに基づくエンドツーエンドシステムを構築し、音声のバックトランスレーションやノイズ拡張など、多くのデータ拡張手法を採用した。 本稿では,合成音声データを用いた効果について検討し,信号の多様性を高めるためのいくつかの方法について議論する。

This paper describes our system submission to the International Conference on Spoken Language Translation (IWSLT 2024) for Irish-to-English speech translation. We built end-to-end systems based on Whisper, and employed a number of data augmentation techniques, such as speech back-translation and noise augmentation. We investigate the effect of using synthetic audio data and discuss several methods for enriching signal diversity.
翻訳日:2024-06-28 18:27:13 公開日:2024-06-27
# ビデオによる幼児の2Dポーズの自動推定:7つのディープニューラルネットワーク手法の比較

Automatic infant 2D pose estimation from videos: comparing seven deep neural network methods ( http://arxiv.org/abs/2406.17382v2 )

ライセンス: Link先を確認
Filipe Gama, Matej Misar, Lukas Navara, Sergiu T. Popescu, Matej Hoffmann, (参考訳) 通常のビデオから乳児の姿勢や動きを自動的に計測することは、運動研究の「野生」に大きな可能性をもたらし、運動発達の理解を促進し、障害の早期診断の可能性を大幅に増大させる。 ディープラーニングと機械学習の進歩により,コンピュータビジョンにおける人間のポーズ推定手法が急速に発達している。 しかし、これらの手法は大人を対象とするデータセットに基づいて異なる文脈で訓練されている。 この作業は、乳幼児の体位に関するビデオ(AlphaPose, DeepLabCut/DeeperCut, Detectron2, HRNet, MediaPipe/BlazePose, OpenPose, ViTPose)をテストし、比較する。 驚いたことに、DeepLabCutとMediaPipeを除くすべてのメソッドは、さらなる微調整なしで競争性能を保ち、ViTPoseは最高性能である。 標準性能指標(鍵点類似度,平均精度,リコール)に次いで,首中ヒップ比で表される誤差を導入し,誤り検出と冗長検出と,下流タスクに関連する各手法の内部信頼度評価の信頼性について検討する。 競争力のあるネットワークの中では、マシン上でリアルタイム(27fps)に動作できるのはAlphaPoseのみでした。 使用したすべてのメソッド、分析スクリプト、および処理されたデータは、https://hub.docker.com/u/ Humanoidsctuとhttps://osf.io/x465b/でドキュメント化されたDockerコンテナや命令を提供します。

Automatic markerless estimation of infant posture and motion from ordinary videos carries great potential for movement studies "in the wild", facilitating understanding of motor development and massively increasing the chances of early diagnosis of disorders. There is rapid development of human pose estimation methods in computer vision thanks to advances in deep learning and machine learning. However, these methods are trained on datasets featuring adults in different contexts. This work tests and compares seven popular methods (AlphaPose, DeepLabCut/DeeperCut, Detectron2, HRNet, MediaPipe/BlazePose, OpenPose, and ViTPose) on videos of infants in supine position. Surprisingly, all methods except DeepLabCut and MediaPipe have competitive performance without additional finetuning, with ViTPose performing best. Next to standard performance metrics (object keypoint similarity, average precision and recall), we introduce errors expressed in the neck-mid-hip ratio and additionally study missed and redundant detections and the reliability of the internal confidence ratings of the different methods, which are relevant for downstream tasks. Among the networks with competitive performance, only AlphaPose could run close to real time (27 fps) on our machine. We provide documented Docker containers or instructions for all the methods we used, our analysis scripts, and processed data at https://hub.docker.com/u/humanoidsctu and https://osf.io/x465b/.
翻訳日:2024-06-28 18:27:13 公開日:2024-06-27
# 資源効率のよい分子シミュレーションのための古典的影をもつ量子カー・パルリネロ分子動力学に関する研究

A Study on Quantum Car-Parrinello Molecular Dynamics with Classical Shadows for Resource Efficient Molecular Simulation ( http://arxiv.org/abs/2406.18797v1 )

ライセンス: Link先を確認
Honomi Kashihara, Yudai Suzuki, Kenji Yasuoka, (参考訳) 分子動力学(Ab-initio molecular dynamics、AIMD)は、物質の物性を研究するために分子の物理運動をシミュレートする強力なツールである。 AIMDはいくつかのアプリケーションで成功しているが、その高い計算コストを回避することは大規模で長期間のシミュレーションを実行するのに不可欠である。 近年、量子コンピュータはこの課題を緩和するための解決策として多くの注目を集めている。 具体的には、カル・パラネロ法とランゲヴィン定式化を利用して、短期量子デバイスを用いて平衡状態におけるコスト効率のシミュレーションを実現する量子カル・パラネロ分子動力学(QCPMD)と呼ばれる新しいAIMD法を提案した。 本研究は,提案したQCPMD法に基づいて,シミュレーションの資源効率をさらに向上する古典的シャドウ手法を提案する。 より正確には、古典的な影は全ての核の力を同時に推定するために使われ、これは分子の数が増えるにつれてこのアプローチがより効果的であることを意味する。 提案手法を$\text{H}_2$分子上で数値的に検討し,古典的影を持つQCPMDが平衡状態をシミュレート可能であることを示す。 我々の結果は、現在利用可能な量子コンピュータ上での効率的なAIMDシミュレーションに関する洞察を与える。

Ab-initio molecular dynamics (AIMD) is a powerful tool to simulate physical movements of molecules for investigating properties of materials. While AIMD is successful in some applications, circumventing its high computational costs is imperative to perform large-scale and long-time simulations. In recent days, near-term quantum computers have attracted much attentions as a possible solution to alleviate the challenge. Specifically, Kuroiwa et al. proposed a new AIMD method called quantum Car-Parrinello molecular dynamics (QCPMD), which exploits the Car-Parrinello method and Langevin formulation to realize cost-efficient simulations at the equilibrium state, using near-term quantum devices. In this work, we build on the proposed QCPMD method and introduce the classical shadow technique to further improve resource efficiency of the simulations. More precisely, classical shadows are used to estimate the forces of all nuclei simultaneously, implying this approach is more effective as the number of molecules increases. We numerically study the performance of our scheme on the $\text{H}_2$ molecule and show that QCPMD with classical shadows can simulate the equilibrium state. Our results will give some insights into efficient AIMD simulations on currently-available quantum computers.
翻訳日:2024-06-28 15:47:01 公開日:2024-06-27
# 機能する無限幅モデル:なぜ機能学習があなたの考えるほど重要でないのか

Infinite Width Models That Work: Why Feature Learning Doesn't Matter as Much as You Think ( http://arxiv.org/abs/2406.18800v1 )

ライセンス: Link先を確認
Luke Sernau, (参考訳) ニューラル・タンジェント・カーネル(NTK)のような一般的な無限幅アーキテクチャは、歴史的に有限モデルと比較して弱い性能を示している。 これは特徴学習の欠如によるものである。 私たちはそうではないことを示します。 実際、無限幅NTKモデルは、(無限)特徴ベクトルから関連する部分函数を選択することにより、有限モデルよりもリッチな特徴にアクセスできることを示す。 実際、NTKは、機能学習を人工的に無効にしても、従来の有限モデルよりも性能が低いことを実験的に示す。 代わりに、性能の低下は、既存の構造がSGDのような弱い最適化器に依存しているためである。 我々はADAMライクな学習力学に基づく無限幅制限を提供し、結果として得られたモデルがこの性能ギャップを消し去ることを実証的に示す。

Common infinite-width architectures such as Neural Tangent Kernels (NTKs) have historically shown weak performance compared to finite models. This has been attributed to the absence of feature learning. We show that this is not the case. In fact, we show that infinite width NTK models are able to access richer features than finite models by selecting relevant subfeatures from their (infinite) feature vector. In fact, we show experimentally that NTKs under-perform traditional finite models even when feature learning is artificially disabled. Instead, weak performance is due to the fact that existing constructions depend on weak optimizers like SGD. We provide an infinite width limit based on ADAM-like learning dynamics and demonstrate empirically that the resulting models erase this performance gap.
翻訳日:2024-06-28 15:47:01 公開日:2024-06-27
# すべてのランダムな特徴表現は等価である

All Random Features Representations are Equivalent ( http://arxiv.org/abs/2406.18802v1 )

ライセンス: Link先を確認
Luke Sernau, Silvano Bonacina, Rif A. Saurous, (参考訳) ランダムな特徴は、正定値のカーネルを無限次元のドット積として書き換えることのできる重要な技法である。 時間とともに、より精巧なランダムな特徴表現は、より低い誤差を持つ有限近似を追求するために開発されてきた。 最適なサンプリングポリシを導出することで、このアームレースを解決し、このポリシーの下では、すべてのランダムな特徴表現が同じ近似誤差を持つことを示す。 これにより、すべてのランダムな特徴表現にまたがる低い境界を確立し、最適なサンプルであれば、好きな表現を自由に選択できることを示す。

Random features are an important technique that make it possible to rewrite positive-definite kernels as infinite-dimensional dot products. Over time, increasingly elaborate random feature representations have been developed in pursuit of finite approximations with ever lower error. We resolve this arms race by deriving an optimal sampling policy, and show that under this policy all random features representations have the same approximation error. This establishes a lower bound that holds across all random feature representations, and shows that we are free to choose whatever representation we please, provided we sample optimally.
翻訳日:2024-06-28 15:47:01 公開日:2024-06-27
# 非線形制御によるオンラインスタックルバーグ最適化

Online Stackelberg Optimization via Nonlinear Control ( http://arxiv.org/abs/2406.18805v1 )

ライセンス: Link先を確認
William Brown, Christos Papadimitriou, Tim Roughgarden, (参考訳) 適応エージェントとの繰り返しの相互作用問題では、エージェント応答の空間を予測し、最適化する必要があることが多い。 エージェントの動作を符号化する有界な状態空間に対して凸ロスを伴い,オンライン(非線形)制御を満足する事例として,この形式の多くの問題を列挙できることを示す。 インスタンスダイナミクスが知られているが、そうでなければ任意の場合、オンライン凸最適化への還元によるオラクル効率$O(\sqrt{T})$後悔が得られる。 状態に対する敵対的外乱の存在下では、累積的または円周的外乱の程度(それぞれ \textit{strongly} と \textit{weakly} のどちらかの局所的に制御可能な力学について)で厳密な境界を与える。 さらに,局所的な行動-線形力学の未知の症例に対するサブ線形後悔結果と,帯域フィードバック設定について述べる。 最後に,性能予測,適応エージェントの推薦,実価値商品の適応価格設定,非学習者に対する繰り返しのゲームプレイなど,よく研究された問題へのフレームワークの適用について述べる。

In repeated interaction problems with adaptive agents, our objective often requires anticipating and optimizing over the space of possible agent responses. We show that many problems of this form can be cast as instances of online (nonlinear) control which satisfy \textit{local controllability}, with convex losses over a bounded state space which encodes agent behavior, and we introduce a unified algorithmic framework for tractable regret minimization in such cases. When the instance dynamics are known but otherwise arbitrary, we obtain oracle-efficient $O(\sqrt{T})$ regret by reduction to online convex optimization, which can be made computationally efficient if dynamics are locally \textit{action-linear}. In the presence of adversarial disturbances to the state, we give tight bounds in terms of either the cumulative or per-round disturbance magnitude (for \textit{strongly} or \textit{weakly} locally controllable dynamics, respectively). Additionally, we give sublinear regret results for the cases of unknown locally action-linear dynamics as well as for the bandit feedback setting. Finally, we demonstrate applications of our framework to well-studied problems including performative prediction, recommendations for adaptive agents, adaptive pricing of real-valued goods, and repeated gameplay against no-regret learners, directly yielding extensions beyond prior results in each case.
翻訳日:2024-06-28 15:47:01 公開日:2024-06-27
# 統計多様体上の一般測地線に沿ったサンプリングによる密度比の推定

Density Ratio Estimation via Sampling along Generalized Geodesics on Statistical Manifolds ( http://arxiv.org/abs/2406.18806v1 )

ライセンス: Link先を確認
Masanari Kimura, Howard Bondell, (参考訳) 2つの確率分布の密度比は、数学的および計算統計学と機械学習の基本的なツールの1つであり、様々な既知の応用がある。 したがって、有限標本からの密度比の推定は非常に重要な課題であるが、分布が互いに離れているときに不安定であることが知られている。 この問題に対処する1つのアプローチは、2つの分布のインクリメンタルな混合を用いた密度比の推定である。 インクリメンタルな混合に基づく密度比推定のための既存の手法を幾何学的に再解釈する。 これらの手法は、2つの確率分布の間の特定の曲線に沿ってリーマン多様体上で反復的であるとみなすことができる。 多様体の幾何学を用いて、この多様体上の一般化された測地線に沿った増分密度比の推定を検討する。 そのような方法を達成するには、モンテカルロは2つの分布の変換を通して測地線に沿ってサンプリングする必要がある。 これらの測地線に沿って反復的アルゴリズムを実装し,測地線に沿った距離の変化が密度比の推定のばらつきと精度にどのように影響するかを示す。 提案手法は, 幾何を取らないインクリメンタル混合を用いて既存手法よりも優れていることを示す実験を行った。

The density ratio of two probability distributions is one of the fundamental tools in mathematical and computational statistics and machine learning, and it has a variety of known applications. Therefore, density ratio estimation from finite samples is a very important task, but it is known to be unstable when the distributions are distant from each other. One approach to address this problem is density ratio estimation using incremental mixtures of the two distributions. We geometrically reinterpret existing methods for density ratio estimation based on incremental mixtures. We show that these methods can be regarded as iterating on the Riemannian manifold along a particular curve between the two probability distributions. Making use of the geometry of the manifold, we propose to consider incremental density ratio estimation along generalized geodesics on this manifold. To achieve such a method requires Monte Carlo sampling along geodesics via transformations of the two distributions. We show how to implement an iterative algorithm to sample along these geodesics and show how changing the distances along the geodesic affect the variance and accuracy of the estimation of the density ratio. Our experiments demonstrate that the proposed approach outperforms the existing approaches using incremental mixtures that do not take the geometry of the
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# MLを用いたFPGAを用いた実時間量子状態判別による中間回路計測

ML-Powered FPGA-based Real-Time Quantum State Discrimination Enabling Mid-circuit Measurements ( http://arxiv.org/abs/2406.18807v1 )

ライセンス: Link先を確認
Neel R. Vora, Yilun Xu, Akel Hashim, Neelay Fruitwala, Ho Nam Nguyen, Haoran Liao, Jan Balewski, Abhi Rajagopala, Kasra Nowrouzi, Qing Ji, K. Birgitta Whaley, Irfan Siddiqi, Phuc Nguyen, Gang Huang, (参考訳) 古典コンピュータのトランジスタ状態を読むのと同様に、量子ビット(量子ビット)状態を特定することは、量子情報を翻訳するための基本的な操作である。 しかし、量子状態の同定は超伝導量子プロセッサ上で最も遅く、最もエラーを起こしやすい演算である。 既存のほとんどの状態識別アルゴリズムは、制御回路からホストコンピュータに転送されるオフラインデータを使用して実装され、最適化されているだけである。 超伝導量子状態は、リードアウト回路とホストコンピュータ(数十ミリ秒)との通信遅延よりもはるかに短い数百人しか生き残らないため、リアルタイムな状態の識別は不可能である。 MCM(Mid-circuit Measurement)は、量子回路の中間段階における量子ビットの計測を行う手法であり、量子ビットの再利用の先進的な手法である。 単発読み出しを必要とするMCMでは、低いレイテンシと高い精度で状態判別を行うために、その場で行うことが不可欠である。 本稿では,MCMを実現するためのフィールドプログラマブルゲートアレイ(FPGA)ベースのシステムQubiCMLについて紹介する。 FPGA上に多層ニューラルネットワークを設計、展開し、状態の正確な識別を保証している。 MLを利用した量子状態の識別が初めて、無線周波数システム-オンチップFPGAプラットフォームで実装されている。 FPGA上の軽量ネットワークは、各推論を完了するのに54 nsしかかからない。 超伝導量子プロセッサ上でのQubiCMLの性能を評価し,500 nsの読み出しで平均98.5%の精度を得た。 QubiCMLは、量子コミュニティの標準的なリアルタイム状態識別手法となる可能性を持っている。

Similar to reading the transistor state in classical computers, identifying the quantum bit (qubit) state is a fundamental operation to translate quantum information. However, identifying quantum state has been the slowest and most error-prone operation on superconducting quantum processors. Most existing state discrimination algorithms have only been implemented and optimized "after the fact" - using offline data transferred from control circuits to host computers. Real-time state discrimination is not possible because a superconducting quantum state only survives for a few hundred us, which is much shorter than the communication delay between the readout circuit and the host computer (i.e., tens of ms). Mid-circuit measurement (MCM), where measurements are conducted on qubits at intermediate stages within a quantum circuit rather than solely at the end, represents an advanced technique for qubit reuse. For MCM necessitating single-shot readout, it is imperative to employ an in-situ technique for state discrimination with low latency and high accuracy. This paper introduces QubiCML, a field-programmable gate array (FPGA) based system for real-time state discrimination enabling MCM - the ability to measure the state at the control circuit before/without transferring data to a host computer. A multi-layer neural network has been designed and deployed on an FPGA to ensure accurate in-situ state discrimination. For the first time, ML-powered quantum state discrimination has been implemented on a radio frequency system-on-chip FPGA platform. The deployed lightweight network on the FPGA only takes 54 ns to complete each inference. We evaluated QubiCML's performance on superconducting quantum processors and obtained an average accuracy of 98.5% with only 500 ns readout. QubiCML has the potential to be the standard real-time state discrimination method for the quantum community.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# 海馬内鼻回路における結合は認知地図における構成性を促進する

Binding in hippocampal-entorhinal circuits enables compositionality in cognitive maps ( http://arxiv.org/abs/2406.18808v1 )

ライセンス: Link先を確認
Christopher J. Kymn, Sonia Mazelet, Anthony Thomas, Denis Kleyko, E. Paxon Frady, Friedrich T. Sommer, Bruno A. Olshausen, (参考訳) 本稿では,ニューロンごとの符号化範囲と空間情報の最大化といった最適原理と,分散表現における計算の代数的枠組みを組み合わせた海馬形成における空間表現の規範モデルを提案する。 空間的位置は残余数系に符号化され、個々の残基は高次元の複素数値ベクトルで表される。 これらは、類似性保存、共役ベクトル結合演算により、位置を表す単一のベクトルに構成される。 全体位置の表現と個々の残基の表現の自己整合性は、エントルヒンナル皮質のグリッドセルモジュールに対応するモジュールを持つモジュラーアトラクタネットワークによって強制される。 ベクトル結合操作は、異なるコンテキストを空間表現に関連付けることができ、角膜皮質と海馬のモデルを生成する。 本モデルでは,次元のパターンの超線形スケーリング,ロバストな誤り訂正,空間位置のヘキサゴナルでキャリーフリーな符号化など,規範的なデシラタを実現する。 これらの特性により、堅牢な経路積分と感覚入力の関連が実現される。 より一般に、このモデルは、海馬の形成において構成計算がどのように起こるかを定式化し、テスト可能な実験的予測をもたらす。

We propose a normative model for spatial representation in the hippocampal formation that combines optimality principles, such as maximizing coding range and spatial information per neuron, with an algebraic framework for computing in distributed representation. Spatial position is encoded in a residue number system, with individual residues represented by high-dimensional, complex-valued vectors. These are composed into a single vector representing position by a similarity-preserving, conjunctive vector-binding operation. Self-consistency between the representations of the overall position and of the individual residues is enforced by a modular attractor network whose modules correspond to the grid cell modules in entorhinal cortex. The vector binding operation can also associate different contexts to spatial representations, yielding a model for entorhinal cortex and hippocampus. We show that the model achieves normative desiderata including superlinear scaling of patterns with dimension, robust error correction, and hexagonal, carry-free encoding of spatial position. These properties in turn enable robust path integration and association with sensory inputs. More generally, the model formalizes how compositional computations could occur in the hippocampal formation and leads to testable experimental predictions.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# Divide, Ensemble and Conquer: オンボードセマンティックセマンティックセグメンテーションのための教師なしドメイン適応に関する最後のマイル

Divide, Ensemble and Conquer: The Last Mile on Unsupervised Domain Adaptation for On-Board Semantic Segmentation ( http://arxiv.org/abs/2406.18809v1 )

ライセンス: Link先を確認
Tao Lian, Jose L. Gómez, Antonio M. López, (参考訳) セマンティックセグメンテーションのための教師なしドメイン適応(UDA)の最後のマイルは、シン・トゥ・リアルドメインギャップを解決することである。 最近のUDA手法は大幅に進歩しているが、合成単一ソースデータセット(例:GTA5)用にカスタマイズされた戦略に依存しており、その一般化はマルチソースデータセットに制限されている。 逆に、合成マルチソースデータセットは、UDAの最後のマイルを前進させるという約束を持っているが、現在の研究では未利用のままである。 そこで本稿では,マルチソースデータセットのためのフレキシブルなUDAフレームワークであるDECを提案する。 分割・分散戦略に従うと、DECはセマンティッククラスを分類し、各カテゴリのトレーニングモデルを作成し、合成データセットにのみ訓練されたアンサンブルモデルでそれらの出力を融合して最終セグメンテーションマスクを取得することでタスクを単純化する。 DECは既存のUDAメソッドと統合することができ、Cityscapes、BDD100K、Mapillary Vistasで最先端のパフォーマンスを実現し、シン・トゥ・リアルなドメインギャップを大幅に狭めることができる。

The last mile of unsupervised domain adaptation (UDA) for semantic segmentation is the challenge of solving the syn-to-real domain gap. Recent UDA methods have progressed significantly, yet they often rely on strategies customized for synthetic single-source datasets (e.g., GTA5), which limits their generalisation to multi-source datasets. Conversely, synthetic multi-source datasets hold promise for advancing the last mile of UDA but remain underutilized in current research. Thus, we propose DEC, a flexible UDA framework for multi-source datasets. Following a divide-and-conquer strategy, DEC simplifies the task by categorizing semantic classes, training models for each category, and fusing their outputs by an ensemble model trained exclusively on synthetic datasets to obtain the final segmentation mask. DEC can integrate with existing UDA methods, achieving state-of-the-art performance on Cityscapes, BDD100K, and Mapillary Vistas, significantly narrowing the syn-to-real domain gap.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# 数学による量子力学学習におけるチベット学生の支援

Assisting Tibetan Students in Learning Quantum Mechanics via Mathematica ( http://arxiv.org/abs/2406.18810v1 )

ライセンス: Link先を確認
Guangtian Zhu, Jing Hu, Chun Du, (参考訳) チベットの物理学の大学院生は量子力学(QM)を学ぶのがとても難しい。 我々は,チベットの学生がQMを学習するのを助けるためにPERベースの手法を使おうとする。 本研究では,チベット大学のQMコースにMathematicaを取り入れ,学生の学習経験を記録する。 チベットの学生はマテマティカを学ぶという主観的な感情を抱く傾向にあるが、漢人学生はマテマティカの操作技術に重点を置いている。 また,チベットの学生と漢の学生は,MathematicaでQMを学習した後,時間に依存しないシュロディンガー方程式を限定的に改善することが示唆された。 チベットの物理学生の学力向上にはさらなる努力が必要である。

Undergraduate students of physics in Tibet have great difficulty learning quantum mechanics (QM). We attempt to use PER-based methods to help Tibetan students learn QM. In this preliminary study, we incorporate Mathematica in a QM course at Tibet University and record students' learning experiences. Tibetan students tend to have subjective feelings of learning Mathematica, whereas Han students (majority) are more focused on the operational techniques of Mathematica. The results also suggest that both Tibetan students and Han students show limited improvement in time-independent Schrodinger equations after learning QM with Mathematica. Further effort is needed to improve the academic literacy skills of physics students in Tibet.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# AIロボットにおけるディジタルツインシステムに対するプライバシ攻撃に関する調査

A Survey on Privacy Attacks Against Digital Twin Systems in AI-Robotics ( http://arxiv.org/abs/2406.18812v1 )

ライセンス: Link先を確認
Ivan A. Fernandez, Subash Neupane, Trisha Chakraborty, Shaswata Mitra, Sudip Mittal, Nisha Pillai, Jingdao Chen, Shahram Rahimi, (参考訳) 産業 4.0 は、人工知能/機械学習(AI/ML)とデジタルツイン(DT)技術の統合によって、複雑なロボットが台頭するのを目撃している。 これらの技術は多くの利点を提供しているが、プライバシーとセキュリティのリスクももたらしている。 本稿では,AIモデルとDTモデルによって実現されたロボットを対象としたプライバシ攻撃について調査する。 第一原理(例えば物理に基づく)から導かれるモデルの潜在的抽出に加えて,MLモデルの抽出とデータ漏洩についても論じる。 また、機械学習モデルトレーニング、責任あるAIとDTのセーフガード、データガバナンス、倫理的考慮がこれらの攻撃の有効性に与える影響について、DT統合ロボットによる設計上の考慮についても論じる。 我々は、安全で信頼性の高いAIロボットシステムに対して、ロボット工学、AI、DT技術を堅牢な倫理的枠組みと信頼性の原則と組み合わせる必要性を強調しながら、信頼できる自律アプローチを提唱する。

Industry 4.0 has witnessed the rise of complex robots fueled by the integration of Artificial Intelligence/Machine Learning (AI/ML) and Digital Twin (DT) technologies. While these technologies offer numerous benefits, they also introduce potential privacy and security risks. This paper surveys privacy attacks targeting robots enabled by AI and DT models. Exfiltration and data leakage of ML models are discussed in addition to the potential extraction of models derived from first-principles (e.g., physics-based). We also discuss design considerations with DT-integrated robotics touching on the impact of ML model training, responsible AI and DT safeguards, data governance and ethical considerations on the effectiveness of these attacks. We advocate for a trusted autonomy approach, emphasizing the need to combine robotics, AI, and DT technologies with robust ethical frameworks and trustworthiness principles for secure and reliable AI robotic systems.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# ポリシ・アズ・コードによるエッジクラウドIoTマイクロサービスのセキュア管理に向けて

Towards Secure Management of Edge-Cloud IoT Microservices using Policy as Code ( http://arxiv.org/abs/2406.18813v1 )

ライセンス: Link先を確認
Samodha Pallewatta, Muhammad Ali Babar, (参考訳) IoTアプリケーションプロバイダは、IoTデータを貴重な情報に変換するアプリケーションを開発するために、ますますMicroService Architecture(MSA)を使用している。 マイクロサービスの独立してデプロイ可能でスケーラブルな性質により、さまざまなサービスプロバイダが提供するエッジとクラウドリソースの動的利用が可能になり、パフォーマンスが向上する。 しかし、IoTデータセキュリティは、分散および動的に構成されたマイクロサービス間のマルチドメインデータ処理とトランスミッションの間、確実にする必要がある。 マイクロサービスレベルできめ細かいセキュリティコントロールを実装する能力は、この問題を解決する可能性を秘めている。 この目的のためにエッジクラウド環境は、IoTデータの感度を考慮して、マイクロサービスの管理中にさまざまなセキュリティポリシ(初期配置、スケーリング、マイグレーション、動的構成など)を実行するために、マルチドメイン環境をまたいだ複雑なスケーラブルなセキュリティフレームワークを必要とする。 このようなフレームワークの欠如に対処するために,ポリシ・アズ・コードを使用して,マルチドメインエッジクラウド環境におけるセキュアなマイクロサービス管理を実現するアーキテクチャフレームワークを提案する。 提案されたフレームワークには、“コントロールプレーン”が含まれており、クラウドネイティブ(コンテナオーケストレータとサービスメッシュ)テクノロジをインテリジェントかつ動的に利用して、セキュリティポリシを強制する。 提案されたフレームワークのプロトタイプは、Docker、Kubernetes、Istio、Open Policy Agentといったオープンソースのクラウドネイティブテクノロジを使用して、フレームワークを検証しています。 評価は、提案したフレームワークが分散マイクロサービス管理にセキュリティポリシーを強制する能力を検証する。

IoT application providers increasingly use MicroService Architecture (MSA) to develop applications that convert IoT data into valuable information. The independently deployable and scalable nature of microservices enables dynamic utilization of edge and cloud resources provided by various service providers, thus improving performance. However, IoT data security should be ensured during multi-domain data processing and transmission among distributed and dynamically composed microservices. The ability to implement granular security controls at the microservices level has the potential to solve this. To this end, edge-cloud environments require intricate and scalable security frameworks that operate across multi-domain environments to enforce various security policies during the management of microservices (i.e., initial placement, scaling, migration, and dynamic composition), considering the sensitivity of the IoT data. To address the lack of such a framework, we propose an architectural framework that uses Policy-as-Code to ensure secure microservice management within multi-domain edge-cloud environments. The proposed framework contains a "control plane" to intelligently and dynamically utilise and configure cloud-native (i.e., container orchestrators and service mesh) technologies to enforce security policies. We implement a prototype of the proposed framework using open-source cloud-native technologies such as Docker, Kubernetes, Istio, and Open Policy Agent to validate the framework. Evaluations verify our proposed framework's ability to enforce security policies for distributed microservices management, thus harvesting the MSA characteristics to ensure IoT application security needs.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# コンフォーマル予測における長さ最適化

Length Optimization in Conformal Prediction ( http://arxiv.org/abs/2406.18814v1 )

ライセンス: Link先を確認
Shayan Kiyani, George Pappas, Hamed Hassani, (参考訳) 条件付き妥当性と長さ効率は共形予測(CP)の2つの重要な側面である。 条件付き妥当性の達成は、データサブポピュレーションの正確な不確実性定量化を保証する一方で、適切な長さ効率は、予測セットが情報的かつ非自明であることを保証する。 これらの問題を個別に解決しようとする大きな努力にもかかわらず、これらの2つの目的を和解する原則的な枠組みはCP文献に欠落している。 本稿では,CPL(Conformal Prediction with Length-Optimization)を開発した。CPL(Conformal Prediction with Length-Optimization)は,コバリアイトシフトの様々なクラスにおいて条件の妥当性を確保しつつ,(近距離)最適長の予測セットを構築する新しいフレームワークである。 無限サンプル状態においては、CPLが条件付き妥当性と長さ最適性を達成することを示す強い双対性結果を提供する。 有限サンプル状態において、CPLは条件付き有効予測セットを構成することを示す。 実験により,分類,回帰,テキスト関連設定において,多種多様な実世界および合成データセットにわたる最先端の手法と比較して,CPLの予測セットサイズ性能が優れていることを示した。

Conditional validity and length efficiency are two crucial aspects of conformal prediction (CP). Achieving conditional validity ensures accurate uncertainty quantification for data subpopulations, while proper length efficiency ensures that the prediction sets remain informative and non-trivial. Despite significant efforts to address each of these issues individually, a principled framework that reconciles these two objectives has been missing in the CP literature. In this paper, we develop Conformal Prediction with Length-Optimization (CPL) - a novel framework that constructs prediction sets with (near-) optimal length while ensuring conditional validity under various classes of covariate shifts, including the key cases of marginal and group-conditional coverage. In the infinite sample regime, we provide strong duality results which indicate that CPL achieves conditional validity and length optimality. In the finite sample regime, we show that CPL constructs conditionally valid prediction sets. Our extensive empirical evaluations demonstrate the superior prediction set size performance of CPL compared to state-of-the-art methods across diverse real-world and synthetic datasets in classification, regression, and text-related settings.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# MissionGNN:Mission-Specific Knowledge Graph Generationによる階層型マルチモーダルGNNに基づく弱教師付きビデオ異常認識

MissionGNN: Hierarchical Multimodal GNN-based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph Generation ( http://arxiv.org/abs/2406.18815v1 )

ライセンス: Link先を確認
Sanggeon Yun, Ryozo Masukawa, Minhyoung Na, Mohsen Imani, (参考訳) ビデオ異常検出(VAD)とビデオ異常認識(VAR)のタスクは、さまざまな領域にわたる安全上の懸念をエスカレートする文脈において、インテリジェントな監視、証拠調査、暴力警告などの応用において重要視されている。 これらの課題は、ビデオデータの正常な振る舞いから逸脱を識別し分類することを目的としており、異常の出現が極めて不均衡なデータと、教師付き学習のための広範囲なフレームレベルのデータアノテーションの非現実性に繋がるため、重大な課題に直面している。 本稿では、最先端の大規模言語モデルと総合知識グラフを活用して、VARにおける弱教師付き学習を効果的に行うことで、これらの課題に対処する新しい階層型グラフニューラルネットワーク(GNN)モデルであるMissionGNNを紹介する。 提案手法は,大規模なマルチモーダルモデル上での重勾配計算を回避し,固定ビデオセグメント化を伴わないフレームレベルの完全トレーニングを実現することにより,従来の手法の限界を回避する。 ミッション固有の知識グラフの自動生成を活用することで,従来のセグメンテーションやマルチモーダルアプローチの制約を伴わずに,リアルタイムビデオ解析のための実用的で効率的なソリューションを提供する。 ベンチマークデータセットに対する実験的検証は、VADとVARにおける我々のモデルの性能を示し、ビデオ監視システムにおける異常検出と認識の状況を再定義する可能性を強調している。

In the context of escalating safety concerns across various domains, the tasks of Video Anomaly Detection (VAD) and Video Anomaly Recognition (VAR) have emerged as critically important for applications in intelligent surveillance, evidence investigation, violence alerting, etc. These tasks, aimed at identifying and classifying deviations from normal behavior in video data, face significant challenges due to the rarity of anomalies which leads to extremely imbalanced data and the impracticality of extensive frame-level data annotation for supervised learning. This paper introduces a novel hierarchical graph neural network (GNN) based model MissionGNN that addresses these challenges by leveraging a state-of-the-art large language model and a comprehensive knowledge graph for efficient weakly supervised learning in VAR. Our approach circumvents the limitations of previous methods by avoiding heavy gradient computations on large multimodal models and enabling fully frame-level training without fixed video segmentation. Utilizing automated, mission-specific knowledge graph generation, our model provides a practical and efficient solution for real-time video analysis without the constraints of previous segmentation-based or multimodal approaches. Experimental validation on benchmark datasets demonstrates our model's performance in VAD and VAR, highlighting its potential to redefine the landscape of anomaly detection and recognition in video surveillance systems.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# 教師なしクラスタリング分析を用いた対応不要な非線形点集合登録

Correspondence-Free Non-Rigid Point Set Registration Using Unsupervised Clustering Analysis ( http://arxiv.org/abs/2406.18817v1 )

ライセンス: Link先を確認
Mingyang Zhao, Jingen Jiang, Lei Ma, Shiqing Xin, Gaofeng Meng, Dong-Ming Yan, (参考訳) 本稿では、教師なしクラスタリング分析にインスパイアされた、新しい非剛性点集合登録法を提案する。 ソースセットとターゲットセットを別個のエンティティとして扱う従来のアプローチとは違って,クラスタリングセンタロイドとクラスタリングメンバを別々に定式化する包括的フレームワークを開発する。 次に、よく使われるガウス核の代わりに、$\ell_1$-induced Laplacian kernelでTikhonov正則化を採用して、滑らかでより堅牢な変位場を確保する。 我々の定式化は、閉じた解、理論的保証、次元からの独立性、そして大きな変形を扱う能力を提供する。 次に,クラスタリングを改良したNystr\"om法を導入し,低ランク近似の厳密なバウンダリを提供しながら,グラム行列の計算複雑性と保存を線形に効果的に削減する。 提案手法は, 様々なシナリオにおいて高精度な結果が得られ, 特に大きな変形を有する形状において, 競争相手をかなり上回っている。 また,形状伝達や医用登録といった課題に対して,本手法の汎用性を示す。

This paper presents a novel non-rigid point set registration method that is inspired by unsupervised clustering analysis. Unlike previous approaches that treat the source and target point sets as separate entities, we develop a holistic framework where they are formulated as clustering centroids and clustering members, separately. We then adopt Tikhonov regularization with an $\ell_1$-induced Laplacian kernel instead of the commonly used Gaussian kernel to ensure smooth and more robust displacement fields. Our formulation delivers closed-form solutions, theoretical guarantees, independence from dimensions, and the ability to handle large deformations. Subsequently, we introduce a clustering-improved Nystr\"om method to effectively reduce the computational complexity and storage of the Gram matrix to linear, while providing a rigorous bound for the low-rank approximation. Our method achieves high accuracy results across various scenarios and surpasses competitors by a significant margin, particularly on shapes with substantial deformations. Additionally, we demonstrate the versatility of our method in challenging tasks such as shape transfer and medical registration.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# Universal Checkpointing: 大規模分散トレーニングのための効率的かつ柔軟なチェックポイント

Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training ( http://arxiv.org/abs/2406.18820v1 )

ライセンス: Link先を確認
Xinyu Lian, Sam Ade Jacobs, Lev Kurilenko, Masahiro Tanaka, Stas Bekman, Olatunji Ruwase, Minjia Zhang, (参考訳) 既存のチェックポイントアプローチは、ハードウェアの制限によってモデルの並列性、すなわちモデルのスケーリングの要件である複数のアクセラレーター間でモデルの状態をシャーディングするにもかかわらず、分散トレーニングには適していないように思われる。 分散モデル状態の単一チェックポイントへの統合は、トレーニングを許容不可能に遅くし、極端なスケールでは実用的ではない。 対照的に、分散チェックポイントはトレーニングランのモデル並列性とハードウェア構成と密接に結びついているので、異なる構成では使用できない。 この問題に対処するために,任意の並列性戦略とハードウェア構成に基づいて再見積を行う柔軟性を提供しながら,効率的なチェックポイント作成を可能にする手法であるユニバーサルチェックポイントを提案する。 Universal Checkpointingは、健全なハードウェアの継続的なトレーニングを通じてハードウェア障害に対するレジリエンスを改善し、弾力性の活用を通じてトレーニング時間を短縮するなど、大規模なトレーニングのための前例のない能力をアンロックする。 Universal Checkpointingの重要な洞察は、チェックポイントライフサイクルの各フェーズにおける最適な表現の選択である。 これは2つの重要なメカニズムによって達成される。 まず、各モデルパラメータの統一表現とパラメータフラグメントのメタデータを任意のモデル並列構成のトレーニングランクにマッピングするユニバーサルチェックポイント形式について述べる。 第2に、ユニバーサルチェックポイント言語は、分散チェックポイントをユニバーサルチェックポイント形式に変換するための、シンプルだが強力な仕様言語である。 本評価は,最先端のモデルアーキテクチャと多種多様な並列処理技術におけるユニバーサルチェックポイントの有効性と汎用性を示す。

Existing checkpointing approaches seem ill-suited for distributed training even though hardware limitations make model parallelism, i.e., sharding model state across multiple accelerators, a requirement for model scaling. Consolidating distributed model state into a single checkpoint unacceptably slows down training, and is impractical at extreme scales. Distributed checkpoints, in contrast, are tightly coupled to the model parallelism and hardware configurations of the training run, and thus unusable on different configurations. To address this problem, we propose Universal Checkpointing, a technique that enables efficient checkpoint creation while providing the flexibility of resuming on arbitrary parallelism strategy and hardware configurations. Universal Checkpointing unlocks unprecedented capabilities for large-scale training such as improved resilience to hardware failures through continued training on remaining healthy hardware, and reduced training time through opportunistic exploitation of elastic capacity. The key insight of Universal Checkpointing is the selection of the optimal representation in each phase of the checkpointing life cycle: distributed representation for saving, and consolidated representation for loading. This is achieved using two key mechanisms. First, the universal checkpoint format, which consists of a consolidated representation of each model parameter and metadata for mapping parameter fragments into training ranks of arbitrary model-parallelism configuration. Second, the universal checkpoint language, a simple but powerful specification language for converting distributed checkpoints into the universal checkpoint format. Our evaluation demonstrates the effectiveness and generality of Universal Checkpointing on state-of-the-art model architectures and a wide range of parallelism techniques.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# 2光子Jaynes-Cummingsモデルの熱雑音に対する感度

Insensitivity of the two-photon Jaynes-Cummings model to thermal noise ( http://arxiv.org/abs/2406.18822v1 )

ライセンス: Link先を確認
Hiroo Azuma, (参考訳) 熱場力学(TFD)を用いた多光子Jaynes-Cummingsモデル(JCM)の熱効果について検討した。 多光子JCMの系全体の初期状態を原子の基底状態と空洞場の有限温度でのコヒーレント状態の積とすれば、その時間発展を計算することができる。 我々は,Rabi振動の崩壊と再生の期間と,低温膨張の2次摂動までの原子のコヒーレンス相対エントロピーを評価する。 本稿では,TFDの摂動理論の結果と直感的な周期推定が一致することを示す。 特に、2光子JCMの周期は、空洞場のコヒーレント状態の振幅や温度にはほとんど依存しない。 数値計算により、2光子JCMのコヒーレンスの相対エントロピーは時間の経過とともに非ゼロ温度の場合においても崩壊しないことが示された。 対照的に、単光子、三光子、四光子 JCM に対するコヒーレンスの相対エントロピーは、0および有限温度の場合の時間経過とともに崩壊する。

We study the thermal effects of the multi-photon Jaynes-Cummings model (JCM) with a method of thermo field dynamics (TFD). Letting the initial state of the whole system for the multi-photon JCM be a product of the ground state of an atom and a coherent state of a cavity field at finite temperature, we compute its time evolution. We evaluate a period of the collapse and revival of the Rabi oscillations and the relative entropy of coherence of the atom up to the second-order perturbation of the low-temperature expansion. We show that an intuitive estimation of the period matches with the result of the perturbation theory of TFD well. In particular, we witness that the period of the two-photon JCM hardly depends on the amplitude of the coherent state of the cavity field or the temperature. Numerical calculations suggest that the relative entropy of coherence of the two-photon JCM does not decay even for nonzero temperature cases as time proceeds. By contrast, the relative entropy of coherence for single-, three-, and four-photon JCMs decay as time proceeds for zero- and finite-temperature cases.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# 完全な情報リンクICA:マルチモーダル融合における欠落データ問題への対処

Full Information Linked ICA: addressing missing data problem in multimodal fusion ( http://arxiv.org/abs/2406.18829v1 )

ライセンス: Link先を確認
Ruiyang Li, F. DuBois Bowman, Seonjoo Lee, (参考訳) 近年のマルチモーダル画像取得技術の進歩により、脳の構造と機能の異なる側面を計測できるようになった。 リンク独立成分分析(licA)のようなマルチモーダル融合は、補完情報を統合するために一般的に用いられる。 しかし、神経画像データに一般的に発生する欠落したデータに悩まされている。 そこで本稿では,LICA フレームワーク下でのマルチモーダル融合において,欠落データ問題に対処する全情報 LICA アルゴリズム (FI-LICA) を提案する。 本手法は,完全な事例に基づいて,全情報の原則を取り入れ,利用可能な情報をすべて活用して,欠落した潜伏情報を復元する。 シミュレーション実験により,FI-LICAの理想的な性能を示した。 さらに、アルツハイマー病神経画像イニシアチブ(ADNI)研究のマルチモーダルデータにFI-LICAを適用し、現在の診断の分類や、軽度認知障害(MCI)患者のAD遷移の予測に優れた性能を示し、提案手法の実用性を強調した。

Recent advances in multimodal imaging acquisition techniques have allowed us to measure different aspects of brain structure and function. Multimodal fusion, such as linked independent component analysis (LICA), is popularly used to integrate complementary information. However, it has suffered from missing data, commonly occurring in neuroimaging data. Therefore, in this paper, we propose a Full Information LICA algorithm (FI-LICA) to handle the missing data problem during multimodal fusion under the LICA framework. Built upon complete cases, our method employs the principle of full information and utilizes all available information to recover the missing latent information. Our simulation experiments showed the ideal performance of FI-LICA compared to current practices. Further, we applied FI-LICA to multimodal data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) study, showcasing better performance in classifying current diagnosis and in predicting the AD transition of participants with mild cognitive impairment (MCI), thereby highlighting the practical utility of our proposed method.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# OutlierTune: 大規模言語モデルのための効率的なチャネルワイズ量子化

OutlierTune: Efficient Channel-Wise Quantization for Large Language Models ( http://arxiv.org/abs/2406.18832v1 )

ライセンス: Link先を確認
Jinguang Wang, Yuexi Yin, Haifeng Sun, Qi Qi, Jingyu Wang, Zirui Zhuang, Tingting Yang, Jianxin Liao, (参考訳) 大規模言語モデル(LLM)のアクティベーションの定量化は、構造化された外れ値の存在が大きな課題となっている。 既存のほとんどの手法は、アクティベーションのトーケン単位またはテンソル単位の量子化に焦点を当てており、精度とハードウェア効率の両方を達成することは困難である。 そこで本研究では,LLMの活性化のためのPTQ法であるOutlierTuneを提案する。 OutlierTuneは2つのコンポーネントで構成されている。 Dequantizationの事前実行は、アクティベーションスケーリング要因によってモデルの重みを更新し、内部スケーリングやチャネルごとのアクティベーション量子化による計算オーバーヘッドの増大を回避する。 シンメトリゼーションは、異なるアクティベーションチャネル間のバランスの取れた数値範囲を確保することにより、重量更新による量子化差をさらに減少させる。 OutlierTuneの実装は簡単で、ハードウェア効率も良い。 大規模な実験により、提案するフレームワークは、複数の異なるタスクで既存のメソッドよりも優れていることが示された。 より優れた一般化を示すために、このフレームワークは命令チューニング LLM(OPT-IML など)の Int6 量子化を半精度(FP16)と同じレベルに改善する。 さらに,提案手法はFP16よりも1.48倍高速であり,メモリ使用量を約2倍に削減できることを示した。

Quantizing the activations of large language models (LLMs) has been a significant challenge due to the presence of structured outliers. Most existing methods focus on the per-token or per-tensor quantization of activations, making it difficult to achieve both accuracy and hardware efficiency. To address this problem, we propose OutlierTune, an efficient per-channel post-training quantization (PTQ) method for the activations of LLMs. OutlierTune consists of two components: pre-execution of dequantization and symmetrization. The pre-execution of dequantization updates the model weights by the activation scaling factors, avoiding the internal scaling and costly additional computational overheads brought by the per-channel activation quantization. The symmetrization further reduces the quantization differences arising from the weight updates by ensuring the balanced numerical ranges across different activation channels. OutlierTune is easy to implement and hardware-efficient, introducing almost no additional computational overheads during the inference. Extensive experiments show that the proposed framework outperforms existing methods across multiple different tasks. Demonstrating better generalization, this framework improves the Int6 quantization of the instruction-tuning LLMs, such as OPT-IML, to the same level as half-precision (FP16). Moreover, we have shown that the proposed framework is 1.48x faster than the FP16 implementation while reducing approximately 2x memory usage.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# 乗法設計更新による量子アニール構造最適化

Quantum annealing-based structural optimization with a multiplicative design update ( http://arxiv.org/abs/2406.18833v1 )

ライセンス: Link先を確認
Naruethep Sukulthanasorn, Junsen Xiao, Koya Wagatsuma, Shuji Moriguchi, Kenjiro Terada, (参考訳) 本稿では,量子アニール(QA)による反復最適化に基づく新しい構造設計フレームワークを提案する。 新規性は、QAによる最適化問題を反復的に解決した未知の設計乗算器を用いて、設計の更新に成功したことにある。 さらに、構造最適化における密度に基づくアプローチに合わせて、乗算器は設計材料を表現するために乗法的であり、設計変数として機能する。 特に、有限要素法を用いて古典コンピュータ上で構造解析を行い、位相更新にQAを利用する。 このフレームワークの主な目的は、不平等なボリューム制約の下でのコンプライアンスを最小限に抑えつつ、設計変数の符号化プロセスを採用し、最適化された設計のスムーズな反復的な更新を可能にすることである。 提案フレームワークは不等式制約を等式制約に変換するためにペナルティ法とスラック変数の両方を組み込んでおり、QAを介して2次非制約バイナリ最適化(QUBO)モデルで実装されている。 その性能を示すため、トラス構造と連続体構造の両方に対して設計最適化を行う。 これらの結果から,提案手法は,従来のコンピュータ上での最適化基準(OC)法と類似した,最適な形状とトポロジを作成することができることを示す。

This paper presents a new structural design framework, developed based on iterative optimization via quantum annealing (QA). The novelty lies in its successful design update using an unknown design multiplier obtained by iteratively solving the optimization problems with QA. In addition, to align with density-based approaches in structural optimization, multipliers are multiplicative to represent design material and serve as design variables. In particular, structural analysis is performed on a classical computer using the finite element method, and QA is utilized for topology updating. The primary objective of the framework is to minimize compliance under an inequality volume constraint, while an encoding process for the design variable is adopted, enabling smooth iterative updates to the optimized design. The proposed framework incorporates both penalty methods and slack variables to transform the inequality constraint into an equality constraint and is implemented in a quadratic unconstrained binary optimization (QUBO) model through QA. To demonstrate its performance, design optimization is performed for both truss and continuum structures. Promising results from these applications indicate that the proposed framework is capable of creating an optimal shape and topology similar to those benchmarked by the optimality criteria (OC) method on a classical computer.
翻訳日:2024-06-28 15:37:16 公開日:2024-06-27
# マスク画像テキストペアを利用した検索対象関係を考慮したゼロショット合成画像検索

Zero-shot Composed Image Retrieval Considering Query-target Relationship Leveraging Masked Image-text Pairs ( http://arxiv.org/abs/2406.18836v1 )

ライセンス: Link先を確認
Huaying Zhang, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, (参考訳) 本稿では,マスク付き画像テキストペアによるクエリターゲット関係を考慮したゼロショット合成画像検索(CIR)手法を提案する。 CIRの目的は、クエリ画像とクエリテキストを使用してターゲット画像を取得することである。 既存の方法は、テキストインバージョンネットワークを使用して、クエリイメージを擬似語に変換し、画像とテキストを構成するとともに、事前訓練されたビジュアル言語モデルを使用して検索を実現する。 しかし、検索のための情報を取得するためにテキスト・インバージョン・ネットワークを訓練するクエリ・ターゲット関係は考慮していない。 本稿では,マスク付き画像テキストペアを用いてエンドツーエンドに学習するゼロショットCIR手法を提案する。 クエリとターゲットの関係を学習するためのマスキング戦略で得られる豊富な画像テキストペアを活用することで、検索中心のテキスト反転ネットワークを用いた正確なゼロショットCIRを実現することができると期待されている。 実験の結果,提案手法の有効性が示された。

This paper proposes a novel zero-shot composed image retrieval (CIR) method considering the query-target relationship by masked image-text pairs. The objective of CIR is to retrieve the target image using a query image and a query text. Existing methods use a textual inversion network to convert the query image into a pseudo word to compose the image and text and use a pre-trained visual-language model to realize the retrieval. However, they do not consider the query-target relationship to train the textual inversion network to acquire information for retrieval. In this paper, we propose a novel zero-shot CIR method that is trained end-to-end using masked image-text pairs. By exploiting the abundant image-text pairs that are convenient to obtain with a masking strategy for learning the query-target relationship, it is expected that accurate zero-shot CIR using a retrieval-focused textual inversion network can be realized. Experimental results show the effectiveness of the proposed method.
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# 光フローと擬似深度マップを用いた高密度単眼運動分割:ゼロショットアプローチ

Dense Monocular Motion Segmentation Using Optical Flow and Pseudo Depth Map: A Zero-Shot Approach ( http://arxiv.org/abs/2406.18837v1 )

ライセンス: Link先を確認
Yuxiang Huang, Yuhao Chen, John Zelek, (参考訳) 単一の移動カメラからのモーションセグメンテーションは、コンピュータビジョンの分野において重要な課題である。 この課題は、未知のカメラの動きとシーンの深さ情報の欠如によって複雑化されている。 ディープラーニングはこれらの問題に対処する上で印象的な能力を示しているが、教師なしモデルは大量の注釈付きデータセットを広範囲にトレーニングする必要がある。 対照的に、光学フローに基づく従来の手法では、トレーニングデータを必要としないが、しばしばオブジェクトレベルの情報をキャプチャできず、過剰なセグメンテーションやアンダーセグメンテーションに繋がる。 さらに、光学的流れの過度さのため、相当な深度変化と非剛性運動を伴う複雑なシーンでも苦労する。 これらの課題を克服するために,ディープラーニング法と従来の光フロー法の両方の利点を活用して,トレーニングを必要とせずに高密度な動作セグメンテーションを行う,革新的なハイブリッド手法を提案する。 本手法は,基礎モデルを用いて各フレームのオブジェクト提案を自動的に生成することにより開始する。 これらの提案は、光学フローと相対深度マップの両方をモーションキューとして利用して、異なる運動群にまとめられる。 最先端のモノクル深度推定モデルから導かれる深度マップの統合は、特に運動パララックス問題を扱う際に、光学フローによって提供される運動キューを著しく向上させる。 本手法は, DAVIS-MovingとYTVOS-Movingのデータセットを用いて評価し, 提案手法が最高の教師なし手法よりも優れ, 最先端の教師付き手法と密に一致していることを示す。

Motion segmentation from a single moving camera presents a significant challenge in the field of computer vision. This challenge is compounded by the unknown camera movements and the lack of depth information of the scene. While deep learning has shown impressive capabilities in addressing these issues, supervised models require extensive training on massive annotated datasets, and unsupervised models also require training on large volumes of unannotated data, presenting significant barriers for both. In contrast, traditional methods based on optical flow do not require training data, however, they often fail to capture object-level information, leading to over-segmentation or under-segmentation. In addition, they also struggle in complex scenes with substantial depth variations and non-rigid motion, due to the overreliance of optical flow. To overcome these challenges, we propose an innovative hybrid approach that leverages the advantages of both deep learning methods and traditional optical flow based methods to perform dense motion segmentation without requiring any training. Our method initiates by automatically generating object proposals for each frame using foundation models. These proposals are then clustered into distinct motion groups using both optical flow and relative depth maps as motion cues. The integration of depth maps derived from state-of-the-art monocular depth estimation models significantly enhances the motion cues provided by optical flow, particularly in handling motion parallax issues. Our method is evaluated on the DAVIS-Moving and YTVOS-Moving datasets, and the results demonstrate that our method outperforms the best unsupervised method and closely matches with the state-of-theart supervised methods.
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# KB-VQAにおける質問分解による知識ベースと視覚的推論の分離

Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA ( http://arxiv.org/abs/2406.18839v1 )

ライセンス: Link先を確認
Elham J. Barezi, Parisa Kordjamshidi, (参考訳) 本稿では,知識に基づく視覚的問合せ問題について検討し,その解を求めるためには,モデルが視覚的モダリティに根ざす必要があることを示した。 近年の多くの研究は、与えられた画像の言語化に質問依存キャプタを使用し、VQA問題を解決するために大規模言語モデルを使用しているが、研究結果は、マルチホップの質問に対して合理的に実行されていないことを示している。 我々の研究は、複雑な質問をより単純な質問に置き換えることで、画像からより関連性の高い情報を抽出し、より強力な理解を提供する。 さらに,分解された質問を分析し,回答に必要な情報のモダリティを把握し,視覚的質問に対するキャプタとLLMを,非視覚的KBベースの質問に対する一般的な知識源として利用する。 その結果,視覚的情報や非視覚的情報を取得する前に,単純な質問を用いた場合の肯定的な影響が示された。 我々は、OKVQA、A-OKVQA、KRVQAを含む3つの有名なVQAデータセットについて結果と分析を行い、最大2%の精度向上を実現した。

We study the Knowledge-Based visual question-answering problem, for which given a question, the models need to ground it into the visual modality to find the answer. Although many recent works use question-dependent captioners to verbalize the given image and use Large Language Models to solve the VQA problem, the research results show they are not reasonably performing for multi-hop questions. Our study shows that replacing a complex question with several simpler questions helps to extract more relevant information from the image and provide a stronger comprehension of it. Moreover, we analyze the decomposed questions to find out the modality of the information that is required to answer them and use a captioner for the visual questions and LLMs as a general knowledge source for the non-visual KB-based questions. Our results demonstrate the positive impact of using simple questions before retrieving visual or non-visual information. We have provided results and analysis on three well-known VQA datasets including OKVQA, A-OKVQA, and KRVQA, and achieved up to 2% improvement in accuracy.
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# 大規模視線モデルに対するバックドアアタックの再検討

Revisiting Backdoor Attacks against Large Vision-Language Models ( http://arxiv.org/abs/2406.18844v1 )

ライセンス: Link先を確認
Siyuan Liang, Jiawei Liang, Tianyu Pang, Chao Du, Aishan Liu, Ee-Chien Chang, Xiaochun Cao, (参考訳) インストラクションチューニングは、大きな視覚言語モデル(LVLM)を強化するが、オープン性によるバックドア攻撃によるセキュリティリスクを高める。 これまでのバックドア研究は、一貫したトレーニングとテストの指示を伴う囲い込みシナリオに焦点を当てており、攻撃効果に影響を与える可能性のある実践的なドメインギャップを無視している。 本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化性を実証的に検討し,実践シナリオにおけるバックドア戦略の限界を明らかにした。 視覚領域オフセットとテキスト領域オフセットの両方を考慮すると、複数のLVLMにまたがるイメージキャプションベンチマークに対する6つの典型的なバックドア攻撃の一般化可能性について定量的に評価する。 その結果, 攻撃の一般化性は, 特定の画像・モデルに関係のないバックドアトリガーと, トリガーパターンの優先的相関に正の相関があることが示唆された。 さらに、上記の主要な観測結果に基づいて既存のバックドア攻撃を修正し、クロスドメインシナリオの一般化可能性(+86%の攻撃成功率)を大幅に改善したことを示す。 特に、命令データセットにアクセスしなくても、マルチモーダル命令セットは、非常に低い毒性率(0.2%)で、97%以上の攻撃成功率を達成することができる。 この論文は、シンプルなバックドア戦略でさえLVLMに深刻な脅威をもたらし、より多くの注意と詳細な研究を必要としていることを強調している。

Instruction tuning enhances large vision-language models (LVLMs) but raises security risks through potential backdoor attacks due to their openness. Previous backdoor studies focus on enclosed scenarios with consistent training and testing instructions, neglecting the practical domain gaps that could affect attack effectiveness. This paper empirically examines the generalizability of backdoor attacks during the instruction tuning of LVLMs for the first time, revealing certain limitations of most backdoor strategies in practical scenarios. We quantitatively evaluate the generalizability of six typical backdoor attacks on image caption benchmarks across multiple LVLMs, considering both visual and textual domain offsets. Our findings indicate that attack generalizability is positively correlated with the backdoor trigger's irrelevance to specific images/models and the preferential correlation of the trigger pattern. Additionally, we modify existing backdoor attacks based on the above key observations, demonstrating significant improvements in cross-domain scenario generalizability (+86% attack success rate). Notably, even without access to the instruction datasets, a multimodal instruction set can be successfully poisoned with a very low poisoning rate (0.2%), achieving an attack success rate of over 97%. This paper underscores that even simple traditional backdoor strategies pose a serious threat to LVLMs, necessitating more attention and in-depth research.
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# 保持・ブレンド・交換:イベントストリーム認識のための品質を考慮した空間ステレオ融合手法

Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition ( http://arxiv.org/abs/2406.18845v1 )

ライセンス: Link先を確認
Lan Chen, Dong Li, Xiao Wang, Pengpeng Shao, Wei Zhang, Yaowei Wang, Yonghong Tian, Jin Tang, (参考訳) 既存のイベントストリームベースのパターン認識モデルは、通常、イベントストリームをポイントクラウド、ボクセル、イメージなどとして表現し、さまざまなディープニューラルネットワークを設計して特徴を学習する。 しかし, モデル性能は単調なモダリティ表現, 準最適融合, 読み出し機構によって制限される可能性がある。 本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。 イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。 トランスフォーマーとグラフニューラルネット(GNN)を用いて空間的・三次元ステレオ情報を別々に学習することができる。 各表現の特徴には、効率的かつ冗長な特徴がまだ含まれており、差別化せずに直接融合すれば、準最適解が得られると信じている。 したがって,各特徴を3つのレベルに分割し,高品質な特徴を維持し,中質な特徴をブレンドし,低品質な特徴を交換する。 強化されたデュアル機能は、ボトルネック機能とともにフュージョントランスフォーマーに入力される。 さらに,最終表現としての特徴の多様性を高めるために,新たなハイブリッドインタラクション・リードアウト機構を導入する。 大規模な実験により,提案するフレームワークは,複数の広く使用されているイベントストリームに基づく分類データセット上で,最先端のパフォーマンスを実現することができた。 具体的には、Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51\%$を達成し、2位を+2.21\%$で上回る。 本論文のソースコードは \url{https://github.com/Event-AHU/EFV_event_classification/tree/EFVpp} で公開されている。

Existing event stream-based pattern recognition models usually represent the event stream as the point cloud, voxel, image, etc., and design various deep neural networks to learn their features. Although considerable results can be achieved in simple cases, however, the model performance may be limited by monotonous modality expressions, sub-optimal fusion, and readout mechanisms. In this paper, we propose a novel dual-stream framework for event stream-based pattern recognition via differentiated fusion, termed EFV++. It models two common event representations simultaneously, i.e., event images and event voxels. The spatial and three-dimensional stereo information can be learned separately by utilizing Transformer and Graph Neural Network (GNN). We believe the features of each representation still contain both efficient and redundant features and a sub-optimal solution may be obtained if we directly fuse them without differentiation. Thus, we divide each feature into three levels and retain high-quality features, blend medium-quality features, and exchange low-quality features. The enhanced dual features will be fed into the fusion Transformer together with bottleneck features. In addition, we introduce a novel hybrid interaction readout mechanism to enhance the diversity of features as final representations. Extensive experiments demonstrate that our proposed framework achieves state-of-the-art performance on multiple widely used event stream-based classification datasets. Specifically, we achieve new state-of-the-art performance on the Bullying10k dataset, i.e., $90.51\%$, which exceeds the second place by $+2.21\%$. The source code of this paper has been released on \url{https://github.com/Event-AHU/EFV_event_classification/tree/EFVpp}.
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# パーソナライズされた対話生成のための検索機能強化

Learning Retrieval Augmentation for Personalized Dialogue Generation ( http://arxiv.org/abs/2406.18847v1 )

ライセンス: Link先を確認
Qiushi Huang, Shuai Fu, Xubo Liu, Wenwu Wang, Tom Ko, Yu Zhang, Lilian Tang, (参考訳) パーソナライズされた対話生成は、ペルソナプロファイルと対話コンテキストを活用することで、高度に調整された応答を生成することに焦点を当てており、会話型AIアプリケーションにおいて大きな注目を集めている。 しかしながら、現在のパーソナライズされた対話データセットにおける一般的な設定であるペルソナプロファイルは、典型的には4から5つの文で構成されており、エージェントに関するペルソナの包括的記述を提供しておらず、真のパーソナライズされた対話を生成することの難しさを浮き彫りにしている。 この問題を解決するために、$\textbf{L}$earning Retrieval $\textbf{A}$ugmentation for $\textbf{P}$ersonalized $\textbf{D}$ial$\textbf{O}$gue $\textbf{G}$eneration$\textbf{LAPDOG}$。 提案するLAPDOGモデルは,ストーリレトリバーと対話生成器から構成される。 ストーリー検索者は、与えられたペルソナプロファイルをクエリとして使用して、ストーリー文書から関連情報を検索し、ペルソナプロファイルを増強するための補足コンテキストとして機能する。 対話生成装置は、対話履歴と拡張ペルソナプロファイルの両方を利用して、パーソナライズされた応答を生成する。 そこで,我々は,ストーリー検索と対話生成を協調的に学習する共同学習フレームワークを採用する。そこでは,ストーリー検索を所望の究極の指標(BLEUなど)に最適化し,対話生成のためのコンテンツを検索し,パーソナライズされた応答を生成する。 補足データソースとしてROCStoryを用いたCONVAI2データセットを用いて行った実験により,提案手法がベースラインを大幅に上回ることを示すとともに,提案手法の有効性を示した。 LAPDOGモデルコードは、さらなる探索のために公開されている。 https://github.com/hqsiswiliam/LAPDOG

Personalized dialogue generation, focusing on generating highly tailored responses by leveraging persona profiles and dialogue context, has gained significant attention in conversational AI applications. However, persona profiles, a prevalent setting in current personalized dialogue datasets, typically composed of merely four to five sentences, may not offer comprehensive descriptions of the persona about the agent, posing a challenge to generate truly personalized dialogues. To handle this problem, we propose $\textbf{L}$earning Retrieval $\textbf{A}$ugmentation for $\textbf{P}$ersonalized $\textbf{D}$ial$\textbf{O}$gue $\textbf{G}$eneration ($\textbf{LAPDOG}$), which studies the potential of leveraging external knowledge for persona dialogue generation. Specifically, the proposed LAPDOG model consists of a story retriever and a dialogue generator. The story retriever uses a given persona profile as queries to retrieve relevant information from the story document, which serves as a supplementary context to augment the persona profile. The dialogue generator utilizes both the dialogue history and the augmented persona profile to generate personalized responses. For optimization, we adopt a joint training framework that collaboratively learns the story retriever and dialogue generator, where the story retriever is optimized towards desired ultimate metrics (e.g., BLEU) to retrieve content for the dialogue generator to generate personalized responses. Experiments conducted on the CONVAI2 dataset with ROCStory as a supplementary data source show that the proposed LAPDOG method substantially outperforms the baselines, indicating the effectiveness of the proposed method. The LAPDOG model code is publicly available for further exploration. https://github.com/hqsiswiliam/LAPDOG
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# 身体活動データインプットのための時間的マルチスケールスパース自己注意

Temporally Multi-Scale Sparse Self-Attention for Physical Activity Data Imputation ( http://arxiv.org/abs/2406.18848v1 )

ライセンス: Link先を確認
Hui Wei, Maxwell A. Xu, Colin Samplawski, James M. Rehg, Santosh Kumar, Benjamin M. Marlin, (参考訳) ウェアラブルセンサーは、現実の環境で個人の生理状態に関連するデータを継続的に収集することを可能にする。 しかし、これらのデータは複雑な要素の組み合わせにより、広範囲に欠落する可能性がある。 本研究では,最もユビキタスなウェアラブルセンサデータである,ステップカウントデータ不足の計算問題について検討する。 我々は,300万時間以上のステップ数観測を行うトレーニングセットと,250万時間以上のステップ数観測を行うテストセットからなる,新しい大規模データセットを構築した。 本稿では,ステップカウントデータの時間的マルチスケールな性質を捉えたドメイン知識インフォームドスパース自己アテンションモデルを提案する。 本研究では,ベースラインに対するモデルの性能評価を行い,具体的なモデル設計を検証するためのアブレーション研究を行う。

Wearable sensors enable health researchers to continuously collect data pertaining to the physiological state of individuals in real-world settings. However, such data can be subject to extensive missingness due to a complex combination of factors. In this work, we study the problem of imputation of missing step count data, one of the most ubiquitous forms of wearable sensor data. We construct a novel and large scale data set consisting of a training set with over 3 million hourly step count observations and a test set with over 2.5 million hourly step count observations. We propose a domain knowledge-informed sparse self-attention model for this task that captures the temporal multi-scale nature of step-count data. We assess the performance of the model relative to baselines and conduct ablation studies to verify our specific model designs.
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# Dysca: LVLMの知覚能力を評価するための動的でスケーラブルなベンチマーク

Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs ( http://arxiv.org/abs/2406.18849v1 )

ライセンス: Link先を確認
Jie Zhang, Zhongqi Wang, Mengqi Lei, Zheng Yuan, Bei Yan, Shiguang Shan, Xilin Chen, (参考訳) 現在、LVLM(Large Vision-Language Models)の知覚能力を評価するために多くのベンチマークが提案されている。 しかしながら、ほとんどのベンチマークでは、既存のデータセットからイメージを選択して質問を行うため、潜在的なデータリークが発生する可能性がある。 さらに、これらのベンチマークは、現実的なスタイルのイメージとクリーンなシナリオに基づいてLVLMを評価することに集中しており、マルチスティル化されたイメージとノイズの多いシナリオは未探索のままである。 これらの課題に対応するために、合成画像を利用してLVLMを評価するための動的でスケーラブルなDyscaベンチマークを提案する。 具体的には、安定拡散を利用して、新しい画像、質問、および対応する回答を動的に生成するルールベースの手法を設計する。 51種類のイメージスタイルを考慮し,20のサブタスクにおいて知覚能力を評価する。 さらに,4つのシナリオ (クリーン, 腐敗, 印刷攻撃, 逆攻撃) と3つの質問タイプ (マルチチョイス, 真偽, フリーフォーム) で評価を行った。 生成パラダイムのおかげで、Dyscaは新しいサブタスクやシナリオを簡単に追加するためのスケーラブルなベンチマークとして機能する。 現在のLVLMの欠点を明らかにするため、Dysca上で10個のチェックポイントを持つ8つの高度なオープンソースLVLMを評価した。 ベンチマークは \url{https://github.com/Benchmark-Dysca/Dysca} でリリースされる。

Currently many benchmarks have been proposed to evaluate the perception ability of the Large Vision-Language Models (LVLMs). However, most benchmarks conduct questions by selecting images from existing datasets, resulting in the potential data leakage. Besides, these benchmarks merely focus on evaluating LVLMs on the realistic style images and clean scenarios, leaving the multi-stylized images and noisy scenarios unexplored. In response to these challenges, we propose a dynamic and scalable benchmark named Dysca for evaluating LVLMs by leveraging synthesis images. Specifically, we leverage Stable Diffusion and design a rule-based method to dynamically generate novel images, questions and the corresponding answers. We consider 51 kinds of image styles and evaluate the perception capability in 20 subtasks. Moreover, we conduct evaluations under 4 scenarios (i.e., Clean, Corruption, Print Attacking and Adversarial Attacking) and 3 question types (i.e., Multi-choices, True-or-false and Free-form). Thanks to the generative paradigm, Dysca serves as a scalable benchmark for easily adding new subtasks and scenarios. A total of 8 advanced open-source LVLMs with 10 checkpoints are evaluated on Dysca, revealing the drawbacks of current LVLMs. The benchmark is released in \url{https://github.com/Benchmark-Dysca/Dysca}.
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# licO:インコンテキスト分子最適化のための大規模言語モデル

LICO: Large Language Models for In-Context Molecular Optimization ( http://arxiv.org/abs/2406.18851v1 )

ライセンス: Link先を確認
Tung Nguyen, Aditya Grover, (参考訳) ブラックボックス関数の最適化は、科学と工学の基本的な問題である。 この問題を解決するために、多くのアプローチは、限られた歴史的評価から基礎となる目的を推定する代理関数を学習する。 大きな言語モデル(LLM)は、大量のデータを事前学習することで強力なパターンマッチング能力を持つが、サロゲートモデリングの潜在的な候補として際立っている。 しかし,事前学習コーパスにおけるドメイン固有データの不足や,複雑な問題を自然言語で表現することの難しさから,事前学習した言語モデルを直接予測するように促すことは,多くの科学的領域において実現不可能である。 本研究では、ブラックボックス最適化のための任意のベースLLMを拡張した汎用モデルであるlicOと、分子領域への特定の適用について紹介する。 これを実現するために、言語モデルに別の埋め込み層と予測層を設け、ドメイン上で定義された様々な関数のセット上でコンテキスト内予測を行うようにモデルを訓練する。 トレーニングが完了すると、licOはコンテクスト内でのプロンプトによって、見つからない分子の性質に一般化できる。 PMOは20以上の目的関数からなる分子最適化ベンチマークである。

Optimizing black-box functions is a fundamental problem in science and engineering. To solve this problem, many approaches learn a surrogate function that estimates the underlying objective from limited historical evaluations. Large Language Models (LLMs), with their strong pattern-matching capabilities via pretraining on vast amounts of data, stand out as a potential candidate for surrogate modeling. However, directly prompting a pretrained language model to produce predictions is not feasible in many scientific domains due to the scarcity of domain-specific data in the pretraining corpora and the challenges of articulating complex problems in natural language. In this work, we introduce LICO, a general-purpose model that extends arbitrary base LLMs for black-box optimization, with a particular application to the molecular domain. To achieve this, we equip the language model with a separate embedding layer and prediction layer, and train the model to perform in-context predictions on a diverse set of functions defined over the domain. Once trained, LICO can generalize to unseen molecule properties simply via in-context prompting. LICO achieves state-of-the-art performance on PMO, a challenging molecular optimization benchmark comprising over 20 objective functions.
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# 複数目的語を用いた復号時間言語モデルアライメント

Decoding-Time Language Model Alignment with Multiple Objectives ( http://arxiv.org/abs/2406.18853v1 )

ライセンス: Link先を確認
Ruizhe Shi, Yifang Chen, Yushi Hu, ALisa Liu, Noah Smith, Hannaneh Hajishirzi, Simon Du, (参考訳) 言語モデル(LM)を人間の好みに適応させることは、これらのモデルが多様なユーザニーズに合うようにするための重要な追求として現れている。 既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。 本稿では,異なる目的に対する任意の重み付けに対して,すべてのベースモデルの予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$\textbf{multi-objective decoding (MOD)$を提案する。 我々は、$f$-divergence正規化アライメントアプローチ(PPO、DPO、およびそれらの変種など)の族間の共通形式を利用して、ルジャンドル変換による閉形式解を同定し、効率的な復号戦略を導出する。 理論的には,既存の手法が自然条件下においても準最適であることを示し,提案手法の最適性を保証する。 実験結果から,アルゴリズムの有効性が示された。 例えば、パラメータをマージするベースラインと比較して、MODは3ドル目標に等しく最適化した場合、全体的な報酬改善を12.8%達成している。 さらに,安全,コーディング,一般ユーザ嗜好など,モデルサイズが異なる3つの完全なLCMを組み合わせるためのMOD実験を行った。 包括的改善を達成するためにデータセットの混合を慎重にキュレーションする必要がある従来の方法とは異なり、MODを使って好みの重み付けを素早く実験することで、モデルの最良の組み合わせを見つけることができる。 我々の最良の組み合わせは、トキシゲンの毒性を0%近くまで減少させ、他の3つの指標(\textit{i.e.}$, Codex@1, GSM-COT, BBH-COT)に対して7.9-33.3%の改善を達成する。

Aligning language models (LMs) to human preferences has emerged as a critical pursuit, enabling these models to better serve diverse user needs. Existing methods primarily focus on optimizing LMs for a single reward function, limiting their adaptability to varied objectives. Here, we propose $\textbf{multi-objective decoding (MOD)}$, a decoding-time algorithm that outputs the next token from a linear combination of predictions of all base models, for any given weightings over different objectives. We exploit a common form among a family of $f$-divergence regularized alignment approaches (such as PPO, DPO, and their variants) to identify a closed-form solution by Legendre transform, and derive an efficient decoding strategy. Theoretically, we show why existing approaches can be sub-optimal even in natural settings and obtain optimality guarantees for our method. Empirical results demonstrate the effectiveness of the algorithm. For example, compared to a parameter-merging baseline, MOD achieves 12.8% overall reward improvement when equally optimizing towards $3$ objectives. Moreover, we experiment with MOD on combining three fully-finetuned LLMs of different model sizes, each aimed at different objectives such as safety, coding, and general user preference. Unlike traditional methods that require careful curation of a mixture of datasets to achieve comprehensive improvement, we can quickly experiment with preference weightings using MOD to find the best combination of models. Our best combination reduces toxicity on Toxigen to nearly 0% and achieves 7.9--33.3% improvement across other three metrics ($\textit{i.e.}$, Codex@1, GSM-COT, BBH-COT).
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# ホモフィリーに欠けているものは? グラフニューラルネットワークのためのグラフホモフィリーの分離

What Is Missing In Homophily? Disentangling Graph Homophily For Graph Neural Networks ( http://arxiv.org/abs/2406.18854v1 )

ライセンス: Link先を確認
Yilun Zheng, Sitao Luan, Lihui Chen, (参考訳) グラフホモフィリー(Graph homophily)は、連結ノードが同様の特性を共有する傾向にある現象を指す。 この概念とその関連メトリクスを理解することは、効果的なグラフニューラルネットワーク(GNN)の設計に不可欠である。 エッジやノードのホモフィリーといった最も広く使われているホモフィリー計量は、グラフトポロジー全体にわたるラベルの整合性のような「類似性」を定量化する。 これらのメトリクスは、特にノードレベルのタスクにおいて、GNNのパフォーマンスを反映できると考えられている。 しかし、近年の多くの研究は、GNNのパフォーマンスが必ずしもホモフィリーな指標と一致していないこと、また、GNNのホモフィリーな影響がまだ不明であり、議論の的になっていることを実証的に証明している。 現在のホモフィリーの理解に欠けているものは何か? 不足点を明らかにするために,本稿では,グラフをラベル,構造,特徴のホモフィズといった$3の側面に分解し,GNNのパフォーマンスをより包括的に理解する。 それらの相乗効果を調べるために,3$のホモフィリー(CSBM-3H)を持つコンテキスト確率ブロックモデルを提案し,そのトポロジと特徴生成を3$のメトリクスで制御する。 CSBM-3Hの理論的解析に基づいて、トリホム(Tri-Hom)と呼ばれる新しい合成計量を導出する。 トリホムの理論的結論と有効性は、CSBM-3Hの合成実験によって検証されている。 さらに、実世界のベンチマークデータセット311ドルの実験を行い、ホモフィリメトリックとモデル性能の相関を計算した。 トリホムは、単一のホモフィリー的な側面のみに焦点を当てた17ドルの既存のメトリクスよりもはるかに高い相関値を持ち、その優位性とホモフィリーなシナジーの重要性を示している。 我々のコードは \url{https://github.com/zylMozart/Disentangle_GraphHom} で利用可能です。

Graph homophily refers to the phenomenon that connected nodes tend to share similar characteristics. Understanding this concept and its related metrics is crucial for designing effective Graph Neural Networks (GNNs). The most widely used homophily metrics, such as edge or node homophily, quantify such "similarity" as label consistency across the graph topology. These metrics are believed to be able to reflect the performance of GNNs, especially on node-level tasks. However, many recent studies have empirically demonstrated that the performance of GNNs does not always align with homophily metrics, and how homophily influences GNNs still remains unclear and controversial. Then, a crucial question arises: What is missing in our current understanding of homophily? To figure out the missing part, in this paper, we disentangle the graph homophily into $3$ aspects: label, structural, and feature homophily, providing a more comprehensive understanding of GNN performance. To investigate their synergy, we propose a Contextual Stochastic Block Model with $3$ types of Homophily (CSBM-3H), where the topology and feature generation are controlled by the $3$ metrics. Based on the theoretical analysis of CSBM-3H, we derive a new composite metric, named Tri-Hom, that considers all $3$ aspects and overcomes the limitations of conventional homophily metrics. The theoretical conclusions and the effectiveness of Tri-Hom have been verified through synthetic experiments on CSBM-3H. In addition, we conduct experiments on $31$ real-world benchmark datasets and calculate the correlations between homophily metrics and model performance. Tri-Hom has significantly higher correlation values than $17$ existing metrics that only focus on a single homophily aspect, demonstrating its superiority and the importance of homophily synergy. Our code is available at \url{https://github.com/zylMozart/Disentangle_GraphHom}.
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# FFN: 微粒な中英金融ドメイン並列コーパス

FFN: a Fine-grained Chinese-English Financial Domain Parallel Corpus ( http://arxiv.org/abs/2406.18856v1 )

ライセンス: Link先を確認
Yuxin Fu, Shijing Si, Leyi Mai, Xi-ang Li, (参考訳) 大規模言語モデル (LLM) は機械翻訳の分野を驚くほど進歩させてきたが、金融分野におけるその有効性はいまだに未熟である。 この問題を調査するため、我々はFFNと呼ばれる詳細な中国語と英語の並列ニュースコーパスを構築した。 2014年1月1日から2023年12月31日にかけて、CNN、FOX、China Dailyなどの主要メディアサイトから金融ニュース記事を取得しました。 データセットは1,013のメインテキストと809のタイトルで構成され、いずれも手作業で修正されている。 評価指標としてBLEU,TER,chrFの2つのLLM(ChatGPT, ERNIE-bot)の翻訳品質を測定した。 比較のために、データセットに基づいてOpenNMTモデルをトレーニングした。 我々は, LLMの問題点を詳述するとともに, この領域におけるさらなる研究と解決の促進を目的として, 詳細な分析を行う。 我々の研究は、精度と品質を確保するために、金融翻訳の特定の分野におけるLCMを最適化する必要性を浮き彫りにしている。

Large Language Models (LLMs) have stunningly advanced the field of machine translation, though their effectiveness within the financial domain remains largely underexplored. To probe this issue, we constructed a fine-grained Chinese-English parallel corpus of financial news called FFN. We acquired financial news articles spanning between January 1st, 2014, to December 31, 2023, from mainstream media websites such as CNN, FOX, and China Daily. The dataset consists of 1,013 main text and 809 titles, all of which have been manually corrected. We measured the translation quality of two LLMs -- ChatGPT and ERNIE-bot, utilizing BLEU, TER and chrF scores as the evaluation metrics. For comparison, we also trained an OpenNMT model based on our dataset. We detail problems of LLMs and provide in-depth analysis, intending to stimulate further research and solutions in this largely uncharted territory. Our research underlines the need to optimize LLMs within the specific field of financial translation to ensure accuracy and quality.
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# 非エルミート光子-マグノンハイブリッド系におけるオンオフスイッチング非相互負屈折

On-off switchable nonreciprocal negative refraction in non-Hermitian photon-magnon hybrid systems ( http://arxiv.org/abs/2406.18858v1 )

ライセンス: Link先を確認
Junyoung Kim, Bosung Kim, Bo-Jong Kim, Haechan Jeon, Sang-Koog Kim, (参考訳) 電磁波がスピン波と相互作用するフォトン-マグノン結合と、非自然に電磁波の方向を曲げる負の屈折は、光学、スピントロニクス、量子情報技術の領域における重要な基礎と進歩を構成する。 ここでは、非エルミート光子-マグノンハイブリッド系における磁場制御、オンオフ可能な非相互負の屈折について検討する。 イットリウム鉄ガーネット膜を逆スプリットリング共振器と一体化することにより、系の非エルミタン特性によって引き起こされる負の屈折が明らかになる。 この現象は信号の伝播方向に依存する独自の非相互挙動を示す。 分析モデルでは,コヒーレント結合と散逸結合の致命的な相互作用に光を当て,誘電率と透過率の虚構成分を著しく変化させ,負の屈折の出現に重要な役割を担っている。 この研究は、光子-マグノンハイブリッド系における負の屈折を利用する新しい方法の先駆者であり、量子ハイブリッド系における実質的な進歩を示唆している。

Photon-magnon coupling, where electromagnetic waves interact with spin waves, and negative refraction, which bends the direction of electromagnetic waves unnaturally, constitute critical foundations and advancements in the realms of optics, spintronics, and quantum information technology. Here, we explore a magnetic-field-controlled, on-off switchable, nonreciprocal negative refraction within a non-Hermitian photon-magnon hybrid system. By integrating an yttrium iron garnet film with an inverted split-ring resonator, we discover pronounced negative refraction driven by the system's non-Hermitian properties. This phenomenon exhibits unique nonreciprocal behavior dependent on the signal's propagation direction. Our analytical model sheds light on the crucial interplay between coherent and dissipative coupling, significantly altering permittivity and permeability's imaginary components, crucial for negative refraction's emergence. This work pioneers new avenues for employing negative refraction in photon-magnon hybrid systems, signaling substantial advancements in quantum hybrid systems.
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# 放射線診断の簡易化におけるChatGPT自己補正の2段階的評価

Two-Pronged Human Evaluation of ChatGPT Self-Correction in Radiology Report Simplification ( http://arxiv.org/abs/2406.18859v1 )

ライセンス: Link先を確認
Ziyu Yang, Santhosh Cherian, Slobodan Vucetic, (参考訳) 放射線医学報告は、主に医師と医師のコミュニケーションを目的とした非常に技術的な文書である。 これらの報告を患者と共有することへの関心が高まっており、元の報告を患者フレンドリに単純化する必要がある。 本研究では,これらの単純化を自動生成する大規模言語モデルの適合性について検討する。 本稿では,この領域におけるチェーン・オブ・シンドロームと自己補正促進機構の有用性について検討する。 また, 簡易化の事実的正当性を検証するとともに, 単純さと理解度を評価できる新しい評価プロトコルを提案する。 実験により, 高品質な簡易化を実現するための自己補正の有効性が示された。 本研究は, テキストの簡易化に関して, 放射線科医や一般住民の嗜好を照らし, 今後の研究成果を報告するものである。

Radiology reports are highly technical documents aimed primarily at doctor-doctor communication. There has been an increasing interest in sharing those reports with patients, necessitating providing them patient-friendly simplifications of the original reports. This study explores the suitability of large language models in automatically generating those simplifications. We examine the usefulness of chain-of-thought and self-correction prompting mechanisms in this domain. We also propose a new evaluation protocol that employs radiologists and laypeople, where radiologists verify the factual correctness of simplifications, and laypeople assess simplicity and comprehension. Our experimental results demonstrate the effectiveness of self-correction prompting in producing high-quality simplifications. Our findings illuminate the preferences of radiologists and laypeople regarding text simplification, informing future research on this topic.
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# 機械学習を用いたシドニー大都市圏の交通事故発生期間予測

Predicting the duration of traffic incidents for Sydney greater metropolitan area using machine learning methods ( http://arxiv.org/abs/2406.18861v1 )

ライセンス: Link先を確認
Artur Grigorev, Sajjad Shafiei, Hanna Grzybowska, Adriana-Simona Mihaita, (参考訳) 本研究は,シドニー大都市圏における交通事故の期間を予測し,短期的・長期的に分類するための包括的アプローチを提案する。 交通事故、道路ネットワークの特徴、社会経済的指標の詳細な記録を含むデータセットを活用して、グラディエントブースト決定木(GBDT)、ランダムフォレスト、LightGBM、XGBoostなどの先進的な機械学習モデルを訓練し、評価する。 モデルは回帰タスクにRoot Mean Square Error(RMSE)、分類タスクにF1スコアを用いて評価される。 実験の結果、XGBoostとLightGBMは従来のモデルよりも優れており、XGBoostは事故発生期間を予測するための最低RMSEが33.7、最高分類F1スコアが0.62、30分間の閾値が0.62であることがわかった。 分類には30分間の閾値が70.84\%の短期分類精度と62.72\%の長期分類精度でバランスする。 木分割数とSHAP値の両方を用いて特徴重要度分析を行い,影響車線数,交通量,一次車種,二次車種を最も影響のある特徴として同定した。 提案手法は高い予測精度を達成するだけでなく、ステークホルダーにインシデント期間に寄与する要因について重要な洞察を与える。 これらの洞察は、トラフィック管理とレスポンス戦略に対してより情報的な意思決定を可能にする。 コードはリンクで入手できる。 https://github.com/Future-Mobility-Lab/SydneyIncidents

This research presents a comprehensive approach to predicting the duration of traffic incidents and classifying them as short-term or long-term across the Sydney Metropolitan Area. Leveraging a dataset that encompasses detailed records of traffic incidents, road network characteristics, and socio-economic indicators, we train and evaluate a variety of advanced machine learning models including Gradient Boosted Decision Trees (GBDT), Random Forest, LightGBM, and XGBoost. The models are assessed using Root Mean Square Error (RMSE) for regression tasks and F1 score for classification tasks. Our experimental results demonstrate that XGBoost and LightGBM outperform conventional models with XGBoost achieving the lowest RMSE of 33.7 for predicting incident duration and highest classification F1 score of 0.62 for a 30-minute duration threshold. For classification, the 30-minute threshold balances performance with 70.84\% short-term duration classification accuracy and 62.72\% long-term duration classification accuracy. Feature importance analysis, employing both tree split counts and SHAP values, identifies the number of affected lanes, traffic volume, and types of primary and secondary vehicles as the most influential features. The proposed methodology not only achieves high predictive accuracy but also provides stakeholders with vital insights into factors contributing to incident durations. These insights enable more informed decision-making for traffic management and response strategies. The code is available by the link: https://github.com/Future-Mobility-Lab/SydneyIncidents
翻訳日:2024-06-28 15:27:31 公開日:2024-06-27
# 相互モダリティ伝達のためのモダリティ知識アライメントの学習

Learning Modality Knowledge Alignment for Cross-Modality Transfer ( http://arxiv.org/abs/2406.18864v1 )

ライセンス: Link先を確認
Wenxuan Ma, Shuang Li, Lincan Cai, Jingxuan Kang, (参考訳) クロスモダリティ転送は、事前訓練されたデータのモダリティに属さないかもしれないタスクを完了するために、大きな事前訓練されたモデルを活用することを目的としている。 既存の研究は古典的な微調整をクロスモーダルなシナリオに拡張することに成功したが、移行に対するモダリティギャップの影響についてはまだ理解されていない。 本研究は,移動中のソース表現品質に着目した一連の実験を行い,より大きなモダリティギャップと非効率な移動を意味する知識再利用の関連を明らかにする。 次に、条件分布 P(Y|X) を用いて、モダリティ間の知識ミスアライメントとしてギャップを定式化する。 そこで本研究では,モダリティ・kNowledge Alignment (MoNA) を提案する。モダリティ・ナレッジ・アライメント(Modality kNowledge Alignment) は,モダリティ・ナレッジ・アライメント(モダリティ・ナレッジ・アライメント)において,モダリティ・アライメント(モダリティ・アライメント,モダリティ・ナレッジ・アライメント,モダリティ・アライメント,モダリティ・アライメント,モダリティ・アライメント,モダリティ・アライメント,モダリティ・アライメント,モダリティ・アライメント 実験により, ソースモダリティの伝達において, ソースモダリティ知識の再利用性が向上し, 既存のファインタニング手法の改善が期待できることがわかった。

Cross-modality transfer aims to leverage large pretrained models to complete tasks that may not belong to the modality of pretraining data. Existing works achieve certain success in extending classical finetuning to cross-modal scenarios, yet we still lack understanding about the influence of modality gap on the transfer. In this work, a series of experiments focusing on the source representation quality during transfer are conducted, revealing the connection between larger modality gap and lesser knowledge reuse which means ineffective transfer. We then formalize the gap as the knowledge misalignment between modalities using conditional distribution P(Y|X). Towards this problem, we present Modality kNowledge Alignment (MoNA), a meta-learning approach that learns target data transformation to reduce the modality knowledge discrepancy ahead of the transfer. Experiments show that out method enables better reuse of source modality knowledge in cross-modality transfer, which leads to improvements upon existing finetuning methods.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# Biased Selective Labels から Pseudo-Labels へ: Biased Decisions から学ぶための期待最大化フレームワーク

From Biased Selective Labels to Pseudo-Labels: An Expectation-Maximization Framework for Learning from Biased Decisions ( http://arxiv.org/abs/2406.18865v1 )

ライセンス: Link先を確認
Trenton Chang, Jenna Wiens, (参考訳) 選択ラベルは、ラベルの観察が意思決定プロセスの対象となるときに発生する。 異種検閲(disparate censorship)と呼ばれる,臨床に着想を得た選択的ラベル問題について検討した。 このようなラベルで中立的にトレーニングされた機械学習モデルは、ラベル付けバイアスを増幅する可能性がある。 選択ラベルの因果モデルに着想を得て,異なる検閲が存在する場合の学習アルゴリズムであるDCEM(Disparate Censorship expectation-Maximization)を提案する。 我々は,DCEMがモデル性能に与える影響を理論的に分析する。 合成データを用いてDCEMを検証することにより, 判別性能(AUC)をベースラインと比較して犠牲にすることなく, バイアス緩和(ROC曲線間の領域)を改善することを示す。 臨床データを用いた敗血症分類課題において同様の結果が得られた。

Selective labels occur when label observations are subject to a decision-making process; e.g., diagnoses that depend on the administration of laboratory tests. We study a clinically-inspired selective label problem called disparate censorship, where labeling biases vary across subgroups and unlabeled individuals are imputed as "negative" (i.e., no diagnostic test = no illness). Machine learning models naively trained on such labels could amplify labeling bias. Inspired by causal models of selective labels, we propose Disparate Censorship Expectation-Maximization (DCEM), an algorithm for learning in the presence of disparate censorship. We theoretically analyze how DCEM mitigates the effects of disparate censorship on model performance. We validate DCEM on synthetic data, showing that it improves bias mitigation (area between ROC curves) without sacrificing discriminative performance (AUC) compared to baselines. We achieve similar results in a sepsis classification task using clinical data.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# バイソン言語モデルの連続学習におけるクロスドメイン識別性の向上

Advancing Cross-domain Discriminability in Continual Learning of Vison-Language Models ( http://arxiv.org/abs/2406.18868v1 )

ライセンス: Link先を確認
Yicheng Xu, Yuxin Chen, Jiahao Nie, Yusong Wang, Huiping Zhuang, Manabu Okumura, (参考訳) ビジョンランゲージモデル(VLM)を用いた連続学習(CL)は、それまで遭遇したクラスのみに焦点を当てた従来のCLの制約を克服した。 VLM の CL の間,段階的に学習した知識を忘れてしまうのを防ぐだけでなく,VLM のゼロショット能力を維持するためにも必要である。 しかし、既存の手法では、そのようなゼロショット能力を維持するために追加の参照データセットを必要とし、異なるドメインにわたるイメージの分類にドメイン識別ヒントに依存している。 本研究では,再帰的なリッジレグレッションベースのアダプタを用いて,非フォッゲッティング方式でドメイン列から学習し,特徴を高次元空間に投影することで,ドメイン間の相関関係を分離する回帰型分析インクリメンタルラーニング(RAIL)を提案する。 RAILはトレーニングフリーの核融合モジュールと協調して、参照データなしでは見えない領域でVLMのゼロショット能力を確実に保持する。 さらに,クロスドメインタスク非依存インクリメンタルラーニング(X-TAIL)の設定を導入する。 この設定では、CL学習者は、複数のドメインから漸進的に学習し、ドメイン識別ヒントを使わずに、目に見えないドメインと見えないドメインの両方からテストイメージを分類する必要がある。 我々は、RAILの絶対記憶を漸進的に学習した領域で理論的に証明する。 X-TAILと既存のマルチドメインタスクインクリメンタルラーニング設定の両方におけるRAILの最先端性能を確認する実験結果が得られた。 コードは受理時にリリースされます。

Continual learning (CL) with Vision-Language Models (VLMs) has overcome the constraints of traditional CL, which only focuses on previously encountered classes. During the CL of VLMs, we need not only to prevent the catastrophic forgetting on incrementally learned knowledge but also to preserve the zero-shot ability of VLMs. However, existing methods require additional reference datasets to maintain such zero-shot ability and rely on domain-identity hints to classify images across different domains. In this study, we propose Regression-based Analytic Incremental Learning (RAIL), which utilizes a recursive ridge regression-based adapter to learn from a sequence of domains in a non-forgetting manner and decouple the cross-domain correlations by projecting features to a higher-dimensional space. Cooperating with a training-free fusion module, RAIL absolutely preserves the VLM's zero-shot ability on unseen domains without any reference data. Additionally, we introduce Cross-domain Task-Agnostic Incremental Learning (X-TAIL) setting. In this setting, a CL learner is required to incrementally learn from multiple domains and classify test images from both seen and unseen domains without any domain-identity hint. We theoretically prove RAIL's absolute memorization on incrementally learned domains. Experiment results affirm RAIL's state-of-the-art performance in both X-TAIL and existing Multi-domain Task-Incremental Learning settings. The code will be released upon acceptance.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# DeSTA:記述型音声テキストアライメントによる音声モデルの強化

DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment ( http://arxiv.org/abs/2406.18871v1 )

ライセンス: Link先を確認
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, He Huang, Boris Ginsburg, Yu-Chiang Frank Wang, Hung-yi Lee, (参考訳) 最近の音声言語モデル(SLM)は、通常、訓練済みの音声モデルを組み込んで、大きな言語モデル(LLM)から機能を拡張する。 本稿では,音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述的音声テキストアライメント手法を提案する。 提案手法によって強化された本モデルでは,Dynamic-SUPERBベンチマークにおいて,特に未確認タスクの一般化において,優れた性能を示す。 さらに、アライメントモデルでは、明示的な音声の調律を伴わずに、ゼロショットの指示追従能力を示すことが判明した。 これらの知見は、リッチで記述的な音声キャプションを組み込むことにより、命令追従型SLMを再構築する可能性を強調した。

Recent speech language models (SLMs) typically incorporate pre-trained speech models to extend the capabilities from large language models (LLMs). In this paper, we propose a Descriptive Speech-Text Alignment approach that leverages speech captioning to bridge the gap between speech and text modalities, enabling SLMs to interpret and generate comprehensive natural language descriptions, thereby facilitating the capability to understand both linguistic and non-linguistic features in speech. Enhanced with the proposed approach, our model demonstrates superior performance on the Dynamic-SUPERB benchmark, particularly in generalizing to unseen tasks. Moreover, we discover that the aligned model exhibits a zero-shot instruction-following capability without explicit speech instruction tuning. These findings highlight the potential to reshape instruction-following SLMs by incorporating rich, descriptive speech captions.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# 非ゼロサムゲームにおける言語モデルセルフプレイの有効性

Efficacy of Language Model Self-Play in Non-Zero-Sum Games ( http://arxiv.org/abs/2406.18872v1 )

ライセンス: Link先を確認
Austen Liao, Nicholas Tomlin, Dan Klein, (参考訳) AlphaGoのようなゲームプレイングエージェントは、自己プレイを通じて超人的なパフォーマンスを達成している。 しかし、ほとんどの言語タスクは部分的にあるいは完全に協調しているため、セルフプレイのようなテクニックが言語モデルを改善するために効果的に使えるかどうかという疑問が開かれている。 我々はこの問題を、Deal or No Deal (DoND)として知られる交渉ゲームで実証的に調査する。 重要な点として、DoNDの目的は、完全に協調的なゲーム、厳格な競争力のあるゲーム、あるいはその中間にあるものを作り出すために変更することができる。 それぞれの目的に対して,DoNDにおける複数ラウンドのフィルタリング動作クローンに対して,言語モデルを自己演奏で微調整する。 予想とは対照的に,言語モデルによる自己プレイは,人間との協調や競争において大きなパフォーマンス向上をもたらすことが示唆され,理論的な保証が欠如しているにもかかわらず,自己プレイと関連技術が約束されていることが示唆された。

Game-playing agents like AlphaGo have achieved superhuman performance through self-play, which is theoretically guaranteed to yield optimal policies in competitive games. However, most language tasks are partially or fully cooperative, so it is an open question whether techniques like self-play can effectively be used to improve language models. We empirically investigate this question in a negotiation game setting known as Deal or No Deal (DoND). Crucially, the objective in DoND can be modified to produce a fully cooperative game, a strictly competitive one, or anything in between. We finetune language models in self-play over multiple rounds of filtered behavior cloning in DoND for each of these objectives. Contrary to expectations, we find that language model self-play leads to significant performance gains in both cooperation and competition with humans, suggesting that self-play and related techniques have promise despite a lack of theoretical guarantees.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# SSP:大規模言語モデルを用いた低リソース言語への言語間移動のための自己監督型プロンプト

SSP: Self-Supervised Prompting for Cross-Lingual Transfer to Low-Resource Languages using Large Language Models ( http://arxiv.org/abs/2406.18880v1 )

ライセンス: Link先を確認
Vipul Rathore, Aniruddha Deb, Ankish Chandresh, Parag Singla, Mausam, (参考訳) 近年、非常に大きな言語モデル (LLM) は、単に文脈内学習 (ICL) を施したいくつかの英語のNLPタスクにおいて、例外的な性能を示しているが、他の言語でのそれらの実用性はまだ未熟である。 低リソース言語(LRL)におけるNLPタスクの有効性について検討し、特に、対象言語に対するラベル付きトレーニングデータがないゼロラベルのクロスランガルトランスファー(0-CLT)の設定において、ターゲット言語の未ラベルテストデータとともに、1つ以上の関連する中リソース言語(MRL)からのトレーニングデータを利用する。 0-CLT 設定に適した新しい ICL アプローチである Self-Supervised Prompting (SSP) を導入する。 SSPは、LLMが(ラベルが少しうるさいとしても)テキスト中の例えがターゲット言語からのものである場合、より正確なラベルを出力する、というキーオブザーバーに基づいている。 これを運用するには、ターゲット言語トレーニングデータが0-CLTでは利用できないため、SSPは2段階で動作する。 ステージIでは、ソースMRLトレーニングデータを使用して、ターゲット言語のテストデータがノイズの多いラベル付けされる。 ステージIIでは、これらのノイズの多いテストデータポイントをICLの例に使用して、さらなるラベリングを改善する。 さらに、SSPの実装では、類似性、予測信頼性(利用可能な場合)、ラベルカバレッジのバランスをとる、新しい整数線形プログラミング(ILP)ベースの例選択を採用しています。 3つのタスクと11個のLRL(3つの領域から)の実験により、SSPは既存のSOTAの微調整およびプロンプトベースラインを0-CLT設定で強く上回ることを示した。

Recently, very large language models (LLMs) have shown exceptional performance on several English NLP tasks with just in-context learning (ICL), but their utility in other languages is still underexplored. We investigate their effectiveness for NLP tasks in low-resource languages (LRLs), especially in the setting of zero-labelled cross-lingual transfer (0-CLT), where no labelled training data for the target language is available -- however training data from one or more related medium-resource languages (MRLs) is utilized, alongside the available unlabeled test data for a target language. We introduce Self-Supervised Prompting (SSP), a novel ICL approach tailored for the 0-CLT setting. SSP is based on the key observation that LLMs output more accurate labels if in-context exemplars are from the target language (even if their labels are slightly noisy). To operationalize this, since target language training data is not available in 0-CLT, SSP operates in two stages. In Stage I, using source MRL training data, target language's test data is noisily labeled. In Stage II, these noisy test data points are used as exemplars in ICL for further improved labelling. Additionally, our implementation of SSP uses a novel Integer Linear Programming (ILP)-based exemplar selection that balances similarity, prediction confidence (when available) and label coverage. Experiments on three tasks and eleven LRLs (from three regions) demonstrate that SSP strongly outperforms existing SOTA fine-tuned and prompting-based baselines in 0-CLT setup.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# 二重階層性難解なファジィ言語用語集合に対する連続3方向群決定法

Sequential three-way group decision-making for double hierarchy hesitant fuzzy linguistic term set ( http://arxiv.org/abs/2406.18884v1 )

ライセンス: Link先を確認
Nanfang Luo, Qinghua Zhang, Qin Xie, Yutai Wang, Longjun Yin, Guoyin Wang, (参考訳) 複雑性と不確実性を特徴とするグループ意思決定(GDM)は、様々な生活シナリオにおいて不可欠な部分である。 既存の研究の多くは、情報を素早く解き明かし、部分的に形成された決定に対する決定結果を解釈するツールを欠いている。 この制限は、GDMの効率を改善する必要がある場合に特に顕著である。 この問題に対処するため,グループ意思決定法(S3W-GDM)の多段階連続3方向決定法をグラニュラーコンピューティングの観点から構築した。 本手法は, 二重階層的ファジィ言語用語集合(DHHFLTS)環境下でのGDM問題のあいまいさ, ためらい, 変動を同時に検討する。 まず、情報を効率的に融合させるために、新しい多レベル専門家情報融合法を提案し、その多レベル粒度に基づく専門家決定表と意思決定レベルの情報の抽出・集約の概念を定義した。 第2に、条件付き確率と相対損失関数の計算を再設計するために、近隣理論、上位関係と後悔理論(RT)を利用する。 次に、逐次三方向決定(S3WD)に基づくDHHFLTSの粒度構造を定義し、意思決定効率を向上させるとともに、意思決定戦略と各意思決定レベルの解釈を提案する。 さらに、S3W-GDMのアルゴリズムが与えられる。 最後に、診断の実証的な例を示し、他の方法との比較および感度分析を行い、提案手法の有効性と合理性を検証する。

Group decision-making (GDM) characterized by complexity and uncertainty is an essential part of various life scenarios. Most existing researches lack tools to fuse information quickly and interpret decision results for partially formed decisions. This limitation is particularly noticeable when there is a need to improve the efficiency of GDM. To address this issue, a novel multi-level sequential three-way decision for group decision-making (S3W-GDM) method is constructed from the perspective of granular computing. This method simultaneously considers the vagueness, hesitation, and variation of GDM problems under double hierarchy hesitant fuzzy linguistic term sets (DHHFLTS) environment. First, for fusing information efficiently, a novel multi-level expert information fusion method is proposed, and the concepts of expert decision table and the extraction/aggregation of decision-leveled information based on the multi-level granularity are defined. Second, the neighborhood theory, outranking relation and regret theory (RT) are utilized to redesign the calculations of conditional probability and relative loss function. Then, the granular structure of DHHFLTS based on the sequential three-way decision (S3WD) is defined to improve the decision-making efficiency, and the decision-making strategy and interpretation of each decision-level are proposed. Furthermore, the algorithm of S3W-GDM is given. Finally, an illustrative example of diagnosis is presented, and the comparative and sensitivity analysis with other methods are performed to verify the efficiency and rationality of the proposed method.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# Leapfrogging Sycamore: 1432 GPUを7$\timesで高速な量子ランダム回路サンプリング

Leapfrogging Sycamore: Harnessing 1432 GPUs for 7$\times$ Faster Quantum Random Circuit Sampling ( http://arxiv.org/abs/2406.18889v1 )

ライセンス: Link先を確認
Xian-He Zhao, Han-Sen Zhong, Feng Pan, Zi-Han Chen, Rong Fu, Zhongling Su, Xiaotong Xie, Chaoxing Zhao, Pan Zhang, Wanli Ouyang, Chao-Yang Lu, Jian-Wei Pan, Ming-Cheng Chen, (参考訳) ランダム量子回路サンプリングは、量子計算の利点を示すベンチマークとして機能する。 古典的アルゴリズムの最近の進歩、特にテンソルネットワーク法に基づくものは、古典的なシミュレーション時間を大幅に短縮し、第一世代の量子優位実験の主張に挑戦している。 しかしながら、非相関なサンプルの生成、時間から溶出、エネルギー消費の面では、従来の古典的なシミュレーション実験は、まだ \textit{Sycamore} プロセッサを過小評価している。 本稿では、1432 GPUを用いたエネルギー効率のよい古典的シミュレーションアルゴリズムについて、線形クロスエントロピースコアの高い非相関なサンプルを生成する量子ランダム回路サンプリングをシミュレートする。 本稿では,従来よりも低消費電力化を実現するために,全体的な複雑性を低減し,最先端の汎用GPUを統合した後処理アルゴリズムを提案する。 我々の研究は、量子優位性の主張を反証する最初の明白な実験的証拠を提供し、ランダム回路サンプリングを用いて量子計算優位性の境界を再定義する。

Random quantum circuit sampling serves as a benchmark to demonstrate quantum computational advantage. Recent progress in classical algorithms, especially those based on tensor network methods, has significantly reduced the classical simulation time and challenged the claim of the first-generation quantum advantage experiments. However, in terms of generating uncorrelated samples, time-to-solution, and energy consumption, previous classical simulation experiments still underperform the \textit{Sycamore} processor. Here we report an energy-efficient classical simulation algorithm, using 1432 GPUs to simulate quantum random circuit sampling which generates uncorrelated samples with higher linear cross entropy score and is 7 times faster than \textit{Sycamore} 53 qubits experiment. We propose a post-processing algorithm to reduce the overall complexity, and integrated state-of-the-art high-performance general-purpose GPU to achieve two orders of lower energy consumption compared to previous works. Our work provides the first unambiguous experimental evidence to refute \textit{Sycamore}'s claim of quantum advantage, and redefines the boundary of quantum computational advantage using random circuit sampling.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# LearnedKV: SSD上での上位パフォーマンスのためのLSMとLearted Indexの統合

LearnedKV: Integrating LSM and Learned Index for Superior Performance on SSD ( http://arxiv.org/abs/2406.18892v1 )

ライセンス: Link先を確認
Wenlong Wang, David Hung-Chang Du, (参考訳) 本稿では,LSMツリーとLearted Indexをシームレスに統合した新しいキーバリューストアであるLeartedKVを紹介する。 この統合により、SSD上のスタンドアロンのインデックス構造と比較して読み書き性能が向上する。 我々の設計は、LSMツリーの高書き込み/更新スループットとLearted Indexの高速読み出し機能を利用しており、各コンポーネントはその強度を活用できます。 本研究では, LSM木の大きさがLearted Indexに与える影響を解析し, LSM木の大きさ関連性能劣化を著しく軽減することを示す。 新たに挿入されたキーの高速読み出し性能を維持するために,既存のLSMツリーをGC中に最小限のオーバーヘッドで新しいLearted Indexに変換するノンブロッキング変換機構を導入する。 さまざまなワークロードで実施した実験結果から,LearnedKVは読み取り要求の最大1.32倍,書き込みパフォーマンスの1.31倍という最先端のソリューションよりも優れていた。

In this paper, we introduce LearnedKV, a novel tiered key-value (KV) store that seamlessly integrates a Log-Structured Merge (LSM) tree with a Learned Index. This integration yields superior read and write performance compared to standalone indexing structures on SSDs. Our design capitalizes on the LSM tree's high write/update throughput and the Learned Index's fast read capabilities, enabling each component to leverage its strengths. We analyze the impact of size on LSM tree performance and demonstrate how the tiered Learned Index significantly mitigates the LSM tree's size-related performance degradation, particularly by reducing the intensive I/O operations resulting from re-insertions after Garbage Collection (GC). To maintain rapid read performance for newly inserted keys, we introduce a non-blocking conversion mechanism that efficiently transforms the existing LSM tree into a new Learned Index with minimal overhead during GC. Our experimental results, conducted across diverse workloads, show that LearnedKV outperforms state-of-the-art solutions by up to 1.32x in read requests and 1.31x in write performance.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# AlignIT: テキスト-画像モデルのカスタマイズにおけるプロンプトアライメントの強化

AlignIT: Enhancing Prompt Alignment in Customization of Text-to-Image Models ( http://arxiv.org/abs/2406.18893v1 )

ライセンス: Link先を確認
Aishwarya Agarwal, Srikrishna Karanam, Balaji Vasan Srinivasan, (参考訳) ユーザによる参照画像を用いたテキスト・画像拡散モデルのカスタマイズの問題点を考察する。 新しいプロンプトが与えられた場合、既存のメソッドは参照イメージからキーコンセプトをキャプチャできるが、生成されたイメージとプロンプトを一致させることができない。 そこで本研究では,テキストエンコーディングプロセスの中間段階における埋め込み/重みを最適化する既存のカスタマイズ手法と組み合わせて使用可能な新しい手法を提案する。 本論文の最初のコントリビューションは,テキスト・ツー・イメージ・モデルにおける条件付きベクトルにつながる,テキストエンコーディングプロセスの様々な段階の分解である。 既存のカスタマイズ手法を概観し、このプロセスのキーと値の出力が対応するベースラインモデル(例えば、ベースラインの安定拡散)と大きく異なることに気付く。 この違いは、カスタマイズされるコンセプトには影響しないが、生成された画像の他の部分がプロンプトに一致していない(図1の1行目を参照)。 さらに、これらのキーと値がファイナルジェネレーションの様々な側面を独立に制御し、出力のセマンティックな操作を可能にすることも観察した。 まとめると、これらのキーと値にまたがる機能は、前述の既存のメソッドで問題を修正する次のコントリビューションの基盤として役立ちます。 入力プロンプト内の他の全てのトークンのキーと値が変化しないことを保証しながら、興味概念のキーと値を注入する新しい後処理アルゴリズムである \textbf{AlignIT} を提案する。 提案手法は,既存のカスタマイズ手法に直接接続することができ,カスタマイズ品質を維持しつつ,入力プロンプトと最終結果の整合性を大幅に向上させることができる。

We consider the problem of customizing text-to-image diffusion models with user-supplied reference images. Given new prompts, the existing methods can capture the key concept from the reference images but fail to align the generated image with the prompt. In this work, we seek to address this key issue by proposing new methods that can easily be used in conjunction with existing customization methods that optimize the embeddings/weights at various intermediate stages of the text encoding process. The first contribution of this paper is a dissection of the various stages of the text encoding process leading up to the conditioning vector for text-to-image models. We take a holistic view of existing customization methods and notice that key and value outputs from this process differs substantially from their corresponding baseline (non-customized) models (e.g., baseline stable diffusion). While this difference does not impact the concept being customized, it leads to other parts of the generated image not being aligned with the prompt (see first row in Fig 1). Further, we also observe that these keys and values allow independent control various aspects of the final generation, enabling semantic manipulation of the output. Taken together, the features spanning these keys and values, serve as the basis for our next contribution where we fix the aforementioned issues with existing methods. We propose a new post-processing algorithm, \textbf{AlignIT}, that infuses the keys and values for the concept of interest while ensuring the keys and values for all other tokens in the input prompt are unchanged. Our proposed method can be plugged in directly to existing customization methods, leading to a substantial performance improvement in the alignment of the final result with the input prompt while retaining the customization quality.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# Android アプリケーション脆弱性解析における LLM の有効性の評価

Assessing the Effectiveness of LLMs in Android Application Vulnerability Analysis ( http://arxiv.org/abs/2406.18894v1 )

ライセンス: Link先を確認
Vasileios Kouliaridis, Georgios Karopoulos, Georgios Kambourakis, (参考訳) 最近の大規模言語モデル(LLM)の人気と相まって、Androidアプリケーションに対する攻撃頻度の増加は、潜在的な脆弱性を特定する上で、後者の能力を包括的に理解する必要がある。 この目的のために、最新のOpen Worldwide Application Security Project (OWASP) Mobile Top 10にリストされているAndroidコードの脆弱性を検出する9つの最先端のLLMの能力を比較している。 各LSMは、難読化されたものを含む100以上の脆弱性のあるコードサンプルのオープンデータセットに対して評価され、各モデルの主要な脆弱性を識別する能力を評価した。 分析の結果,それぞれのLLMの長所と短所が明らかとなり,その性能に寄与する重要な要因が明らかになった。 さらに、Androidコードの脆弱性を検出するために、検索拡張生成(RAG)によるコンテキスト拡張に関する洞察を提供する。 最後に、コード脆弱性分析に関する報告された調査結果は、将来性を示しているが、異なるLLM間での大きな相違も明らかにしている。

The increasing frequency of attacks on Android applications coupled with the recent popularity of large language models (LLMs) necessitates a comprehensive understanding of the capabilities of the latter in identifying potential vulnerabilities, which is key to mitigate the overall risk. To this end, the work at hand compares the ability of nine state-of-the-art LLMs to detect Android code vulnerabilities listed in the latest Open Worldwide Application Security Project (OWASP) Mobile Top 10. Each LLM was evaluated against an open dataset of over 100 vulnerable code samples, including obfuscated ones, assessing each model's ability to identify key vulnerabilities. Our analysis reveals the strengths and weaknesses of each LLM, identifying important factors that contribute to their performance. Additionally, we offer insights into context augmentation with retrieval-augmented generation (RAG) for detecting Android code vulnerabilities, which in turn may propel secure application development. Finally, while the reported findings regarding code vulnerability analysis show promise, they also reveal significant discrepancies among the different LLMs.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# 絶滅危惧言語を教えるために、言語モデルを教えることはできますか?

Can we teach language models to gloss endangered languages? ( http://arxiv.org/abs/2406.18895v1 )

ライセンス: Link先を確認
Michael Ginn, Mans Hulden, Alexis Palmer, (参考訳) Interlinear glossed text (IGT) は言語ドキュメントプロジェクトにおいて一般的なフォーマットであり、各形態素には記述的なアノテーションが付けられている。 注釈付きコーパス間でのアノテータの労力を削減し、一貫性を維持するために、インターリニアグラフテキストの作成を自動化することが望ましい。 これまでの研究では、IGTを自動生成するための統計学的および神経学的手法がいくつか検討されてきた。 大規模言語モデル (LLM) は多言語タスクにまたがって有望な結果を示しており、希少な絶滅危惧言語でもIGTを生成するタスクに利用できるかどうか疑問視することは当然である。 従来の訓練を使わずに,LLMがテキスト内学習と相互学習の課題に有効であるかどうかを考察する。 そこで,本研究では,対象選択が性能を著しく向上することを示す,実例選択のための新しい手法を提案する。 LLMベースの手法は、トレーニングを全く必要とせず、標準的なトランスフォーマーベースラインを上回ります。 これらのアプローチは依然としてタスクの最先端の教師システムでは不十分だが、NLPコミュニティ以外の研究者にとっては非常に実用的であり、使用に最小限の労力を要する。

Interlinear glossed text (IGT) is a popular format in language documentation projects, where each morpheme is labeled with a descriptive annotation. Automating the creation of interlinear glossed text can be desirable to reduce annotator effort and maintain consistency across annotated corpora. Prior research has explored a number of statistical and neural methods for automatically producing IGT. As large language models (LLMs) have showed promising results across multilingual tasks, even for rare, endangered languages, it is natural to wonder whether they can be utilized for the task of generating IGT. We explore whether LLMs can be effective at the task of interlinear glossing with in-context learning, without any traditional training. We propose new approaches for selecting examples to provide in-context, observing that targeted selection can significantly improve performance. We find that LLM-based methods beat standard transformer baselines, despite requiring no training at all. These approaches still underperform state-of-the-art supervised systems for the task, but are highly practical for researchers outside of the NLP community, requiring minimal effort to use.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# エラーバーストに対する表面符号のレジリエンス

Resilience of the surface code to error bursts ( http://arxiv.org/abs/2406.18897v1 )

ライセンス: Link先を確認
Shi Jie Samuel Tan, Christopher A. Pattison, Matt McEwen, John Preskill, (参考訳) 量子誤差補正は、ゲート演算の誤差率が十分に低い場合にのみ有効である。 しかし、いくつかのまれな物理的メカニズムは、多くの量子ビットに影響を与えるエラー率を一時的に増加させ、例えば、超伝導ハードウェアにおける電離放射線や、原子系の大域的な制御における大きな偏差などである。 ゲート誤差率におけるこのような稀な過渡スパイクを、エラーバーストと呼ぶ。 本研究では,一般的なエラーバーストに対する表面符号のレジリエンスについて検討する。 適切な緩和戦略の後、単一のシンドローム抽出サイクルでエラー率のスパイクが持続すると仮定し、コードブロック全体でエラー率の増大が均一であると仮定する。 これらの仮定と回路レベルの非偏極雑音モデルを用いてモンテカルロシミュレーションを行い、コードブロックサイズが大きくなるとメモリ時間が任意に変化するバーストエラー率とバックグラウンドエラー率の条件を決定する。 以上の結果から, ハードウェアの最適化手法と標準復号法を組み合わせることで, 表面符号の過渡的エラーバーストを防止できる可能性が示唆された。

Quantum error correction works effectively only if the error rate of gate operations is sufficiently low. However, some rare physical mechanisms can cause a temporary increase in the error rate that affects many qubits; examples include ionizing radiation in superconducting hardware and large deviations in the global control of atomic systems. We refer to such rare transient spikes in the gate error rate as error bursts. In this work, we investigate the resilience of the surface code to generic error bursts. We assume that, after appropriate mitigation strategies, the spike in the error rate lasts for only a single syndrome extraction cycle; we also assume that the enhanced error rate is uniform across the code block. Under these assumptions, and for a circuit-level depolarizing noise model, we perform Monte Carlo simulations to determine the regime in burst error rate and background error rate for which the memory time becomes arbitrarily long as the code block size grows. Our results indicate that suitable hardware mitigation methods combined with standard decoding methods may suffice to protect against transient error bursts in the surface code.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# 360 in the Wild: Dataset for Depth Prediction and View Synthesis

360 in the Wild: Dataset for Depth Prediction and View Synthesis ( http://arxiv.org/abs/2406.18898v1 )

ライセンス: Link先を確認
Kibaek Park, Francois Rameau, Jaesik Park, In So Kweon, (参考訳) パースペクティブカメラデータセットの多さは、カメラのローカライゼーション、単一画像深度推定、ビュー合成など、様々なタスクのための新しい学習ベースの戦略の出現を促した。 しかし、ポーズや奥行きといった重要な情報を含むパノラマ画像や全方位画像のデータセットは、主に合成シーンで作られる。 本研究では,大規模な360$^{\circ}$ビデオデータセットをワイルドに導入する。 このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。 したがって、このデータセットは、非常に多様化した環境(例えば、屋内、屋外)とコンテキスト(例えば、移動対象を持たないもの)を示す。 データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。 単一画像深度推定とビュー合成という2つの主要なタスクに対するデータセットの関連性について述べる。

The large abundance of perspective camera datasets facilitated the emergence of novel learning-based strategies for various tasks, such as camera localization, single image depth estimation, or view synthesis. However, panoramic or omnidirectional image datasets, including essential information, such as pose and depth, are mostly made with synthetic scenes. In this work, we introduce a large scale 360$^{\circ}$ videos dataset in the wild. This dataset has been carefully scraped from the Internet and has been captured from various locations worldwide. Hence, this dataset exhibits very diversified environments (e.g., indoor and outdoor) and contexts (e.g., with and without moving objects). Each of the 25K images constituting our dataset is provided with its respective camera's pose and depth map. We illustrate the relevance of our dataset for two main tasks, namely, single image depth estimation and view synthesis.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# 深部強化学習による新しい閉鎖5棒アクティブサスペンションの自律制御

Autonomous Control of a Novel Closed Chain Five Bar Active Suspension via Deep Reinforcement Learning ( http://arxiv.org/abs/2406.18899v1 )

ライセンス: Link先を確認
Nishesh Singh, Sidharth Ramesh, Abhishek Shankar, Jyotishka Duttagupta, Leander Stephen D'Souza, Sanjay Singh, (参考訳) 惑星探査には、荒れ果てた地形のある環境での移動が必要である。 加えて、火星探査機や他の惑星探査ロボットは、機械的な損傷から守らなければならない、敏感な科学実験や部品を搭載できることが多い。 本稿では、シャシー安定化に着目したアクティブサスペンションシステムと、避けられない障害物に遭遇しながら効率的なトラバース法について述べる。 SAC(Soft Actor-Critic)とPID(Proportional Integral Derivative)制御を併用してシャシーを安定化し、低速で大きな障害物を横切る。 モデルは、周囲の障害物からの距離、障害物の高さ、シャシーの向きを利用して、サスペンションの制御リンクを正確に作動させる。 ガゼボ環境でのシミュレーションは,提案したアクティブシステムを検証するために用いられている。

Planetary exploration requires traversal in environments with rugged terrains. In addition, Mars rovers and other planetary exploration robots often carry sensitive scientific experiments and components onboard, which must be protected from mechanical harm. This paper deals with an active suspension system focused on chassis stabilisation and an efficient traversal method while encountering unavoidable obstacles. Soft Actor-Critic (SAC) was applied along with Proportional Integral Derivative (PID) control to stabilise the chassis and traverse large obstacles at low speeds. The model uses the rover's distance from surrounding obstacles, the height of the obstacle, and the chassis' orientation to actuate the control links of the suspension accurately. Simulations carried out in the Gazebo environment are used to validate the proposed active system.
翻訳日:2024-06-28 15:17:37 公開日:2024-06-27
# 教育計測における人工知能の台頭 : 機会と倫理的課題

The Rise of Artificial Intelligence in Educational Measurement: Opportunities and Ethical Challenges ( http://arxiv.org/abs/2406.18900v1 )

ライセンス: Link先を確認
Okan Bulut, Maggie Beiting-Parrish, Jodi M. Casabianca, Sharon C. Slater, Hong Jiao, Dan Song, Christopher M. Ormerod, Deborah Gbemisola Fabiyi, Rodica Ivan, Cole Walsh, Oscar Rios, Joshua Wilson, Seyma N. Yildirim-Erbasli, Tarid Wongvorachan, Joyce Xinle Liu, Bin Tan, Polina Morilova, (参考訳) 人工知能(AI)の教育測定への統合は、自動スコアリング、迅速なコンテンツ分析、機械学習と自然言語処理によるパーソナライズされたフィードバックを可能にする、評価方法に革命をもたらした。 これらの進歩は、タイムリーで一貫したフィードバックと、学生のパフォーマンスに関する貴重な洞察を与え、その結果、評価経験を高めます。 しかし、教育におけるAIの展開は、妥当性、信頼性、透明性、公平性、公平性に関する重大な倫理的懸念を提起する。 アルゴリズムバイアスやAI意思決定プロセスの不透明さといった問題は、不平等を持続させ、評価結果に影響を与えるリスクをもたらす。 これらの懸念に応えて、教育者、政策立案者、組織を含む様々な利害関係者は、教育における倫理的AIの使用を保証するガイドラインを開発した。 また、AIME(National Council of Measurement in Education's Special Interest Group on Measurement and Education)は、倫理基準の確立とこの分野の研究の進展に焦点を当てている。 本稿では,AIを活用した教育測定ツールの倫理的意義を考察し,自動化バイアスや環境影響などの重要な課題を探求し,AIの教育における責任と効果的な利用を保証するためのソリューションを提案する。

The integration of artificial intelligence (AI) in educational measurement has revolutionized assessment methods, enabling automated scoring, rapid content analysis, and personalized feedback through machine learning and natural language processing. These advancements provide timely, consistent feedback and valuable insights into student performance, thereby enhancing the assessment experience. However, the deployment of AI in education also raises significant ethical concerns regarding validity, reliability, transparency, fairness, and equity. Issues such as algorithmic bias and the opacity of AI decision-making processes pose risks of perpetuating inequalities and affecting assessment outcomes. Responding to these concerns, various stakeholders, including educators, policymakers, and organizations, have developed guidelines to ensure ethical AI use in education. The National Council of Measurement in Education's Special Interest Group on AI in Measurement and Education (AIME) also focuses on establishing ethical standards and advancing research in this area. In this paper, a diverse group of AIME members examines the ethical implications of AI-powered tools in educational measurement, explores significant challenges such as automation bias and environmental impact, and proposes solutions to ensure AI's responsible and effective use in education.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# 自己エンコーダに基づくスプリアス相関の緩和

Autoencoder based approach for the mitigation of spurious correlations ( http://arxiv.org/abs/2406.18901v1 )

ライセンス: Link先を確認
Srinitish Srinivasan, Karthik Seemakurthy, (参考訳) ディープニューラルネットワーク(DNN)は、様々なタスクで顕著なパフォーマンスを示しているが、その素早い相関への感受性は、アウト・オブ・ディストリビューション(OOD)の一般化に重大な課題をもたらす。 純粋な相関は、真の基盤となる関係を反映せず、代わりにデータセットの特徴やバイアスのアーチファクトであるデータの誤関連を指す。 これらの相関関係により、DNNは多様なデータセットや実世界のシナリオで堅牢でないパターンを学ぶことができ、トレーニングデータを超えて一般化する能力を妨げます。 本稿では,GWHD(Global Wheat Head Detection)2021データセットに存在するスプリアス相関の性質を自動エンコーダで解析する手法を提案する。 次に、Weighted Boxes Fusion (WBF) を用いて、YOLOv5ベースラインに対する平均ドメイン精度(ADA)の2%向上を実現し、GWHD 2021データセットにおけるいくつかのスプリアス相関を抑えることができることを一貫して示しています。 このアプローチの主な利点は、未確認のテスト環境でトレーニングされたモデルを適応または微調整する範囲が限られているシナリオにおいて、より適していることです。

Deep neural networks (DNNs) have exhibited remarkable performance across various tasks, yet their susceptibility to spurious correlations poses a significant challenge for out-of-distribution (OOD) generalization. Spurious correlations refer to erroneous associations in data that do not reflect true underlying relationships but are instead artifacts of dataset characteristics or biases. These correlations can lead DNNs to learn patterns that are not robust across diverse datasets or real-world scenarios, hampering their ability to generalize beyond training data. In this paper, we propose an autoencoder-based approach to analyze the nature of spurious correlations that exist in the Global Wheat Head Detection (GWHD) 2021 dataset. We then use inpainting followed by Weighted Boxes Fusion (WBF) to achieve a 2% increase in the Average Domain Accuracy (ADA) over the YOLOv5 baseline and consistently show that our approach has the ability to suppress some of the spurious correlations in the GWHD 2021 dataset. The key advantage of our approach is that it is more suitable in scenarios where there is limited scope to adapt or fine-tune the trained model in unseen test environments.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# 選択的推論によるデータ解析パイプラインの統計的検証

Statistical Test for Data Analysis Pipeline by Selective Inference ( http://arxiv.org/abs/2406.18902v1 )

ライセンス: Link先を確認
Tomohiro Shiraishi, Tatsuya Matsukawa, Shuichi Nishino, Ichiro Takeuchi, (参考訳) データ分析パイプラインは、さまざまな分析アルゴリズムを効果的に統合することにより、生データを意味のある洞察に変換する処理ステップの構造的シーケンスである。 本稿では,データ解析パイプラインの統計的意義を評価するための新しい統計テストを提案する。 提案手法は,データ分析コンポーネントの集合からなる任意のデータ解析パイプライン構成に適用可能な,有効な統計的テストの体系的開発を可能にする。 我々は,データ駆動仮説の新しい統計的推論手法として近年注目されている選択推論を適用して,この枠組みを開発した。 提案した統計的テストは、有限標本における所望の重要度レベルでI型誤差を制御するために理論的に設計されている。 例えば、3つの欠落値計算アルゴリズム、3つの外乱検出アルゴリズム、3つの特徴選択アルゴリズムからなるパイプラインのクラスを考える。 我々は,このタイプのデータ分析パイプラインの合成データと実データの両方を用いた実験により,統計的検査の有効性を確認した。 さらに、このクラスのデータ分析パイプラインの構成をまたいだテストを容易にする実装フレームワークを、追加の実装コストなしで提供する。

A data analysis pipeline is a structured sequence of processing steps that transforms raw data into meaningful insights by effectively integrating various analysis algorithms. In this paper, we propose a novel statistical test designed to assess the statistical significance of data analysis pipelines. Our approach allows for the systematic development of valid statistical tests applicable to any data analysis pipeline configuration composed of a set of data analysis components. We have developed this framework by adapting selective inference, which has gained recent attention as a new statistical inference technique for data-driven hypotheses. The proposed statistical test is theoretically designed to control the type I error at the desired significance level in finite samples. As examples, we consider a class of pipelines composed of three missing value imputation algorithms, three outlier detection algorithms, and three feature selection algorithms. We confirm the validity of our statistical test through experiments with both synthetic and real data for this class of data analysis pipelines. Additionally, we present an implementation framework that facilitates testing across any configuration of data analysis pipelines in this class without extra implementation costs.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# Sonnet or not, Bot? 大規模モデルとデータセットの詩的評価

Sonnet or Not, Bot? Poetry Evaluation for Large Models and Datasets ( http://arxiv.org/abs/2406.18906v1 )

ライセンス: Link先を確認
Melanie Walsh, Anna Preus, Maria Antoniak, (参考訳) 大きな言語モデル(LLM)は、詩のような高度に専門化された創造的なジャンルを含む、幅広いスタイルやジャンルのテキストを生成し、認識することができる。 しかし、LLMが詩について本当に知っていることは何か? 彼らは詩について何を知っているのか。 我々は、LLMが詩の特定の側面、詩形、20以上の形式と英語の形式的要素をいかによく認識しているかを評価するタスクを開発する。 詩の形式は韻律、メーター、単語または行の反復を含む多くの異なる詩的特徴を捉えている。 このタスクは、LLMの現在の詩的能力や、詩や他の創造的なタスクのためのNLPベンチマークを作成する際の課題や落とし穴を反映するために使用します。 特に、このタスクを使用して、人気のある事前学習データセットに含まれる詩を監査し、反映します。 本研究は,NLP研究者のモデル評価,デジタル人文科学,文化分析学者,文化遺産専門家に影響を及ぼすものである。

Large language models (LLMs) can now generate and recognize text in a wide range of styles and genres, including highly specialized, creative genres like poetry. But what do LLMs really know about poetry? What can they know about poetry? We develop a task to evaluate how well LLMs recognize a specific aspect of poetry, poetic form, for more than 20 forms and formal elements in the English language. Poetic form captures many different poetic features, including rhyme scheme, meter, and word or line repetition. We use this task to reflect on LLMs' current poetic capabilities, as well as the challenges and pitfalls of creating NLP benchmarks for poetry and for other creative tasks. In particular, we use this task to audit and reflect on the poems included in popular pretraining datasets. Our findings have implications for NLP researchers interested in model evaluation, digital humanities and cultural analytics scholars, and cultural heritage professionals.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# Historia Magistra Vitae: ニューラルネットワークを用いたローマ文学の動的トピックモデリング

Historia Magistra Vitae: Dynamic Topic Modeling of Roman Literature using Neural Embeddings ( http://arxiv.org/abs/2406.18907v1 )

ライセンス: Link先を確認
Michael Ginn, Mans Hulden, (参考訳) 動的トピックモデルは歴史的分析のツールとして提案されているが、従来のアプローチでは有用性が限られており、構成、解釈、評価が困難であった。 本研究では,BERT埋め込みを用いた動的トピックモデリングの最近の試みについて検討する。 従来の統計モデル (LDA と NMF) と BERT ベースのモデルを用いて構築されたトピックモデルを比較し、ローマ文学の生き残ったコーパス全体のトピックをモデル化する。 定量的メトリクスは統計モデルを好むが、定性的評価は神経モデルからより良い洞察を得る。 さらに、ニューラルトピックモデルはハイパーパラメータの設定に敏感でないため、歴史的研究者にとって動的トピックモデリングがより有効になる可能性がある。

Dynamic topic models have been proposed as a tool for historical analysis, but traditional approaches have had limited usefulness, being difficult to configure, interpret, and evaluate. In this work, we experiment with a recent approach for dynamic topic modeling using BERT embeddings. We compare topic models built using traditional statistical models (LDA and NMF) and the BERT-based model, modeling topics over the entire surviving corpus of Roman literature. We find that while quantitative metrics prefer statistical models, qualitative evaluation finds better insights from the neural model. Furthermore, the neural topic model is less sensitive to hyperparameter configuration and thus may make dynamic topic modeling more viable for historical researchers.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# 半教師付きセグメンテーション・オプティカルフローに基づくユニバーサル鉄道障害物検出システム

A Universal Railway Obstacle Detection System based on Semi-supervised Segmentation And Optical Flow ( http://arxiv.org/abs/2406.18908v1 )

ライセンス: Link先を確認
Qiushi Guo, (参考訳) 鉄道シナリオにおける障害物の検出は、幅広い障害物カテゴリーと、気象や光など環境条件の異なるため、極めて重要かつ困難である。 トレーニング段階において,すべての障害カテゴリを包含することができないことを考慮し,光学的フロー手がかりによる半教師付きセグメンテーション手法を用いて,このアウト・オブ・ディストリビューション(OOD)問題に対処する。 従来のオブジェクト検出手法ではなく,バイナリ分割問題としてタスクを再構築する。 データ不足を軽減するため,Segment Anything (SAM) と YOLO を用いてリアルな合成画像を生成する。 さらに、事前知識として光学フローを活用してモデルを効果的に訓練する。 提案手法の有効性と有効性を示すいくつかの実験を行った。

Detecting obstacles in railway scenarios is both crucial and challenging due to the wide range of obstacle categories and varying ambient conditions such as weather and light. Given the impossibility of encompassing all obstacle categories during the training stage, we address this out-of-distribution (OOD) issue with a semi-supervised segmentation approach guided by optical flow clues. We reformulate the task as a binary segmentation problem instead of the traditional object detection approach. To mitigate data shortages, we generate highly realistic synthetic images using Segment Anything (SAM) and YOLO, eliminating the need for manual annotation to produce abundant pixel-level annotations. Additionally, we leverage optical flow as prior knowledge to train the model effectively. Several experiments are conducted, demonstrating the feasibility and effectiveness of our approach.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# 因子依存型話し方キャプション

Factor-Conditioned Speaking-Style Captioning ( http://arxiv.org/abs/2406.18910v1 )

ライセンス: Link先を確認
Atsushi Ando, Takafumi Moriya, Shota Horiguchi, Ryo Masumura, (参考訳) 本稿では,話し方情報を正確に予測しながら,多様な記述を生成する新しい話し方キャプション手法を提案する。 従来の学習基準では、話し方だけでなく、構文語も含んでいるオリジナルの字幕を直接使用しており、これは話し方に関する情報の学習を妨げている。 この問題を解決するために、まず、話し方的要因(例えば、性別、ピッチなど)を表すフレーズを出力し、次にキャプションを生成し、モデルが話し方的要因を明示的に学習することを保証する因子条件付きキャプション(FCC)を導入する。 また、まず、意味的正確性を保証するために言語スタイルの因子を確定的に予測し、次に、因子条件によるサンプリングに基づいてキャプションを生成し、多様性を保証する。 実験によると、FCCはオリジナルのキャプションベースのトレーニングよりも優れており、GtSでは、スタイル予測のパフォーマンスを維持しながら、より多様なキャプションを生成する。

This paper presents a novel speaking-style captioning method that generates diverse descriptions while accurately predicting speaking-style information. Conventional learning criteria directly use original captions that contain not only speaking-style factor terms but also syntax words, which disturbs learning speaking-style information. To solve this problem, we introduce factor-conditioned captioning (FCC), which first outputs a phrase representing speaking-style factors (e.g., gender, pitch, etc.), and then generates a caption to ensure the model explicitly learns speaking-style factors. We also propose greedy-then-sampling (GtS) decoding, which first predicts speaking-style factors deterministically to guarantee semantic accuracy, and then generates a caption based on factor-conditioned sampling to ensure diversity. Experiments show that FCC outperforms the original caption-based training, and with GtS, it generates more diverse captions while keeping style prediction performance.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# マニピュレーション・アニーシング:視覚言語モデルを用いた実世界ロボットの自動化

Manipulate-Anything: Automating Real-World Robots using Vision-Language Models ( http://arxiv.org/abs/2406.18915v1 )

ライセンス: Link先を確認
Jiafei Duan, Wentao Yuan, Wilbert Pumacay, Yi Ru Wang, Kiana Ehsani, Dieter Fox, Ranjay Krishna, (参考訳) RT-1のような大規模な取り組みやOpen-X-Embodimentのような幅広いコミュニティの取り組みは、ロボットのデモデータの拡大に寄与している。 しかし、ロボットのデモデータの質、量、多様性を改善する機会はまだ残っている。 視覚言語モデルは、デモデータを自動的に生成することが示されているが、そのユーティリティは特権のある状態情報を持つ環境に限られており、手書きのスキルを必要とし、少数のオブジェクトインスタンスとのインタラクションに限られている。 実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。 従来の作業とは異なり,本手法は特権状態情報や手書きのスキルを使わずに実環境でも動作可能であり,静的オブジェクトを操作できる。 提案手法を2つの設定を用いて評価する。 第一に、Manipulate-Anythingは実世界の5つのタスクと12のシミュレーションタスクの軌跡をうまく生成し、VoxPoserのような既存の手法を著しく上回っている。 第2に、Manipulate-Anything氏のデモは、人間のデモを使用したトレーニングや、VoxPoserやCode-As-Policiesによって生成されたデータから、より堅牢な行動クローンポリシーをトレーニングすることができる。 私たちは‘methodLong’が、ロボット工学のためのデータ生成と、ゼロショット設定で新しいタスクを解くためのスケーラブルな方法であると信じています。

Large-scale endeavors like RT-1 and widespread community efforts such as Open-X-Embodiment have contributed to growing the scale of robot demonstration data. However, there is still an opportunity to improve the quality, quantity, and diversity of robot demonstration data. Although vision-language models have been shown to automatically generate demonstration data, their utility has been limited to environments with privileged state information, they require hand-designed skills, and are limited to interactions with few object instances. We propose Manipulate-Anything, a scalable automated generation method for real-world robotic manipulation. Unlike prior work, our method can operate in real-world environments without any privileged state information, hand-designed skills, and can manipulate any static object. We evaluate our method using two setups. First, Manipulate-Anything successfully generates trajectories for all 5 real-world and 12 simulation tasks, significantly outperforming existing methods like VoxPoser. Second, Manipulate-Anything's demonstrations can train more robust behavior cloning policies than training with human demonstrations, or from data generated by VoxPoser and Code-As-Policies. We believe \methodLong\ can be the scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# TrustUQA: 統一された構造化データ質問回答のための信頼できるフレームワーク

TrustUQA: A Trustful Framework for Unified Structured Data Question Answering ( http://arxiv.org/abs/2406.18916v1 )

ライセンス: Link先を確認
Wen Zhang, Long Jin, Yushan Zhu, Jiaoyan Chen, Zhiwei Huang, Junjie Wang, Yin Hua, Lei Liang, Huajun Chen, (参考訳) 表や知識グラフ(KG)などの構造化データソース上での自然言語質問応答(QA)は,例えばLarge Language Models(LLM)などで広く研究されている。 主な解決策は、質問から形式的なクエリ解析と検索ベースの回答生成である。 しかしながら、前者の現在の手法は、しばしば弱一般化に悩まされ、複数のソースを同時に扱うことができず、後者は信頼性に制限されている。 本稿では,複数種類の構造化データを統一的に同時にサポートできる信頼性の高いQAフレームワークUnifiedTQAを提案する。 この目的のために、LLMに親しみやすく統一された知識表現法であるCondition Graph(CG)を採用し、LCMとデモベースの2段階のCGクエリ手法を使用している。 強化のため、ダイナミックなデモ検索も備えている。 我々は,3種類の構造化データを対象とした5つのベンチマークでUnifiedTQAを評価した。 既存の2つの構造化されたデータQAメソッドを上回り、データタイプ固有のベースラインと比較すると、そのうち2つが最先端である。 さらに、より一般的なQAタスク、混合構造化データに対するQA、構造化データに対するQAの可能性を示す。

Natural language question answering (QA) over structured data sources such as tables and knowledge graphs (KGs) have been widely investigated, for example with Large Language Models (LLMs). The main solutions include question to formal query parsing and retrieval-based answer generation. However, current methods of the former often suffer from weak generalization, failing to dealing with multiple sources simultaneously, while the later is limited in trustfulness. In this paper, we propose UnifiedTQA, a trustful QA framework that can simultaneously support multiple types of structured data in a unified way. To this end, it adopts an LLM-friendly and unified knowledge representation method called Condition Graph (CG), and uses an LLM and demonstration-based two-level method for CG querying. For enhancement, it is also equipped with dynamic demonstration retrieval. We have evaluated UnifiedTQA with 5 benchmarks covering 3 types of structured data. It outperforms 2 existing unified structured data QA methods and in comparison with the baselines that are specific to a data type, it achieves state-of-the-art on 2 of them. Further more, we demonstrates potential of our method for more general QA tasks, QA over mixed structured data and QA across structured data.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# ゼリーフィッシュによる頸動脈プラークの分類 : プラーク表面エッジを用いた畳み込みニューラルネットワークと繰り返しニューラルネットワーク

Classification of Carotid Plaque with Jellyfish Sign Through Convolutional and Recurrent Neural Networks Utilizing Plaque Surface Edges ( http://arxiv.org/abs/2406.18919v1 )

ライセンス: Link先を確認
Takeshi Yoshidomi, Shinji Kume, Hiroaki Aizawa, Akira Furui, (参考訳) 頸動脈では、プラークは局所的な隆起病変として発達する。 ゼリーフィッシュのサインは、血流の脈動を伴うプラークの表面が変動していることが特徴で、最近注目されているプラークのダイナミックな特徴である。 この兆候を検出することは、脳梗塞と関連していることが多いため、不可欠である。 本稿では,深層ニューラルネットワークを用いたゼリーフィッシュサインの超音波映像による分類法を提案する。 提案法はまず頸動脈超音波ビデオを前処理し,血管壁の動きとプラークの動きを分離する。 これらの前処理されたビデオは、プラーク表面情報と組み合わせて、畳み込みニューラルネットワークと繰り返しニューラルネットワークからなるディープラーニングモデルに入力され、ゼリーフィッシュサインの効率的な分類を可能にする。 提案法は,200例の超音波画像を用いて検証した。 アブレーション実験により,提案手法の各成分の有効性が示された。

In carotid arteries, plaque can develop as localized elevated lesions. The Jellyfish sign, marked by fluctuating plaque surfaces with blood flow pulsation, is a dynamic characteristic of these plaques that has recently attracted attention. Detecting this sign is vital, as it is often associated with cerebral infarction. This paper proposes an ultrasound video-based classification method for the Jellyfish sign, using deep neural networks. The proposed method first preprocesses carotid ultrasound videos to separate the movement of the vascular wall from plaque movements. These preprocessed videos are then combined with plaque surface information and fed into a deep learning model comprising convolutional and recurrent neural networks, enabling the efficient classification of the Jellyfish sign. The proposed method was verified using ultrasound video images from 200 patients. Ablation studies demonstrated the effectiveness of each component of the proposed method.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# 言葉だけでなく心をキャプチャする:パーソナリティを示すデータを用いたロールプレイング言語モデルの強化

Capturing Minds, Not Just Words: Enhancing Role-Playing Language Models with Personality-Indicative Data ( http://arxiv.org/abs/2406.18921v1 )

ライセンス: Link先を確認
Yiting Ran, Xintao Wang, Rui Xu, Xinfeng Yuan, Jiaqing Liang, Yanghua Xiao, Deqing Yang, (参考訳) ロールプレイングエージェント(RPA)は大規模言語モデル(LLM)の一般的な応用分野であり、産業とアカデミックの両方から大きな関心を集めているが、既存のRPAはキャラクターの知識やトーンをうまく表現しているが、特に小さなロールプレイング言語モデル(RPLM)では、心をつかむための課題に直面している。 本稿では,人格表現データによるRPLMの強化を提案する。 具体的には、心理学的尺度からの質問を活用し、高度なRPAを蒸留し、文字の心を把握した対話を生成する。 実験により,本データセットを用いてトレーニングしたRPLMは,一般人格関連評価と人格関連評価の両面において,高度なロールプレイング能力を示した。 コードとデータは \href{https://github.com/alienet1109/RolePersonality}{this URL} で公開されている。

Role-playing agents (RPA) have been a popular application area for large language models (LLMs), attracting significant interest from both industry and academia.While existing RPAs well portray the characters' knowledge and tones, they face challenges in capturing their minds, especially for small role-playing language models (RPLMs). In this paper, we propose to enhance RPLMs via personality-indicative data. Specifically, we leverage questions from psychological scales and distill advanced RPAs to generate dialogues that grasp the minds of characters. Experimental results validate that RPLMs trained with our dataset exhibit advanced role-playing capabilities for both general and personality-related evaluations. Code and data are available at \href{https://github.com/alienet1109/RolePersonality}{this URL}.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# 時間の問題: あらゆる予算に対する法則のスケーリング

Time Matters: Scaling Laws for Any Budget ( http://arxiv.org/abs/2406.18922v1 )

ライセンス: Link先を確認
Itay Inbar, Luke Sernau, (参考訳) 大型モデルの訓練に要する主な費用は、ウォールクロックの訓練時間である。 FLOPに基づく一般的な時間推定は低い推定値であり,メモリコピーに基づくより正確なプロキシの構築が可能であることを示す。 簡単な会計を行うことで、トランスモデルのトレーニング速度をハイパーパラメータから推定できることが示される。 Chinchillaのようなスケーリング法則曲線と組み合わせることで、モデルの最終的な損失を見積もることができます。 実データに対する推定値を線形回帰に当てはめ、トレーニングデータの量とは対照的に、モデルの推定トレーニング時間の観点から、チチラを書き換える結果を適用する。 これにより、モデルのハイパーパラメータだけでの損失の表現が得られます。 この表現は、幅広いモデルハイパーパラメーター値に対して正確であることを示し、アーキテクチャ上の決定を解析的に行い、モデルをより効率的に訓練することを可能にする。

A primary cost driver for training large models is wall-clock training time. We show that popular time estimates based on FLOPs are poor estimates, and construct a more accurate proxy based on memory copies. We show that with some simple accounting, we can estimate the training speed of a transformer model from its hyperparameters. Combined with a scaling law curve like Chinchilla, this lets us estimate the final loss of the model. We fit our estimate to real data with a linear regression, and apply the result to rewrite Chinchilla in terms of a model's estimated training time as opposed to the amount of training data. This gives an expression for the loss in terms of the model's hyperparameters alone. We show that this expression is accurate across a wide range of model hyperparameter values, enabling us to analytically make architectural decisions and train models more efficiently.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# 多目的連続ロボット制御のための学習パレートセット

Learning Pareto Set for Multi-Objective Continuous Robot Control ( http://arxiv.org/abs/2406.18924v1 )

ライセンス: Link先を確認
Tianye Shu, Ke Shang, Cheng Gong, Yang Nan, Hisao Ishibuchi, (参考訳) 複数の矛盾する目的を持つ制御問題に対して、パレート集合と呼ばれる一連のパレート最適ポリシーが存在する。 多目的制御問題が連続的かつ複雑である場合、従来の多目的強化学習(MORL)アルゴリズムは、パレート集合を近似するために多くのパレート最適深度ポリシーを探索する。 本稿では,高次元ポリシーパラメータ空間におけるパレート集合の連続表現を単一ハイパーネットを用いて学習する,単純かつ資源効率のMORLアルゴリズムを提案する。 学習したハイパーネットは、様々なユーザの好みに応じて、よく訓練されたポリシーネットワークを直接生成できる。 提案手法を、7つの多目的連続ロボット制御問題に対する2つの最先端MORLアルゴリズムと比較した。 実験結果から,本手法はトレーニングパラメータを最小にすることで,最高の総合的な性能を達成できることが示唆された。 興味深い観察は、パレート集合が高次元パラメータ空間における曲線や曲面によってよく近似されていることである。 この観察は、研究者が新しいMORLアルゴリズムを設計するための洞察を与える。

For a control problem with multiple conflicting objectives, there exists a set of Pareto-optimal policies called the Pareto set instead of a single optimal policy. When a multi-objective control problem is continuous and complex, traditional multi-objective reinforcement learning (MORL) algorithms search for many Pareto-optimal deep policies to approximate the Pareto set, which is quite resource-consuming. In this paper, we propose a simple and resource-efficient MORL algorithm that learns a continuous representation of the Pareto set in a high-dimensional policy parameter space using a single hypernet. The learned hypernet can directly generate various well-trained policy networks for different user preferences. We compare our method with two state-of-the-art MORL algorithms on seven multi-objective continuous robot control problems. Experimental results show that our method achieves the best overall performance with the least training parameters. An interesting observation is that the Pareto set is well approximated by a curved line or surface in a high-dimensional parameter space. This observation will provide insight for researchers to design new MORL algorithms.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# Selective Visionはビジュアル推論の課題:ビジュアル引数理解のためのベンチマーク

Selective Vision is the Challenge for Visual Reasoning: A Benchmark for Visual Argument Understanding ( http://arxiv.org/abs/2406.18925v1 )

ライセンス: Link先を確認
Jiwan Chung, Sungjae Lee, Minseo Kim, Seungju Han, Ashkan Yousefpour, Jack Hessel, Youngjae Yu, (参考訳) 視覚的な議論は、しばしば広告や社会的大義で使用され、視聴者に何かをしたり信じるよう説得するために画像に依存している。 画像内の特定の視覚刺激だけが議論に関連するものであり、関連性はより広い議論的構造の文脈内でのみ理解できる。 視覚的な議論は、人間の聴衆によって容易に理解されますが、私たちは次のように尋ねます。 VisArgsは、視覚的引数の基盤となる(通常暗黙的な)構造を明確にするために設計されたアノテーション付きコーパスです。 VisArgsには,5,112の視覚的前提(リージョンアノテーション付き),5,574の常識的前提,より広範な議論に接続する推論木という,3種類のテキストアノテーションが付属する1,611のイメージが含まれている。 本稿では,VisArgs上の3つのタスクを提案し,視覚的議論理解のための機械能力を探究する: 前提の局所化,前提の同定,結論の導出。 実験は 1) 機械は関連した視覚的手がかりを十分に特定できない。 GPT-4-Oは78.5%の精度で、人間は98.0%に達した。 全てのモデルでは、画像の外側のオブジェクトから画像内の無関係なオブジェクトに比較セットを変更すると、平均して19.5%の精度で性能が低下した。 さらに 2) この制限は、視覚的議論を理解する上で、彼らのパフォーマンスに影響を与える最大の要因である。 ほとんどのモデルは、視覚的議論の結論を導出するために、他の入力と比較して、関連する視覚的前提を付加的な入力として与えられたときに最も改善した。

Visual arguments, often used in advertising or social causes, rely on images to persuade viewers to do or believe something. Understanding these arguments requires selective vision: only specific visual stimuli within an image are relevant to the argument, and relevance can only be understood within the context of a broader argumentative structure. While visual arguments are readily appreciated by human audiences, we ask: are today's AI capable of similar understanding? We collect and release VisArgs, an annotated corpus designed to make explicit the (usually implicit) structures underlying visual arguments. VisArgs includes 1,611 images accompanied by three types of textual annotations: 5,112 visual premises (with region annotations), 5,574 commonsense premises, and reasoning trees connecting them to a broader argument. We propose three tasks over VisArgs to probe machine capacity for visual argument understanding: localization of premises, identification of premises, and deduction of conclusions. Experiments demonstrate that 1) machines cannot fully identify the relevant visual cues. The top-performing model, GPT-4-O, achieved an accuracy of only 78.5%, whereas humans reached 98.0%. All models showed a performance drop, with an average decrease in accuracy of 19.5%, when the comparison set was changed from objects outside the image to irrelevant objects within the image. Furthermore, 2) this limitation is the greatest factor impacting their performance in understanding visual arguments. Most models improved the most when given relevant visual premises as additional inputs, compared to other inputs, for deducing the conclusion of the visual argument.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# ファインチューニングネットワークは、目に見えない認知課題を解決するために汎用表現に依存している

Fine-tuned network relies on generic representation to solve unseen cognitive task ( http://arxiv.org/abs/2406.18926v1 )

ライセンス: Link先を確認
Dongyan Lin, (参考訳) 微調整された事前訓練された言語モデルは、幅広いタスクに対して有望な結果を示しているが、新しいタスクに遭遇すると、より一般的な事前訓練された表現に依存するのか、それとも新しいタスク固有のソリューションを開発するのか? そこで我々は,GPT-2を文脈依存型意思決定タスクで微調整し,モデルに新しいが神経科学の文献に適応した。 我々は、その性能と内部メカニズムを、同じタスクでスクラッチからトレーニングしたGPT-2のバージョンと比較した。 実験の結果,微調整モデルでは,特に後層では事前訓練された表現に大きく依存し,スクラッチからトレーニングしたモデルでは,タスク固有のメカニズムがより異なる。 これらの知見は、タスク一般化のための事前訓練の利点と限界を浮き彫りにし、LLMにおけるタスク固有微調整を支えるメカニズムのさらなる研究の必要性を浮き彫りにした。

Fine-tuning pretrained language models has shown promising results on a wide range of tasks, but when encountering a novel task, do they rely more on generic pretrained representation, or develop brand new task-specific solutions? Here, we fine-tuned GPT-2 on a context-dependent decision-making task, novel to the model but adapted from neuroscience literature. We compared its performance and internal mechanisms to a version of GPT-2 trained from scratch on the same task. Our results show that fine-tuned models depend heavily on pretrained representations, particularly in later layers, while models trained from scratch develop different, more task-specific mechanisms. These findings highlight the advantages and limitations of pretraining for task generalization and underscore the need for further investigation into the mechanisms underpinning task-specific fine-tuning in LLMs.
翻訳日:2024-06-28 15:06:48 公開日:2024-06-27
# RoFIR:光中心の偏光に迫るロバストな魚眼画像再現フレームワーク

RoFIR: Robust Fisheye Image Rectification Framework Impervious to Optical Center Deviation ( http://arxiv.org/abs/2406.18927v1 )

ライセンス: Link先を確認
Zhaokang Liao, Hao Feng, Shaokai Liu, Wengang Zhou, Houqiang Li, (参考訳) 魚眼画像は、光学的中心位置に基づいて、魚眼を中央に分類し、逸脱させる。 既存の修正方法は中央魚眼画像に限られるが,本論文では魚眼画像のずれを解消する新しい方法を提案する。 この課題は、ランダムな光中心位置によって引き起こされる変動的大域歪み分布パターンにある。 この課題に対処するために,局所歪みの度合いと方向を測定する歪みベクトルマップ(DVM)を提案する。 DVMを学習することで、大域的な歪みパターンに頼ることなく、各ピクセルの局所歪みを独立に識別することができる。 このモデルは事前トレーニングと微調整のトレーニングパラダイムを採用している。 事前学習段階では、歪みベクトルマップを予測し、各画素の局所歪み特徴を知覚する。 微調整段階では、魚眼画像修正のための画素単位のフローマップを予測する。 また、中心、偏差、歪みのない画像を混合するデータ拡張手法を提案する。 このようなデータ拡張は、単一タイプの魚眼画像で訓練されたモデルと比較して、中央および脱落した魚眼画像の修正におけるモデル性能を促進する。 実験により提案手法の有効性と優位性を実証した。

Fisheye images are categorized fisheye into central and deviated based on the optical center position. Existing rectification methods are limited to central fisheye images, while this paper proposes a novel method that extends to deviated fisheye image rectification. The challenge lies in the variant global distortion distribution pattern caused by the random optical center position. To address this challenge, we propose a distortion vector map (DVM) that measures the degree and direction of local distortion. By learning the DVM, the model can independently identify local distortions at each pixel without relying on global distortion patterns. The model adopts a pre-training and fine-tuning training paradigm. In the pre-training stage, it predicts the distortion vector map and perceives the local distortion features of each pixel. In the fine-tuning stage, it predicts a pixel-wise flow map for deviated fisheye image rectification. We also propose a data augmentation method mixing central, deviated, and distorted-free images. Such data augmentation promotes the model performance in rectifying both central and deviated fisheye images, compared with models trained on single-type fisheye images. Extensive experiments demonstrate the effectiveness and superiority of the proposed method.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# フロントエンド適応ネットワークによるASRロバスト性向上

Enhanced ASR Robustness to Packet Loss with a Front-End Adaptation Network ( http://arxiv.org/abs/2406.18928v1 )

ライセンス: Link先を確認
Yehoshua Dissen, Shiry Yonash, Israel Cohen, Joseph Keshet, (参考訳) 音声認識(ASR)の分野では、ノイズの多い環境における堅牢性は依然として大きな課題である。 Whisperのような最近のASRモデルは将来性を示すが、ノイズ条件下での有効性はさらに向上する可能性がある。 本研究は,ASRモデルの単語誤り率(WER)を改善するために,パケット損失から回復することに焦点を当てた。 凍結ASRモデルに接続したフロントエンド適応ネットワークを提案する。 適応ネットワークは、拡張損失関数に加えて、ASRモデルの基準を最小化することにより、劣化した入力スペクトルを変更するよう訓練される。 実験により,Whisperの基準に基づいて学習した適応ネットワークは,パケットロスシナリオにおけるドメインや言語間の単語誤り率を著しく低減することを示した。 この改善は、Whisperモデルの基本性能に最小限の影響を伴って達成され、我々の手法の実用性と、挑戦的な音響環境におけるASRモデルの強化の可能性を示す。

In the realm of automatic speech recognition (ASR), robustness in noisy environments remains a significant challenge. Recent ASR models, such as Whisper, have shown promise, but their efficacy in noisy conditions can be further enhanced. This study is focused on recovering from packet loss to improve the word error rate (WER) of ASR models. We propose using a front-end adaptation network connected to a frozen ASR model. The adaptation network is trained to modify the corrupted input spectrum by minimizing the criteria of the ASR model in addition to an enhancement loss function. Our experiments demonstrate that the adaptation network, trained on Whisper's criteria, notably reduces word error rates across domains and languages in packet-loss scenarios. This improvement is achieved with minimal affect to Whisper model's foundational performance, underscoring our method's practicality and potential in enhancing ASR models in challenging acoustic environments.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# 行動と変化について考える

Reasoning About Action and Change ( http://arxiv.org/abs/2406.18930v1 )

ライセンス: Link先を確認
Florence Dupin de Saint-Cyr, Andreas Herzig, Jérôme Lang, Pierre Marquis, (参考訳) 本書の目的は,基本的な作業からインターフェース,アプリケーションに至るまで,AI研究の概要を提供することである。 修士課程の学生や博士課程の学生の聴衆を対象とし、AIについてもっと知りたい研究者や技術者にも関心がある。 本書は3巻に分かれている。

The purpose of this book is to provide an overview of AI research, ranging from basic work to interfaces and applications, with as much emphasis on results as on current issues. It is aimed at an audience of master students and Ph.D. students, and can be of interest as well for researchers and engineers who want to know more about AI. The book is split into three volumes.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# 半適応型相乗的双方向擬似逆学習システム

Semi-adaptive Synergetic Two-way Pseudoinverse Learning System ( http://arxiv.org/abs/2406.18931v1 )

ライセンス: Link先を確認
Binghong Liu, Ziqi Zhao, Shupan Li, Ke Wang, (参考訳) ディープラーニングは多くの分野でブレークスルーを行う上で重要な技術になっている。 それでも、理論と応用面では2つの重要な課題に直面している。 1つ目は、学習制御ハイパーパラメータを決定するのに時間がかかり、困難である勾配降下に基づく学習スキームの欠点である。 次に、モデルのアーキテクチャ設計は、通常、トリッキーである。 本稿では,前向き学習,後向き学習,特徴連結モジュールを含む半適応型双方向擬似逆学習システムを提案する。 システム全体は、非段階的な降下学習アルゴリズムを用いて訓練される。 トレーニング効率を向上しながら、ハイパーパラメータチューニングを簡略化する。 サブシステムのアーキテクチャは、サブシステムの深さの自動決定を可能にするデータ駆動型アプローチを用いて設計されている。 本手法と本手法の基幹となる非階調降下法を比較し,提案手法の有効性を実証した。 本論文のソースコードはhttp://github.com/B-berrypie/Semi-adaptive-Synergetic-Two-way-Pseudoinverse-Learning-System}{http://github.com/B-berrypie/Semi-adaptive-Synergetic-Two-way-Pseudoinverse-Learning-Systemで公開されている。

Deep learning has become a crucial technology for making breakthroughs in many fields. Nevertheless, it still faces two important challenges in theoretical and applied aspects. The first lies in the shortcomings of gradient descent based learning schemes which are time-consuming and difficult to determine the learning control hyperparameters. Next, the architectural design of the model is usually tricky. In this paper, we propose a semi-adaptive synergetic two-way pseudoinverse learning system, wherein each subsystem encompasses forward learning, backward learning, and feature concatenation modules. The whole system is trained using a non-gradient descent learning algorithm. It simplifies the hyperparameter tuning while improving the training efficiency. The architecture of the subsystems is designed using a data-driven approach that enables automated determination of the depth of the subsystems. We compare our method with the baselines of mainstream non-gradient descent based methods and the results demonstrate the effectiveness of our proposed method. The source code for this paper is available at http://github.com/B-berrypie/Semi-adaptive-Synergetic-Two-way-Pseudoinverse-Learning-System}{http://github.com/B-berrypie/Semi-adaptive-Synergetic-Two-way-Pseudoinverse-Learning-System.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# 無限アルファベット上のレジスタオートマトンとトランスデューサの単一使用制限

The single-use restriction for register automata and transducers over infinite alphabets ( http://arxiv.org/abs/2406.18934v1 )

ライセンス: Link先を確認
Rafał Stefański, (参考訳) この論文は、無限アルファベット上のレジスタオートマトンとトランスデューサの単一使用制限を研究する。 この制限は、レジスタへの読み取りアクセスがその内容を破壊する副作用を持つべきである。 この制約は、言語とトランスダクションの堅牢なクラスをもたらす。 オートマトンモデルでは、一方のレジスタオートマトン、両側のレジスタオートマトン、軌道上の有限なモノイドが同じ表現力を持つことを示す。 トランスデューサモデルでは、単用ミーリーマシンと単用双方向トランスデューサがクローン・ローデス分解定理のバージョンを認めていることを示す。 さらに、シングルユース・ミーリーマシンは局所代数的半群変換と呼ばれる代数的モデルと等価である。 さらに、単一用途の双方向トランスデューサは、無限アルファベット上のシングルユースストリーミング文字列トランスデューサ(SST)と、原子を持つ正規リスト関数と等価であることを示す。 以前の『arXiv:1907.10504』と比較すると、この論文は単一使用制限に関する一貫性のある物語を提供する。 シングルユース関数の抽象概念を導入し、それらを用いて、議論されたシングルユースモデルを全て定義する。 また、局所半群変換と局所有理半群変換の代数モデルを導入・研究する。

This thesis studies the single-use restriction for register automata and transducers over infinite alphabets. The restriction requires that a read-access to a register should have the side effect of destroying its contents. This constraint results in robust classes of languages and transductions. For automata models, we show that one-way register automata, two-way register automata, and orbit-finite monoids have the same expressive power. For transducer models, we show that single-use Mealy machines and single-use two-way transducers admit versions of the Krohn-Rhodes decomposition theorem. Moreover, single-use Mealy machines are equivalent to an algebraic model called local algebraic semigroup transductions. Additionally, we show that single-use two-way transducers are equivalent to single-use streaming string transducers (SSTs) over infinite alphabets and to regular list functions with atoms. Compared with the previous work arXiv:1907.10504, this thesis offers a coherent narrative on the single-use restriction. We introduce an abstract notion of single-use functions and use them to define all the discussed single-use models. We also introduce and study the algebraic models of local semigroup transduction and local rational semigroup transduction.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# フェデレーショングラフセマンティックと構造学習

Federated Graph Semantic and Structural Learning ( http://arxiv.org/abs/2406.18937v1 )

ライセンス: Link先を確認
Wenke Huang, Guancheng Wan, Mang Ye, Bo Du, (参考訳) フェデレーショングラフ学習は、非独立性と同一の分散プロパティが大きな課題の1つである分散グラフを持つグローバルグラフニューラルネットワークを協調的に学習する。 ほとんどの相対芸術は、画像や音声などの伝統的な分散タスクに焦点を当てており、グラフ構造ができない。 本稿ではまず,ノードレベルのセマンティクスとグラフレベルの構造の両方によって局所的なクライアントの歪みがもたらされることを示す。 まず、ノードレベルのセマンティクスでは、異なるクラスからのノードのコントラストが有益であることに気付き、良質な識別を提供する。 同じクラスのグローバルノードに向かってローカルノードをプルし、異なるクラスのグローバルノードからプッシュします。 第二に、構造的なグラフニューラルネットワークは、固有の隣接関係のため、隣人に対して類似性を持っていると仮定する。 しかし、各ノードを隣接ノードに整列させることは、潜在的なクラス不整合による差別を妨げる。 我々は、隣接関係を類似度分布に変換し、グローバルモデルを利用して関係知識を局所モデルに蒸留し、局所モデルの構造情報と識別可能性を保存する。 3つのグラフデータセットに対する実験結果から,提案手法が提案手法よりも優れていることを示す。

Federated graph learning collaboratively learns a global graph neural network with distributed graphs, where the non-independent and identically distributed property is one of the major challenges. Most relative arts focus on traditional distributed tasks like images and voices, incapable of graph structures. This paper firstly reveals that local client distortion is brought by both node-level semantics and graph-level structure. First, for node-level semantics, we find that contrasting nodes from distinct classes is beneficial to provide a well-performing discrimination. We pull the local node towards the global node of the same class and push it away from the global node of different classes. Second, we postulate that a well-structural graph neural network possesses similarity for neighbors due to the inherent adjacency relationships. However, aligning each node with adjacent nodes hinders discrimination due to the potential class inconsistency. We transform the adjacency relationships into the similarity distribution and leverage the global model to distill the relation knowledge into the local model, which preserves the structural information and discriminability of the local model. Empirical results on three graph datasets manifest the superiority of the proposed method over its counterparts.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# AIグループの公正性を評価する - ファジィ論理的視点

Evaluating AI Group Fairness: a Fuzzy Logic Perspective ( http://arxiv.org/abs/2406.18939v1 )

ライセンス: Link先を確認
Emmanouil Krasanakis, Symeon Papadopoulos, (参考訳) 人工知能システムは、例えば特定の性別や人種に対する偏見を示すような、集団差別の尺度を評価し緩和することで、公正な懸念に対処することが多い。 しかしながら、グループフェアネスを構成するものは、誰が尋ねられるか、社会的文脈に依存するが、定義はしばしば、彼らが課す統計的制約から小さな逸脱を受け入れるために緩和される。 ここでは、基本ファジィ論理(BL)の公理系において、グループメンバーとの遭遇のような緩やかに理解された述語で表現することで、文脈と緩和に関連する不確実性の両方から群フェアネスの定義を分離する。 次に、プロダクツ論理やルカシエヴィチ論理など、BLのサブクラスにおける定義を評価する。 評価は、質問紙を通じて収集された利害関係者の意見など、不確実な文脈固有の信念を反映した述語に対する論理サブクラスと真理値を選択することによって、二項真理値の代わりに連続的に生成する。 内部的には、定義の真理値を計算するための論理固有の規則に従う。 一般に議論されている命題は、結果の数学的公式を標準化し、論理と真理値の選択を書写して、誰でも答えられるようにすることを示します。 我々はまた、アルゴリズムフェアネスの文献的定義について研究し、非確率的な過去の慣行を合理化し、それらの公式やパラメータを新しい文脈で再解釈する方法を示す。

Artificial intelligence systems often address fairness concerns by evaluating and mitigating measures of group discrimination, for example that indicate biases against certain genders or races. However, what constitutes group fairness depends on who is asked and the social context, whereas definitions are often relaxed to accept small deviations from the statistical constraints they set out to impose. Here we decouple definitions of group fairness both from the context and from relaxation-related uncertainty by expressing them in the axiomatic system of Basic fuzzy Logic (BL) with loosely understood predicates, like encountering group members. We then evaluate the definitions in subclasses of BL, such as Product or Lukasiewicz logics. Evaluation produces continuous instead of binary truth values by choosing the logic subclass and truth values for predicates that reflect uncertain context-specific beliefs, such as stakeholder opinions gathered through questionnaires. Internally, it follows logic-specific rules to compute the truth values of definitions. We show that commonly held propositions standardize the resulting mathematical formulas and we transcribe logic and truth value choices to layperson terms, so that anyone can answer them. We also use our framework to study several literature definitions of algorithmic fairness, for which we rationalize previous expedient practices that are non-probabilistic and show how to re-interpret their formulas and parameters in new contexts.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# 局所およびシャッフルモデルにおける入力正当性を考慮した効率よく検証可能な微分プライバシー

Efficient Verifiable Differential Privacy with Input Authenticity in the Local and Shuffle Model ( http://arxiv.org/abs/2406.18940v1 )

ライセンス: Link先を確認
Tariq Bontekoe, Hassan Jameel Asghar, Fatih Turkmen, (参考訳) ローカルディファレンシャルプライバシ(LDP)は、クライアントのセンシティブなデータにプライバシを提供する上で、信頼性の高い中央サーバ(アグリゲータ)を依存せずに、統計データを同時にリリースする効率的なソリューションである。 LDPによるシャッフルモデルは、クライアントとアグリゲータの間のリンクを切断し、LCPの有用性をさらに改善することで、さらなるプライバシー層を提供する。 しかし、LPPは入力操作と出力操作の両方を実行できる悪意のあるクライアントに対して脆弱であることが示されている。 本研究では,悪意あるクライアントが LDP スキームを損なうのを防ぐ方法について述べる。 具体的には、汎用LDPアルゴリズムにおいて、悪意のあるクライアントからの入力 \' および出力操作攻撃の両方を防止するための効率的な構成を提供する。 提案手法は,クライアントとサーバ間のワンタイムインタラクションを必要とせず,出力操作攻撃を完全に防止し,署名されたデータによる入力攻撃を防止する。 最も重要なことは、私たちはシャッフルモデルでVLDPの効率的なスキームを最初に提供したことです。 我々は,正則モデルにおけるVLDPとシャッフルモデルにおけるVLDPの2つのスキームを記述し,証明する。 クライアントランタイムは2秒以内で、サーバランタイムは1クライアントあたり5~7ミリ秒である。

Local differential privacy (LDP) is an efficient solution for providing privacy to client's sensitive data while simultaneously releasing aggregate statistics without relying on a trusted central server (aggregator) as in the central model of differential privacy. The shuffle model with LDP provides an additional layer of privacy, by disconnecting the link between clients and the aggregator, further improving the utility of LDP. However, LDP has been shown to be vulnerable to malicious clients who can perform both input and output manipulation attacks, i.e., before and after applying the LDP mechanism, to skew the aggregator's results. In this work, we show how to prevent malicious clients from compromising LDP schemes. Specifically, we give efficient constructions to prevent both input \'and output manipulation attacks from malicious clients for generic LDP algorithms. Our proposed schemes for verifiable LDP (VLDP), completely protect from output manipulation attacks, and prevent input attacks using signed data, requiring only one-time interaction between client and server, unlike existing alternatives [28, 33]. Most importantly, we are the first to provide an efficient scheme for VLDP in the shuffle model. We describe and prove secure, two schemes for VLDP in the regular model, and one in the shuffle model. We show that all schemes are highly practical, with client runtimes of < 2 seconds, and server runtimes of 5-7 milliseconds per client.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# CLIP3D-AD:マルチビュー画像生成による3次元Few-Shot異常検出のためのCLIPの拡張

CLIP3D-AD: Extending CLIP for 3D Few-Shot Anomaly Detection with Multi-View Images Generation ( http://arxiv.org/abs/2406.18941v1 )

ライセンス: Link先を確認
Zuo Zuo, Jiahao Dong, Yao Wu, Yanyun Qu, Zongze Wu, (参考訳) 産業シナリオにおけるデータ収集の難しさに効果的に対処できる撮影異常検出手法はほとんどない。 2D-FSAD (2D-FSAD) と比較すると, 3D-FSAD (3D-FSAD) は未発見だが必須課題である。 本稿では,CLIP上に拡張された効率的な3D-FSAD法であるCLIP3D-ADを提案する。 私たちはCLIPの強力な一般化能力を3D-FSADに変換することに成功した。 具体的には,通常の画像上の異常画像をサンプルペアとして合成し,CLIPを3次元の異常分類とセグメンテーションに適応させる。 分類には,グローバルな視覚的特徴やテキスト特徴を微調整するイメージアダプタとテキストアダプタを導入する。 一方,CLIPの中間的多層視覚表現を融合し,促進する粗大なデコーダを提案する。 点雲の幾何学的情報を活用し,CLIPによって処理された場合のモダリティやデータの相違をなくすため,点雲を投影・描画する。 そこで我々は,CLIPが抽出した多視点画像の特徴を融合する多視点融合モジュールを設計し,視覚的表現を容易にし,視覚言語間の相関を一層強化する。 本手法は,MVTec-3D ADデータセット上での3次元ショット異常分類とセグメンテーションの競合性能を示す。

Few-shot anomaly detection methods can effectively address data collecting difficulty in industrial scenarios. Compared to 2D few-shot anomaly detection (2D-FSAD), 3D few-shot anomaly detection (3D-FSAD) is still an unexplored but essential task. In this paper, we propose CLIP3D-AD, an efficient 3D-FSAD method extended on CLIP. We successfully transfer strong generalization ability of CLIP into 3D-FSAD. Specifically, we synthesize anomalous images on given normal images as sample pairs to adapt CLIP for 3D anomaly classification and segmentation. For classification, we introduce an image adapter and a text adapter to fine-tune global visual features and text features. Meanwhile, we propose a coarse-to-fine decoder to fuse and facilitate intermediate multi-layer visual representations of CLIP. To benefit from geometry information of point cloud and eliminate modality and data discrepancy when processed by CLIP, we project and render point cloud to multi-view normal and anomalous images. Then we design multi-view fusion module to fuse features of multi-view images extracted by CLIP which are used to facilitate visual representations for further enhancing vision-language correlation. Extensive experiments demonstrate that our method has a competitive performance of 3D few-shot anomaly classification and segmentation on MVTec-3D AD dataset.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# パーソナライズされた拡散モデルにおけるショートカット学習の検証と予防

Investigating and Defending Shortcut Learning in Personalized Diffusion Models ( http://arxiv.org/abs/2406.18944v1 )

ライセンス: Link先を確認
Yixin Liu, Ruoxi Chen, Lichao Sun, (参考訳) パーソナライズされた拡散モデルは、いくつかの画像だけで特定のトピックの画像を生成するために、事前訓練されたテキスト・ツー・イメージモデルを適用することで人気を集めている。 しかし、最近の研究では、これらのモデルが小さな逆境の摂動に弱いことが分かっており、微調整性能は破損したデータセットで大きく劣化している。 このような特徴は、不正な生成を防ぐために、肖像画のような繊細な画像に保護的な摂動を作らせるためにさらに活用される。 これに対し, これらの摂動を除去し, 生成性能を維持するため, 拡散法に基づく浄化法が提案されている。 しかし、既存の研究にはパーソナライズされた拡散モデルの基本的ショートカット学習の脆弱性の詳細な分析が欠けており、画像の過度な浄化が情報損失を引き起こしている。 本稿では、ショートカット学習のレンズを通してパーソナライズされた拡散モデルの微調整過程を詳しく検討し、既存の摂動法の基礎となる操作機構を説明する仮説を提案する。 具体的には、CLIPベースの潜伏空間において、摂動画像が元のペアのプロンプトから大きくシフトしていることが分かる。 結果として、このミスマッチしたイメージプロンプトペアを使用したトレーニングは、モデルが分布外ノイズパターンを識別子にダンプする構造を生成し、その結果、重大なパフォーマンス劣化を引き起こします。 本研究は,潜伏画像とその意味的意味を具現化してトレーニング性能を維持するための体系的なアプローチを提案し,また,より適応的な摂動に対する強い潜在能力を示す清潔なアイデンティティと望ましくない雑音パターンの学習を分離するために,負のトークンによる対照的な学習を導入する。

Personalized diffusion models have gained popularity for adapting pre-trained text-to-image models to generate images of specific topics with only a few images. However, recent studies find that these models are vulnerable to minor adversarial perturbation, and the fine-tuning performance is largely degraded on corrupted datasets. Such characteristics are further exploited to craft protective perturbation on sensitive images like portraits that prevent unauthorized generation. In response, diffusion-based purification methods have been proposed to remove these perturbations and retain generation performance. However, existing works lack detailed analysis of the fundamental shortcut learning vulnerability of personalized diffusion models and also turn to over-purifying the images cause information loss. In this paper, we take a closer look at the fine-tuning process of personalized diffusion models through the lens of shortcut learning and propose a hypothesis that could explain the underlying manipulation mechanisms of existing perturbation methods. Specifically, we find that the perturbed images are greatly shifted from their original paired prompt in the CLIP-based latent space. As a result, training with this mismatched image-prompt pair creates a construction that causes the models to dump their out-of-distribution noisy patterns to the identifier, thus causing serious performance degradation. Based on this observation, we propose a systematic approach to retain the training performance with purification that realigns the latent image and its semantic meaning and also introduces contrastive learning with a negative token to decouple the learning of wanted clean identity and the unwanted noisy pattern, that shows strong potential capacity against further adaptive perturbation.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# コンピューティング教育への持続可能性の統合に向けた道のり

A Road Less Travelled and Beyond: Towards a Roadmap for Integrating Sustainability into Computing Education ( http://arxiv.org/abs/2406.18945v1 )

ライセンス: Link先を確認
Ana Moreira, Ola Leifler, Stefanie Betz, Ian Brooks, Rafael Capilla, Vlad Constantin Coroama, Leticia Duboc, Joao Paulo Fernandes, Rogardt Heldal, Patricia Lago, Ngoc-Thanh Nguyen, Shola Oyedeji, Birgit Penzenstadler, Anne Kathrin Peters, Jari Porras, Colin C. Venters, (参考訳) 持続可能な開発のための教育は、より建設的なアプローチと、持続不可能な社会によって引き起こされるリスクを避けるために必要な文化的、社会的、教育的な変化と教育を整合させるために必要なものをより理解するために進化してきた。 この進化は私たちを現実的で平等で持続可能な未来へと導くことを目的としています。 しかし、ソフトウェア工学を含むコンピューティング教育は、我々の現在の課題を考慮して、変革的学習に必要なものについて、現在の理解と完全に一致していない。 これは、コンピューティングが主に技術分野と見なされ、産業のニーズに焦点が当てられているためである。 最近まで、デジタル部門を含むほとんどの企業にとってサステナビリティは最優先事項ではなかったし、高等教育機関や社会にとっても目立った焦点ではなかった。 これらの課題を踏まえ、我々は、サステナビリティの原則と必須スキルを混在するコンピューティングカリキュラムに統合するための研究ロードマップを提案し、サステナビリティの考え方で将来のソフトウェアエンジニアリング専門家を育成することを目指している。 コンピュータ教育におけるサステナビリティに関する学術文献の体系的レビューと,サステナビリティへの関心と卒業生に求められるスキルに関する業界専門家の調査を行った。 これらの研究から得られた知見から,コアサステナビリティの原則,価値観と倫理,システム思考,インパクト計測,ソフトスキル,ビジネスバリュー,法律基準,アドボケーシなど,サステナビリティを教える上で重要なトピックを特定した。 これらの知見に基づき,持続可能性を重視した将来のコンピューティング教育プログラムの勧告を策定する。 この論文は、2030年のソフトウェアエンジニアリングワークショップで、FSE'24カンファレンスと共同で受け入れられている。

Education for sustainable development has evolved to include more constructive approaches and a better understanding of what is needed to align education with the cultural, societal, and pedagogical changes required to avoid the risks posed by an unsustainable society. This evolution aims to lead us toward viable, equitable, and sustainable futures. However, computing education, including software engineering, is not fully aligned with the current understanding of what is needed for transformational learning in light of our current challenges. This is partly because computing is primarily seen as a technical field, focused on industry needs. Until recently, sustainability was not a high priority for most businesses, including the digital sector, nor was it a prominent focus for higher education institutions and society. Given these challenges, we aim to propose a research roadmap to integrate sustainability principles and essential skills into the crowded computing curriculum, nurturing future software engineering professionals with a sustainability mindset. We conducted two extensive studies: a systematic review of academic literature on sustainability in computing education and a survey of industry professionals on their interest in sustainability and desired skills for graduates. Using insights from these studies, we identified key topics for teaching sustainability, including core sustainability principles, values and ethics, systems thinking, impact measurement, soft skills, business value, legal standards, and advocacy. Based on these findings, we will develop recommendations for future computing education programs that emphasise sustainability. The paper is accepted at the 2030 Software Engineering workshop, which is co-located with the FSE'24 conference.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# MMR-Mamba:mambaと空間周波数情報融合を用いたマルチコントラストMRI再構成

MMR-Mamba: Multi-Contrast MRI Reconstruction with Mamba and Spatial-Frequency Information Fusion ( http://arxiv.org/abs/2406.18950v1 )

ライセンス: Link先を確認
Jing Zou, Lanqing Liu, Qi Chen, Shujun Wang, Xiaohan Xing, Jing Qin, (参考訳) MR画像ではマルチコントラストMRIの加速度が主流となり, 対象モードのアンダーサンプリングk空間データから, 完全サンプリング補助モードからのガイダンスを用いて, 高品質MR画像の再構成が可能になった。 主くちばしは、補助モダリティからの補完的な情報を効率的かつ包括的に統合することにある。 既存の手法は2次計算の複雑さに悩まされるか、長い範囲の相関した特徴を包括的に捉えられないかのいずれかである。 本研究では,Mambaと空間周波数情報融合によるマルチコントラスト特徴の包括的統合を実現する新しいフレームワークであるMMR-Mambaを提案する。 まず,空間領域におけるTCM (textit{Target modality-guided Cross Mamba}) モジュールを設計し,補助モダリティから有用な情報を選択的に吸収することにより,目的のモダリティ情報を最大に復元する。 次に、フーリエ領域のグローバルな特性を活用して、周波数領域のグローバルな情報を効率的に統合し、構造詳細を復元するための高周波信号の復元を行うための「textit{Selective Frequency Fusion} (SFF)」モジュールを導入する。 さらに,他の領域の特徴を補うことで,融合した特徴を補うことによって拡張する,ASFF(textit{Adaptive Spatial-Frequency Fusion)モジュールを提案する。 これらの革新的な戦略は、空間領域と周波数領域をまたいだ効率的な特徴融合を保証し、冗長な情報の導入を回避し、高品質なターゲット画像の再構成を容易にする。 BraTSおよび高速MRI膝関節データセットの大規模な実験は、最先端MRI再建法よりも提案したMR-Mambaの方が優れていることを示した。

Multi-contrast MRI acceleration has become prevalent in MR imaging, enabling the reconstruction of high-quality MR images from under-sampled k-space data of the target modality, using guidance from a fully-sampled auxiliary modality. The main crux lies in efficiently and comprehensively integrating complementary information from the auxiliary modality. Existing methods either suffer from quadratic computational complexity or fail to capture long-range correlated features comprehensively. In this work, we propose MMR-Mamba, a novel framework that achieves comprehensive integration of multi-contrast features through Mamba and spatial-frequency information fusion. Firstly, we design the \textit{Target modality-guided Cross Mamba} (TCM) module in the spatial domain, which maximally restores the target modality information by selectively absorbing useful information from the auxiliary modality. Secondly, leveraging global properties of the Fourier domain, we introduce the \textit{Selective Frequency Fusion} (SFF) module to efficiently integrate global information in the frequency domain and recover high-frequency signals for the reconstruction of structure details. Additionally, we present the \textit{Adaptive Spatial-Frequency Fusion} (ASFF) module, which enhances fused features by supplementing less informative features from one domain with corresponding features from the other domain. These innovative strategies ensure efficient feature fusion across spatial and frequency domains, avoiding the introduction of redundant information and facilitating the reconstruction of high-quality target images. Extensive experiments on the BraTS and fastMRI knee datasets demonstrate the superiority of the proposed MMR-Mamba over state-of-the-art MRI reconstruction methods.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# 大きな4次項を持つスピン・ハミルトン:三重井戸ポテンシャルとブロッホ球の可視化

Spin Hamiltonian with large fourth order terms: Triple well potentials and Bloch sphere visualization ( http://arxiv.org/abs/2406.18953v1 )

ライセンス: Link先を確認
D. S. Lohr Robles, M. Grether, E. Lopez Moreno, P. O. Hess, (参考訳) 我々は、四階までの項を持つ一般スピン・ハミルトンの研究を示す。 コヒーレント状態では半古典ポテンシャルが得られ、カタストロフィ理論ではパラメータ空間が構成される。 4階のパラメータが十分大きいとき、パラメータ空間は半古典ポテンシャルが3つの井戸を持つ領域を持つ。 振動磁場を適用することにより、パラメータ空間における軌道はマックスウェル集合を複数回交差させ、多くの基底状態量子相転移をもたらす。 コヒーレント状態を用いて、磁場が変化するにつれて、ブロッホ球上の基底状態の局在を可視化することができる。

We present a study of a general spin Hamiltonian with terms up to fourth order. With the coherent states the semiclassical potential is obtained and with catastrophe theory its parameter space is constructed. When the fourth order parameters are large enough the parameter space has regions where the semiclassical potential has three wells. By applying an oscillating magnetic field a trajectory in parameter space crosses the Maxwell set multiple times resulting in many ground state quantum phase transitions. Using the coherent states we are able to visualize the localization of the ground state on the Bloch sphere as the magnetic field is varied.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# 会話ボットのパフォーマンス向上のためのアライメント

Alignment For Performance Improvement in Conversation Bots ( http://arxiv.org/abs/2406.18954v1 )

ライセンス: Link先を確認
Raghav Garg, Kapil Sharma, Shrey Singla, (参考訳) 本稿では,事前に規定されたガイドラインや「ガードレール」の中で,ボットとしても知られる会話エージェントの微調整のみを指導した場合と比較して,アライメント手法がガードレールの忠実性に優れることを示す。 命令の微調整や、アイデンティティ優先最適化(IPO)やKahneman-Tversky Optimization(KTO)といったダイレクトアライメント手法の最近の進歩など、従来のトレーニングアプローチを検討する。 プレインストラクション・チューニングとポストインストラクション・チューニングの両方のアライメント・テクニックの有効性が強調され、顧客ケアなどの特定のルールに厳格に準拠する必要のあるドメインにおける会話ボットの最適化の可能性が示された。

This paper shows that alignment methods can achieve superior adherence to guardrails compared to instruction fine-tuning alone in conversational agents, also known as bots, within predefined guidelines or 'guardrails'. It examines traditional training approaches such as instruction fine-tuning and the recent advancements in direct alignment methods like Identity Preference Optimization (IPO), and Kahneman-Tversky Optimization (KTO). The effectiveness of alignment techniques both pre and post-instruction tuning is highlighted, illustrating their potential to optimize conversational bots in domains that require strict adherence to specified rules, such as customer care.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# AnyControl: テキストから画像生成へのVersatileコントロールによるアートワークの作成

AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation ( http://arxiv.org/abs/2406.18958v1 )

ライセンス: Link先を確認
Yanan Sun, Yanchen Liu, Yinhao Tang, Wenjie Pei, Kai Chen, (参考訳) テキスト・ツー・イメージ(T2I)生成の分野は近年,拡散モデルの発展によって大きく進歩している。 言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。 この課題は、深度マップやエッジマップなどの追加のユーザ供給空間条件を、余分なエンコーディングを通じて事前訓練されたT2Iモデルに組み込むことによって、かなり研究されている。 しかし、マルチコントロール画像合成は依然としていくつかの課題に直面している。 特に、現在のアプローチは、多様な入力制御信号の自由結合を扱い、複数の空間的条件の間の複雑な関係を見落とし、提供されたテキストプロンプトで意味的アライメントを維持するのに失敗する。 これは、最適以下のユーザー体験につながる可能性がある。 これらの課題に対処するために,多様な制御信号の任意の組み合わせをサポートするマルチコントロール画像合成フレームワークであるAnyControlを提案する。 AnyControlは、生成プロセスを導くために、統一されたマルチモーダル埋め込みを抽出する、新しいマルチコントロルエンコーダを開発する。 このアプローチは、ユーザ入力の全体的理解を可能にし、広範囲な量的および定性的な評価によって示されるように、多元的制御信号の下で高品質で忠実な結果を生成する。 プロジェクトのページは \url{https://any-control.github.io} で公開されている。

The field of text-to-image (T2I) generation has made significant progress in recent years, largely driven by advancements in diffusion models. Linguistic control enables effective content creation, but struggles with fine-grained control over image generation. This challenge has been explored, to a great extent, by incorporating additional user-supplied spatial conditions, such as depth maps and edge maps, into pre-trained T2I models through extra encoding. However, multi-control image synthesis still faces several challenges. Specifically, current approaches are limited in handling free combinations of diverse input control signals, overlook the complex relationships among multiple spatial conditions, and often fail to maintain semantic alignment with provided textual prompts. This can lead to suboptimal user experiences. To address these challenges, we propose AnyControl, a multi-control image synthesis framework that supports arbitrary combinations of diverse control signals. AnyControl develops a novel Multi-Control Encoder that extracts a unified multi-modal embedding to guide the generation process. This approach enables a holistic understanding of user inputs, and produces high-quality, faithful results under versatile control signals, as demonstrated by extensive quantitative and qualitative evaluations. Our project page is available in \url{https://any-control.github.io}.
翻訳日:2024-06-28 14:57:01 公開日:2024-06-27
# スタックオーバーフローに関するアーキテクチャ関連の質問をどのように修正するか - 実証的研究

How Do Users Revise Architectural Related Questions on Stack Overflow: An Empirical Study ( http://arxiv.org/abs/2406.18959v1 )

ライセンス: Link先を確認
Musengamana Jean de Dieu, Peng Liang, Mojtaba Shahin, Arif Ali Khan, (参考訳) Stack Overflow (SO)のような技術的質問と回答(Q&A)サイトは、ユーザからの投稿にソフトウェア開発に関する重要な情報を蓄積している。 この情報の品質を保証するため、SOはユーザーが様々なメカニズム(質問と回答の修正プロセスなど)を通じて投稿をレビューすることを奨励する。 Architecture Related Posts (ARP)は、システム全体に影響を及ぼすアーキテクチャ情報を伝達するが、ユーザがARPで共有される情報をどのように修正するかについては、ほとんど分かっていない。 このギャップを埋めるために,ユーザがSO上でアーキテクチャ関連質問(ARQ)をどのように修正するかを理解するための実証的研究を行った。 13,205個のARPを手動で検査し、最終的に修正情報を含む4,114個のARQを特定した。 本研究の主目的は,(1) 質問の投稿直後(すなわち1分以降)にARQの改訂が開始されることである。 さらに、ARQのリビジョンは、この質問の前後で最初の回答/アーキテクチャソリューションを受け取り、最初のアーキテクチャソリューションが投稿される前にほとんどのリビジョンが始まります。 質問作成者(QC)も非QCも積極的にARQリビジョンに参加しており、ほとんどのリビジョンはQCによってなされている。 2) 投稿後のARQには,設計状況やコンポーネント依存性,アーキテクチャ上の懸念など,さまざまな情報(14のカテゴリ)が欠落している。 3)設計下のアーキテクチャの理解を明確にし,アーキテクチャ問題の可読性を向上させることが,ARQにおけるさらなる情報提供の2つの主要な目的である。 (4)ARQのさらなる提供された情報は、アーキテクチャソリューションを有用にすること、アーキテクチャソリューションを有益なものにすること、アーキテクチャソリューションを関連付けることなど、回答/アーキテクチャソリューションの品質にいくつかの影響を与えます。

Technical Questions and Answers (Q&A) sites, such as Stack Overflow (SO), accumulate a significant variety of information related to software development in posts from users. To ensure the quality of this information, SO encourages its users to review posts through various mechanisms (e.g., question and answer revision processes). Although Architecture Related Posts (ARPs) communicate architectural information that has a system-wide impact on development, little is known about how SO users revise information shared in ARPs. To fill this gap, we conducted an empirical study to understand how users revise Architecture Related Questions (ARQs) on SO. We manually checked 13,205 ARPs and finally identified 4,114 ARQs that contain revision information. Our main findings are that: (1) The revision of ARQs is not prevalent in SO, and an ARQ revision starts soon after this question is posted (i.e., from 1 minute onward). Moreover, the revision of an ARQ occurs before and after this question receives its first answer/architecture solution, with most revisions beginning before the first architecture solution is posted. Both Question Creators (QCs) and non-QCs actively participate in ARQ revisions, with most revisions being made by QCs. (2) A variety of information (14 categories) is missing and further provided in ARQs after being posted, among which design context, component dependency, and architecture concern are dominant information. (3) Clarify the understanding of architecture under design and improve the readability of architecture problem are the two major purposes of the further provided information in ARQs. (4) The further provided information in ARQs has several impacts on the quality of answers/architecture solutions, including making architecture solution useful, making architecture solution informative, making architecture solution relevant, among others.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# UniGen: 大規模言語モデルを用いたテキストデータセット生成のための統一フレームワーク

UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models ( http://arxiv.org/abs/2406.18966v1 )

ライセンス: Link先を確認
Siyuan Wu, Yue Huang, Chujie Gao, Dongping Chen, Qihui Zhang, Yao Wan, Tianyi Zhou, Xiangliang Zhang, Jianfeng Gao, Chaowei Xiao, Lichao Sun, (参考訳) GPT-4やLlama3のような大規模言語モデル(LLM)は、高品質な合成データ生成を可能にし、高価な人為的なデータセットへの依存を減らすことで、様々な分野に大きな影響を与えている。 それにもかかわらず、課題は、既存の生成フレームワークにおける一般化、制御可能性、多様性、真実性の領域に留まっている。 これらの課題に対処するため,本論文では,多種多様で正確かつ高度に制御可能なデータセットを生成するために設計された,総合的なLLMフレームワークであるUniGenを提案する。 UniGenは適応可能で、すべてのタイプのテキストデータセットをサポートし、革新的なメカニズムを通じて生成プロセスを強化する。 データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。 精度向上のために、コードベースの数学的評価をラベル検証に使用し、検索拡張生成技術と併用して、事実検証を行う。 フレームワークはまた、特定の要求に合ったデータ生成プロセスのカスタマイズを可能にする、ユーザ指定の制約を可能にする。 大規模な実験では、UniGenが生成したデータの優れた品質を示し、UniGen内の各モジュールはこの拡張において重要な役割を果たす。 さらに、UniGenはLLMのベンチマークとデータ拡張という2つの実践シナリオに適用されている。 その結果、UniGenは動的および進化的なベンチマークを効果的にサポートし、データ拡張はエージェント指向能力や推論スキルなど、さまざまな領域におけるLLM能力を向上することが示された。

Large Language Models (LLMs) such as GPT-4 and Llama3 have significantly impacted various fields by enabling high-quality synthetic data generation and reducing dependence on expensive human-generated datasets. Despite this, challenges remain in the areas of generalization, controllability, diversity, and truthfulness within the existing generative frameworks. To address these challenges, this paper presents UniGen, a comprehensive LLM-powered framework designed to produce diverse, accurate, and highly controllable datasets. UniGen is adaptable, supporting all types of text datasets and enhancing the generative process through innovative mechanisms. To augment data diversity, UniGen incorporates an attribute-guided generation module and a group checking feature. For accuracy, it employs a code-based mathematical assessment for label verification alongside a retrieval-augmented generation technique for factual validation. The framework also allows for user-specified constraints, enabling customization of the data generation process to suit particular requirements. Extensive experiments demonstrate the superior quality of data generated by UniGen, and each module within UniGen plays a critical role in this enhancement. Additionally, UniGen is applied in two practical scenarios: benchmarking LLMs and data augmentation. The results indicate that UniGen effectively supports dynamic and evolving benchmarking, and that data augmentation improves LLM capabilities in various domains, including agent-oriented abilities and reasoning skills.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# 構造的注意:不適切な医用画像合成のための変圧器の再考

Structural Attention: Rethinking Transformer for Unpaired Medical Image Synthesis ( http://arxiv.org/abs/2406.18967v1 )

ライセンス: Link先を確認
Vu Minh Hieu Phan, Yutong Xie, Bowen Zhang, Yuankai Qi, Zhibin Liao, Antonios Perperidis, Son Lam Phung, Johan W. Verjans, Minh-Son To, (参考訳) 非ペア医療画像合成は、正確な臨床診断のための補完情報の提供と、整列型マルチモーダル・メディカルスキャンの取得における課題への対処を目的としている。 Transformerベースのモデルは、長距離依存関係をキャプチャする機能のおかげで、画像翻訳タスクに優れています。 教師付きトレーニング設定では有効であるが、特に構造的詳細を合成する際、その性能は不適切な画像合成に影響を及ぼす。 本稿では,強い帰納バイアスを欠くトランスフォーマーが,ペアデータがない場合に最適でない解に収束できることを実証的に示す。 この問題を解決するために,UNet Structured Transformer (UNest)を導入した。 我々は,基礎的なセグメンション・アニーシング・モデルを利用して,前景構造を正確に抽出し,主解剖学内で構造的注意を喚起する。 これにより、重要な解剖学的領域を学ぶためのモデルがガイドされ、未経験トレーニングの監督の欠如の下で構造的合成が改善される。 MR、CT、PETの3つのモードにまたがる2つの公開データセットに基づいて評価され、UNestは6つの医用画像合成タスクにおいて、最新の手法を19.30%改善する。 私たちのコードはhttps://github.com/HieuPhan33/MICCAI2024-UNest.comで公開されています。

Unpaired medical image synthesis aims to provide complementary information for an accurate clinical diagnostics, and address challenges in obtaining aligned multi-modal medical scans. Transformer-based models excel in imaging translation tasks thanks to their ability to capture long-range dependencies. Although effective in supervised training settings, their performance falters in unpaired image synthesis, particularly in synthesizing structural details. This paper empirically demonstrates that, lacking strong inductive biases, Transformer can converge to non-optimal solutions in the absence of paired data. To address this, we introduce UNet Structured Transformer (UNest), a novel architecture incorporating structural inductive biases for unpaired medical image synthesis. We leverage the foundational Segment-Anything Model to precisely extract the foreground structure and perform structural attention within the main anatomy. This guides the model to learn key anatomical regions, thus improving structural synthesis under the lack of supervision in unpaired training. Evaluated on two public datasets, spanning three modalities, i.e., MR, CT, and PET, UNest improves recent methods by up to 19.30% across six medical image synthesis tasks. Our code is released at https://github.com/HieuPhan33/MICCAI2024-UNest.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# 因果会話におけるN-best ASR仮説の再現のためのLLMの適用:ドメイン適応とコンテキストキャリーオーバーの効果

Applying LLMs for Rescoring N-best ASR Hypotheses of Casual Conversations: Effects of Domain Adaptation and Context Carry-over ( http://arxiv.org/abs/2406.18972v1 )

ライセンス: Link先を確認
Atsunori Ogawa, Naoyuki Kamo, Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Takatomo Kano, Naohiro Tawara, Marc Delcroix, (参考訳) 大規模言語モデル(LLM)は自動音声認識(ASR)仮説の再現に成功している。 しかし、カジュアルな会話のASR仮説を再評価する能力は十分に検討されていない。 本研究では,CHiME-7 リモート ASR (DASR) タスクにおいて Llama2 を用いた N-best ASR 仮説の再構成を行うことにより,その特徴を明らかにする。 Llama2は最も代表的なLCMの1つであり、CHiME-7 DASRタスクは複数の参加者間のカジュアルな会話のデータセットを提供する。 N-best rescoring(N-best rescoring, N-best rescoring, N-best rescoring, N-best rescoring, N-best rescoring, N-best rescoring, N-best rescoring)を行う場合, LLMのドメイン適応とコンテキストキャリーオーバーの効果を検討した。 実験の結果、Llama2はドメイン適応がなくても、特に長いコンテキストを使用する場合、標準サイズのドメイン適応トランスフォーマー-LMよりも優れていることがわかった。 ドメイン適応は、Llama2の最高の性能を達成するために必要なコンテキスト長を短縮する。

Large language models (LLMs) have been successfully applied for rescoring automatic speech recognition (ASR) hypotheses. However, their ability to rescore ASR hypotheses of casual conversations has not been sufficiently explored. In this study, we reveal it by performing N-best ASR hypotheses rescoring using Llama2 on the CHiME-7 distant ASR (DASR) task. Llama2 is one of the most representative LLMs, and the CHiME-7 DASR task provides datasets of casual conversations between multiple participants. We investigate the effects of domain adaptation of the LLM and context carry-over when performing N-best rescoring. Experimental results show that, even without domain adaptation, Llama2 outperforms a standard-size domain-adapted Transformer-LM, especially when using a long context. Domain adaptation shortens the context length needed with Llama2 to achieve its best performance, i.e., it reduces the computational cost of Llama2.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# RoboUniView:ロボットマニピュレイトンのための統一ビュー表現を用いた視覚言語モデル

RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulaiton ( http://arxiv.org/abs/2406.18977v1 )

ライセンス: Link先を確認
Fanfan Liu, Feng Yan, Liming Zheng, Chengjian Feng, Yiyang Huang, Lin Ma, (参考訳) ロボット操作のためのビジョンランゲージモデル(VLM)の利用は、新しいオブジェクトや命令に一般化するモデルの能力を高めることを目的とした、新しいパラダイムである。 しかし、カメラの仕様や設置位置の変化により、既存の手法は異なるロボットプラットフォーム間で大きな性能格差を示す。 この課題に対処するために,アクション学習から視覚的特徴抽出を分離する革新的なアプローチであるRoboUniViewを提案する。 我々はまず、アクセスしやすいデータに基づいて事前学習することで、多視点ビューから統一されたビュー表現を学び、その後、この統合されたビュー表現からアクションを導出し、ロボット操作を制御する。 この統合ビュー表現は、物理的な世界をより正確に反映し、ロボットプラットフォームのカメラパラメータに制約されない。 この手法により、要求されるCALVINベンチマークの最先端性能を達成し、D \to D$設定が88.7%から96.2%、ABC \to D$設定が82.4%から94.2%に向上する。 さらに,本モデルでは,未知のカメラパラメータの下で高い性能を維持し,様々なカメラパラメータを持つ複数のデータセットを利用でき,データセット間のクロスタスク学習を共同で行うことが可能である。 コードは再実装のために提供される。 https://github.com/liufanfanlff/RoboUniview

Utilizing Vision-Language Models (VLMs) for robotic manipulation represents a novel paradigm, aiming to enhance the model's ability to generalize to new objects and instructions. However, due to variations in camera specifications and mounting positions, existing methods exhibit significant performance disparities across different robotic platforms. To address this challenge, we propose RoboUniView in this paper, an innovative approach that decouples visual feature extraction from action learning. We first learn a unified view representation from multi-perspective views by pre-training on readily accessible data, and then derive actions from this unified view representation to control robotic manipulation. This unified view representation more accurately mirrors the physical world and is not constrained by the robotic platform's camera parameters. Thanks to this methodology, we achieve state-of-the-art performance on the demanding CALVIN benchmark, enhancing the success rate in the $D \to D$ setting from 88.7% to 96.2%, and in the $ABC \to D$ setting from 82.4% to 94.2%. Moreover, our model exhibits outstanding adaptability and flexibility: it maintains high performance under unseen camera parameters, can utilize multiple datasets with varying camera parameters, and is capable of joint cross-task learning across datasets. Code is provided for re-implementation. https://github.com/liufanfanlff/RoboUniview
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# 量子臨界点を越えたエクササイズゼロと熱場ダイナミクス

Exact Fisher zeros and thermofield dynamics across a quantum critical point ( http://arxiv.org/abs/2406.18981v1 )

ライセンス: Link先を確認
Yang Liu, Songtai Lv, Yuchen Meng, Zefan Tan, Erhai Zhao, Haiyuan Zou, (参考訳) 複素平面を占有するために逆温度 $\beta$ を緩く設定することで、マイケル・フィッシャーは複素分割関数 $Z$ の零点が実の $\beta$ 軸に近づくと熱力学的相転移が現れることを示した。 最近では、フィッシャーゼロはクエンチ力学の動的相転移を示すために用いられる。 しかし、フィッシャーゼロの成功は限られているように思われるが、量子相転移や開量子系の非単位力学に光を放つためにどのように使用できるのかは定かではない。 ここでは、(解析的に継続した)一次元逆場イジングモデルの包括的解析により、この問題に答える。 すべてのフィッシャー零点を消耗し、熱力学の極限において、それらが連続開線あるいは閉線の形で驚くほど単純なパターンに集まることを示す。 これらのフィッシャー線は結合定数が調整されるにつれて滑らかに進化し、定性的変化によって量子臨界点が特定される。 Z$と熱場二重状態の接続を利用して、生存振幅の短時間および長時間のダイナミクスと量子臨界点における繰り返し時間のスケーリングに関する解析式を得る。 さらに、Z$は監視された量子回路で実現し、探索することができると指摘する。 解析結果は、ここで概説したアプローチを高める数値テンソル再正規化群によって、量子システムと相互作用する強力なツールに裏付けられる。

By setting the inverse temperature $\beta$ loose to occupy the complex plane, Michael E. Fisher showed that the zeros of the complex partition function $Z$, if approaching the real $\beta$ axis, reveal a thermodynamic phase transition. More recently, Fisher zeros have been used to mark the dynamical phase transition in quench dynamics. The success of Fisher zeros however seems limited, and it is unclear how they can be employed to shed light on quantum phase transitions or the non-unitary dynamics of open quantum systems. Here we answer this question by a comprehensive analysis of the (analytically continued) one-dimensional transverse field Ising model. We exhaust all the Fisher zeros to show that in the thermodynamic limit they congregate into a remarkably simple pattern in the form of continuous open or closed lines. These Fisher lines evolve smoothly as the coupling constant is tuned, and a qualitative change identifies the quantum critical point. By exploiting the connection between $Z$ and the thermofield double states, we obtain analytical expressions for the short- and long-time dynamics of the survival amplitude and the scaling of recurrence time at the quantum critical point. We further point out $Z$ can be realized and probed in monitored quantum circuits. The analytical results are corroborated by numerical tensor renormalization group which elevates the approach outlined here to a powerful tool for interacting quantum systems.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# 還元基底を用いた高速学習型電気機械サロゲート

A Fast Learning-Based Surrogate of Electrical Machines using a Reduced Basis ( http://arxiv.org/abs/2406.18990v1 )

ライセンス: Link先を確認
Alejandro Ribés, Nawfal Benchekroun, Théo Delagnes, (参考訳) 代理モデルは、計算コストの低い部分微分方程式(PDE)の解の出力を近似する。 本稿では,パラメータの集合に依存するが時間的・空間的プロセスでもあるPDEであるパラメータ化PDEの文脈において,学習に基づくサロゲートを構築する手法を提案する。 我々の貢献は、適切な直交分解といくつかのサポートベクトル回帰マシンをハイブリダイズする方法である。 提案手法は,デジタルツインのコンテキストにおいて,提案したサロゲートに基づいて対話的な解析を行うことが可能な,リアルタイムに動作すると考えられる。 電気機器に関する2つのユースケースについて有望な結果を示す。 これらのユースケースはおもちゃの例ではなく、産業用計算コードで作られ、非自明な幾何学を表すメッシュを使用し、非線形性を含む。

A surrogate model approximates the outputs of a solver of Partial Differential Equations (PDEs) with a low computational cost. In this article, we propose a method to build learning-based surrogates in the context of parameterized PDEs, which are PDEs that depend on a set of parameters but are also temporal and spatial processes. Our contribution is a method hybridizing the Proper Orthogonal Decomposition and several Support Vector Regression machines. This method is conceived to work in real-time, thus aimed for being used in the context of digital twins, where a user can perform an interactive analysis of results based on the proposed surrogate. We present promising results on two use cases concerning electrical machines. These use cases are not toy examples but are produced an industrial computational code, they use meshes representing non-trivial geometries and contain non-linearities.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# 半教師付き概念ボトルネックモデル

Semi-supervised Concept Bottleneck Models ( http://arxiv.org/abs/2406.18992v1 )

ライセンス: Link先を確認
Lijie Hu, Tianhao Huang, Huanyi Xie, Chenyang Ren, Zhengyu Hu, Lu Yu, Di Wang, (参考訳) 概念ボトルネックモデル(CBM)は、ブラックボックスの深層学習モデルに対する概念に基づく説明を提供すると同時に、人間のような概念を用いた最終的な予測精度を高い精度で達成し、注目を集めている。 しかし、現在のCBMのトレーニングは、データセットの注釈付き概念の正確さと豊かさに大きく依存している。 これらの概念ラベルは一般的に専門家によって提供され、コストがかかり、かなりのリソースと労力を必要とする。 さらに、コンセプト・サリエンシ・マップは入力のサリエンシ・マップと誤認されることが多く、概念予測は無関係な入力特徴(アノテーションのアライメントに関連する問題)に対応する。 これらの制約に対処するため,SSCBM (Semi-supervised Concept Bottleneck Model) と呼ばれる新しいフレームワークを提案する。 我々のSCBMは、注釈付きデータが不足している現実的な状況に適しています。 ラベル付きデータとラベルなしデータの両方のジョイントトレーニングを活用し、ラベルなしデータを概念レベルで整列させることで、これらの問題を効果的に解決する。 我々は擬似ラベルとアライメント損失を生成する戦略を提案した。 実験により、SSCBMは効率的かつ効率的であることが示された。 ラベル付きデータのわずか20%で、93.19%(完全教師付き環境で96.39%)の概念精度と75.51%(完全教師付き環境で79.82%)の予測精度を達成した。

Concept Bottleneck Models (CBMs) have garnered increasing attention due to their ability to provide concept-based explanations for black-box deep learning models while achieving high final prediction accuracy using human-like concepts. However, the training of current CBMs heavily relies on the accuracy and richness of annotated concepts in the dataset. These concept labels are typically provided by experts, which can be costly and require significant resources and effort. Additionally, concept saliency maps frequently misalign with input saliency maps, causing concept predictions to correspond to irrelevant input features - an issue related to annotation alignment. To address these limitations, we propose a new framework called SSCBM (Semi-supervised Concept Bottleneck Model). Our SSCBM is suitable for practical situations where annotated data is scarce. By leveraging joint training on both labeled and unlabeled data and aligning the unlabeled data at the concept level, we effectively solve these issues. We proposed a strategy to generate pseudo labels and an alignment loss. Experiments demonstrate that our SSCBM is both effective and efficient. With only 20% labeled data, we achieved 93.19% (96.39% in a fully supervised setting) concept accuracy and 75.51% (79.82% in a fully supervised setting) prediction accuracy.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# FedMLP:タスク不均一性を考慮した多ラベル医用画像分類

FedMLP: Federated Multi-Label Medical Image Classification under Task Heterogeneity ( http://arxiv.org/abs/2406.18995v1 )

ライセンス: Link先を確認
Zhaobin Sun, Nannan Wu, Junjie Shi, Li Yu, Xin Yang, Kwang-Ting Cheng, Zengqiang Yan, (参考訳) クロスサイロ・フェデレーション・ラーニング(FL)は、分散化された組織がデータのプライバシを維持しながらモデルを協調的にトレーニングすることを可能にし、医療画像分類において大きな進歩を遂げた。 ひとつの一般的な前提は、トレーニング中に各クライアントがすべてのクラスにアクセス可能なタスク均質性である。 しかし、臨床実践においては、医療知識のレベルと病気の頻度に制約された多ラベル分類タスクが与えられた場合、各機関は部分的なカテゴリのみを診断し、タスクの不均一性をもたらす可能性がある。 タスクの不均一性に基づく効果的なマルチラベル医用画像分類の追求について検討する。 本稿では,まず,マルチラベルFLドメインにおける現実的なラベル不足設定を定式化し,擬似ラベルタグ付けとグローバル知識学習という2つの側面から欠落したクラスと戦うための2段階のFedMLPを提案する。 前者は、ウォームアップモデルを使用して、クラスプロトタイプを生成し、信頼性の高いサンプルを選択して、欠落したラベルを補う一方、後者は、欠落したクラス知識を忘れないように、一貫性のある正規化の教師としてグローバルモデルを使用している。 2つの公開可能な医療データセットの実験は、タスクの不均一性の下でのフェデラルな半教師付きおよびノイズの多いラベル学習アプローチに対するFedMLPの優位性を検証する。 コードはhttps://github.com/szbonaldo/FedMLP.comで入手できる。

Cross-silo federated learning (FL) enables decentralized organizations to collaboratively train models while preserving data privacy and has made significant progress in medical image classification. One common assumption is task homogeneity where each client has access to all classes during training. However, in clinical practice, given a multi-label classification task, constrained by the level of medical knowledge and the prevalence of diseases, each institution may diagnose only partial categories, resulting in task heterogeneity. How to pursue effective multi-label medical image classification under task heterogeneity is under-explored. In this paper, we first formulate such a realistic label missing setting in the multi-label FL domain and propose a two-stage method FedMLP to combat class missing from two aspects: pseudo label tagging and global knowledge learning. The former utilizes a warmed-up model to generate class prototypes and select samples with high confidence to supplement missing labels, while the latter uses a global model as a teacher for consistency regularization to prevent forgetting missing class knowledge. Experiments on two publicly-available medical datasets validate the superiority of FedMLP against the state-of-the-art both federated semi-supervised and noisy label learning approaches under task heterogeneity. Code is available at https://github.com/szbonaldo/FedMLP.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# 二重レベル混合とコントラストに基づくゼロショット領域適応

Zero-shot domain adaptation based on dual-level mix and contrast ( http://arxiv.org/abs/2406.18996v1 )

ライセンス: Link先を確認
Yu Zhe, Jun Sakuma, (参考訳) ゼロショットドメイン適応(ゼロショットドメイン適応、ZSDA)は、ターゲットタスク(興味のあるタスク)のラベル付きサンプルがトレーニング時にソースドメインからのみ利用可能である状況におけるドメイン適応問題であり、興味のあるタスク(関連タスク)とは異なるタスクに対して、ラベル付きサンプルはソースドメインとターゲットドメインの両方から利用可能である。 この状況下では、古典的なドメイン適応技術は、無関係なタスクにおいてのみドメイン不変の特徴を学習することができる。 しかし、2つのタスク間のサンプル分布の違いにより、無関係なタスクで学んだドメイン不変の特徴は偏りがあり、興味のあるタスクでは必ずしもドメイン不変ではない。 そこで本研究では,タスクバイアスの低い領域不変な特徴を学習するための新しいZSDA手法を提案する。 そこで本研究では,(1)目的とするタスク・オブ・関心データの欠如を補うために,タスク・アンド・ドメインの2段階混合によるデータ強化,(2)課題バイアスの少ないドメイン不変特徴を学習するためのドメイン逆学習の拡張,(3)特徴量の分散とタスク偏りの低減を図った新しい2段階対比学習手法を提案する。 実験の結果,提案手法はいくつかのベンチマークで良好な性能を示した。

Zero-shot domain adaptation (ZSDA) is a domain adaptation problem in the situation that labeled samples for a target task (task of interest) are only available from the source domain at training time, but for a task different from the task of interest (irrelevant task), labeled samples are available from both source and target domains. In this situation, classical domain adaptation techniques can only learn domain-invariant features in the irrelevant task. However, due to the difference in sample distribution between the two tasks, domain-invariant features learned in the irrelevant task are biased and not necessarily domain-invariant in the task of interest. To solve this problem, this paper proposes a new ZSDA method to learn domain-invariant features with low task bias. To this end, we propose (1) data augmentation with dual-level mixups in both task and domain to fill the absence of target task-of-interest data, (2) an extension of domain adversarial learning to learn domain-invariant features with less task bias, and (3) a new dual-level contrastive learning method that enhances domain-invariance and less task biasedness of features. Experimental results show that our proposal achieves good performance on several benchmarks.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# DNAバーコードを用いた分類学的画像を用いたアウト・オブ・ディストリビューション検出の改良

Improving Taxonomic Image-based Out-of-distribution Detection With DNA Barcodes ( http://arxiv.org/abs/2406.18999v1 )

ライセンス: Link先を確認
Mikko Impiö, Jenni Raitoharju, (参考訳) 画像に基づく種識別は、生物多様性の監視を世界規模に拡大するのに役立ちます。 現実世界のアプリケーションでこれらのシステムを実装するためには、まだ多くの課題が解決される必要がある。 信頼性の高いイメージベース監視システムは、これまで提示されていないOOD(out-of-distriion)クラスを検出する必要がある。 これは特にきめ細かいクラスでは難しい。 新たな環境モニタリング技術、DNAメタバーコード、およびeDNAは、サンプルに存在するOODクラスに関する情報を提供するのに役立つ。 そこで本研究では,DNAバーコードを用いて,外来DNA配列の類似性に基づいて,外来画像の検索を支援することができるかどうかについて検討する。 本稿では,任意の事前学習モデルや既存のOOD検出手法に容易に適用可能なリオーダー手法を提案する。 提案手法は,すべての共通基準値と比較して,分類学的OODの検出を改善できることを実験的に示す。 また、視覚的類似性とDNAバーコード近接性の相関により、本手法が有効であることを示す。 コードとデータはhttps://github.com/mikkoim/dnaimg-ood.comで公開されている。

Image-based species identification could help scaling biodiversity monitoring to a global scale. Many challenges still need to be solved in order to implement these systems in real-world applications. A reliable image-based monitoring system must detect out-of-distribution (OOD) classes it has not been presented before. This is challenging especially with fine-grained classes. Emerging environmental monitoring techniques, DNA metabarcoding and eDNA, can help by providing information on OOD classes that are present in a sample. In this paper, we study if DNA barcodes can also support in finding the outlier images based on the outlier DNA sequence's similarity to the seen classes. We propose a re-ordering approach that can be easily applied on any pre-trained models and existing OOD detection methods. We experimentally show that the proposed approach improves taxonomic OOD detection compared to all common baselines. We also show that the method works thanks to a correlation between visual similarity and DNA barcode proximity. The code and data are available at https://github.com/mikkoim/dnaimg-ood.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# VideoMambaPro:ビデオ理解におけるMambaの推進力

VideoMambaPro: A Leap Forward for Mamba in Video Understanding ( http://arxiv.org/abs/2406.19006v1 )

ライセンス: Link先を確認
Hui Lu, Albert Ali Salah, Ronald Poppe, (参考訳) ビデオ理解には、トランスフォーマーモデルが自己注意を通じて達成する豊かな時空間表現の抽出が必要である。 残念ながら、自己注意は計算上の負担をもたらす。 NLPでは、Mambaは変換器の効率的な代替品として浮上している。 しかし、マンバの成功は、ビデオ分析を含むコンピュータビジョンのタスクにさほど及ばない。 本稿では,自尊心とマンバの差異を理論的に分析する。 マンバのトークン処理には、歴史的崩壊と元素矛盾という2つの制限がある。 我々は,ビデオマンバのバックボーンにマスク付き後方計算と要素残差接続を追加することで,特定された制限を解消するVideoMambaPro(VMP)を提案する。 VideoMambaProは、トランスフォーマーモデルと比較して最先端のビデオアクション認識性能を示し、Kinetics-400とSomething V2でそれぞれ7.9%と8.1%という明確なマージンでVideoMambaを上回っている。 私たちのVideoMambaPro-Mモデルは、InternVideo2-6Bよりわずか0.2%低いが、パラメータの1.2%しか持たないKinetics-400で91.9%のトップ-1を達成した。 高性能と効率性の組み合わせにより、VideoMambaProはトランスフォーマーモデルの興味深い代替品となる。

Video understanding requires the extraction of rich spatio-temporal representations, which transformer models achieve through self-attention. Unfortunately, self-attention poses a computational burden. In NLP, Mamba has surfaced as an efficient alternative for transformers. However, Mamba's successes do not trivially extend to computer vision tasks, including those in video analysis. In this paper, we theoretically analyze the differences between self-attention and Mamba. We identify two limitations in Mamba's token processing: historical decay and element contradiction. We propose VideoMambaPro (VMP) that solves the identified limitations by adding masked backward computation and elemental residual connections to a VideoMamba backbone. VideoMambaPro shows state-of-the-art video action recognition performance compared to transformer models, and surpasses VideoMamba by clear margins: 7.9% and 8.1% top-1 on Kinetics-400 and Something-Something V2, respectively. Our VideoMambaPro-M model achieves 91.9% top-1 on Kinetics-400, only 0.2% below InternVideo2-6B but with only 1.2% of its parameters. The combination of high performance and efficiency makes VideoMambaPro an interesting alternative for transformer models.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# ガウス過程を用いたリチウムイオン電池の健康モニタリングとフィールドデータからの故障解析

Lithium-Ion Battery System Health Monitoring and Fault Analysis from Field Data Using Gaussian Processes ( http://arxiv.org/abs/2406.19015v1 )

ライセンス: Link先を確認
Joachim Schaeffer, Eric Lenz, Duncan Gulla, Martin Z. Bazant, Richard D. Braatz, Rolf Findeisen, (参考訳) 健康モニタリング、故障解析、および検出は、バッテリーシステムの安全かつ持続可能な運用に不可欠である。 本研究では, ガウス過程抵抗モデルを用いて, 時間依存および運転点依存抵抗を効果的に分離する。 このデータセットには、メーカーに保証のために返却された29のバッテリーシステムが含まれており、それぞれ8つのセルが並んでおり、合計で232のセルと1億1100万のデータ列がある。 本研究では,再帰的時空間ガウス過程を用いた確率的断層検出法を開発した。 これらのプロセスは100万以上のデータポイントの迅速な処理を可能にし、高度なオンライン監視を可能にし、現場でのバッテリパック障害の理解を深める。 この分析は、しばしば1つの細胞のみが異常な行動または膝点を示し、局所的な抵抗加熱によって増幅される、直列に接続された細胞の最も弱いリンク障害と一致している。 その結果,現場での電池の劣化と故障の理解を深め,データに基づく効率的なオンラインモニタリングの可能性を示した。 コードをオープンソース化し、この記事のレビューが完了するとデータセットを公開します。

Health monitoring, fault analysis, and detection are critical for the safe and sustainable operation of battery systems. We apply Gaussian process resistance models on lithium iron phosphate battery field data to effectively separate the time-dependent and operating point-dependent resistance. The data set contains 29 battery systems returned to the manufacturer for warranty, each with eight cells in series, totaling 232 cells and 131 million data rows. We develop probabilistic fault detection rules using recursive spatiotemporal Gaussian processes. These processes allow the quick processing of over a million data points, enabling advanced online monitoring and furthering the understanding of battery pack failure in the field. The analysis underlines that often, only a single cell shows abnormal behavior or a knee point, consistent with weakest-link failure for cells connected in series, amplified by local resistive heating. The results further the understanding of how batteries degrade and fail in the field and demonstrate the potential of efficient online monitoring based on data. We open-source the code and publish the large data set upon completion of the review of this article.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# 連続可変光量子モードと離散可変固体量子ビット間の量子テレポーテーション

Quantum teleportation between a continuous-variable optical qumode and a discrete-variable solid-state qubit ( http://arxiv.org/abs/2406.19023v1 )

ライセンス: Link先を確認
Di Wang, Lei Xie, Jinfeng Liu, Yiling Song, Wei Xiong, Mingfeng Wang, (参考訳) 量子テレポーテーション(quantum teleportation)は、量子情報科学と技術の基礎となる要素である。 特に、異なる性質の量子システムと符号化タイプの量子システム間で量子テレポーテーションを行う能力は、分散量子インターネットのような複雑なシステムを構築する上で重要である。 本稿では、重畳されたコヒーレント状態によって光量子モードに符号化された連続可変光量子ビットを、ダイヤモンド中の単一窒素空洞中心スピンに付随する離散可変固体量子ビットに、ハイブリッドエンタングルメントを介してテレポートする手法を提案する。 光ホモダイン検出とスピン偏光測定のみに依存するベル状態測定の新しい手法を用いることで、コヒーレント状態の振幅入力に対して、ほぼ決定論的かつ完全な量子テレポーテーションを実現することができる。 ノイズ効果を考慮すると、平均テレポーテーション忠実度は依然として古典的限界を超え、現実的な実験条件下では相当なテレポーテーション距離を実現することができる。

Quantum teleportation is a fundamental ingredient for quantum information science and technology. In particular, the ability to perform quantum teleportation between quantum systems of different natures and encoding types is crucial for building complex systems, such as distributed quantum internet. Here we propose a scheme to teleport a continuous variable optical qubit, encoded in an optical qumode by means of a superposed coherent state, onto a discrete variable solid-state qubit, associated with a single nitrogen-vacancy center spin in diamond, via a hybrid entanglement. By using a newly developed method for Bell-state measurement, which relies only on light homodyne detection and spin polarization measurement, near-deterministic and -perfect quantum teleportation can be achieved for large coherent-state amplitude input. Taking noise effects into account, we find that the average teleportation fidelity can still exceed the classical limit, enabling substantial teleportation distances under realistic experimental conditions.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# 拡散モデルを制約として利用する:拡散モデルを用いた画像復元ネットワークトレーニング

Using diffusion model as constraint: Empower Image Restoration Network Training with Diffusion Model ( http://arxiv.org/abs/2406.19030v1 )

ライセンス: Link先を確認
Jiangtong Tan, Feng Zhao, (参考訳) 画像復元は、ディープラーニングの出現によって驚くべき進歩を遂げた。 従来の手法は通常、性能を高めるために強力なネットワークアーキテクチャの設計に頼っていたが、復元された結果の自然な視覚効果は、色やテクスチャの歪みによって制限される。 視覚的知覚の質の他に、意味的知覚の回復は、高レベルのタスクの展開に不可欠である復元されたイメージの重要な視点であるが、見落とされがちである。 本稿では,DiffLossと呼ばれる自然性指向型セマンティック・アウェア・最適化機構を導入することで,これらの問題を解決するための新たな視点を提案する。 具体的には、自然画像生成のための拡散モデルの強力な分布カバレッジ能力に着想を得て、拡散モデルのマルコフ連鎖サンプリング特性を利用し、既存のネットワークの復元結果をサンプリング空間に投影する。 さらに,拡散モデルのボトルネック的特徴であるh-空間的特徴(h-space feature)が自然に高レベルな意味空間であることを明らかにする。 我々はこの特性を探索し、画像復元タスクと下流高レベル認識タスクを接続する方法を舗装する意味認識回復の可能性をさらに開放する意味認識損失を提案する。 これら2つの戦略により、DiffLossは、より自然かつセマンティックな結果の両方で、既存の復元方法を実現することができる。 本手法の有効性を,画像復元作業やベンチマークで検証する。 コードはhttps://github.com/JosephTiTan/DiffLoss.comで入手できる。

Image restoration has made marvelous progress with the advent of deep learning. Previous methods usually rely on designing powerful network architecture to elevate performance, however, the natural visual effect of the restored results is limited by color and texture distortions. Besides the visual perceptual quality, the semantic perception recovery is an important but often overlooked perspective of restored image, which is crucial for the deployment in high-level tasks. In this paper, we propose a new perspective to resort these issues by introducing a naturalness-oriented and semantic-aware optimization mechanism, dubbed DiffLoss. Specifically, inspired by the powerful distribution coverage capability of the diffusion model for natural image generation, we exploit the Markov chain sampling property of diffusion model and project the restored results of existing networks into the sampling space. Besides, we reveal that the bottleneck feature of diffusion models, also dubbed h-space feature, is a natural high-level semantic space. We delve into this property and propose a semantic-aware loss to further unlock its potential of semantic perception recovery, which paves the way to connect image restoration task and downstream high-level recognition task. With these two strategies, the DiffLoss can endow existing restoration methods with both more natural and semantic-aware results. We verify the effectiveness of our method on substantial common image restoration tasks and benchmarks. Code will be available at https://github.com/JosephTiTan/DiffLoss.
翻訳日:2024-06-28 14:47:16 公開日:2024-06-27
# 信頼性を考慮した弱相関一般化の改良

Improving Weak-to-Strong Generalization with Reliability-Aware Alignment ( http://arxiv.org/abs/2406.19032v1 )

ライセンス: Link先を確認
Yue Guo, Yi Yang, (参考訳) 大規模言語モデル(LLM)は、現在、多くの自然言語タスクにおいて、人間の能力を超え、急速に進歩している。 しかし、これらの超人的LLMを人間の知識と整合させることは、人間のアノテータからの監視信号が間違っている可能性があるため、依然として困難である。 この問題は「スーパーアライメント(super-alignment)」問題と呼ばれ、弱いソースによって提供される不完全な監督から強いLCMが一般化されなければならない弱強一般化の強化を必要とする。 この問題に対処するために、アライメントプロセスにおいて弱い監視信号の信頼性を伴って、弱い対強の一般化を改善するアプローチを提案する。 提案手法では,複数の回答に対して弱いスーパーバイザに問い合わせ,回答の信頼性を推定し,不確実なデータをフィルタリングしたり,信頼性のあるデータを再重み付けすることでアライメントプロセスを強化する。 4つのデータセットを用いた実験により, 弱いラベルの品質を効果的に同定し, 弱いラベルの一般化を著しく向上することが示された。 本研究は, 故障モデルアライメント, ノイズ制御による誤差伝搬の低減, LLMの精度, 信頼性向上に有効な手法を提案する。 コードはhttp://github.com/Irenehere/ReliableAlignment.comで公開されている。

Large language models (LLMs) are now rapidly advancing and surpassing human abilities on many natural language tasks. However, aligning these super-human LLMs with human knowledge remains challenging because the supervision signals from human annotators may be wrong. This issue, known as the "super-alignment" problem, requires enhancing weak-to-strong generalization, where a strong LLM must generalize from imperfect supervision provided by a weaker source. To address this issue, we propose an approach to improve weak-to-strong generalization by involving the reliability of weak supervision signals in the alignment process. In our method, we query the weak supervisor for multiple answers, estimate the answer reliability, and enhance the alignment process by filtering out uncertain data or re-weighting reliable data. Experiments on four datasets demonstrate that our methods effectively identify the quality of weak labels and significantly enhance weak-to-strong generalization. Our work presents effective techniques for error-robust model alignment, reducing error propagation from noisy supervision and enhancing the accuracy and reliability of LLMs. Codes are publicly available at http://github.com/Irenehere/ReliableAlignment.
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# SD-BLS: 選択的な開示と検証可能なクレデンシャルの無リンク削除のためのプライバシ保護

SD-BLS: Privacy Preserving Selective Disclosure and Unlinkable Revocation of Verifiable Credentials ( http://arxiv.org/abs/2406.19035v1 )

ライセンス: Link先を確認
Denis Roio, Rebecca Selvaggini, Andrea D'Intino, (参考訳) 市民のプライバシーを保証し、発行者の腐敗から保護するデジタルアイデンティティシステムを設計することが重要である。 残念ながら、ヨーロッパとアメリカの公共部門が現在開発しているものは、そのような基本的な保護を提供していない。 本稿では,2次楕円曲線とBoneh-Lynn-Shacham(BLS)署名の特異な同型特性を用いて,デジタル認証情報の追跡不能な開示とプライバシ保護のための手法を提案する。 当社のアプローチは,複数のプレゼンテーションを通じてユーザのプライバシを保護しながら,必要な認証情報のみを選択的に公開可能にする。 また,複数発行者間での集団合意を条件に,取り消しのしきい値を適用することで,ユーザを発行者腐敗から保護することを目的とする。

It is of critical importance to design digital identity systems that ensure the privacy of citizens as well as protecting them from issuer corruption. Unfortunately, what Europe's and USA's public sectors are currently developing does not offer such basic protections. We aim to solve this issue and propose a method for untraceable selective disclosure and privacy preserving revocation of digital credentials, using the unique homomorphic characteristics of second order Elliptic Curves and Boneh-Lynn-Shacham (BLS) signatures. Our approach ensures that users can selectively reveal only the necessary credentials, while protecting their privacy across multiple presentations. We also aim to protect users from issuer corruption, by making it possible to apply a threshold for revocation to require collective agreement among multiple revocation issuers.
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# トラップ原子干渉計を用いたウィットネスの質量-エネルギー等価性

Witnessing mass-energy equivalence with trapped atom interferometers ( http://arxiv.org/abs/2406.19037v1 )

ライセンス: Link先を確認
Jerzy Paczos, Joshua Foo, Magdalena Zych, (参考訳) 最先端の原子干渉計は、地球の重力場における原子の高さの重畳を極小スケールの時間に保ち、重力ポテンシャルを正確に測定することができる。 しかし、そのような実験で測定された位相シフトは、常に重力の非相対論的理論で説明できる。 それゆえ、そのような新しい実験能力を使って非相対論的体制を超越する実現可能な方法を見つけることへの関心が高まっている。 ここでは、原子の力学に対する量子と一般相対論的効果の両方を探索するために、既存の実験装置を変更することを提案する。 我々の提案は、相対論的固有時間の量子的重ね合わせを読み取る高さの重畳に閉じ込められた量子時計を設置する、閉じ込められた原子干渉計に2つのレーザーパルスを付加することである。 干渉計の異なる軌道によって得られた位相を導出し、適切な時間重畳の効果が干渉パターンの2つの方法で現れることを示す。 後者は現在の技術で観測できるかもしれないと我々は主張する。

State-of-the-art atom interferometers can keep atoms in a superposition of heights in Earth's gravitational field for times reaching minute-scale, allowing for precise measurements of the gravitational potential. Yet, the phase shifts measured in such experiments can always be explained with a non-relativistic theory of gravity. There is therefore growing interest in finding feasible ways to use such new experimental capabilities to go beyond the non-relativistic regime. Here we propose modifying the existing experimental setups to probe both the quantum and the general relativistic effects on the atom's dynamics. Our proposal consists of adding two additional laser pulses in a trapped atom interferometer that would set up a quantum clock trapped at a superposition of heights reading a quantum superposition of relativistic proper times. We derive the phases acquired by different trajectories in the interferometer and demonstrate that the effect of superposition of proper times would manifest itself in two ways in the interference pattern: as visibility modulations, and as a shift of the resonant frequency of the atom. We argue that the latter might be observable with current technology.
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# 半知覚的特徴を用いた凸最適化について

On Convex Optimization with Semi-Sensitive Features ( http://arxiv.org/abs/2406.19040v1 )

ライセンス: Link先を確認
Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Raghu Meka, Chiyuan Zhang, (参考訳) 本研究では,ある特徴のみに敏感な半感性DP設定の下で,差分プライベート(DP)経験的リスク最小化(ERM)問題について検討する。 これはラベルのみに敏感なラベルDP設定を一般化する。 DP-ERMの過剰リスクについて, 上・下限の改善を行った。 特に、この誤差は、感度ドメインサイズでのみ多元対数的にスケールし、感度ドメインサイズで多項式的にスケールする以前の結果を改善する(Ghazi et al , 2021)。

We study the differentially private (DP) empirical risk minimization (ERM) problem under the semi-sensitive DP setting where only some features are sensitive. This generalizes the Label DP setting where only the label is sensitive. We give improved upper and lower bounds on the excess risk for DP-ERM. In particular, we show that the error only scales polylogarithmically in terms of the sensitive domain size, improving upon previous results that scale polynomially in the sensitive domain size (Ghazi et al., 2021).
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# ZKPを用いたDePIN用DAppにおけるクレデンシャルデバイス登録に向けて

Towards Credential-based Device Registration in DApps for DePINs with ZKPs ( http://arxiv.org/abs/2406.19042v1 )

ライセンス: Link先を確認
Jonathan Heiss, Fernando Castillo, Xinxin Fan, (参考訳) DePINS(Decentralized Physical Infrastructure Networks)はブロックチェーンによって保護され、管理されているが、暗号経済的なインセンティブを超えて、参加するデバイスとそのサービスに対する信頼を確立する手段が欠如している。 デバイス登録中のデバイス認証の検証は、この問題を克服するのに役立ちます。 しかし、分散アプリケーション(dApp)におけるオンチェーン検証は、潜在的に機密性の高いデバイス属性を開示する一方、オフチェーン検証は望ましくない信頼の前提を導入する。 本稿では、ブロックチェーン上のデバイス認証を検証し、ゼロ知識証明(ZKP)を活用して機密デバイス属性の開示を防止するクレデンシャルベースのデバイス登録(CDR)機構を提案する。 我々は、DePINのCDRを特徴付け、一般的なシステムモデルを示し、Groth16とMarlinによるzkSNARKを用いてCDRを技術的に評価する。 我々の実験は、パフォーマンスへの影響に関する最初の洞察を与え、適用された証明システム間のトレードオフを明らかにします。

Decentralized Physical Infrastructure Networks (DePINS) are secured and governed by blockchains but beyond crypto-economic incentives, they lack measures to establish trust in participating devices and their services. The verification of relevant device credentials during device registration helps to overcome this problem. However, on-chain verification in decentralized applications (dApp) discloses potentially confidential device attributes whereas off-chain verification introduces undesirable trust assumptions. In this paper, we propose a credential-based device registration (CDR) mechanism that verifies device credentials on the blockchain and leverages zero-knowledge proofs (ZKP) to protect confidential device attributes from being disclosed. We characterize CDR for DePINs, present a general system model, and technically evaluate CDR using zkSNARKs with Groth16 and Marlin. Our experiments give first insights into performance impacts and reveal a tradeoff between the applied proof systems.
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# CMRxRecon2024: 加速心臓MRIのためのユニバーサル機械学習を促進するマルチモダリティ、マルチビューK空間データセット

CMRxRecon2024: A Multi-Modality, Multi-View K-Space Dataset Boosting Universal Machine Learning for Accelerated Cardiac MRI ( http://arxiv.org/abs/2406.19043v1 )

ライセンス: Link先を確認
Zi Wang, Fanwen Wang, Chen Qin, Jun Lyu, Ouyang Cheng, Shuo Wang, Yan Li, Mengyao Yu, Haoyu Zhang, Kunyuan Guo, Zhang Shi, Qirong Li, Ziqiang Xu, Yajing Zhang, Hao Li, Sha Hua, Binghua Chen, Longyu Sun, Mengting Sun, Qin Li, Ying-Hua Chu, Wenjia Bai, Jing Qin, Xiahai Zhuang, Claudia Prieto, Alistair Young, Michael Markl, He Wang, Lianming Wu, Guang Yang, Xiaobo Qu, Chengyan Wang, (参考訳) 心臓MRI(Heartiac magnetic resonance imaging)は、複数のモダリティと解剖学的視点を持つ多様な情報を提供する能力により、心臓疾患を診断するための臨床的にゴールドスタンダードな技術として登場した。 加速心MRIは、時間効率と患者フレンドリーなイメージングを実現することが期待され、その後、高画質で臨床的に解釈可能な画像のアンダーサンプ測定から回復するために、高度な画像再構成アプローチが必要である。 しかし、量と多様性の両面において、公開されている心臓MRIのk空間データセットが欠如していることは、特にデータ駆動人工知能の技術的進歩を著しく妨げている。 本稿では, 標準化された, 多様性があり, 高品質なCMRxRecon2024データセットを提供し, 心臓MRI再建アプローチの技術的開発, 公正な評価, 臨床移行を容易にし, 臨床実践において, 異なる心臓MRIプロトコルをまたいだ高速かつ堅牢な再建を可能にする普遍的な枠組みを推進している。 我々の知る限りでは、CMRxRecon2024データセットは、最も大きく、最も広く公開されているk空間データセットである。 330人の健康なボランティアから取得され、一般的に使用されるモダリティ、解剖学的視点、臨床心臓MRIワークフローにおける獲得軌跡をカバーしている。 さらに、チュートリアル、ベンチマーク、データ処理ツールを備えたオープンプラットフォームが提供され、データの使用、高度なメソッド開発、公正なパフォーマンス評価が容易になっている。

Cardiac magnetic resonance imaging (MRI) has emerged as a clinically gold-standard technique for diagnosing cardiac diseases, thanks to its ability to provide diverse information with multiple modalities and anatomical views. Accelerated cardiac MRI is highly expected to achieve time-efficient and patient-friendly imaging, and then advanced image reconstruction approaches are required to recover high-quality, clinically interpretable images from undersampled measurements. However, the lack of publicly available cardiac MRI k-space dataset in terms of both quantity and diversity has severely hindered substantial technological progress, particularly for data-driven artificial intelligence. Here, we provide a standardized, diverse, and high-quality CMRxRecon2024 dataset to facilitate the technical development, fair evaluation, and clinical transfer of cardiac MRI reconstruction approaches, towards promoting the universal frameworks that enable fast and robust reconstructions across different cardiac MRI protocols in clinical practice. To the best of our knowledge, the CMRxRecon2024 dataset is the largest and most diverse publicly available cardiac k-space dataset. It is acquired from 330 healthy volunteers, covering commonly used modalities, anatomical views, and acquisition trajectories in clinical cardiac MRI workflows. Besides, an open platform with tutorials, benchmarks, and data processing tools is provided to facilitate data usage, advanced method development, and fair performance evaluation.
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# BiCo-Fusion:意味的・空間的3次元物体検出のための双方向LiDAR-Camera Fusion

BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection ( http://arxiv.org/abs/2406.19048v1 )

ライセンス: Link先を確認
Yang Song, Lin Wang, (参考訳) 3次元物体検出は、自律運転に広く応用されている重要な課題である。 近年,マルチモーダル入力,すなわちLiDARとカメラデータを融合して,このタスクを行うのが新しいトレンドとなっている。 しかし、既存の手法は、Lidarの特徴の空間性を無視するか、LiDARの本来の空間構造とカメラの特徴のセマンティックな密度を同時に保持できないかのいずれかである。 この問題に対処するため,本稿では,ロバストなセマンティックおよび空間認識型3Dオブジェクト検出を実現するために,BiCo-Fusionと呼ばれる,双方向補完Lidar-camera融合フレームワークを提案する。 重要な洞察は、LiDAR特徴のセマンティクスを強化し、カメラ特徴の空間的認識を高め、両モードから特徴を適応的に選択し、統一された3D表現を構築することである。 具体的には,Voxel Enhancement Module (VEM) を2次元カメラ特徴からボクセル特徴のセマンティクスを強化するためのプレフュージョンと,カメラ特徴の空間的特徴を3次元ボクセル特徴から強化するための画像強調モジュール(IEM)を導入する。 VEMとIMMは双方向に更新され、モダリティギャップを効果的に低減する。 次に、Unified Fusionを導入して、魔法のLidarとカメラの機能から選択した機能を適応的に重み付けし、統一された3D表現を構築する。 大規模な実験は、これまでの芸術に対するBiCo-Fusionの優位性を実証している。 プロジェクトページ: https://t-ys.github.io/BiCo-Fusion/.com

3D object detection is an important task that has been widely applied in autonomous driving. Recently, fusing multi-modal inputs, i.e., LiDAR and camera data, to perform this task has become a new trend. Existing methods, however, either ignore the sparsity of Lidar features or fail to preserve the original spatial structure of LiDAR and the semantic density of camera features simultaneously due to the modality gap. To address issues, this letter proposes a novel bidirectional complementary Lidar-camera fusion framework, called BiCo-Fusion that can achieve robust semantic- and spatial-aware 3D object detection. The key insight is to mutually fuse the multi-modal features to enhance the semantics of LiDAR features and the spatial awareness of the camera features and adaptatively select features from both modalities to build a unified 3D representation. Specifically, we introduce Pre-Fusion consisting of a Voxel Enhancement Module (VEM) to enhance the semantics of voxel features from 2D camera features and Image Enhancement Module (IEM) to enhance the spatial characteristics of camera features from 3D voxel features. Both VEM and IEM are bidirectionally updated to effectively reduce the modality gap. We then introduce Unified Fusion to adaptively weight to select features from the enchanted Lidar and camera features to build a unified 3D representation. Extensive experiments demonstrate the superiority of our BiCo-Fusion against the prior arts. Project page: https://t-ys.github.io/BiCo-Fusion/.
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# 間違った線上の正確性:分布外一般化のためのノイズデータの落とし穴について

Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation ( http://arxiv.org/abs/2406.19049v1 )

ライセンス: Link先を確認
Amartya Sanyal, Yaxi Hu, Yaodong Yu, Yian Ma, Yixin Wang, Bernhard Schölkopf, (参考訳) 精度・オン・ザ・ライン(Accuracy-on-the-line)は、機械学習において広く見られる現象であり、モデルの分布内(ID)と分布外(OOD)データの精度が、異なるハイパーパラメータとデータ構成の間で正の相関関係を持つ。 しかし、この便利な関係はいつ崩壊するのだろうか? 本研究では, その堅牢性について検討する。 キーとなる観察は、ノイズデータとニュアンスの特徴の存在は、精度とライン現象を壊すのに十分であるということである。 これらのケースでは、IDとOODの精度は負の相関関係となり、"Accuracy-on-wrong-line"となる。 この現象は、より複雑な信号(コア、非スパーラス)の特徴を覆い隠す傾向があり、結果として大きなニュアンス特徴空間が生じるような、刺激的な(ショートカット)特徴の存在でも起こりうる。 さらに、大規模なデータセットへのスケーリングは、この望ましくない振る舞いを緩和せず、さらに悪化させる可能性がある。 我々は、線形分類モデルにおいて、OODエラーに対するノイズやニュアンスの特徴を特徴付けるために、OODエラーの下位境界を正式に証明する。 最終的に、ノイズの多いデータとノイズのある特徴を持つ合成データセットと実データセットの両方で、この現象を実証した。

"Accuracy-on-the-line" is a widely observed phenomenon in machine learning, where a model's accuracy on in-distribution (ID) and out-of-distribution (OOD) data is positively correlated across different hyperparameters and data configurations. But when does this useful relationship break down? In this work, we explore its robustness. The key observation is that noisy data and the presence of nuisance features can be sufficient to shatter the Accuracy-on-the-line phenomenon. In these cases, ID and OOD accuracy can become negatively correlated, leading to "Accuracy-on-the-wrong-line". This phenomenon can also occur in the presence of spurious (shortcut) features, which tend to overshadow the more complex signal (core, non-spurious) features, resulting in a large nuisance feature space. Moreover, scaling to larger datasets does not mitigate this undesirable behavior and may even exacerbate it. We formally prove a lower bound on Out-of-distribution (OOD) error in a linear classification model, characterizing the conditions on the noise and nuisance features for a large OOD error. We finally demonstrate this phenomenon across both synthetic and real datasets with noisy data and nuisance features.
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# FedMap: コミュニケーション効率のよいフェデレーション学習のための反復的マグニチュードベースプルーニング

FedMap: Iterative Magnitude-Based Pruning for Communication-Efficient Federated Learning ( http://arxiv.org/abs/2406.19050v1 )

ライセンス: Link先を確認
Alexander Herzog, Robbie Southam, Ioannis Mavromatis, Aftab Khan, (参考訳) Federated Learning(FL)は、プライバシを保持しながら分散データトレーニングを可能にする分散機械学習アプローチである。 しかし、FLシステムは計算能力、メモリ、ストレージ、帯域幅に制限のあるリソース制約のあるクライアントデバイスを含むことが多い。 本稿では,FedMapを提案する。FedMapは,反復的,非構造的プルーニングを通じて,より疎いグローバルモデルを協調的に学習することにより,FLデプロイメントの通信効率を高めることを目的とした新しい手法である。 重要な点として、FedMapは、文献で報告されている他の方法とは異なり、ゼロからグローバルモデルをトレーニングし、適切な事前トレーニングデータが制限される医療や金融ドメインなどのプライバシクリティカルなユースケースに最適である。 FedMapは、FL設定に反復的なマグニチュードベースのプルーニングを適用し、すべてのクライアントがグローバルモデルパラメータの同じサブセットをプリキュアし、洗練することによって、グローバルモデルのサイズと通信オーバーヘッドを徐々に削減します。 FedMapの反復的な性質は、後続のモデルを前者のサブセットとして形成し、以前の作業で見られるパラメータの再活性化の問題を避け、安定したパフォーマンスをもたらす。 本稿では,多種多様な設定,データセット,モデルアーキテクチャ,ハイパーパラメータにまたがるFedMapの広範な評価を行い,IIDおよび非IID環境での性能評価を行う。 ベースラインアプローチとの比較分析は、より安定したクライアントモデルパフォーマンスを実現するFedMapの能力を示している。 IIDのシナリオでは、FedMapは90ドル以上のプルーニングを実現している。 非IID設定では、精度を維持しながら少なくとも80$\%のプルーニングを達成する。 FedMapは、FLシステムの通信ボトルネックを緩和し、モデルの精度を維持しながら、有望なソリューションを提供する。

Federated Learning (FL) is a distributed machine learning approach that enables training on decentralized data while preserving privacy. However, FL systems often involve resource-constrained client devices with limited computational power, memory, storage, and bandwidth. This paper introduces FedMap, a novel method that aims to enhance the communication efficiency of FL deployments by collaboratively learning an increasingly sparse global model through iterative, unstructured pruning. Importantly, FedMap trains a global model from scratch, unlike other methods reported in the literature, making it ideal for privacy-critical use cases such as in the medical and finance domains, where suitable pre-training data is often limited. FedMap adapts iterative magnitude-based pruning to the FL setting, ensuring all clients prune and refine the same subset of the global model parameters, therefore gradually reducing the global model size and communication overhead. The iterative nature of FedMap, forming subsequent models as subsets of predecessors, avoids parameter reactivation issues seen in prior work, resulting in stable performance. In this paper we provide an extensive evaluation of FedMap across diverse settings, datasets, model architectures, and hyperparameters, assessing performance in both IID and non-IID environments. Comparative analysis against the baseline approach demonstrates FedMap's ability to achieve more stable client model performance. For IID scenarios, FedMap achieves over $90$\% pruning without significant performance degradation. In non-IID settings, it achieves at least $~80$\% pruning while maintaining accuracy. FedMap offers a promising solution to alleviate communication bottlenecks in FL systems while retaining model accuracy.
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# 確率勾配方向決定論的モンテカルロサンプリング器

Stochastic Gradient Piecewise Deterministic Monte Carlo Samplers ( http://arxiv.org/abs/2406.19051v1 )

ライセンス: Link先を確認
Paul Fearnhead, Sebastiano Grazzi, Chris Nemeth, Gareth O. Roberts, (参考訳) 近年の研究では、モンテカルロ法を用いて、目的とする関心の分布から標本を抽出することを提案している。 PDMPは運動量を持つ非可逆連続時間プロセスであり、そのため標準可逆MCMCサンプリングよりも良い混合が可能である。 さらに、各イテレーションで1つの(ランダムに選択された)データポイントのみにアクセスする必要がある正確なサブサンプリングスキームを組み込むこともできるが、アルゴリズムの定常分布にバイアスを課すことはない。 しかし、PDMPが特にサブサンプリングで使用できるモデルの範囲は限られている。 後方分布からのスケーラブルサンプリングのためのサブサンプリングによるPDMPの近似シミュレーションを提案する。 この近似は、真のPDMPダイナミクスに対するオイラー近似の形をとり、データサブサンプルに基づいて、ログポストの勾配を推定する。 そこで我々は,このアルゴリズムを確率階調PDMPと呼ぶ。 重要なことに、確率勾配PDMPの軌跡は連続であり、連続成分および原子成分を用いた測定からサンプリングするための最近のアイデアを活用できる。 これらの手法は実装が容易であることが示され、近似誤差の結果を示し、このアルゴリズムのクラスは確率勾配ランゲヴィン力学と似ているが、より堅牢であることを示す。

Recent work has suggested using Monte Carlo methods based on piecewise deterministic Markov processes (PDMPs) to sample from target distributions of interest. PDMPs are non-reversible continuous-time processes endowed with momentum, and hence can mix better than standard reversible MCMC samplers. Furthermore, they can incorporate exact sub-sampling schemes which only require access to a single (randomly selected) data point at each iteration, yet without introducing bias to the algorithm's stationary distribution. However, the range of models for which PDMPs can be used, particularly with sub-sampling, is limited. We propose approximate simulation of PDMPs with sub-sampling for scalable sampling from posterior distributions. The approximation takes the form of an Euler approximation to the true PDMP dynamics, and involves using an estimate of the gradient of the log-posterior based on a data sub-sample. We thus call this class of algorithms stochastic-gradient PDMPs. Importantly, the trajectories of stochastic-gradient PDMPs are continuous and can leverage recent ideas for sampling from measures with continuous and atomic components. We show these methods are easy to implement, present results on their approximation error and demonstrate numerically that this class of algorithms has similar efficiency to, but is more robust than, stochastic gradient Langevin dynamics.
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# 監視量子力学と絡み合い相転移に対するスケーラブルなアプローチ

Scalable approach to monitored quantum dynamics and entanglement phase transitions ( http://arxiv.org/abs/2406.19052v1 )

ライセンス: Link先を確認
Kim Pöyhönen, Ali G. Moghaddam, Moein N. Ivaki, Teemu Ojanen, (参考訳) 観測された量子回路における測定誘起絡み合い相転移は、様々な研究コミュニティの活動を刺激している。 しかし、指数関数的に複雑なポストセレクションを必要とするため、測定誘起力学の研究は、古典的に効率的にシミュレートできる小型または特別に設計されたシステムに実験的に制限されている。 本稿では,実験データからの絡み合い相転移の観測を容易にするためのスケーラブルなプロトコルを$U(1)$対称回路に導入することで,基礎となるモデルの詳細な仮定やシミュレーションデータによるベンチマークを行うことなく,この問題に対する解決法を提案する。 したがって、この手法は、効率的な古典的シミュレーションを認めず、最小の理論的入力で完全な絡み合いエントロピー曲線を再構築できる回路に適用できる。 提案手法は適応回路とステアリングプロトコルを用いて,純状態軌道を混合アンサンブルで近似し,対象軌道のサブシステム$U(1)$の電荷ゆらぎを効率よく除去し,エントロピーのエントロピーを得る。 ステアリングプロトコルは、ポストセレクションとステートトモグラフィの指数的なコストをスケーラブルなオーバーヘッドに置き換え、固定精度$\epsilon$と回路サイズ$L$は$\mathcal{N}_s\sim L^{5/2}/\epsilon$にスケールする。

Measurement-induced entanglement phase transitions in monitored quantum circuits have stimulated activity in a diverse research community. However, the study of measurement-induced dynamics, due to the requirement of exponentially complex postselection, has been experimentally limited to small or specially designed systems that can be efficiently simulated classically. We present a solution to this outstanding problem by introducing a scalable protocol in $U(1)$ symmetric circuits that facilitates the observation of entanglement phase transitions \emph{directly} from experimental data, without detailed assumptions of the underlying model or benchmarking with simulated data. Thus, the method is applicable to circuits which do not admit efficient classical simulation and allows a reconstruction of the full entanglement entropy curve with minimal theoretical input. Our approach relies on adaptive circuits and a steering protocol to approximate pure-state trajectories with mixed ensembles, from which one can efficiently filter out the subsystem $U(1)$ charge fluctuations of the target trajectory to obtain its entanglement entropy. The steering protocol replaces the exponential costs of postselection and state tomography with a scalable overhead which, for fixed accuracy $\epsilon$ and circuit size $L$, scales as $\mathcal{N}_s\sim L^{5/2}/\epsilon$.
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# 対話型ディープラーニング企業(No-IDLE)の立場からの一考察

A look under the hood of the Interactive Deep Learning Enterprise (No-IDLE) ( http://arxiv.org/abs/2406.19054v1 )

ライセンス: Link先を確認
Daniel Sonntag, Michael Barz, Thiago Gouvêa, (参考訳) このDFKI技術レポートは、対話型機械学習の基本的な研究だけでなく、ユーザの行動、ニーズ、目標に対する深い洞察を提供するNo-IDLEプロトタイプシステムの解剖(ドイツ連邦教育研究省が資金提供)を提示する。 機械学習とディープラーニングは、数百万のエンドユーザが利用できるようになるはずだ。 No-IDLEの目標と精巧な課題は、マシンラーニングの非専門家に対するインタラクティブなディープラーニングソリューションのリーチを拡大したいという願望を中心にしている。 この技術レポートで説明されている重要なイノベーションの1つは、対話型機械学習とマルチモーダルインタラクションを組み合わせた方法論である。

This DFKI technical report presents the anatomy of the No-IDLE prototype system (funded by the German Federal Ministry of Education and Research) that provides not only basic and fundamental research in interactive machine learning, but also reveals deeper insights into users' behaviours, needs, and goals. Machine learning and deep learning should become accessible to millions of end users. No-IDLE's goals and scienfific challenges centre around the desire to increase the reach of interactive deep learning solutions for non-experts in machine learning. One of the key innovations described in this technical report is a methodology for interactive machine learning combined with multimodal interaction which will become central when we start interacting with semi-intelligent machines in the upcoming area of neural networks and large language models.
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# SimpleFusion:赤外線と可視画像のためのシンプルな融合フレームワーク

SimpleFusion: A Simple Fusion Framework for Infrared and Visible Images ( http://arxiv.org/abs/2406.19055v1 )

ライセンス: Link先を確認
Ming Chen, Yuxuan Cheng, Xinwei He, Xinyue Wang, Yan Aze, Jinhai Xiang, (参考訳) 可視画像と赤外線画像を1つの高品質な画像に統合することは、可視画像と赤外線画像の融合としても知られており、多くの下流視覚タスクにとって難しいが重要な課題である。 既存の作業の多くは、事前訓練されたディープニューラルネットワークを利用するか、このタスクに強い優先順位を持つ高度なフレームワークを設計する。 本稿では,可視・赤外画像融合のためのシンプルで効果的なフレームワークであるSimpleFusionを提案する。 我々のフレームワークは分解・融合のパラダイムに従っており、可視像と赤外線像はレチネックス理論によって反射・照明成分に分解され、それに続く要素が融合される。 このフレームワークは、ダウンサンプリングなしで2つのプレーンな畳み込みニューラルネットワークで設計されており、画像の分解と融合を効率的に行うことができる。 さらに,2つの融合モード間の相補的な情報を保持するために,分解損失と詳細・意味的損失を導入する。 我々は,従来の最先端技術よりも優れた手法を検証し,試行錯誤ベンチマークを広範囲に実施する。 コードは \href{https://github.com/hxwxss/SimpleFusion-A-Simple-Fusion-Framework-for-IRred-and-Visible-Images}{https://github.com/hxwxss/SimpleFusion-A-Simple-Fusion-Framework-for-IRred-and-Visible-Images} で公開されている。

Integrating visible and infrared images into one high-quality image, also known as visible and infrared image fusion, is a challenging yet critical task for many downstream vision tasks. Most existing works utilize pretrained deep neural networks or design sophisticated frameworks with strong priors for this task, which may be unsuitable or lack flexibility. This paper presents SimpleFusion, a simple yet effective framework for visible and infrared image fusion. Our framework follows the decompose-and-fusion paradigm, where the visible and the infrared images are decomposed into reflectance and illumination components via Retinex theory and followed by the fusion of these corresponding elements. The whole framework is designed with two plain convolutional neural networks without downsampling, which can perform image decomposition and fusion efficiently. Moreover, we introduce decomposition loss and a detail-to-semantic loss to preserve the complementary information between the two modalities for fusion. We conduct extensive experiments on the challenging benchmarks, verifying the superiority of our method over previous state-of-the-arts. Code is available at \href{https://github.com/hxwxss/SimpleFusion-A-Simple-Fusion-Framework-for-Infrared-and-Visible-Images}{https://github.com/hxwxss/SimpleFusion-A-Simple-Fusion-Framework-for-Infrared-and-Visible-Images}
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# 自動画像データアノテーションのためのセグメント任意のモデル:DINOのテキストプロンプトを用いた実証的研究

Segment Anything Model for automated image data annotation: empirical studies using text prompts from Grounding DINO ( http://arxiv.org/abs/2406.19057v1 )

ライセンス: Link先を確認
Fuseini Mumuni, Alhassan Mumuni, (参考訳) グラウンディングDINOとSAMは、ゼロショットオブジェクト検出とイメージセグメンテーションにおいて、それぞれ優れた性能を達成している。 同時に、ゼロショットセマンティックセグメンテーションやデータアノテーションに革命をもたらす大きな可能性を秘めている。 しかし、医学的イメージセグメンテーションのような特殊なドメインでは、興味の対象(臓器、組織、腫瘍など)は既存のクラス名に該当しない可能性がある。 この問題に対処するために、DINOの参照表現理解(REC)能力を活用し、言語記述による任意のターゲットの検出を行う。 しかし,近年の研究では,対象画像にターゲットが存在しない場合に偽陽性の予測を行う傾向から,RECフレームワークの厳しい制限が強調されている。 また、このボトルネックは、オープンセットセマンティックセグメンテーションの展望の中心であるが、予測誤差を研究することで、どの程度の改善が達成できるかは、いまだに不明である。 この目的のために、利用可能な8つのデータセットに関する実証的研究を行い、これらのエラーが常に予測可能なパターンに従っていることを明らかにする。 具体的には、評価可能な信頼スコアを持つこれらの偽陽性検出は、一般的に大きな画像領域を占有し、通常、相対的なサイズでフィルタリング可能であることを示す。 さらに重要なことは、これらの観測がRECに基づく検出と自動セグメンテーションを改善するための将来の研究を刺激することを期待している。 本手法を用いて,各種専門分野の複数のデータセットを対象としたSAMの性能評価を行い,手動によるセグメンテーション性能とアノテーションの保存時間を大幅に改善したことを報告した。

Grounding DINO and the Segment Anything Model (SAM) have achieved impressive performance in zero-shot object detection and image segmentation, respectively. Together, they have a great potential in revolutionizing zero-shot semantic segmentation or data annotation. Yet, in specialized domains like medical image segmentation, objects of interest (e.g., organs, tissues, and tumors) may not fall in existing class names. To address this problem, the referring expression comprehension (REC) ability of Grounding DINO is leveraged to detect arbitrary targets by their language descriptions. However, recent studies have highlighted severe limitation of the REC framework in this application setting owing to its tendency to make false positive predictions when the target is absent in the given image. And, while this bottleneck is central to the prospect of open-set semantic segmentation, it is still largely unknown how much improvement can be achieved by studying the prediction errors. To this end, we perform empirical studies on eight publicly available datasets and reveal that these errors consistently follow a predictable pattern and can, thus, be mitigated by a simple strategy. Specifically, we show that these false positive detections with appreciable confidence scores generally occupy large image areas and can usually be filtered by their relative sizes. More importantly, we expect these observations to inspire future research in improving REC-based detection and automated segmentation. Using this technique, we evaluate the performance of SAM on multiple datasets from various specialized domains and report significant improvement in segmentation performance and annotation time savings over manual approaches.
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# 量子状態とチャネルの測定された相対エントロピーの半定値最適化

Semi-definite optimization of the measured relative entropies of quantum states and channels ( http://arxiv.org/abs/2406.19060v1 )

ライセンス: Link先を確認
Zixin Huang, Mark M. Wilde, (参考訳) 量子状態とチャネルの測定された相対エントロピーは、量子情報理論において、仮説テストタスクにおける達成可能なエラー率として、運用上の重要性を見出す。 短期的には、それらは量子力学によって許される最も一般的な戦略よりも実装が困難でない技術的要件を持つハイブリッド量子古典戦略に対応するため、関心がある。 本稿では, 状態の相対エントロピーと重み付き幾何平均の半定値表現と対数の演算子接続の変分式を用いて, 半定値プログラミングを用いて, これらの相対エントロピーを効率的に計算できることを証明する。 半定値プログラムは、状態とチャネルの相対エントロピーの測定値の最適値を出力するだけでなく、それらを達成するための最適な戦略の数値的特徴も提供する。

The measured relative entropies of quantum states and channels find operational significance in quantum information theory as achievable error rates in hypothesis testing tasks. They are of interest in the near term, as they correspond to hybrid quantum-classical strategies with technological requirements far less challenging to implement than required by the most general strategies allowed by quantum mechanics. In this paper, we prove that these measured relative entropies can be calculated efficiently by means of semi-definite programming, by making use of variational formulas for the measured relative entropies of states and semi-definite representations of the weighted geometric mean and the operator connection of the logarithm. Not only do the semi-definite programs output the optimal values of the measured relative entropies of states and channels, but they also provide numerical characterizations of optimal strategies for achieving them, which is of significant practical interest for designing hypothesis testing protocols.
翻訳日:2024-06-28 14:37:31 公開日:2024-06-27
# STBench:時空間分析における大規模言語モデルの能力の評価

STBench: Assessing the Ability of Large Language Models in Spatio-Temporal Analysis ( http://arxiv.org/abs/2406.19065v1 )

ライセンス: Link先を確認
Wenbin Li, Di Yao, Ruibo Zhao, Wenjie Chen, Zijie Xu, Chengxue Luo, Chang Gong, Quanliang Jing, Haining Tan, Jingping Bi, (参考訳) 大規模言語モデル(LLM)の急速な進化は、時空間データマイニングの方法論の改革を約束している。 しかしながら、LLMの時空間理解能力を評価するための現在の研究は、ある程度制限され偏りがある。 これらの作業は、最新の言語モデルを組み込むことに失敗するか、あるいは記憶された時空間的知識を評価することのみに焦点を当てる。 このギャップに対処するために,本論文では,LLMの時空間データの能力を,知識理解,時空間推論,正確な計算,下流アプリケーションという4つの異なる次元に分割する。 各カテゴリの自然言語質問応答タスクをキュレートし、ベンチマークデータセットであるSTBenchを構築し、13の異なるタスクと6万以上のQAペアを含む。 さらに, GPT-4o, Gemma, Mistral など 13 個の LLM の性能評価を行った。 実験の結果,既存のLLMは知識理解および時空間推論タスクにおいて顕著な性能を示し,文脈内学習,チェーン・オブ・ザ・プロンプト,微調整など他のタスクをさらに強化する可能性が示唆された。 STBenchのコードとデータセットはhttps://github.com/LwbXc/STBenchで公開されている。

The rapid evolution of large language models (LLMs) holds promise for reforming the methodology of spatio-temporal data mining. However, current works for evaluating the spatio-temporal understanding capability of LLMs are somewhat limited and biased. These works either fail to incorporate the latest language models or only focus on assessing the memorized spatio-temporal knowledge. To address this gap, this paper dissects LLMs' capability of spatio-temporal data into four distinct dimensions: knowledge comprehension, spatio-temporal reasoning, accurate computation, and downstream applications. We curate several natural language question-answer tasks for each category and build the benchmark dataset, namely STBench, containing 13 distinct tasks and over 60,000 QA pairs. Moreover, we have assessed the capabilities of 13 LLMs, such as GPT-4o, Gemma and Mistral. Experimental results reveal that existing LLMs show remarkable performance on knowledge comprehension and spatio-temporal reasoning tasks, with potential for further enhancement on other tasks through in-context learning, chain-of-though prompting, and fine-tuning. The code and datasets of STBench are released on https://github.com/LwbXc/STBench.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# Dancing in the Shadows: Harnessing Ambiguity for Fairer Classifiers

Dancing in the Shadows: Harnessing Ambiguity for Fairer Classifiers ( http://arxiv.org/abs/2406.19066v1 )

ライセンス: Link先を確認
Ainhize Barrainkua, Paula Gordaliza, Jose A. Lozano, Novi Quadrianto, (参考訳) 本稿では,センシティブな情報が部分的にのみ知られるシナリオにおいて,アルゴリズムフェアネスを高めるための新しいアプローチを提案する。 特に、従来の機械学習分類器を訓練するために、センシティブ属性に関して不確実な同一性を持つインスタンスを活用することを提案する。 この分類器の最終的な予測で観測される公正性の向上は、現実の分類タスクにおける公平性を保証する手段として曖昧性(すなわち非ノルマティビティ)を優先する有望な可能性を強調している。

This paper introduces a novel approach to bolster algorithmic fairness in scenarios where sensitive information is only partially known. In particular, we propose to leverage instances with uncertain identity with regards to the sensitive attribute to train a conventional machine learning classifier. The enhanced fairness observed in the final predictions of this classifier highlights the promising potential of prioritizing ambiguity (i.e., non-normativity) as a means to improve fairness guarantees in real-world classification tasks.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# FAGhead:モノクロビデオで見るガウシアンな顔

FAGhead: Fully Animate Gaussian Head from Monocular Videos ( http://arxiv.org/abs/2406.19070v1 )

ライセンス: Link先を確認
Yixin Xuan, Xinyang Li, Gongxin Yao, Shiwei Zhou, Donghui Sun, Xiaoxin Chen, Yu Pan, (参考訳) 3次元人間のアバターの高忠実な再構成は、視覚的現実に野生の応用をもたらす。 本稿では,モノクロ映像から人間の肖像画を完全に制御できるFAGheadを紹介する。 従来の3次元形状メッシュ(3DMM)を明示し,中性な3次元ガウス多様体を複素表現で再構成するために最適化する。 さらに,学習可能なガウス点位置を持つポイントベース学習可能表現場 (PLRF) を用いて再構成性能を向上させる。 一方,アバターのエッジを効果的に管理するために,各画素のアルファ値を監督するアルファレンダリングを導入した。 オープンソースデータセットとキャプチャデータセットの大規模な実験結果から、我々のアプローチは高忠実度3Dヘッドアバターを生成し、既存の作業よりも優れた仮想アバターの表現とポーズを完全に制御できることを示した。

High-fidelity reconstruction of 3D human avatars has a wild application in visual reality. In this paper, we introduce FAGhead, a method that enables fully controllable human portraits from monocular videos. We explicit the traditional 3D morphable meshes (3DMM) and optimize the neutral 3D Gaussians to reconstruct with complex expressions. Furthermore, we employ a novel Point-based Learnable Representation Field (PLRF) with learnable Gaussian point positions to enhance reconstruction performance. Meanwhile, to effectively manage the edges of avatars, we introduced the alpha rendering to supervise the alpha value of each pixel. Extensive experimental results on the open-source datasets and our capturing datasets demonstrate that our approach is able to generate high-fidelity 3D head avatars and fully control the expression and pose of the virtual avatars, which is outperforming than existing works.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# EmPO: 優先最適化による共感応答生成のための理論駆動型データセット構築

EmPO: Theory-Driven Dataset Construction for Empathetic Response Generation through Preference Optimization ( http://arxiv.org/abs/2406.19071v1 )

ライセンス: Link先を確認
Ondrej Sotolar, (参考訳) 共感的応答生成は会話エージェントの望ましい側面であり、人間と機械間のエンゲージメントと感情的なマルチターン会話を促進するために不可欠である。 このタスクで大規模言語モデルを活用することで有望な結果が得られたが、応答の共感的品質とモデルの一般化性能の維持の両面において課題が続いている。 本稿では,理論駆動の選好データセットを構築し,LLMと選好最適化アルゴリズムを整合させてこれらの課題に対処する手法を提案する。 共感応答の生成を計測するために,エンパテティックダイアログデータセットを使用し,diff-EPITOMEおよびBERTscoreメトリクスとの共感を評価し,MMLUベンチマーク上での一般化性能を評価する。 すべてのデータセット、ソースコード、モデルを公開しています。

Empathetic response generation is a desirable aspect of conversational agents, crucial for facilitating engaging and emotionally intelligent multi-turn conversations between humans and machines. Leveraging large language models for this task has shown promising results, yet challenges persist in ensuring both the empathetic quality of the responses and retention of the generalization performance of the models. In this paper, we propose a novel approach where we construct theory-driven preference datasets and use them to align LLMs with preference optimization algorithms to address these challenges. To measure empathetic response generation, we employ the EmpatheticDialogues dataset, assessing empathy with the diff-EPITOME and BERTscore metrics, and evaluate the generalization performance on the MMLU benchmark. We make all datasets, source code, and models publicly available.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# AMBROSIA: 曖昧な質問をデータベースクエリに解析するためのベンチマーク

AMBROSIA: A Benchmark for Parsing Ambiguous Questions into Database Queries ( http://arxiv.org/abs/2406.19073v1 )

ライセンス: Link先を確認
Irina Saparina, Mirella Lapata, (参考訳) 現実的なセマンティックパーザは,ユーザの発話を理解して実行可能プログラムにマッピングすることが期待されている。 我々はAMBROSIAという新しいベンチマークを導入し、不明瞭な要求を認識し、解釈できるテキスト・ツー・SQLパーサの開発に刺激を与えたいと思っています。 我々のデータセットには、3種類のあいまいさ(スコープのあいまいさ、アタッチメントのあいまいさ、あいまいさ)、解釈、および対応するSQLクエリーを示す質問が含まれている。 いずれの場合も、データベースのコンテキストが提供されてもあいまいさは持続する。 これは、スクラッチからデータベースを制御して生成する、新しいアプローチによって実現される。 AMBROSIA 上で様々な LLM のベンチマークを行い、最も先進的なモデルでさえ、質問のあいまいさを識別し解釈するのに苦労していることを明らかにした。

Practical semantic parsers are expected to understand user utterances and map them to executable programs, even when these are ambiguous. We introduce a new benchmark, AMBROSIA, which we hope will inform and inspire the development of text-to-SQL parsers capable of recognizing and interpreting ambiguous requests. Our dataset contains questions showcasing three different types of ambiguity (scope ambiguity, attachment ambiguity, and vagueness), their interpretations, and corresponding SQL queries. In each case, the ambiguity persists even when the database context is provided. This is achieved through a novel approach that involves controlled generation of databases from scratch. We benchmark various LLMs on AMBROSIA, revealing that even the most advanced models struggle to identify and interpret ambiguity in questions.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# マルチキュービット系におけるG_qコンカレンスと絡み合い制約

G_q-concurrence and entanglement constraints in multiqubit systems ( http://arxiv.org/abs/2406.19080v1 )

ライセンス: Link先を確認
Hui Li, Ting Gao, Fengli Yan, (参考訳) 本稿では,1パラメータの2部共役量子化器のカテゴリを$G_q$-concurrence(q>1$)と呼び,それらが絡み合い尺度のすべての公理条件を満たすことを厳密に示し,収束の一般化とみなすことができることを示す。 さらに,2量子系における1<q\leq2$のコンカレンスに$G_q$-コンカレンスに関する解析式を確立する。 さらに、マルチキュービットシステムにおける援助の$G_q$-コンカレンスに基づいてポリガミー関係を示す。 しかし、$G_q$-concurrence (1<q\leq2$) 自体については、単ガミー関係に従わないが、$G_q$-concurrence の平方が成り立つことを証明している。 このモノガミーの不等式により、トライアングルが有効性を失う場合でも、真に複数ビットの絡み合った状態を検出することができる一連の絡み目インジケータを構築する。

In this paper, we introduce a category of one-parameter bipartite entanglement quantifiers, termed $G_q$-concurrence ($q>1$), and show rigorously that they satisfy all the axiomatic conditions of an entanglement measure and can be considered as a generalization of concurrence. In addition, we establish an analytic formula relating $G_q$-concurrence to concurrence for $1<q\leq2$ in two-qubit systems. Furthermore, the polygamy relation is presented based on the $G_q$-concurrence of assistance in multiqubit systems. As far as $G_q$-concurrence ($1<q\leq2$) itself is concerned, however, it does not obey the monogamy relation, but we prove that the square of $G_q$-concurrence does. By means of this monogamy inequality, we construct a set of entanglement indicators that can detect genuinely multiqubit entangled states even when the tangle loses its efficacy.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# デジタル診断のための教師なし遅延ステン適応

Unsupervised Latent Stain Adaption for Digital Pathology ( http://arxiv.org/abs/2406.19081v1 )

ライセンス: Link先を確認
Daniel Reisenbüchler, Lucas Luttner, Nadine S. Schaadt, Friedrich Feuerhake, Dorit Merhof, (参考訳) デジタル病理学では、セグメンテーションや組織分類などのタスクのためのディープラーニング(DL)モデルは、異なる染色技術によるドメインシフトに悩まされていることが知られている。 スタン適応は、ターゲットの染色を一般化するソース染色のモデルをトレーニングすることで、異なる染色間の一般化誤差を低減することを目的としている。 ターゲットのステンドデータが豊富にあるにも関わらず、重要な課題はアノテーションの欠如である。 そこで本研究では,Unsupervised Latent Stain Adaption (ULSA) と呼ばれるステンド画像を含む,人工ラベル付きデータと未ラベルデータの共同トレーニングを提案する。 本手法は, 教師付き信号の増大のために, ラベル付きソース画像に合成対象画像を付加するために, ステンドトランスフォーメーションを用いる。 さらに,染色不変な特徴整合性学習を用いて,ラベル付対象の染色画像を活用する。 ULSAでは,アノテートされたターゲット染色データにアクセスせずに,効率的な染色適応のための半教師付き戦略を提示する。 注目すべきは、ULSAは全スライド画像(WSI)のパッチレベル解析においてタスク非依存である。 外部データセットの広範囲な評価を通じて, ULSAは腎組織分節化および乳がん分類における最先端(SOTA)のパフォーマンスを, 染色変動のスペクトルにわたって達成することを示した。 以上の結果から,ULSAはデジタル病理における染色適応の重要な枠組みであることが示唆された。

In digital pathology, deep learning (DL) models for tasks such as segmentation or tissue classification are known to suffer from domain shifts due to different staining techniques. Stain adaptation aims to reduce the generalization error between different stains by training a model on source stains that generalizes to target stains. Despite the abundance of target stain data, a key challenge is the lack of annotations. To address this, we propose a joint training between artificially labeled and unlabeled data including all available stained images called Unsupervised Latent Stain Adaption (ULSA). Our method uses stain translation to enrich labeled source images with synthetic target images in order to increase supervised signals. Moreover, we leverage unlabeled target stain images using stain-invariant feature consistency learning. With ULSA we present a semi-supervised strategy for efficient stain adaption without access to annotated target stain data. Remarkably, ULSA is task agnostic in patch-level analysis for whole slide images (WSIs). Through extensive evaluation on external datasets, we demonstrate that ULSA achieves state-of-the-art (SOTA) performance in kidney tissue segmentation and breast cancer classification across a spectrum of staining variations. Our findings suggest that ULSA is an important framework towards stain adaption in digital pathology.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# 深部ニューラルネットワークと人間との表現的アライメントの基礎となる次元

Dimensions underlying the representational alignment of deep neural networks with humans ( http://arxiv.org/abs/2406.19087v1 )

ライセンス: Link先を確認
Florian P. Mahner, Lukas Muttenthaler, Umut Güçlü, Martin N. Hebart, (参考訳) 人間と人工知能の類似点と相違点を決定することは、機械学習と認知神経科学の両方において重要な目標である。 しかし、表現の類似性は、それを決定する要因ではなく、アライメントの程度についてのみ教えてくれる。 近年の認知科学の発展を反映して,人間や深層ニューラルネットワーク(DNN)に匹敵する表現を得るための汎用的な枠組みを提案する。 この枠組みを人間に適用し、自然画像のDNNモデルを用いて、視覚次元と意味次元の両方の低次元DNN埋め込みを明らかにした。 人間とは対照的に、DNNは視覚的オーバーセマンティックな特徴の明確な優位性を示し、画像を表現するための異なる戦略を示した。 シリコン内実験では、DNN次元の相反する解釈可能性を示したが、人間とDNN表現の直接比較では、画像の処理方法にかなりの違いが認められた。 表現を直接的に比較することにより,表現の整合性向上のための重要な課題を明らかにした。

Determining the similarities and differences between humans and artificial intelligence is an important goal both in machine learning and cognitive neuroscience. However, similarities in representations only inform us about the degree of alignment, not the factors that determine it. Drawing upon recent developments in cognitive science, we propose a generic framework for yielding comparable representations in humans and deep neural networks (DNN). Applying this framework to humans and a DNN model of natural images revealed a low-dimensional DNN embedding of both visual and semantic dimensions. In contrast to humans, DNNs exhibited a clear dominance of visual over semantic features, indicating divergent strategies for representing images. While in-silico experiments showed seemingly-consistent interpretability of DNN dimensions, a direct comparison between human and DNN representations revealed substantial differences in how they process images. By making representations directly comparable, our results reveal important challenges for representational alignment, offering a means for improving their comparability.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# SubLock: サブ回路置換に基づくロバストIP保護のための入力依存キーベースの論理ロック

SubLock: Sub-Circuit Replacement based Input Dependent Key-based Logic Locking for Robust IP Protection ( http://arxiv.org/abs/2406.19091v1 )

ライセンス: Link先を確認
Vijaypal Singh Rathor, Munesh Singh, Kshira Sagar Sahoo, Saraju P. Mohanty, (参考訳) 知的財産権(IP)の海賊行為、オーバービル、リバースエンジニアリング、ハードウェアのトロイの木馬は、集積回路(IC)開発において深刻なセキュリティ上の懸念である。 論理ロックは、これらの脅威を緩和するための堅固な防御であると証明されている。 既存のロジックロック技術はSATベースの攻撃に対して脆弱である。 しかし、SATに耐性のある論理ロック法がいくつか報告されている。 本稿では,新しい入力依存鍵ベースの論理ロック(IDKLL)を提案する。 まず、IDKLLという新しいアイデアを紹介し、対応する有効なキーシーケンスが適用される場合にのみ、すべての入力パターンに対して正しく機能するように設計をロックする。 従来の論理ロックとは対照的に、提案手法では、複数のキーシーケンス(単一のキーシーケンスの代わりに)を有効なキーとして使用し、全ての入力に対して正しい機能を提供する。 さらに,サブ回路置換型IDKLL方式であるSubLockを提案する。これは,初期サブ回路を対応するIDKLL型ロック回路に置き換えることで,SAT攻撃を低オーバーヘッドで防止する。 ISCASベンチマークの実験により、提案したSubLockはSAT攻撃を高いセキュリティで軽減し、既存の手法よりもオーバーヘッドを低減していることが示された。

Intellectual Property (IP) piracy, overbuilding, reverse engineering, and hardware Trojan are serious security concerns during integrated circuit (IC) development. Logic locking has proven to be a solid defence for mitigating these threats. The existing logic locking techniques are vulnerable to SAT-based attacks. However, several SAT-resistant logic locking methods are reported; they require significant overhead. This paper proposes a novel input dependent key-based logic locking (IDKLL) that effectively prevents SAT-based attacks with low overhead. We first introduce a novel idea of IDKLL, where a design is locked such that it functions correctly for all input patterns only when their corresponding valid key sequences are applied. In contrast to conventional logic locking, the proposed IDKLL method uses multiple key sequences (instead of a single key sequence) as a valid key that provides correct functionality for all inputs. Further, we propose a sub-circuit replacement based IDKLL approach called SubLock that locks the design by replacing the original sub-circuitry with the corresponding IDKLL based locked circuit to prevent SAT attack with low overhead. The experimental evaluation on ISCAS benchmarks shows that the proposed SubLock mitigates the SAT attack with high security and reduced overhead over the well-known existing methods.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# 適応確率ウェイト平均化

Adaptive Stochastic Weight Averaging ( http://arxiv.org/abs/2406.19092v1 )

ライセンス: Link先を確認
Caglar Demir, Arnab Sharma, Axel-Cyrille Ngonga Ngomo, (参考訳) アンサンブルモデルは、しばしば困難なタスクにおける一般化性能を改善する。 しかし、予測平均化に基づく従来の手法では、複数のモデルをトレーニングする際の計算オーバーヘッド、レイテンシの増加、テスト時のメモリ要求という、よく知られた3つの欠点がある。 これらの問題に対処するため、SWA(Stochastic Weight Averaging)技術は特定のエポックからモデルパラメータの実行平均を維持している。 その潜在的な利点にもかかわらず、実行中のパラメータの平均を維持することは、基礎となる実行モデルが過度に適合し始めるため、一般化を妨げる可能性がある。 逆に、不適切に選択されたスタートポイントは、下層の動作モデルと比較して、SWAが過度に適合する可能性を高めることができる。 本研究では,モデルパラメータの実行平均を更新する適応確率重み平均化(ASWA)手法を提案する。 したがって、ASWAはSWAと早期停止技術の組み合わせと見なすことができ、前者はパラメータアンサンブルモデルのすべての更新を受け取り、後者は基盤となる実行モデルの更新を拒絶する。 我々は、画像分類から知識グラフ上のマルチホップ推論まで幅広い実験を行った。 7つのベースラインモデルを持つ11のベンチマークデータセットに対する実験は、ASWAがモデルとデータセット間の統計的により良い一般化をもたらすことを示唆している。

Ensemble models often improve generalization performances in challenging tasks. Yet, traditional techniques based on prediction averaging incur three well-known disadvantages: the computational overhead of training multiple models, increased latency, and memory requirements at test time. To address these issues, the Stochastic Weight Averaging (SWA) technique maintains a running average of model parameters from a specific epoch onward. Despite its potential benefits, maintaining a running average of parameters can hinder generalization, as an underlying running model begins to overfit. Conversely, an inadequately chosen starting point can render SWA more susceptible to underfitting compared to an underlying running model. In this work, we propose Adaptive Stochastic Weight Averaging (ASWA) technique that updates a running average of model parameters, only when generalization performance is improved on the validation dataset. Hence, ASWA can be seen as a combination of SWA with the early stopping technique, where the former accepts all updates on a parameter ensemble model and the latter rejects any update on an underlying running model. We conducted extensive experiments ranging from image classification to multi-hop reasoning over knowledge graphs. Our experiments over 11 benchmark datasets with 7 baseline models suggest that ASWA leads to a statistically better generalization across models and datasets
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# DRAM読み取り障害に対する新興産業ソリューションのセキュリティ上のメリットとオーバヘッドの理解

Understanding the Security Benefits and Overheads of Emerging Industry Solutions to DRAM Read Disturbance ( http://arxiv.org/abs/2406.19094v1 )

ライセンス: Link先を確認
Oğuzhan Canpolat, A. Giray Yağlıkçı, Geraldo F. Oliveira, Ataberk Olgun, Oğuz Ergin, Onur Mutlu, (参考訳) JEDEC DDR5仕様の2024年4月のアップデートで記述された、最先端のDRAM-DRAMによる読み出し障害軽減手法であるPer Row Activation Counting (PRAC)の最初の厳密なセキュリティ、性能、エネルギー、コスト分析について述べる。 メモリコントローラに定期的にリフレッシュ管理(RFM)コマンドを発行するように助言する以前の最先端技術とは異なり、PRACは新しいバックオフ信号を導入した。 PRACのバックオフ信号はDRAMチップからメモリコントローラに伝播し、メモリコントローラを強制する。 1)申し込みを中止し、 2) RFM コマンドを発行する。 その結果、RAMコマンドは定期的にではなく必要に応じて発行され、RAMのオーバーヘッドが減少する。 PRACを4段階に分けて分析する。 まず、PRACのセキュリティの最悪のケースを表す逆アクセスパターンを定義する。 次に,PRACの構成とセキュリティへの影響について検討する。 解析の結果,メモリに10回アクセスする前にビットフリップが発生しない限り,PRACをセキュアな動作に設定できることがわかった。 第3に、PRACの性能への影響を評価し、Ramulator 2.0を用いた以前の作業と比較する。 我々の分析によると、PRACは現在のDRAMチップの性能オーバーヘッドを13.4%以下に抑えるが、将来のDRAMチップの性能オーバーヘッドは63.2%に達する。 第4に,PRACの性能オーバーヘッドを増大させメモリ性能攻撃を行うためのアベイラビリティ・アベイラビリティ・アベイラビリティ・アベイラビリティ・アベイラビリティ・アクセス・パターンを定義し,DRAMスループットの最大79%,システムスループットの最大65%の低下を実証する。 PRACの今後のシステムへの影響と今後の研究方向性について論じる。 将来の研究を支援するため、私たちはhttps://github.com/CMU-SAFARI/ramulator2で実装とスクリプトをオープンソース化しました。

We present the first rigorous security, performance, energy, and cost analyses of the state-of-the-art on-DRAM-die read disturbance mitigation method, Per Row Activation Counting (PRAC), described in JEDEC DDR5 specification's April 2024 update. Unlike prior state-of-the-art that advises the memory controller to periodically issue refresh management (RFM) commands, which provides the DRAM chip with time to perform refreshes, PRAC introduces a new back-off signal. PRAC's back-off signal propagates from the DRAM chip to the memory controller and forces the memory controller to 1) stop serving requests and 2) issue RFM commands. As a result, RFM commands are issued when needed as opposed to periodically, reducing RFM's overheads. We analyze PRAC in four steps. First, we define an adversarial access pattern that represents the worst-case for PRAC's security. Second, we investigate PRAC's configurations and security implications. Our analyses show that PRAC can be configured for secure operation as long as no bitflip occurs before accessing a memory location 10 times. Third, we evaluate the performance impact of PRAC and compare it against prior works using Ramulator 2.0. Our analysis shows that while PRAC incurs less than 13.4% performance overhead for today's DRAM chips, its performance overheads can reach up to 63.2% for future DRAM chips that are more vulnerable to read disturbance bitflips. Fourth, we define an availability adversarial access pattern that exacerbates PRAC's performance overhead to perform a memory performance attack, demonstrating that such an adversarial pattern can hog up to 79% of DRAM throughput and degrade system throughput by up to 65%. We discuss PRAC's implications on future systems and foreshadow future research directions. To aid future research, we open-source our implementations and scripts at https://github.com/CMU-SAFARI/ramulator2.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# マルチモーダルAIにおける公正性とバイアス

Fairness and Bias in Multimodal AI: A Survey ( http://arxiv.org/abs/2406.19097v1 )

ライセンス: Link先を確認
Tosin Adewumi, Lama Alkhaled, Namrata Gurung, Goya van Boven, Irene Pagliai, (参考訳) 人工知能(AI)システムにおける公平性とバイアスに対処することの重要性は、過度に強調できない。 近年、主流メディアはステレオタイプやバイアスにまつわる出来事のニュースで目覚めている。 本稿では,Large Language Models (LLMs) と比較して,Large Multimodal Models (LMMs) における公正さとバイアスの最小限の研究におけるギャップを埋めるとともに,それらに影響を与える課題とともに,50のデータセットとモデルのサンプルを提供する。 提案手法は,Google Scholar上での2つの検索クエリで,33,400,538,000のリンクが,それぞれ「大規模マルチモーダルモデルにおけるフェアネスとバイアス」と「大規模言語モデルにおけるフェアネスとバイアス」という用語による結果であることが判明した。 この研究は、このギャップを埋め、研究者や他のステークホルダーにマルチモーダルAにおける公平さとバイアスの課題に対処する方法に関する洞察を与えるのに役立つと信じています。 と。

The importance of addressing fairness and bias in artificial intelligence (AI) systems cannot be over-emphasized. Mainstream media has been awashed with news of incidents around stereotypes and bias in many of these systems in recent years. In this survey, we fill a gap with regards to the minimal study of fairness and bias in Large Multimodal Models (LMMs) compared to Large Language Models (LLMs), providing 50 examples of datasets and models along with the challenges affecting them; we identify a new category of quantifying bias (preuse), in addition to the two well-known ones in the literature: intrinsic and extrinsic; we critically discuss the various ways researchers are addressing these challenges. Our method involved two slightly different search queries on Google Scholar, which revealed that 33,400 and 538,000 links are the results for the terms "Fairness and bias in Large Multimodal Models" and "Fairness and bias in Large Language Models", respectively. We believe this work contributes to filling this gap and providing insight to researchers and other stakeholders on ways to address the challenge of fairness and bias in multimodal A!.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# DocKylin: 効率的なビジュアルスライミングによる視覚文書理解のための大規模マルチモーダルモデル

DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming ( http://arxiv.org/abs/2406.19101v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Wentao Yang, Songxuan Lai, Zecheng Xie, Lianwen Jin, (参考訳) 現在のマルチモーダル大言語モデル(MLLM)は、高解像度、高密度テキスト、文書イメージに典型的な複雑なレイアウトのために、視覚的文書理解(VDU)タスクにおいて重大な課題に直面している。 これらの特徴は、MLLMから高いレベルの詳細認識能力を必要とする。 入力解像度の増大はディテール知覚を改善するが、視覚トークンのシーケンスが長くなり、計算コストが増大し、長いコンテキストを扱う能力が低下する。 これらの課題に対処するために,文書中心のMLLMであるDocKylinを紹介した。 DocKylinは、Adaptive Pixel Slimming (APS) プリプロセッシングモジュールを使用してピクセルレベルのスリム化を行う。 さらにDocKylinは、新しいDynamic Token Slimming (DTS)モジュールを組み込んで、トークンレベルのスリム化を行い、必須トークンをフィルタリングし、他のトークンを取り除き、圧縮された適応的なビジュアルシーケンスを生成する。 さまざまなVDUベンチマークでDocKylinの有望なパフォーマンスが実証されている。 特に,提案した APS と DTS はともにパラメータフリーであり,既存の MLLM への統合が容易である。

Current multimodal large language models (MLLMs) face significant challenges in visual document understanding (VDU) tasks due to the high resolution, dense text, and complex layouts typical of document images. These characteristics demand a high level of detail perception ability from MLLMs. While increasing input resolution improves detail perception, it also leads to longer sequences of visual tokens, increasing computational costs and straining the models' ability to handle long contexts. To address these challenges, we introduce DocKylin, a document-centric MLLM that performs visual content slimming at both the pixel and token levels, thereby reducing token sequence length in VDU scenarios. DocKylin utilizes an Adaptive Pixel Slimming (APS) preprocessing module to perform pixel-level slimming, increasing the proportion of informative pixels. Moreover, DocKylin incorporates a novel Dynamic Token Slimming (DTS) module to conduct token-level slimming, filtering essential tokens and removing others to create a compressed, adaptive visual sequence. Experiments demonstrate DocKylin's promising performance across various VDU benchmarks. Notably, both the proposed APS and DTS are parameter-free, facilitating easy integration into existing MLLMs, and our experiments indicate their potential for broader applications.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# 文:ESG KPIのための大規模言語モデル付きテーブルからのユニバーサル情報抽出

Statements: Universal Information Extraction from Tables with Large Language Models for ESG KPIs ( http://arxiv.org/abs/2406.19102v1 )

ライセンス: Link先を確認
Lokesh Mishra, Sohayl Dhibi, Yusik Kim, Cesar Berrospi Ramis, Shubham Gupta, Michele Dolfi, Peter Staar, (参考訳) 環境、社会、ガバナンス(ESG) KPIは、気候変動、温室効果ガスの排出、水消費、廃棄物管理、人権、多様性、政策などの問題において、組織のパフォーマンスを評価する。 ESGレポートは、この貴重な量的情報をテーブルを通して伝達する。 残念ながら、この情報の抽出は、表構造や内容に高いばらつきがあるため困難である。 本稿では,量的事実や関連情報を抽出するドメインに依存しない新しいデータ構造であるステートメントを提案する。 本稿では,新しい教師付き深層学習情報抽出タスクとして,表をステートメントに翻訳することを提案する。 SemTabNet - 100K以上の注釈付きテーブルのデータセット。 T5をベースとしたステートメント抽出モデルのファミリを調べた結果,最良モデルは82%の文を生成する(ベースラインは21%)。 ESGレポートから2700以上の表に私たちのモデルを適用することで、ステートメントの利点を実証する。 ステートメントの均質性は、ESGレポートの膨大なコレクションに見られる拡張情報に関する探索的データ解析を可能にする。

Environment, Social, and Governance (ESG) KPIs assess an organization's performance on issues such as climate change, greenhouse gas emissions, water consumption, waste management, human rights, diversity, and policies. ESG reports convey this valuable quantitative information through tables. Unfortunately, extracting this information is difficult due to high variability in the table structure as well as content. We propose Statements, a novel domain agnostic data structure for extracting quantitative facts and related information. We propose translating tables to statements as a new supervised deep-learning universal information extraction task. We introduce SemTabNet - a dataset of over 100K annotated tables. Investigating a family of T5-based Statement Extraction Models, our best model generates statements which are 82% similar to the ground-truth (compared to baseline of 21%). We demonstrate the advantages of statements by applying our model to over 2700 tables from ESG reports. The homogeneous nature of statements permits exploratory data analysis on expansive information found in large collections of ESG reports.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# 超対称性の新しい一般化:量子 $\mathbb{Z}_2^2$-オシレータとその「スーパー化」

A Novel Generalisation of Supersymmetry: Quantum $\mathbb{Z}_2^2$-Oscillators and their `superisation' ( http://arxiv.org/abs/2406.19103v1 )

ライセンス: Link先を確認
Andrew James Bruce, (参考訳) 我々は、$\mathbb{Z}_2^2$-超対称量子系の非常に単純な玩具モデルを提案し、クラインの構成を通して、このシステムを追加の$\mathbb{Z}_2^2$-階調を持つ$N=2$超対称系として理解する方法を示す。 すなわち、可換化/反可換化規則は標準的なボソン/フェルミオン規則によって定義されるが、システムには基礎となる$\mathbb{Z}_2^2$グレーディングがあり、考慮する必要がある。

We propose a very simple toy model of a $\mathbb{Z}_2^2$-supersymmetric quantum system and show, via Klein's construction, how to understand the system as being an $N=2$ supersymmetric system with an extra $\mathbb{Z}_2^2$-grading. That is, the commutation/anticommutation rules are defined via the standard boson/fermion rules, but the system still has an underlying $\mathbb{Z}_2^2$-grading that needs to be taken into account.
翻訳日:2024-06-28 14:27:46 公開日:2024-06-27
# FDLite: シングルステージ軽量顔検出ネットワーク

FDLite: A Single Stage Lightweight Face Detector Network ( http://arxiv.org/abs/2406.19107v1 )

ライセンス: Link先を確認
Yogesh Aggarwal, Prithwijit Guha, (参考訳) 顔検出は、ResNet-50/101/152やVGG16/19のような重いトレーニング済みのバックボーンネットワークを用いて頻繁に試みられる。 近年の研究では、バックボーンのカスタマイズ、新しい損失関数、効率的なトレーニング戦略を備えた軽量検出器も提案されている。 この研究の斬新さは、一般的に使われている損失関数と学習戦略のみを訓練しながら、軽量検出器の設計にある。 提案した顔検出器は、確立されたRetinaFaceアーキテクチャに大きく従っている。 この研究の最初の貢献は、0.167Mパラメータと0.52 GFLOPを持つカスタマイズされた軽量バックボーンネットワーク(BLite)の設計である。 2つ目の貢献は、2つの独立したマルチタスク損失の使用である。 提案された軽量顔検出器(FDLite)は0.26Mパラメータと0.94GFLOPを持つ。 ネットワークはWIDER FACEデータセットに基づいてトレーニングされる。 FDLiteは、WIDER FACE検証データセットの易、中、硬サブセットに対して、それぞれ92.3\%、89.8\%、82.2\%平均精度(AP)を達成する。

Face detection is frequently attempted by using heavy pre-trained backbone networks like ResNet-50/101/152 and VGG16/19. Few recent works have also proposed lightweight detectors with customized backbones, novel loss functions and efficient training strategies. The novelty of this work lies in the design of a lightweight detector while training with only the commonly used loss functions and learning strategies. The proposed face detector grossly follows the established RetinaFace architecture. The first contribution of this work is the design of a customized lightweight backbone network (BLite) having 0.167M parameters with 0.52 GFLOPs. The second contribution is the use of two independent multi-task losses. The proposed lightweight face detector (FDLite) has 0.26M parameters with 0.94 GFLOPs. The network is trained on the WIDER FACE dataset. FDLite is observed to achieve 92.3\%, 89.8\%, and 82.2\% Average Precision (AP) on the easy, medium, and hard subsets of the WIDER FACE validation dataset, respectively.
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# 計算生活: 単純な相互作用から生み出す、十分に形成された自己複製プログラム

Computational Life: How Well-formed, Self-replicating Programs Emerge from Simple Interaction ( http://arxiv.org/abs/2406.19108v1 )

ライセンス: Link先を確認
Blaise Agüera y Arcas, Jyrki Alakuijala, James Evans, Ben Laurie, Alexander Mordvintsev, Eyvind Niklasson, Ettore Randazzo, Luca Versari, (参考訳) 生命の起源と人工生命の分野はどちらも、生命とは何か、どのようにして「前生命」のダイナミクスの異なる集合から生まれるのかを疑問視している。 生命が出現するほとんどの基質の一般的な特徴は、自己複製が現れるときのダイナミックスの変化である。 自己複製器が自然にどのように出現したかについてはいくつかの仮説があるが、一般力学、計算原理、そして自己複製器が現れるために必要な条件についてはほとんど分かっていない。 これは、相互作用が論理的、数学的、またはプログラミング規則を含む「計算基板」に特に当てはまる。 本稿では,様々な単純なプログラム言語と機械命令セットに基づいて,複数の計算基板を研究することによって,自己複製器がどのように生じるかを理解するための一歩を踏み出した。 本研究では,無作為で非自己複製プログラムが明示的なフィットネス環境を持たない環境に置かれる場合,自己複製プログラムが出現する傾向があることを示す。 ランダムな相互作用と自己修正が原因で発生することを示し、バックグラウンドなランダムな突然変異を伴わずとも起こりうる。 また,自己複製器の出現に伴い,複雑なダイナミクスが出現し続けていることを示す。 最後に,自己複製が可能である最小主義プログラミング言語の反例を示す。

The fields of Origin of Life and Artificial Life both question what life is and how it emerges from a distinct set of "pre-life" dynamics. One common feature of most substrates where life emerges is a marked shift in dynamics when self-replication appears. While there are some hypotheses regarding how self-replicators arose in nature, we know very little about the general dynamics, computational principles, and necessary conditions for self-replicators to emerge. This is especially true on "computational substrates" where interactions involve logical, mathematical, or programming rules. In this paper we take a step towards understanding how self-replicators arise by studying several computational substrates based on various simple programming languages and machine instruction sets. We show that when random, non self-replicating programs are placed in an environment lacking any explicit fitness landscape, self-replicators tend to arise. We demonstrate how this occurs due to random interactions and self-modification, and can happen with and without background random mutations. We also show how increasingly complex dynamics continue to emerge following the rise of self-replicators. Finally, we show a counterexample of a minimalistic programming language where self-replicators are possible, but so far have not been observed to arise.
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# 教師は100万の教育を受ける価値がある

A Teacher Is Worth A Million Instructions ( http://arxiv.org/abs/2406.19112v1 )

ライセンス: Link先を確認
Nikhil Kothari, Ravindra Nayak, Shreyas Shetty, Amey Patil, Nikesh Garera, (参考訳) 大きな言語モデル(LLM)は例外的な能力を示しているが、これらのモデルのトレーニングは非常に難しい。 データの品質に強く依存し、最高の命令チューニングセットを見つける。 さらに、訓練方法に固有の制限は、7Bと13Bのパラメータを持つ比較的小さなモデルの訓練にかなりの困難をもたらす。 本研究では,専門家の混在(8x7B)アーキテクチャなど,より大規模なモデルからの知識を活用することにより,これらのモデルのトレーニング方法を改善することを提案する。 これらの大きなモデルの規模は、データ単独から幅広いバリエーションをキャプチャし、より小さなモデルのための効果的な教師になる。 さらに、ドメイン固有のエキスパートモデルを用いて、モデルを一般化する能力を維持しながら、トレーニング中にドメイン固有の知識を高める新しい訓練後ドメインアライメントフェーズを実装した。 我々の手法による微調整Mistral 7Bと2x7Bは、7Bと13B以上のパラメータを持つ最先端言語モデルの性能を上回る。

Large Language Models(LLMs) have shown exceptional abilities, yet training these models can be quite challenging. There is a strong dependence on the quality of data and finding the best instruction tuning set. Further, the inherent limitations in training methods create substantial difficulties to train relatively smaller models with 7B and 13B parameters. In our research, we suggest an improved training method for these models by utilising knowledge from larger models, such as a mixture of experts (8x7B) architectures. The scale of these larger models allows them to capture a wide range of variations from data alone, making them effective teachers for smaller models. Moreover, we implement a novel post-training domain alignment phase that employs domain-specific expert models to boost domain-specific knowledge during training while preserving the model's ability to generalise. Fine-tuning Mistral 7B and 2x7B with our method surpasses the performance of state-of-the-art language models with more than 7B and 13B parameters: achieving up to $7.9$ in MT-Bench and $93.04\%$ on AlpacaEval.
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# CHEW:ウィキペディアにおける変更イベントのデータセット

CHEW: A Dataset of CHanging Events in Wikipedia ( http://arxiv.org/abs/2406.19116v1 )

ライセンス: Link先を確認
Hsuvas Borkakoty, Luis Espinosa-Anke, (参考訳) 自然発生テキストで表現されたウィキペディアのイベント変化データセットであるCHEWを紹介する。 我々はCHEWを用いて、生成および分類実験において、ウィキペディアのエンティティやイベントのタイムライン理解のためにLLMを探索する。 この結果から,LLMは時間的情報を持っているにも関わらず,正確なタイムライン構築に苦慮していることが示唆された。 さらに,CHEW由来の埋め込みが意味変化の同定に有用であることを示す。

We introduce CHEW, a novel dataset of changing events in Wikipedia expressed in naturally occurring text. We use CHEW for probing LLMs for their timeline understanding of Wikipedia entities and events in generative and classification experiments. Our results suggest that LLMs, despite having temporal information available, struggle to construct accurate timelines. We further show the usefulness of CHEW-derived embeddings for identifying meaning shift.
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# $n$ qubitsは2つの異なる方法で絡み合うことができます

$n$ qubits can be entangled in two different ways ( http://arxiv.org/abs/2406.19119v1 )

ライセンス: Link先を確認
Dafa Li, (参考訳) M. Walter et al , Science 340, 1205, 7 June (2013)] では、ポリトープを介して純粋に絡み合った状態に十分な条件を与え、SLOCC分類について議論した。 本稿では,行が基底状態である基底状態行列(BSM)を用いて,$n$ qubitsの純状態の絡み合い分類について検討する。 本稿では,BSM の列と行を交換して得られる BSM の正準形式と,BSM の正準形式を介して真に絡み合った n 個の正準状態に対する必要十分条件を提案する。 したがって、任意の$n$ qubitsに対して、真に絡み合った状態は2つの族に分割できる。 1つの族は、BSMが標準形に変換できない全ての状態を含む。 BSMを持つ状態は、非ゼロ係数が何であれ、常に真に絡み合っている。 GHZとWは家族に属している。 もう一つは、BSMが正準形式に変換できる全ての状態を含むが、任意の正準形式のBSMに対して、対応する係数行列のいくつかの2つの列または行は比例的ではない。 クラスター状態は家族に属します。

In [M. Walter et al., Science 340, 1205, 7 June (2013)], via polytopes they gave a sufficient condition for genuinely entangled pure states and discussed SLOCC classification. In this paper, we study entanglement classification of pure states of $n$ qubits via the basis state matrix (BSM) whose rows are the basis states. We propose a canonical form of BSM obtained by exchanging columns (i.e. permutation of qubits) and rows of BSM and then a necessary and sufficient condition for a genuinely entangled state of n qubits via a canonical form of BSM. Thus, for any $n$ qubits, the genuinely entangled states can be partitioned into two families. One family includes all states whose BSM cannot be transformed into the canonical form. The states with the BSM are always genuinely entangled no matter what the non-zero coefficients are. GHZ and W states belong to the family. The other includes all states whose BSM can be transformed into the canonical form, but for any canonical form of BSM, some two columns or rows of the corresponding coefficient matrix are not proportional. The cluster state belongs to the family.
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# QOS:量子オペレーティングシステム

QOS: A Quantum Operating System ( http://arxiv.org/abs/2406.19120v1 )

ライセンス: Link先を確認
Emmanouil Giortamis, Francisco Romão, Nathaniel Tornow, Pramod Bhatotia, (参考訳) 本稿では,量子資源管理のための統一システムスタックであるQuantum Operating System (QOS)を紹介する。 QOSは、$\textit{QOS compiler}$ -- モジュールで構成可能なコンパイラで、小型でノイズの多い量子デバイス上で、高いパフォーマンスと設定可能なオーバーヘッドで実行するように量子アプリケーションを分析、最適化する。最適化されたアプリケーションのスケーラブルな実行には、$\textit{QOS runtime}$ -- 高いシステム利用、低待ち時間、高品質な結果を達成すると同時に、マルチプログラムとスケジュールの可能な効率的な量子リソース管理システムである$\textit{QOS runtime}$を提案する。 我々は、IBMがホストする実量子デバイス上で、70000以上のベンチマークインスタンスの7000以上の実量子実行を使用して、QOSを評価する。 QOSコンパイラは2.6~456.5$\times$高品質で、QOSランタイムは1.15~9.6$\times$をさらに改善し、待ち時間を最大5$\times$まで削減し、結果の品質(または忠実度)の1~33%を犠牲にする。

We introduce the Quantum Operating System (QOS), a unified system stack for managing quantum resources while mitigating their inherent limitations, namely their limited and noisy qubits, (temporal and spatial) heterogeneities, and load imbalance. QOS features the $\textit{QOS compiler}$ -- a modular and composable compiler for analyzing and optimizing quantum applications to run on small and noisy quantum devices with high performance and configurable overheads. For scalable execution of the optimized applications, we propose the $\textit{QOS runtime}$ -- an efficient quantum resource management system that multi-programs and schedules the applications across space and time while achieving high system utilization, low waiting times, and high-quality results. We evaluate QOS on real quantum devices hosted by IBM, using 7000 real quantum runs of more than 70.000 benchmark instances. We show that the QOS compiler achieves 2.6--456.5$\times$ higher quality results, while the QOS runtime further improves the quality by 1.15--9.6$\times$ and reduces the waiting times by up to 5$\times$ while sacrificing only 1--3\% of results quality (or fidelity).
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# VSA分散表現を用いた帰納的推論学習に向けて

Towards Learning Abductive Reasoning using VSA Distributed Representations ( http://arxiv.org/abs/2406.19121v1 )

ライセンス: Link先を確認
Giacomo Camposampiero, Michael Hersche, Aleksandar Terzić, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi, (参考訳) 本稿では,Abductive Rule Learner with Context-Awareness(ARLC)を紹介する。 ARLCは、誘導的推論のための新しくより広く適用可能な訓練目標を特徴とし、Ravenの進行行列(RPM)を解く際に、より良い解釈可能性と高い精度をもたらす。 ARLCはドメイン知識のプログラミングとデータ分散の基礎となるルールの学習を可能にする。 我々は、I-RAVENデータセット上でARLCを評価し、分布内および分布外の両方(属性-ルール対)テストで最先端の精度を示す。 ARLCは、桁数が桁違いに少ないにもかかわらず、大きな言語モデルを含む、ニューロシンボリックおよびコネクショニストのベースラインを超越している。 プログラムされた知識の上の例から漸進的に学習することで、ARLCのプログラム後のトレーニングに対する堅牢性を示す。 我々は、ARLCの2x2 RPM星座から目に見えない星座へのシームレスな転移学習を検証する。 私たちのコードはhttps://github.com/IBM/abductive-rule-learner-with-context-awarenessで利用可能です。

We introduce the Abductive Rule Learner with Context-awareness (ARLC), a model that solves abstract reasoning tasks based on Learn-VRF. ARLC features a novel and more broadly applicable training objective for abductive reasoning, resulting in better interpretability and higher accuracy when solving Raven's progressive matrices (RPM). ARLC allows both programming domain knowledge and learning the rules underlying a data distribution. We evaluate ARLC on the I-RAVEN dataset, showcasing state-of-the-art accuracy across both in-distribution and out-of-distribution (unseen attribute-rule pairs) tests. ARLC surpasses neuro-symbolic and connectionist baselines, including large language models, despite having orders of magnitude fewer parameters. We show ARLC's robustness to post-programming training by incrementally learning from examples on top of programmed knowledge, which only improves its performance and does not result in catastrophic forgetting of the programmed solution. We validate ARLC's seamless transfer learning from a 2x2 RPM constellation to unseen constellations. Our code is available at https://github.com/IBM/abductive-rule-learner-with-context-awareness.
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# 超振動型拡散型ニューラルネットワークを用いた超高分解能イメージング

Super-resolution imaging using super-oscillatory diffractive neural networks ( http://arxiv.org/abs/2406.19126v1 )

ライセンス: Link先を確認
Hang Chen, Sheng Gao, Zejia Zhao, Zhengyang Duan, Haiou Zhang, Gordon Wetzstein, Xing Lin, (参考訳) 光スーパーオシレーションは、回折限界を超える遠視野超解像撮影を可能にする。 しかし、空間超高解像度撮像システムのための既存の超振動レンズは、より高度な設計方法が欠如しており、設計の自由度が制限されているため、性能の限界に直面している。 本稿では、既存の手法よりも優れた性能で回折限界を超える超解像空間分解能を実現する光学超振動型回折ニューラルネットワーク(SODNN)を提案する。 SODNNは、光学的相互干渉や画像サンプル、生物学的センサーを実装、非線形性を実装するために、回折層を利用して構築され、入射光学場を変調して3次元空間における光学的超振動効果を生成し、超解像された焦点点を生成する。 入射波長サイズ$\lambda$で3次元の光場制約を持つ拡散層を最適化することにより、視野上のサイドローブのない遠方界距離400$\lambda$以上において、フル幅の0.407$\lambda$で超振動点を達成し、10$\lambda$を超えるフィールド深度を実現した。 さらに、SODNNは色収差を効果的に回避するマルチ波長マルチフォーカススポットアレイを実装している。 我々の研究は、イメージング、センシング、知覚などの応用を促進するインテリジェントな光学機器の開発を刺激する。

Optical super-oscillation enables far-field super-resolution imaging beyond diffraction limits. However, the existing super-oscillatory lens for the spatial super-resolution imaging system still confronts critical limitations in performance due to the lack of a more advanced design method and the limited design degree of freedom. Here, we propose an optical super-oscillatory diffractive neural network, i.e., SODNN, that can achieve super-resolved spatial resolution for imaging beyond the diffraction limit with superior performance over existing methods. SODNN is constructed by utilizing diffractive layers to implement optical interconnections and imaging samples or biological sensors to implement nonlinearity, which modulates the incident optical field to create optical super-oscillation effects in 3D space and generate the super-resolved focal spots. By optimizing diffractive layers with 3D optical field constraints under an incident wavelength size of $\lambda$, we achieved a super-oscillatory spot with a full width at half maximum of 0.407$\lambda$ in the far field distance over 400$\lambda$ without side-lobes over the field of view, having a long depth of field over 10$\lambda$. Furthermore, the SODNN implements a multi-wavelength and multi-focus spot array that effectively avoids chromatic aberrations. Our research work will inspire the development of intelligent optical instruments to facilitate the applications of imaging, sensing, perception, etc.
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# エビデンシャルな概念埋め込みモデル:皮膚疾患診断のための信頼性の高い概念記述を目指して

Evidential Concept Embedding Models: Towards Reliable Concept Explanations for Skin Disease Diagnosis ( http://arxiv.org/abs/2406.19130v1 )

ライセンス: Link先を確認
Yibo Gao, Zheyao Gao, Xin Gao, Yuanye Liu, Bomin Wang, Xiahai Zhuang, (参考訳) 医用画像解析における深層学習手法の解釈には,医学的意思決定に対する高い関心が強い。 CBM(Concept Bottleneck Models)は、人間の解釈可能な概念を意思決定に取り入れた、アクティブな解釈可能なフレームワークとして登場した。 しかし、その概念予測は、臨床診断に適用しても信頼性が欠如しており、概念説明の質を損なう可能性がある。 そこで本研究では,概念の不確実性をモデル化するために,明示的学習を用いた概念埋め込みモデル(evi-CEM)を提案する。 さらに、概念の不確実性を利用して、完全な概念監督を伴わない視覚言語モデルを用いてCBMを訓練する際に生じる概念の不整合を是正する。 提案手法により,教師付きおよびラベル効率の両面において,概念記述の信頼性を高めることができる。 さらに,効率的なテスト時間介入のための概念の不確実性についても紹介する。 評価の結果,evi-CEMは概念予測において優れた性能を示し,提案手法はラベル効率のよい学習において,概念の誤りを効果的に軽減する。 私たちのコードはhttps://github.com/obiyoag/evi-CEMで公開されています。

Due to the high stakes in medical decision-making, there is a compelling demand for interpretable deep learning methods in medical image analysis. Concept Bottleneck Models (CBM) have emerged as an active interpretable framework incorporating human-interpretable concepts into decision-making. However, their concept predictions may lack reliability when applied to clinical diagnosis, impeding concept explanations' quality. To address this, we propose an evidential Concept Embedding Model (evi-CEM), which employs evidential learning to model the concept uncertainty. Additionally, we offer to leverage the concept uncertainty to rectify concept misalignments that arise when training CBMs using vision-language models without complete concept supervision. With the proposed methods, we can enhance concept explanations' reliability for both supervised and label-efficient settings. Furthermore, we introduce concept uncertainty for effective test-time intervention. Our evaluation demonstrates that evi-CEM achieves superior performance in terms of concept prediction, and the proposed concept rectification effectively mitigates concept misalignments for label-efficient training. Our code is available at https://github.com/obiyoag/evi-CEM.
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# CellO:大規模視覚言語モデルの因果的評価

CELLO: Causal Evaluation of Large Vision-Language Models ( http://arxiv.org/abs/2406.19131v1 )

ライセンス: Link先を確認
Meiqi Chen, Bo Peng, Yan Zhang, Chaochao Lu, (参考訳) 因果推論は人間の知性の基本であり、現実世界の環境における効果的な意思決定に不可欠である。 近年の大規模視覚言語モデル(LVLM)の発展にもかかわらず、因果関係を理解する能力は未だ不明である。 これはエンボディエージェントのようなアプリケーションには不十分であり、公式な因果推論に必要な明確な因果グラフが欠如している。 これらの制限を克服するために、人間と/または物体間の相互作用を含む因果関係のきめ細かい統一的な定義を導入する。 この定義に基づいて, 発見, 関連, 介入, 反事実という4段階の因果関係に関する14,094の因果関係質問からなる新しいデータセットCellOを構築した。 このデータセットは、人間とオブジェクト間の相互作用を詳述する明示的な因果グラフを含めることで、従来の常識因果性を超えた。 CellOの大規模な実験により、現在のLVLMは因果推論に苦戦しているが、我々の提案したCellO-CoTは因果的にインスパイアされたチェーン・オブ・プルーピング戦略である。 本研究の定量的および定性的な分析は、将来の研究に有用な洞察を与える。 プロジェクトページはhttps://github.com/OpenCausaLab/CELLO.comにある。

Causal reasoning is fundamental to human intelligence and crucial for effective decision-making in real-world environments. Despite recent advancements in large vision-language models (LVLMs), their ability to comprehend causality remains unclear. Previous work typically focuses on commonsense causality between events and/or actions, which is insufficient for applications like embodied agents and lacks the explicitly defined causal graphs required for formal causal reasoning. To overcome these limitations, we introduce a fine-grained and unified definition of causality involving interactions between humans and/or objects. Building on the definition, we construct a novel dataset, CELLO, consisting of 14,094 causal questions across all four levels of causality: discovery, association, intervention, and counterfactual. This dataset surpasses traditional commonsense causality by including explicit causal graphs that detail the interactions between humans and objects. Extensive experiments on CELLO reveal that current LVLMs still struggle with causal reasoning tasks, but they can benefit significantly from our proposed CELLO-CoT, a causally inspired chain-of-thought prompting strategy. Both quantitative and qualitative analyses from this study provide valuable insights for future research. Our project page is at https://github.com/OpenCausaLab/CELLO.
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# DEX-TTS:時間変動のスタイルモデリングによる拡散に基づく圧縮テキスト音声合成

DEX-TTS: Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability ( http://arxiv.org/abs/2406.19135v1 )

ライセンス: Link先を確認
Hyun Joon Park, Jin Sob Kim, Wooseok Shin, Sung Won Han, (参考訳) 参照音声を用いた表現的テキスト音声 (TTS) は, 自然な音声を合成するために広く研究されてきたが, 十分に表現されたスタイルの獲得とモデル一般化能力の向上には限界がある。 本研究では,DEX-TTS(Diffusion-based Expressive TTS)について述べる。 一般的な拡散TSフレームワークに基づいて、DEX-TTSは参照音声から抽出されたスタイルを処理するエンコーダとアダプタを含む。 鍵となる革新は、効率的なスタイル抽出のための時間不変および時間不変のカテゴリへのスタイルの分化と、高い一般化能力を持つエンコーダやアダプタの設計を含む。 さらに、TTSの拡散ネットワークを改善するために、重複パッチと畳み込み周波数パッチの埋め込み方式を導入する。 DEX-TTSは、事前学習戦略に頼ることなく、英語の多話者および感情的な多話者データセットにおいて、客観的および主観的評価の観点から優れた性能を得る。 最後に, 拡張拡散バックボーンの有効性を検証するため, 単一話者データセットにおける一般TSとの比較を行った。 デモはここにある。

Expressive Text-to-Speech (TTS) using reference speech has been studied extensively to synthesize natural speech, but there are limitations to obtaining well-represented styles and improving model generalization ability. In this study, we present Diffusion-based EXpressive TTS (DEX-TTS), an acoustic model designed for reference-based speech synthesis with enhanced style representations. Based on a general diffusion TTS framework, DEX-TTS includes encoders and adapters to handle styles extracted from reference speech. Key innovations contain the differentiation of styles into time-invariant and time-variant categories for effective style extraction, as well as the design of encoders and adapters with high generalization ability. In addition, we introduce overlapping patchify and convolution-frequency patch embedding strategies to improve DiT-based diffusion networks for TTS. DEX-TTS yields outstanding performance in terms of objective and subjective evaluation in English multi-speaker and emotional multi-speaker datasets, without relying on pre-training strategies. Lastly, the comparison results for the general TTS on a single-speaker dataset verify the effectiveness of our enhanced diffusion backbone. Demos are available here.
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# YZS-model: Graph Convolutional NetworksとTransformer-Attentionに基づく有機医薬品溶解度予測モデル

YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention ( http://arxiv.org/abs/2406.19136v1 )

ライセンス: Link先を確認
Chenxu Wang, Haowei Ming, Jian He, Yao Lu, (参考訳) 薬物分子溶解性の正確な予測は、薬のADMEプロセスに影響を与える治療効果と安全性を決定するために不可欠である。 従来の溶解度予測技術は、しばしば分子トラクチャーの複雑な性質を捉えるのに失敗し、予測と実際の結果の間に顕著な違いをもたらす。 例えば、先進的な薬物様化合物構造に関する議論である。 ルシは環構造を持つ分子において重要な循環構造情報を取得する際の問題を強調した。 そこで本研究では,注目に基づくトランスフォーマー,Long Short-Term Memory (LSTM) ネットワーク,および可溶性予測の精度向上を目的としたGraph Convolutional Networks (GCN) を組み合わせた新しいディープラーニングフレームワークを提案する。 9,943個の化合物のトレーニングセットと抗がん化合物データセットを用いた試験により, 相関係数(R^2$)が0.55, 根平均角誤差(RMSE)が0.59, ベンチマークモデルのスコアが0.52(R^2$)と0.61(RMSE)を上回り, 相関係数(R^2$)が得られた。 追加の独立試験では, RMSEが1.05, RMSEが1.28, 相対精度が45.9%であった。 本研究は, 溶解度予測精度を向上させるためのディープラーニングの可能性を示すだけでなく, 薬物の設計と選択に関する新たな知見を提供する。 継続的な取り組みは、モデルアーキテクチャの最適化と、薬物開発プロセスのより良いサポートのためにそのアプリケーションの拡張に向けられ、薬物発見における深層学習の重要な役割を浮き彫りにする。

The accurate prediction of drug molecule solubility is essential for determining their therapeutic effectiveness and safety, influencing the drug's ADME processes. Traditional solubility prediction techniques often fail to capture the complex nature of molecular tructures, leading to notable deviations between predictions and actual results. For example, the Discussion on Advanced Drug-Like Compound Structures. Lusci highlighted issues in capturing crucial cyclic structural information in molecules with ring structures. To overcome this issue, our research introduces a novel deep learning framework combining attention-based transformers, Long Short-Term Memory (LSTM) networks, and Graph Convolutional Networks (GCN), aimed at enhancing the precision of solubility predictions. Utilizing a training set of 9,943 compounds and testing on an anticancer compound dataset, our method achieved a correlation coefficient ($R^2$) of 0.55 and a Root Mean Square Error (RMSE) of 0.59, which outperforms the benchmark models' scores of 0.52 ($R^2$) and 0.61 (RMSE). Importantly, in an additional independent test, our model significantly outperformed the baseline with an RMSE of 1.05 compared to 1.28, a relative accuracy improvement of 45.9%. This research not only demonstrates the vast potential of deep learning for improving solubility prediction accuracy but also offers novel insights for drug design and selection in the future. Continued efforts will be directed towards optimizing the model architecture and extending its application to better support the drug development process, underscoring the pivotal role of deep learning in drug discovery.
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# CoOMBE:オプティカルブロッホ方程式とマクスウェル・ブロッホ方程式の統合のための一連のオープンソースプログラム

CoOMBE: A suite of open-source programs for the integration of the optical Bloch equations and Maxwell-Bloch equations ( http://arxiv.org/abs/2406.19144v1 )

ライセンス: Link先を確認
R M Potvliege, S A Wrathmall, (参考訳) 本稿では,(1)レーザーまたはマイクロ波場によって駆動される原子系の量子状態を表す密度行列の時間発展を規定する光学的ブロッホ方程式と(2)原子蒸気に共伝播する1つまたは2つのレーザー場に対する1次元マクスウェル・ブロッホ方程式を統合することを目的とした。 回転波近似を仮定する。 これらのプログラムはリンドブラッドマスター方程式によって支配されるより一般的な量子力学系にも利用できる。 Fortran 90で書かれているが、Fortranプログラミングの知識は必要ない。 また、レート方程式における光ブロッホ方程式の解法、定常密度行列の計算、弱プローブ近似における光ブロッホ方程式の定式化についても述べる。

The programs described in this article and distributed with it aim (1) at integrating the optical Bloch equations governing the time evolution of the density matrix representing the quantum state of an atomic system driven by laser or microwave fields, and (2) at integrating the 1D Maxwell-Bloch equations for one or two laser fields co-propagating in an atomic vapour. The rotating wave approximation is assumed. These programs can also be used for more general quantum dynamical systems governed by the Lindblad master equation. They are written in Fortran 90; however, their use does not require any knowledge of Fortran programming. Methods for solving the optical Bloch equations in the rate equations limit, for calculating the steady-state density matrix and for formulating the optical Bloch equations in the weak probe approximation are also described.
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# 言語モデルの最適スケーリングにおける不一致の解消

Resolving Discrepancies in Compute-Optimal Scaling of Language Models ( http://arxiv.org/abs/2406.19146v1 )

ライセンス: Link先を確認
Tomer Porian, Mitchell Wortsman, Jenia Jitsev, Ludwig Schmidt, Yair Carmon, (参考訳) Kaplan et al と Hoffmann et al は計算予算の関数として最適なモデルサイズに関する効果的なスケーリング法則を開発したが、これらの法則は実質的に異なる予測をもたらす。 本稿では,2つのデータセット(OpenWebText2とRefinedWeb)上でKaplanスケーリング法則を再現し,その差の原因となる3つの要因(最終層計算コスト,ウォームアップ期間,スケール依存オプティマイザチューニング)を特定することによって,その相違を説明している。 これらの因子を補正し、ホフマン・エ・アル(すなわち「チンチラ」)のスケーリング法と良好な合意を得る。 ホフマンらによる仮説から、注意深い学習率の減衰は、スケーリング法則の妥当性に必須ではないことが分かる。 その結果,AdamW $\beta_2$パラメータのチューニングはバッチサイズが低い場合に必須であることが判明し,最適学習率とバッチサイズに対するスケーリング法則を導出する。

Kaplan et al. and Hoffmann et al. developed influential scaling laws for the optimal model size as a function of the compute budget, but these laws yield substantially different predictions. We explain the discrepancy by reproducing the Kaplan scaling law on two datasets (OpenWebText2 and RefinedWeb) and identifying three factors causing the difference: last layer computational cost, warmup duration, and scale-dependent optimizer tuning. With these factors corrected, we obtain excellent agreement with the Hoffmann et al. (i.e., "Chinchilla") scaling law. Counter to a hypothesis of Hoffmann et al., we find that careful learning rate decay is not essential for the validity of their scaling law. As a secondary result, we derive scaling laws for the optimal learning rate and batch size, finding that tuning the AdamW $\beta_2$ parameter is essential at lower batch sizes.
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# BackMix:最小限のスーパービジョンによるエコー心電図におけるショートカット学習の軽減

BackMix: Mitigating Shortcut Learning in Echocardiography with Minimal Supervision ( http://arxiv.org/abs/2406.19148v1 )

ライセンス: Link先を確認
Kit Mills Bransby, Arian Beqiri, Woo-Jin Cho Kim, Jorge Oliveira, Agisilaos Chartsias, Alberto Gomez, (参考訳) ニューラルネットワークは、検証セットで正しい予測につながる突発的な相関を学習することができるが、予測が間違った理由のために正しいため、あまり一般化しない。 この望ましくないショートカット(クレバーハン効果)の学習は、例えば、背景手がかり(例えばメタデータ)がクラスに偏り、モデルが画像の内容ではなく背景特徴にフォーカスすることを学ぶときに、エコー心電図ビューの分類において起こりうる。 トレーニングセットの他の例からランダムなバックグラウンドをサンプリングするBackMixという,シンプルで効果的なランダムなバックグラウンド拡張手法を提案する。 背景を結果と無関係にすることで、モデルは超音波セクター内のデータに集中し、外部の領域に不変となる。 提案手法を半教師付き環境で拡張し, セグメンテーションラベルの5%以下で, BackMixの正の効果が維持されていることを確認した。 損失重み付け機構 wBackMix も、拡張例の寄与を高めるために提案されている。 分布内および分布外両方のデータセットに対して本手法の有効性を検証し,分類精度,領域焦点,一般性に有意な改善が認められた。 私たちのソースコードは、https://github.com/kitbransby/BackMix.comで入手可能です。

Neural networks can learn spurious correlations that lead to the correct prediction in a validation set, but generalise poorly because the predictions are right for the wrong reason. This undesired learning of naive shortcuts (Clever Hans effect) can happen for example in echocardiogram view classification when background cues (e.g. metadata) are biased towards a class and the model learns to focus on those background features instead of on the image content. We propose a simple, yet effective random background augmentation method called BackMix, which samples random backgrounds from other examples in the training set. By enforcing the background to be uncorrelated with the outcome, the model learns to focus on the data within the ultrasound sector and becomes invariant to the regions outside this. We extend our method in a semi-supervised setting, finding that the positive effects of BackMix are maintained with as few as 5% of segmentation labels. A loss weighting mechanism, wBackMix, is also proposed to increase the contribution of the augmented examples. We validate our method on both in-distribution and out-of-distribution datasets, demonstrating significant improvements in classification accuracy, region focus and generalisability. Our source code is available at: https://github.com/kitbransby/BackMix
翻訳日:2024-06-28 14:17:52 公開日:2024-06-27
# RAVEN:マルチタスク検索による視覚言語学習

RAVEN: Multitask Retrieval Augmented Vision-Language Learning ( http://arxiv.org/abs/2406.19150v1 )

ライセンス: Link先を確認
Varun Nagaraj Rao, Siddharth Choudhary, Aditya Deshpande, Ravi Kumar Satzoda, Srikar Appalaraju, (参考訳) モデルパラメータにおける世界のすべての知識をエンコードする大規模言語モデルのスケーリングは、持続不可能であり、リソースバリアが悪化している。 Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。 既存の方法は単一タスク用に設計されたモデルに焦点を当てている。 さらに、リソース集約的な事前トレーニング、追加パラメータ要件、未適応のモダリティ優先順位付け、非検索ベースラインに対する明確なメリットの欠如によって制限されている。 本稿では,マルチタスク検索型VLMフレームワークであるRAVENを紹介する。 追加の検索パラメータを必要とせずに、検索強化サンプルを統合することにより、複数のタスクにまたがって有効となる検索特性を取得することを示す。 画像キャプションおよびVQAタスクに対する検索モダリティの広範な改善は,MSCOCOの非検索ベースライン+1CIDEr,NoCapsの+4CIDEr,特定のVQA質問タイプで約3倍の精度で,大幅な性能向上を示した。 このことは、VLMにRAGアプローチを適用することの有効性を強調し、より効率的でアクセスしやすいマルチモーダル学習への道のりを示す。

The scaling of large language models to encode all the world's knowledge in model parameters is unsustainable and has exacerbated resource barriers. Retrieval-Augmented Generation (RAG) presents a potential solution, yet its application to vision-language models (VLMs) is under explored. Existing methods focus on models designed for single tasks. Furthermore, they're limited by the need for resource intensive pre training, additional parameter requirements, unaddressed modality prioritization and lack of clear benefit over non-retrieval baselines. This paper introduces RAVEN, a multitask retrieval augmented VLM framework that enhances base VLMs through efficient, task specific fine-tuning. By integrating retrieval augmented samples without the need for additional retrieval-specific parameters, we show that the model acquires retrieval properties that are effective across multiple tasks. Our results and extensive ablations across retrieved modalities for the image captioning and VQA tasks indicate significant performance improvements compared to non retrieved baselines +1 CIDEr on MSCOCO, +4 CIDEr on NoCaps and nearly a +3\% accuracy on specific VQA question types. This underscores the efficacy of applying RAG approaches to VLMs, marking a stride toward more efficient and accessible multimodal learning.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# 三変量式自転車コード

Trivariate Bicycle Codes ( http://arxiv.org/abs/2406.19151v1 )

ライセンス: Link先を確認
Lukas Voss, Sim Jian Xian, Tobias Haug, Kishor Bharti, (参考訳) 量子誤差補正は、高精度な計算を可能にするために量子系のノイズを抑制する。 本稿では,Bravyi et al [Nature, 627, 778-782 (2024)]によって開発されたフレームワークの拡張を通じて,TB-QLDPC(Trivariate Bicycle Quantum Low-Density Parity-Check)コードを紹介する。 彼らの研究で提案された重み6符号と異なり、我々の手法は重み4符号と重み5符号も提供しており、これはより短期的な実験的な設定に適応可能であることを約束している。 TB-QLDPC符号の重み6までの符号は平面構造を持つことを示す。 さらに、新しいコードのほとんどは2次元のトーリックレイアウトで配置することもでき、同等のエラー抑制機能を提供しながら、同等のサーフェスコードよりも符号化レートが大幅に向上します。 例えば、距離5の4つの論理量子ビットをウェイト5チェック測定で30個の物理量子ビットにエンコードできる一方、同じパラメータを持つ曲面コードは100個の物理量子ビットを必要とする。 高符号化率とコンパクトなレイアウトにより、我々のコードは短期ハードウェア実装に非常に適しており、量子誤り訂正プロトコルの実現への道が開けている。

Quantum error correction suppresses noise in quantum systems to allow for high-precision computations. In this work, we introduce Trivariate Bicycle Quantum Low-Density Parity-Check (TB-QLDPC) codes, via an extension of the framework developed by Bravyi et al. [Nature, 627, 778-782 (2024)]. Unlike the weight-6 codes proposed in their study, our approach also offers weight-4 and weight-5 codes, which promises to be more amenable to near-term experimental setups. We show that our TB-QLDPC codes up to weight-6 have a bi-planar structure. Further, most of our new codes can also be arranged in a two-dimensional toric layout, and have substantially better encoding rates than comparable surface codes while offering comparable error suppression capabilities. For example, we can encode 4 logical qubits with distance 5 into 30 physical qubits with weight-5 check measurements, while a surface code with comparable parameters requires 100 physical qubits. The high encoding rate and compact layout make our codes highly suitable candidates for near-term hardware implementations, paving the way for a realizable quantum error correction protocol.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# スピンによるトラップ原子の光冷却に関する一般化理論

A Generalized Theory for Optical Cooling of a Trapped Atom with Spin ( http://arxiv.org/abs/2406.19153v1 )

ライセンス: Link先を確認
Saumitra S. Phatak, Karl N. Blodgett, David Peana, Meng Raymond Chen, Jonathan D. Hood, (参考訳) 光ツイーザの基底状態に原子を冷却することは、高忠実度イメージング、冷却、分子組立においてますます重要になっている。 自由空間における冷却に関する広範な理論的研究は行われているが、境界状態における冷却に焦点を当てた研究は少ない。 本研究では,中性原子対向体における光冷却機構の統一的な形式として,トラップ電位の異なる分解・未解決サイドバンド冷却,偏光勾配冷却,グレー・モーラセス冷却,$\Lambda$-enhanced gray molasses冷却,ラマン・サイドバンド冷却などを提案する。 シミュレーションを行い、単純化されたスピンモデルとよく一致したことを示す。 我々は, 各冷却機構の基本的限界を導出し, 光学式ツイーザにおける地中冷却を実現するための新しい方法を提案する。 光学式ツイーザにおける中性原子の冷却方法の最適化, ライドベルクと分子ゲートの熱デコヒーレンス最小化, 分子組立の効率向上への道を開いた。

Cooling atoms to the ground-state of optical tweezers is becoming increasingly important for high-fidelity imaging, cooling, and molecular assembly. While extensive theoretical work has been conducted on cooling in free space, fewer studies have focused on cooling in bound states. In this work, we present a unified formalism for optical cooling mechanisms in neutral atom tweezers, including resolved and unresolved sideband cooling with different trapping potentials, polarization gradient cooling, gray molasses cooling, $\Lambda$-enhanced gray molasses cooling, and Raman sideband cooling. We perform simulations and demonstrate good agreement with a simplified spin model. We derive and discuss the fundamental limits of each cooling mechanism and propose new strategies for achieving ground-state cooling in optical tweezers. Our findings provide valuable insights into optimizing cooling schemes for neutral atoms in optical tweezers, paving the way for minimizing thermal decoherence in Rydberg and molecular gates and improving efficiencies of molecular assembly.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# デュアルディープニューラルネットワーク(D-DNet)による運用PM2.5予測の高速化

Advancing operational PM2.5 forecasting with dual deep neural networks (D-DNet) ( http://arxiv.org/abs/2406.19154v1 )

ライセンス: Link先を確認
Shengjuan Cai, Fangxin Fang, Vincent-Henri Peuch, Mihai Alexe, Ionel Michael Navon, Yanghua Wang, (参考訳) PM2.5予測は公衆衛生、大気管理、政策開発に不可欠である。 従来の物理学に基づくモデルは、計算的に要求され、リアルタイムな条件に適応するのに遅い。 ディープラーニングモデルは効率性を示すが、エラーの蓄積による時間経過とともに精度の低下に悩まされている。 これらの課題に対処するために、リアルタイムの観測を効率的に統合し、信頼性の高い運用予測を保証する、デュアルディープニューラルネットワーク(D-DNet)予測とデータ同化システムを提案する。 D-DNetはPM2.5とAOD550のグローバルな運用予測に優れており、2019年全体を通して一貫した精度を維持している。 これは、同等の精度を維持しながら、Copernicus Atmosphere Monitoring Service (CAMS) 4D-Varの運用予測システムよりも明らかに高い効率を示す。 この効率は、アンサンブル予測、不確実性分析、大規模タスクの恩恵を受ける。

PM2.5 forecasting is crucial for public health, air quality management, and policy development. Traditional physics-based models are computationally demanding and slow to adapt to real-time conditions. Deep learning models show potential in efficiency but still suffer from accuracy loss over time due to error accumulation. To address these challenges, we propose a dual deep neural network (D-DNet) prediction and data assimilation system that efficiently integrates real-time observations, ensuring reliable operational forecasting. D-DNet excels in global operational forecasting for PM2.5 and AOD550, maintaining consistent accuracy throughout the entire year of 2019. It demonstrates notably higher efficiency than the Copernicus Atmosphere Monitoring Service (CAMS) 4D-Var operational forecasting system while maintaining comparable accuracy. This efficiency benefits ensemble forecasting, uncertainty analysis, and large-scale tasks.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# 遺伝子組換えアソシエーション予測のための不均一因果メタパスグラフニューラルネットワーク

Heterogeneous Causal Metapath Graph Neural Network for Gene-Microbe-Disease Association Prediction ( http://arxiv.org/abs/2406.19156v1 )

ライセンス: Link先を確認
Kexin Zhang, Feng Huang, Luotao Liu, Zhankun Xiong, Hongyu Zhang, Yuan Quan, Wen Zhang, (参考訳) 近年のヒト医学における微生物への注目は、病気の遺伝的枠組みにおけるその役割を浮き彫りにしている。 遺伝子、微生物、疾患間の複雑な相互作用をデコードするためには、遺伝子・微生物・疾患関連(GMD)の計算予測が不可欠である。 既存の方法は、主に遺伝子消失と微生物分解の関連に対処するが、より複雑なトリプルワイドGMD関連はいまだ研究されていない。 本稿では,GMD関連性を予測するため,HCMGNN(Heterogeneous Causal Metapath Graph Neural Network)を提案する。 HCMGNNは、遺伝子、微生物、病気を相互に関連付ける異種グラフを構築し、事前に定義された6つの因果メタパスを用いて、有向因果サブグラフを抽出し、3つの実体タイプ間の因果関係の多視点解析を容易にする。 各サブグラフには,ノード表現学習のための因果意味共有メッセージパッシングネットワークと,これらの表現を統合してGMDアソシエーションを予測するための注意深い融合手法が組み込まれている。 HCMGNNは, グラフのセマンティクスと構造を向上することにより, GMDの関連性を効果的に予測し, 関連性の問題に対処することを示す。

The recent focus on microbes in human medicine highlights their potential role in the genetic framework of diseases. To decode the complex interactions among genes, microbes, and diseases, computational predictions of gene-microbe-disease (GMD) associations are crucial. Existing methods primarily address gene-disease and microbe-disease associations, but the more intricate triple-wise GMD associations remain less explored. In this paper, we propose a Heterogeneous Causal Metapath Graph Neural Network (HCMGNN) to predict GMD associations. HCMGNN constructs a heterogeneous graph linking genes, microbes, and diseases through their pairwise associations, and utilizes six predefined causal metapaths to extract directed causal subgraphs, which facilitate the multi-view analysis of causal relations among three entity types. Within each subgraph, we employ a causal semantic sharing message passing network for node representation learning, coupled with an attentive fusion method to integrate these representations for predicting GMD associations. Our extensive experiments show that HCMGNN effectively predicts GMD associations and addresses association sparsity issue by enhancing the graph's semantics and structure.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# 光子崩壊と絡み合いを利用した情報伝達手法

A Method Using Photon Collapse and Entanglement to Transmit Information ( http://arxiv.org/abs/2406.19158v1 )

ライセンス: Link先を確認
Ling Hu, Qiang Ni, (参考訳) 測定によって量子波関数が崩壊する。 この問題に対処するために、我々は1量子ビット量子システムで示されるエントロピーの探索に取り掛かる。 我々の発見は、従来のエントロピーの法則に驚くほど異議を唱えた。 次に、ホイーラーの遅延選択実験において、混乱した逆因性現象を解釈する。 エントロピーの減少と量子の逆因性(英語版)を組み合わせて、どのように測定が崩壊をもたらすかを調べることができる。 次に、量子波関数の崩壊という見落とされがちな現象を研究することにより、ランダムに選択されるのではなく、量子固有状態集合を人工的に制御できることが分かる。 我々の研究は、しばしば見過ごされる量子波関数の崩壊の側面を明らかにする - 従来のランダム選択の概念から逸脱した、量子固有状態集合を意図的に操作するための潜在的な道である。 本稿では,光子波動関数の崩壊と絡み合いを利用した直接情報伝送手法を提案する。 情報伝達に量子機構を用いるための効率的なアプローチが欠如していることを踏まえ、我々の研究は量子力学の境界を推し進め、この分野の進展に貢献することを目的としている。

Measurements cause quantum wave functions to collapse. In tackling this elusive issue, we embark on the exploration of entropy exhibited by single-qubit quantum systems. Our findings surprisingly challenge the conventional law of entropy never diminishing. We then interpret the confusing retrocausality phenomenon in Wheeler's delayed-choice experiments. The entropy reduction and the quantum retrocausality can be combined to investigate how measurements lead to collapse - A close link is shown between quantum wave function collapse and the ubiquity of photons in the environments. Next, by studying the overlooked phenomena of quantum wave function collapse, we find that quantum eigenstate sets may be artificially controlled rather than randomly selected. Our study uncovers an often overlooked aspect of quantum wave function collapse - a potential avenue for deliberate manipulation of quantum eigenstate sets, deviating from the conventional notion of random selection. Leveraging this novel insight, we propose an innovative method for direct information transmission utilizing photon wave function collapse and entanglement. Given the lack of efficient approaches for employing quantum mechanisms in information transfer, our research aims to push the boundaries of quantum mechanics and contribute to advancing this field.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# 深部循環回帰による細胞移動方向の単一画像推定

Single Image Estimation of Cell Migration Direction by Deep Circular Regression ( http://arxiv.org/abs/2406.19162v1 )

ライセンス: Link先を確認
Lennart Bruns, Lucas Lamparter, Milos Galic, Xiaoyi Jiang, (参考訳) 本稿では,単一画像に基づいて細胞の移動方向を推定する問題について検討する。 私たちの知る限りでは、4つのクラス(クワラント)に分類CNNを使用する関連作業は1つしかありません。 このアプローチでは、詳細な方向分解はできない。 深部円形回帰を用いた単一画像推定問題の解法について,特にサイクルセンシティブな手法に注目した。 2つのデータベース上での平均精度は$\sim$17である。

In this paper we study the problem of estimating the migration direction of cells based on a single image. To the best of our knowledge, there is only one related work that uses a classification CNN for four classes (quadrants). This approach does not allow detailed directional resolution. We solve the single image estimation problem using deep circular regression with special attention to cycle-sensitive methods. On two databases we achieve an average accuracy of $\sim$17 degrees, which is a significant improvement over the previous work.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# マイクロ波光子を符号化した量子投票機

Quantum voting machine encoded with microwave photons ( http://arxiv.org/abs/2406.19167v1 )

ライセンス: Link先を確認
Yu Zhang, Chuiping Yang, Qiping Su, Yihao Kang, Wen Zheng, Shaoxiong Li, Yang Yu, (参考訳) 本稿では,マイクロ波光子量子ビット符号化を用いた簡単な量子投票機を提案する。 このアプローチは主に、マルチコントロールの単一ターゲット量子位相ゲートに依存している。 このスキームは、単一のキュービット位相情報を測定して投票結果を取得することで、単一のステップのみを必要としながら、運用上の単純さを提供する。 また、投票結果は肯定的な投票総数にのみ関係しているため、投票者の匿名性も提供する。 我々の量子投票機は、有権者数の観点からもスケーラビリティを持っている。 さらに、量子投票機の物理的実現は一般に行われ、回路QEDに限らない。 他の物理システムで多制御単一相量子位相ゲートが実現される限り、量子投票機を実装できる。 数値シミュレーションは、現在の量子技術におけるこの量子投票マシンの実現可能性を示している。

We propose a simple quantum voting machine using microwave photon qubit encoding, based on a setup comprising multiple microwave cavities and a coupled superconducting flux qutrit. This approach primarily relies on a multi-control single-target quantum phase gate. The scheme offers operational simplicity, requiring only a single step, while ensuring verifiability through the measurement of a single qubit phase information to obtain the voting results. And it provides voter anonymity, as the voting outcome is solely tied to the total number of affirmative votes. Our quantum voting machine also has scalability in terms of the number of voters. Additionally, the physical realization of the quantum voting machine is general and not limited to circuit QED. Quantum voting machine can be implemented as long as the multi-control single-phase quantum phase gate is realized in other physical systems. Numerical simulations indicate the feasibility of this quantum voting machine within the current quantum technology.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# 駆動散逸性原子配列の創発的極限サイクル、カオス、不安定性

Emergent limit cycles, chaos, and bistability in driven-dissipative atomic arrays ( http://arxiv.org/abs/2406.19168v1 )

ライセンス: Link先を確認
Victoria Zhang, Stefan Ostermann, Oriol Rubies-Bigorda, Susanne F. Yelin, (参考訳) 我々は、光誘起双極子-双極子相互作用により原子が相互作用する自由空間におけるサブ波長周期原子配列の駆動散逸ダイナミクスを解析した。 システムパラメータによって、基礎となる平均場モデルは、単一の単安定定常解、不安定性(安定定常解が2つ存在する)、制限サイクル、カオス力学の4つの異なる種類のダイナミクスを、後期に許容する。 熱力学限界における異なる解を実現するために必要なパラメータについて条件を与える。 この制限では、光誘起双極子-双極子相互作用を介してアクセス可能なパラメータ値に対して、単安定または双安定状態のみにアクセスすることができる。 しかし、有限サイズの周期配列の場合、多体系の平均場動力学もまた極限サイクルとカオス挙動を示す。 特に、カオス力学の出現は、外部制御パラメータのランダム性に頼るのではなく、コヒーレントな駆動と消散の相互作用によってのみ発生する。

We analyze the driven-dissipative dynamics of subwavelength periodic atomic arrays in free space, where atoms interact via light-induced dipole-dipole interactions. We find that depending on the system parameters, the underlying mean-field model allows four different types of dynamics at late times: a single monostable steady state solution, bistability (where two stable steady state solutions exist), limit cycles and chaotic dynamics. We provide conditions on the parameters required to realize the different solutions in the thermodynamic limit. In this limit, only the monostable or bistable regime can be accessed for the parameter values accessible via light-induced dipole-dipole interactions. For finite size periodic arrays, however, we find that the mean-field dynamics of the many-body system also exhibit limit cycles and chaotic behavior. Notably, the emergence of chaotic dynamics does not rely on the randomness of an external control parameter but arises solely due to the interplay of coherent drive and dissipation.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# コンピテンスのイラシオン:視覚質問応答システムの利用者のメンタルモデルに対する説明の効果の評価

The Illusion of Competence: Evaluating the Effect of Explanations on Users' Mental Models of Visual Question Answering Systems ( http://arxiv.org/abs/2406.19170v1 )

ライセンス: Link先を確認
Judith Sieker, Simeon Junker, Ronja Utescher, Nazia Attari, Heiko Wersing, Hendrik Buschmeier, Sina Zarrieß, (参考訳) 我々は、AIシステムの限界が完璧に実行できないタスクに遭遇したとき、ユーザーがどのように感じているか、そして、その答えと共に説明を提供することが、システムの能力と限界の適切なメンタルモデルを構築するのに役立つかどうかを検討する。 我々は、視覚的なインプットを操作することでAIシステムの制限を制御する視覚的質問応答と説明タスクを用いる:推論中、システムはフルカラーまたはグレースケールのイメージを処理する。 私たちのゴールは、参加者がシステムの限界を認識できるかどうかを決定することです。 私たちは、説明が限定的なAI能力をユーザーにとってより透明にする、という仮説を立てています。 しかし,本研究の結果から,この効果は説明できないことが明らかとなった。 ユーザがAIシステムの制限をより正確に評価できるようにする代わりに、説明は一般的に、実際のパフォーマンスに関わらず、システムの能力に対するユーザの認識を高めます。

We examine how users perceive the limitations of an AI system when it encounters a task that it cannot perform perfectly and whether providing explanations alongside its answers aids users in constructing an appropriate mental model of the system's capabilities and limitations. We employ a visual question answer and explanation task where we control the AI system's limitations by manipulating the visual inputs: during inference, the system either processes full-color or grayscale images. Our goal is to determine whether participants can perceive the limitations of the system. We hypothesize that explanations will make limited AI capabilities more transparent to users. However, our results show that explanations do not have this effect. Instead of allowing users to more accurately assess the limitations of the AI system, explanations generally increase users' perceptions of the system's competence - regardless of its actual performance.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# デジタル農業のためのクラウドベース要求工学(CrowdRE4DF)を目指して

Towards Crowd-Based Requirements Engineering for Digital Farming (CrowdRE4DF) ( http://arxiv.org/abs/2406.19171v1 )

ライセンス: Link先を確認
Eduard C. Groen, Kazi Rezoanur Rahman, Nikita Narsinghani, Joerg Doerr, (参考訳) 農業分野はデジタルソリューションに大きくシフトしている。 しかし、デジタルファーミング(DF)技術に関する農家の要求を把握することは、ドメイン固有の課題のため難しい課題である。 農家は多様かつ国際的な実践者の集団を形成し、農業製品やサービスの共通プールを使用している。 この領域のオンラインユーザフィードバックは限定的であり,農家からのフィードバックを収集する手段を必要としていることがわかった。 私たちのソリューションであるFarmers' Voiceアプリケーションは、音声テキスト、機械学習(ML)、Web 2.0技術を使用します。 農夫5名による予備評価では, 騒音条件下においても, 高い技術受容率を示し, 正確な転写, ML分析が得られた。 本研究の成果は,DF技術の発展に資する。

The farming domain has seen a tremendous shift towards digital solutions. However, capturing farmers' requirements regarding Digital Farming (DF) technology remains a difficult task due to domain-specific challenges. Farmers form a diverse and international crowd of practitioners who use a common pool of agricultural products and services, which means we can consider the possibility of applying Crowd-based Requirements Engineering (CrowdRE) for DF: CrowdRE4DF. We found that online user feedback in this domain is limited, necessitating a way of capturing user feedback from farmers in situ. Our solution, the Farmers' Voice application, uses speech-to-text, Machine Learning (ML), and Web 2.0 technology. A preliminary evaluation with five farmers showed good technology acceptance, and accurate transcription and ML analysis even in noisy farm settings. Our findings help to drive the development of DF technology through in-situ requirements elicitation.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# アノテーションエラーとNER: OntoNotes 5.0による研究

Annotation Errors and NER: A Study with OntoNotes 5.0 ( http://arxiv.org/abs/2406.19172v1 )

ライセンス: Link先を確認
Gabriel Bernier-Colborne, Sowmya Vajjala, (参考訳) 名前付きエンティティ認識(NER)は、NLPにおいてよく研究されている問題である。 しかし、新しいNERモデルと比べて、NERデータセットの研究に注力する割合ははるかに少ない。 そこで本研究では,英語のNERコーパスであるOntoNotes 5.0コーパスにおいて,アノテーションエラーを検出するための3つの簡単な手法を用いた。 提案手法は, 列車/デブ/テストデータ中の文の約10%を補正した。 エンティティの参照に関しては、データセット内の参照のスパンと/またはタイプを約8%修正し、追加/削除/スプリッティング/マージを行いました。 OntoNotesのサイズを考えると、これらは多くの変更がある。 我々は3つのNERライブラリを使用して、オリジナルと再アノテーションされたデータセットでトレーニングされたモデルをトレーニングし、評価し、比較した。 我々のアノテーションエラー検出手法は徹底的ではなく、手作業によるアノテーションの取り組みもいくつかあるが、それらは言語に依存しないものであり、他のNERデータセットや他のシーケンスラベリングタスクと組み合わせることができる。

Named Entity Recognition (NER) is a well-studied problem in NLP. However, there is much less focus on studying NER datasets, compared to developing new NER models. In this paper, we employed three simple techniques to detect annotation errors in the OntoNotes 5.0 corpus for English NER, which is the largest available NER corpus for English. Our techniques corrected ~10% of the sentences in train/dev/test data. In terms of entity mentions, we corrected the span and/or type of ~8% of mentions in the dataset, while adding/deleting/splitting/merging a few more. These are large numbers of changes, considering the size of OntoNotes. We used three NER libraries to train, evaluate and compare the models trained with the original and the re-annotated datasets, which showed an average improvement of 1.23% in overall F-scores, with large (>10%) improvements for some of the entity types. While our annotation error detection methods are not exhaustive and there is some manual annotation effort involved, they are largely language agnostic and can be employed with other NER datasets, and other sequence labelling tasks.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# 非コヒーレント量子系におけるプレクシトニック状態のスターク制御

Stark Control of Plexcitonic States in Incoherent Quantum Systems ( http://arxiv.org/abs/2406.19173v1 )

ライセンス: Link先を確認
Hira Asif, Ramazan Sahin, (参考訳) プラズモンナノキャビティに埋め込まれた量子ドットの電気光学制御により、量子情報処理、絡み込み、超高速光スイッチングなどの量子光学系における新興用途のためのフォトニックデバイスの能動的チューニングが可能となる。 ここでは、複素シトニック状態のコヒーレント制御を実証する。 (i)共振器及び共振器 (II)光スターク効果(OSE)による共振結合量子系。 量子エミッタ(QE)の縮退状態における2次スタークシフトに起因する、可変ファノ共鳴、スターク誘導透過(SIT)および真空ラビ分裂を示すハイブリッドプラズモンエミッタ系を解析した。 さらに、共鳴結合系は、2レベルQEにおけるスターク誘起分裂による二重ファノ共鳴のシグネチャを示す。 本研究は, 量子系におけるデコヒーレンスを緩和するだけでなく, 可視光子放射のオン/オフスイッチングも促進することを示した。 このようなチューニング可能なシステムは、量子コンピューティングや情報処理への応用のためにフォトニック集積回路(PIC)を操作するのに使うことができる。

Electro-optic control of quantum dots embedded in the plasmonic nanocavities enables active tuning of photonic devices for emerging applications in Quantum optics such as quantum information processing, entanglement and ultrafast optical switching. Here, we demonstrate the coherent control of plexcitonic states in (i) an off-resonant and (ii) a resonant coupled quantum systems through optical Stark effect (OSE). We analyze a hybrid plasmon-emitter system which exhibits tunable Fano resonance, Stark induced transparency (SIT) and vacuum Rabi splitting due to quadratic Stark shift in the degenerate states of quantum emitter (QE). In addition, a resonantly coupled system shows the signature of double Fano resonance due to Stark-induced splitting in a two-level QE. Our study shows that Stark tuning of plexcitons not only mitigates decoherence in the quantum system but it also stimulates on/off switching of spontaneous photon emission in the visible regime. Such tunable systems can be used to operate photonic integrated circuits (PIC) for applications in quantum computing and information processing.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# シミュレーションデータを用いた欠陥検出のためのデータ取得とラベル付けの削減に向けて

Towards Reducing Data Acquisition and Labeling for Defect Detection using Simulated Data ( http://arxiv.org/abs/2406.19175v1 )

ライセンス: Link先を確認
Lukas Malte Kemeter, Rasmus Hvingelby, Paulina Sierak, Tobias Schön, Bishwajit Gosswam, (参考訳) 多くの製造環境では、機械学習やコンピュータビジョンのためのアノテートデータがコストがかかるが、合成データは大幅に低コストで生成される。 したがって、実世界のデータを合成データで置き換えることは、大量のトレーニングデータを必要とする多くの機械学習アプリケーションにとって魅力的である。 しかし、合成データのみに頼ることは、主に合成データと実世界のデータのドメインシフトのために、実世界のデータでうまく機能するモデルを効果的に訓練するには不十分であることが多い。 アルミニウムホイールのX線スキャンにおける欠陥を検出する際に,そのような領域シフトに対処するためのアプローチについて議論する。 シミュレーション画像と実世界のX線画像の両方を用いて、オブジェクト検出モデルを訓練し、注釈付き実世界のトレーニングサンプルの需要を最小化しつつ、最良の検出結果を生成するトレーニングアプローチを特定する。 以上の結果から, sim-2-real domain adapt approach は完全教師付きオラクルよりもコスト効率が高いことが示唆された。 ラベル付き実世界のサンプルが一定数あるとすると、合成データとラベル付けされていない実世界のデータの混合に関するトレーニングは、はるかに低コストで同等かさらに優れた検出結果を得た。 さまざまなトレーニング戦略の費用効率に関する今後の研究は、応用機械学習プロジェクトにおける予算配分方法の理解を深めるために重要であると我々は主張する。

In many manufacturing settings, annotating data for machine learning and computer vision is costly, but synthetic data can be generated at significantly lower cost. Substituting the real-world data with synthetic data is therefore appealing for many machine learning applications that require large amounts of training data. However, relying solely on synthetic data is frequently inadequate for effectively training models that perform well on real-world data, primarily due to domain shifts between the synthetic and real-world data. We discuss approaches for dealing with such a domain shift when detecting defects in X-ray scans of aluminium wheels. Using both simulated and real-world X-ray images, we train an object detection model with different strategies to identify the training approach that generates the best detection results while minimising the demand for annotated real-world training samples. Our preliminary findings suggest that the sim-2-real domain adaptation approach is more cost-efficient than a fully supervised oracle - if the total number of available annotated samples is fixed. Given a certain number of labeled real-world samples, training on a mix of synthetic and unlabeled real-world data achieved comparable or even better detection results at significantly lower cost. We argue that future research into the cost-efficiency of different training strategies is important for a better understanding of how to allocate budget in applied machine learning projects.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# 無限次元力学写像

Infinite dimensional dynamical maps ( http://arxiv.org/abs/2406.19176v1 )

ライセンス: Link先を確認
Bihalan Bhattacharya, Uwe Franz, Saikat Patra, Ritabrata Sengupta, (参考訳) 完全正のトレース保存写像は量子情報理論で広く使われている。 これらは主にマスター方程式の観点を用いて研究されている。 この理論の中心的な部分は、与えられた力学写像の系 $\{\Lambda_t: t \ge 0\}$ がマルコフ的か非マルコフ的かを研究することである。 ヒルベルト空間が無限次元であるときの問題を考察する。 動的写像の P (Resp. CP) 可視性をチェックするのに十分な条件を構築する。 ヒルベルト空間が有限次元でないようないくつかの例を構築する。 また、ガウス力学写像に特別な重点を置き、その結果のバージョンを得る。

Completely positive trace preserving maps are widely used in quantum information theory. These are mostly studied using the master equation perspective. A central part in this theory is to study whether a given system of dynamical maps $\{\Lambda_t: t \ge 0\}$ is Markovian or non-Markovian. We study the problem when the underlying Hilbert space is of infinite dimensional. We construct a sufficient condition for checking P (resp. CP) divisibility of dynamical maps. We construct several examples where the underlying Hilbert space may not be of finite dimensional. We also give a special emphasis on Gaussian dynamical maps and get a version of our result in it.
翻訳日:2024-06-28 14:08:07 公開日:2024-06-27
# コントラスト政策のグラディエント: 教師フレンドリーな方法によるシーケンスレベルスコアのLLMのアライメント

Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion ( http://arxiv.org/abs/2406.19185v1 )

ライセンス: Link先を確認
Yannis Flet-Berliac, Nathan Grinsztajn, Florian Strub, Eugene Choi, Chris Cremer, Arash Ahmadian, Yash Chandak, Mohammad Gheshlaghi Azar, Olivier Pietquin, Matthieu Geist, (参考訳) 強化学習(Reinforcement Learning, RL)は、嗜好データから訓練された報酬モデルを用いて大規模言語モデル(LLM)を微調整し、人間の判断に適合させる。 最近導入された直接アライメント法は、多くの場合より単純で、より安定で、計算的にもより軽量であり、より直接的にこれを達成することができる。 しかし、これらの手法は任意の報酬を最適化することができず、好みに基づいたものがLLM(例えば、コード生成の単体テストや要約のテキストエントリメントなど)にとって唯一の利益であるわけではない。 RLファインタニングは、通常、政策勾配のバリエーションによって行われる。 コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。 これは、重要なサンプリング技術に頼らず、(右の)状態ベースラインを使用することの重要性を強調する、政治外の方針勾配アプローチと見なすことができる。 本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。 提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,実験目的のための基礎的真理と考えられる学習報酬関数を用いて,要約タスクでLLMを微調整する。

Reinforcement Learning (RL) has been used to finetune Large Language Models (LLMs) using a reward model trained from preference data, to better align with human judgment. The recently introduced direct alignment methods, which are often simpler, more stable, and computationally lighter, can more directly achieve this. However, these approaches cannot optimize arbitrary rewards, and the preference-based ones are not the only rewards of interest for LLMs (eg., unit tests for code generation or textual entailment for summarization, among others). RL-finetuning is usually done with a variation of policy gradient, which calls for on-policy or near-on-policy samples, requiring costly generations. We introduce Contrastive Policy Gradient, or CoPG, a simple and mathematically principled new RL algorithm that can estimate the optimal policy even from off-policy data. It can be seen as an off-policy policy gradient approach that does not rely on important sampling techniques and highlights the importance of using (the right) state baseline. We show this approach to generalize the direct alignment method IPO (identity preference optimization) and classic policy gradient. We experiment with the proposed CoPG on a toy bandit problem to illustrate its properties, as well as for finetuning LLMs on a summarization task, using a learned reward function considered as ground truth for the purpose of the experiments.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# 直接アライメントにおけるログ類似度の平均化

Averaging log-likelihoods in direct alignment ( http://arxiv.org/abs/2406.19188v1 )

ライセンス: Link先を確認
Nathan Grinsztajn, Yannis Flet-Berliac, Mohammad Gheshlaghi Azar, Florian Strub, Bill Wu, Eugene Choi, Chris Cremer, Arash Ahmadian, Yash Chandak, Olivier Pietquin, Matthieu Geist, (参考訳) 大規模言語モデル(LLM)と人間の判断をよりよく整合させるため、RLHF(Reinforcement Learning from Human Feedback)は報酬モデルを学び、正規化されたRLを用いて最適化する。 近年、プロキシ報酬関数を計算せずに好みデータセットから直接、このような微調整されたモデルを学習するために、直接アライメント手法が導入された。 これらの手法は、訓練されたモデルに従って、(非)参照完了のログ類似度を含む対照的な損失に基づいて構築される。 しかし、完備化は様々な長さを持ち、対数様相は長さ不変ではない。 一方、教師付きトレーニングで使用されるクロスエントロピー損失は、バッチは通常トークン単位で平均化されるため、長さ不変である。 これらのアプローチを整理するために、直列長不変化のための原則的アプローチを導入する。 形式的には、基礎となるRL問題に最適なポリシーを与える最適性演算子で構成される新しい平均演算子を導入する。 損失の中でログライクな状態を平均化するのです。 このような平均化の効果を実証的に研究し、世代長とスコアのトレードオフを観察する。

To better align Large Language Models (LLMs) with human judgment, Reinforcement Learning from Human Feedback (RLHF) learns a reward model and then optimizes it using regularized RL. Recently, direct alignment methods were introduced to learn such a fine-tuned model directly from a preference dataset without computing a proxy reward function. These methods are built upon contrastive losses involving the log-likelihood of (dis)preferred completions according to the trained model. However, completions have various lengths, and the log-likelihood is not length-invariant. On the other side, the cross-entropy loss used in supervised training is length-invariant, as batches are typically averaged token-wise. To reconcile these approaches, we introduce a principled approach for making direct alignment length-invariant. Formally, we introduce a new averaging operator, to be composed with the optimality operator giving the best policy for the underlying RL problem. It translates into averaging the log-likelihood within the loss. We empirically study the effect of such averaging, observing a trade-off between the length of generations and their scores.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# BISeizure: BERTにインスパイアされたてんかんモニタリングを改善するセイズールデータ表現

BISeizuRe: BERT-Inspired Seizure Data Representation to Improve Epilepsy Monitoring ( http://arxiv.org/abs/2406.19189v1 )

ライセンス: Link先を確認
Luca Benfenati, Thorir Mar Ingolfsson, Andrea Cossettini, Daniele Jahier Pagliari, Alessio Burrello, Luca Benini, (参考訳) 本研究では,BERTモデルを用いた脳波による発作検出の新しい手法を提案する。 モデルであるBENDRは、2フェーズのトレーニングプロセスを実行している。 当初は1万人以上の被験者からなる1.5TBデータセットである、テンプル大学病院脳波コーパス(TUEG)で事前トレーニングが行われ、一般的な脳波データパターンを抽出する。 その後、このモデルはCHB-MIT Scalp EEG Databaseで微調整され、24人の小児患者の664の脳波記録からなり、そのうち198は発作イベントを含んでいる。 主な貢献はCHB-MITデータセットの微調整の最適化であり、モデルアーキテクチャ、前処理、後処理技術の影響を徹底的に調べ、感度を高め、1時間あたりの偽陽性を減らす(FP/h)。 また、最も効果的なセットアップを確認するために、カスタムトレーニング戦略についても検討しました。 このモデルは、被験者固有の微調整の前に、新しい第2の事前訓練フェーズを実行し、その一般化能力を高めた。 最適化されたモデルでは、ベースラインモデルよりも0.23 FP/h、2.5$\times$低い性能向上を実現し、低いが許容できる感度率で、EEGベースの発作検出にBERTベースのアプローチを適用する効果を示す。

This study presents a novel approach for EEG-based seizure detection leveraging a BERT-based model. The model, BENDR, undergoes a two-phase training process. Initially, it is pre-trained on the extensive Temple University Hospital EEG Corpus (TUEG), a 1.5 TB dataset comprising over 10,000 subjects, to extract common EEG data patterns. Subsequently, the model is fine-tuned on the CHB-MIT Scalp EEG Database, consisting of 664 EEG recordings from 24 pediatric patients, of which 198 contain seizure events. Key contributions include optimizing fine-tuning on the CHB-MIT dataset, where the impact of model architecture, pre-processing, and post-processing techniques are thoroughly examined to enhance sensitivity and reduce false positives per hour (FP/h). We also explored custom training strategies to ascertain the most effective setup. The model undergoes a novel second pre-training phase before subject-specific fine-tuning, enhancing its generalization capabilities. The optimized model demonstrates substantial performance enhancements, achieving as low as 0.23 FP/h, 2.5$\times$ lower than the baseline model, with a lower but still acceptable sensitivity rate, showcasing the effectiveness of applying a BERT-based approach on EEG-based seizure detection.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# 長期不均一線量応答曲線の推定:最適輸送重量を用いた一般化境界

Estimating Long-term Heterogeneous Dose-response Curve: Generalization Bound Leveraging Optimal Transport Weights ( http://arxiv.org/abs/2406.19195v1 )

ライセンス: Link先を確認
Zeqin Yang, Weilin Chen, Ruichu Cai, Yuguang Yan, Zhifeng Hao, Zhipeng Yu, Zhichao Zou, Zhen Peng, Jiecheng Guo, (参考訳) 多くのアプリケーションにおいて、因果効果の長期推定は重要な問題であるが難しい問題である。 既存の手法は, 長期平均効果を推定する理想的な仮定(例えば, 保存されていない共同設立者やバイナリ処理など)に依存するが, 多数の実世界の応用では, これらの仮定に違反する可能性があり, 平均効果は個々のレベルの提案を与えることができない。 具体的には,観測データに未観測の混在を取り除くために,観測データと実験データとを理論的保証で整合させるための最適な輸送重み付けフレームワークを導入する。 さらに, 連続処理による不均一な効果を正確に予測するために, 最適輸送により誘導される再重み付き分布を利用して, 対実予測誤差に縛られる一般化を確立する。 最後に,上述の理論的基礎に基づくHDRC推定器の開発を行う。 複数の合成および半合成データセットに対して行われた大規模な実験により,提案手法の有効性が示された。

Long-term causal effect estimation is a significant but challenging problem in many applications. Existing methods rely on ideal assumptions to estimate long-term average effects, e.g., no unobserved confounders or a binary treatment,while in numerous real-world applications, these assumptions could be violated and average effects are unable to provide individual-level suggestions.In this paper,we address a more general problem of estimating the long-term heterogeneous dose-response curve (HDRC) while accounting for unobserved confounders. Specifically, to remove unobserved confounding in observational data, we introduce an optimal transport weighting framework to align the observational data to the experimental data with theoretical guarantees. Furthermore,to accurately predict the heterogeneous effects of continuous treatment, we establish a generalization bound on counterfactual prediction error by leveraging the reweighted distribution induced by optimal transport. Finally, we develop an HDRC estimator building upon the above theoretical foundations. Extensive experimental studies conducted on multiple synthetic and semi-synthetic datasets demonstrate the effectiveness of our proposed method.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# 量子熱力学

Quantum Thermodynamics ( http://arxiv.org/abs/2406.19206v1 )

ライセンス: Link先を確認
Patrick P. Potts, (参考訳) 量子熱力学の理論は、熱、仕事、温度の概念がどのように量子領域に伝えられるかを研究し、変動とランダム性は基本的に避けられない。 これらの講義ノートは、小さな量子系の熱力学について紹介している。 量子論から熱力学の法則が出現し、マルコフのマスター方程式によって量子系がいかにモデル化されるかが示されている。 冷却や絡み込みの発生など、特定のタスクを実行するように設計された量子システムを考える。 最後に, 揺らぎが熱力学的記述に及ぼす影響について考察した。

The theory of quantum thermodynamics investigates how the concepts of heat, work, and temperature can be carried over to the quantum realm, where fluctuations and randomness are fundamentally unavoidable. These lecture notes provide an introduction to the thermodynamics of small quantum systems. It is illustrated how the laws of thermodynamics emerge from quantum theory and how open quantum systems can be modeled by Markovian master equations. Quantum systems that are designed to perform a certain task, such as cooling or generating entanglement are considered. Finally, the effect of fluctuations on the thermodynamic description is discussed.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# 繰り返し光子付加によるループ中の光子数状態

Photon number states via iterated photon addition in a loop ( http://arxiv.org/abs/2406.19207v1 )

ライセンス: Link先を確認
Barna Mendei, Gábor Homa, Péter Ádám, Mátyás Koniorczyk, (参考訳) 単光子パルス列からの時間ビン光子数状態の確率的生成を考察する。 ビームスプリッタと非イデル検出器を備えた簡易な干渉フィードバックループ構成を提案する。 このHong-Ou-Mandel型スキームは、反復光子付加を実装している。 我々の詳細な研究によると、この簡単なセットアップで最大4個の光子が、合理的な成功の確率と忠実さをもたらすことが示されている。

We consider the probabilistic generation of time-bin photon number states from a train of single photon pulses. We propose a simple interferometric feedback loop setup having a beam splitter and a possibly non-idel detector. This Hong-Ou-Mandel type scheme implements iterated photon additions. Our detailed study shows that up to 4 photons this simple setup can provide reasonable success probabilities and fidelities.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# JuliVQC: 短期量子アルゴリズムのための効率的な変分量子回路シミュレータ

JuliVQC: an Efficient Variational Quantum Circuit Simulator for Near-Term Quantum Algorithms ( http://arxiv.org/abs/2406.19212v1 )

ライセンス: Link先を確認
Wei-You Liao, Xiang Wang, Xiao-Yue Xu, Chen Ding, Shuo Zhang, He-Liang Huang, Chu Guo, (参考訳) 軽量かつ高効率な変動型量子回路シミュレータJuliVQCを紹介する。 JuliVQCは、古典的な検証と性能ベンチマークのためのSchr$\ddot{\text{o}}$dinger-Feynmanアルゴリズムのビルディングブロックとして、Fsimゲートパラメータの変分最適化に広く使われている。 JuliVQCの設計原理は,(1)高性能なスクリプト言語Juliaを用いて実現されたコアアルゴリズムの透過的な実装,(2)初等演算のキャッシュフレンドリな実装と共有メモリ並列化のサポート,(3)ノイズのない量子回路とノイズの多い量子回路の両方に対する自動微分のネイティブサポート,の3つである。 量子回路や変分量子回路など,さまざまな応用シナリオにおけるJuliVQCに関する広範な数値実験を行い,その性能が一般的な代替品の最上位であることを示す。

We introduce JuliVQC: a light-weight, yet extremely efficient variational quantum circuit simulator. JuliVQC is part of an effort for classical simulation of the \textit{Zuchongzhi} quantum processors, where it is extensively used to characterize the circuit noises, as a building block in the Schr$\ddot{\text{o}}$dinger-Feynman algorithm for classical verification and performance benchmarking, and for variational optimization of the Fsim gate parameters. The design principle of JuliVQC is three-fold: (1) Transparent implementation of its core algorithms, realized by using the high-performance script language Julia; (2) Efficiency is the focus, with a cache-friendly implementation of each elementary operations and support for shared-memory parallelization; (3) Native support of automatic differentiation for both the noiseless and noisy quantum circuits. We perform extensive numerical experiments on JuliVQC in different application scenarios, including quantum circuits, variational quantum circuits and their noisy counterparts, which show that its performance is among the top of the popular alternatives.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# SeaKR: 適応型検索拡張生成のための自己認識型知識検索

SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation ( http://arxiv.org/abs/2406.19215v1 )

ライセンス: Link先を確認
Zijun Yao, Weijian Qi, Liangming Pan, Shulin Cao, Linmei Hu, Weichuan Liu, Lei Hou, Juanzi Li, (参考訳) 本稿では,LLMの自己認識不確実性を内部状態から抽出する適応型RAGモデルであるSelf-Aware Knowledge Retrieval(SeaKR)を紹介する。 SeaKRは、LLMが生成に対して高い自己認識不確実性を示すとき、検索を起動する。 検索した知識スニペットを効果的に統合するために、SeaKRはLLMの自己認識の不確実性に基づいてそれらを再ランクし、最も不確実性を減らすスニペットを保存する。 複数の検索を必要とする複雑なタスクの解決を容易にするために、SeaKRは自己認識の不確実性を利用して、異なる推論戦略を選択する。 複雑で単純な問合せ解答データセットを用いた実験により,SeaKRが既存の適応RAG法より優れていることが示された。 コードについてはhttps://github.com/THU-KEG/SeaKR.comで公開しています。

This paper introduces Self-aware Knowledge Retrieval (SeaKR), a novel adaptive RAG model that extracts self-aware uncertainty of LLMs from their internal states. SeaKR activates retrieval when the LLMs present high self-aware uncertainty for generation. To effectively integrate retrieved knowledge snippets, SeaKR re-ranks them based on LLM's self-aware uncertainty to preserve the snippet that reduces their uncertainty to the utmost. To facilitate solving complex tasks that require multiple retrievals, SeaKR utilizes their self-aware uncertainty to choose among different reasoning strategies. Our experiments on both complex and simple Question Answering datasets show that SeaKR outperforms existing adaptive RAG methods. We release our code at https://github.com/THU-KEG/SeaKR.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# ステップ・バイ・ステップ:ロボット手術ビデオにおける誤り検出のためのジェスチャーの連鎖プロンプト

Think Step by Step: Chain-of-Gesture Prompting for Error Detection in Robotic Surgical Videos ( http://arxiv.org/abs/2406.19217v1 )

ライセンス: Link先を確認
Zhimin Shao, Jialang Xu, Danail Stoyanov, Evangelos B. Mazomenos, Yueming Jin, (参考訳) ロボットシステムと外科データ科学の進歩にもかかわらず、ロボットによる最小侵襲手術(RMIS)の安全かつ最適な実行を保証することは難しい課題である。 現在の外科的誤り検出方法は、外科的ジェスチャーを識別し、各ジェスチャークリップ内のエラーを検出する2つの部分を含む。 これらの手法は、手術ビデオに固有のコンテキスト情報や意味情報を豊富に考慮することは滅多になく、正確なジェスチャー識別に依存するため、その性能を制限している。 自然言語処理におけるチェーン・オブ・シークレットによって動機づけられたこの手紙は、外科的ビデオからコンテキスト情報を活用する、新しい、リアルタイムなエンドツーエンドエラー検出フレームワークであるChain-of-Thought(COG)を提示する。 これは、専門家外科医の意思決定プロセスを模倣するために設計された2つの推論モジュールを含んでいる。 具体的には、まず、ジェスチャーのプロンプトにトランスフォーマーとアテンションアーキテクチャを利用するGestural-Visual Reasoningモジュールを設計し、次に、マルチスケールのテンポラル推論モジュールであるGestural-Visual Reasoningモジュールは、時間的情報抽出のための遅い経路と速い経路の両方を持つ多段階の時間的畳み込みネットワークを使用する。 我々は、RMISデータセットJIGSAWSの公開ベンチマークにおいて、我々の手法を広範囲に検証した。 本手法は,術式固有の推論過程をカプセル化し,F1スコアの4.6%,精度の4.6%,Jaccardインデックスの5.9%を平均6.69ミリ秒で処理し,術式および術式教育の安全性と効果を高めるためのアプローチの可能性を示した。 コードは利用可能です。

Despite significant advancements in robotic systems and surgical data science, ensuring safe and optimal execution in robot-assisted minimally invasive surgery (RMIS) remains a complex challenge. Current surgical error detection methods involve two parts: identifying surgical gestures and then detecting errors within each gesture clip. These methods seldom consider the rich contextual and semantic information inherent in surgical videos, limiting their performance due to reliance on accurate gesture identification. Motivated by the chain-of-thought prompting in natural language processing, this letter presents a novel and real-time end-to-end error detection framework, Chain-of-Thought (COG) prompting, leveraging contextual information from surgical videos. This encompasses two reasoning modules designed to mimic the decision-making processes of expert surgeons. Concretely, we first design a Gestural-Visual Reasoning module, which utilizes transformer and attention architectures for gesture prompting, while the second, a Multi-Scale Temporal Reasoning module, employs a multi-stage temporal convolutional network with both slow and fast paths for temporal information extraction. We extensively validate our method on the public benchmark RMIS dataset JIGSAWS. Our method encapsulates the reasoning processes inherent to surgical activities enabling it to outperform the state-of-the-art by 4.6% in F1 score, 4.6% in Accuracy, and 5.9% in Jaccard index while processing each frame in 6.69 milliseconds on average, demonstrating the great potential of our approach in enhancing the safety and efficacy of RMIS procedures and surgical education. The code will be available.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# 自動エンコーダをアグリゲートして、不均衡なデータに永続的アクセスの脅威に対処する

Hack Me If You Can: Aggregating AutoEncoders for Countering Persistent Access Threats Within Highly Imbalanced Data ( http://arxiv.org/abs/2406.19220v1 )

ライセンス: Link先を確認
Sidahmed Benabderrahmane, Ngoc Hoang, Petko Valtchev, James Cheney, Talal Rahwan, (参考訳) Advanced Persistent Threats (APTs) は高度で標的となるサイバー攻撃であり、システムへの不正アクセスと長期にわたって検出されないように設計されている。 検出を回避するため、APTサイバー攻撃は防御層を侵害や悪用で騙し、従来の異常検出ベースのセキュリティ手法による露出を複雑にする。 機械学習によるAPTの検出の課題は、関連するデータセットの希少さとデータの大きな不均衡によって複雑化され、検出プロセスは非常に負担がかかる。 AE-APTは,基本的なものからトランスフォーマーベースのものまで,一連のAutoEncoderメソッドを特徴とする,深層学習に基づくAPT検出ツールである。 我々は、DARPA Transparent Computingプログラムが生成した実績トレースデータベースのスイート上で、APTライクな攻撃がデータの0.004%を占めるように評価した。 データセットは、Android、Linux、BSD、Windowsを含む複数のオペレーティングシステムにまたがっており、2つの攻撃シナリオをカバーする。 その結果,AE-APTは競合他社に比べて検出速度が有意に高く,異常検出・ランク付け性能が優れていた。

Advanced Persistent Threats (APTs) are sophisticated, targeted cyberattacks designed to gain unauthorized access to systems and remain undetected for extended periods. To evade detection, APT cyberattacks deceive defense layers with breaches and exploits, thereby complicating exposure by traditional anomaly detection-based security methods. The challenge of detecting APTs with machine learning is compounded by the rarity of relevant datasets and the significant imbalance in the data, which makes the detection process highly burdensome. We present AE-APT, a deep learning-based tool for APT detection that features a family of AutoEncoder methods ranging from a basic one to a Transformer-based one. We evaluated our tool on a suite of provenance trace databases produced by the DARPA Transparent Computing program, where APT-like attacks constitute as little as 0.004% of the data. The datasets span multiple operating systems, including Android, Linux, BSD, and Windows, and cover two attack scenarios. The outcomes showed that AE-APT has significantly higher detection rates compared to its competitors, indicating superior performance in detecting and ranking anomalies.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# 古典的ネットワークから構築された量子様積状態

Quantum-like product states constructed from classical networks ( http://arxiv.org/abs/2406.19221v1 )

ライセンス: Link先を確認
Gregory D. Scholes, Graziano Amati, (参考訳) 量子状態の力は、部分的には積状態の重ね合わせから生じる。 複素古典系は、基底状態のテンソル積のそのような重ね合わせを示し、量子状態を模倣するように設計できるだろうか? 任意の数の量子ビットからなる量子状態の積基底と古典振動子ネットワークを構成する構成の固有状態との間に1対1の写像を示す。 具体的には、グラフのカルト積に基づくこの写像の存在を証明し、このグラフは発振器ネットワークのレイアウトを描いている。

The power of quantum states arises in part from superpositions of product states. Can complex classical systems be designed to exhibit such superpositions of tensor products of basis states, thereby mimicking quantum states? We exhibit a one-to-one map between the product basis of quantum states comprising an arbitrary number of qubits and the eigenstates of a construction comprising classical oscillator networks. Specifically, we prove the existence of this map based on Cartesian products of graphs, where the graphs depict the layout of oscillator networks.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# T-FREE: メモリ効率の良い埋め込みのためのスパース表現によるTokenizer-free Generative LLM

T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings ( http://arxiv.org/abs/2406.19223v1 )

ライセンス: Link先を確認
Björn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach, (参考訳) トケナイザーは、大規模言語モデルで情報をエンコードするのに不可欠であるが、その開発は、最近停滞しており、固有の弱点を含んでいる。 主な制限は、計算オーバーヘッド、非効率な語彙の使用、不要に大きな埋め込み層とヘッド層である。 さらに、それらのパフォーマンスは参照コーパスに偏りがあり、表現不足の言語の有効性が低下する。 これらの問題を解決するため,文字三重項上のスパースアクティベーションパターンを通じて単語を直接埋め込み,参照コーパスを必要としないT-FREEを提案する。 T-FREEは本質的に形態学的類似性を利用し、埋め込み層の強い圧縮を可能にする。 実験の結果,これらの層ではパラメータが85%以上減少し,競争力のある下流性能が得られた。 さらに、T-FREEは言語間移動学習の大幅な改善を示している。

Tokenizers are crucial for encoding information in Large Language Models, but their development has recently stagnated, and they contain inherent weaknesses. Major limitations include computational overhead, ineffective vocabulary use, and unnecessarily large embedding and head layers. Additionally, their performance is biased towards a reference corpus, leading to reduced effectiveness for underrepresented languages. To remedy these issues, we propose T-FREE, which directly embeds words through sparse activation patterns over character triplets, and does not require a reference corpus. T-FREE inherently exploits morphological similarities and allows for strong compression of embedding layers. In our exhaustive experimental evaluation, we achieve competitive downstream performance with a parameter reduction of more than 85% on these layers. Further, T-FREE shows significant improvements in cross-lingual transfer learning.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# ProtoGMM:セマンティックセグメンテーションのためのマルチプロトタイプガウスミクチャーベースドメイン適応モデル

ProtoGMM: Multi-prototype Gaussian-Mixture-based Domain Adaptation Model for Semantic Segmentation ( http://arxiv.org/abs/2406.19225v1 )

ライセンス: Link先を確認
Nazanin Moradinasab, Laura S. Shankman, Rebecca A. Deaton, Gary K. Owens, Donald E. Brown, (参考訳) ドメイン適応セマンティックセグメンテーションは、ラベル付きソースドメインでトレーニングされた教師付きモデルを活用することで、ラベルなしターゲットドメインの正確で高密度な予測を生成することを目的としている。 一般的な自己学習アプローチでは、ターゲット領域からの擬ラベルを用いて、$p(class|pixel feature)$の高密度な識別的分類器を再訓練する。 多くのメソッドは、ノイズの多い擬似ラベルの問題を軽減することに重点を置いているが、ソースドメインとターゲットドメインの両方において、基礎となるデータ分散p(ピクセル特徴|クラス)を見落としていることが多い。 この制限に対処するために,GMMを対照的な損失に組み込んだマルチプロトタイプのガウス・ミクチャーベース(ProtoGMM)モデルを提案する。 対照的な損失は、メモリバンクを使用して文献で一般的に実行されるため、クラスが不足しているため、クラスバイアスにつながる可能性がある。 さらに、メモリバンクはしばしば固定容量を持ち、モデルがターゲット/ソース領域の様々な表現をキャプチャする能力を制限する可能性がある。 別のアプローチは、グローバルクラスのプロトタイプ(すなわちカテゴリごとの平均的な特徴)を使用することである。 しかし、グローバルプロトタイプはクラスごとの単調分布の仮定に基づいており、クラス内の変動を無視している。 これらの課題に対処するため,我々はProtoGMMモデルを提案する。 本手法では, ソースサンプルの特徴空間上のGMMを利用して, 基礎となるマルチプロトタイプソース分布を推定する。 GMMモデルのコンポーネントは、代表的なプロトタイプとして機能する。 クラス内セマンティックな類似性の向上,クラス間類似性の低下,およびソースとターゲットドメイン間のドメインアライメントを実現するために,ソース分布とターゲットサンプル間のマルチプロトタイプコントラスト学習を採用する。 実験により,UDAベンチマークにおける本手法の有効性が示された。

Domain adaptive semantic segmentation aims to generate accurate and dense predictions for an unlabeled target domain by leveraging a supervised model trained on a labeled source domain. The prevalent self-training approach involves retraining the dense discriminative classifier of $p(class|pixel feature)$ using the pseudo-labels from the target domain. While many methods focus on mitigating the issue of noisy pseudo-labels, they often overlook the underlying data distribution p(pixel feature|class) in both the source and target domains. To address this limitation, we propose the multi-prototype Gaussian-Mixture-based (ProtoGMM) model, which incorporates the GMM into contrastive losses to perform guided contrastive learning. Contrastive losses are commonly executed in the literature using memory banks, which can lead to class biases due to underrepresented classes. Furthermore, memory banks often have fixed capacities, potentially restricting the model's ability to capture diverse representations of the target/source domains. An alternative approach is to use global class prototypes (i.e. averaged features per category). However, the global prototypes are based on the unimodal distribution assumption per class, disregarding within-class variation. To address these challenges, we propose the ProtoGMM model. This novel approach involves estimating the underlying multi-prototype source distribution by utilizing the GMM on the feature space of the source samples. The components of the GMM model act as representative prototypes. To achieve increased intra-class semantic similarity, decreased inter-class similarity, and domain alignment between the source and target domains, we employ multi-prototype contrastive learning between source distribution and target samples. The experiments show the effectiveness of our method on UDA benchmarks.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# LLMエージェントを用いた教室教育のシミュレーション

Simulating Classroom Education with LLM-Empowered Agents ( http://arxiv.org/abs/2406.19226v1 )

ライセンス: Link先を確認
Zheyuan Zhang, Daniel Zhang-Li, Jifan Yu, Linlu Gong, Jinchang Zhou, Zhiyuan Liu, Lei Hou, Juanzi Li, (参考訳) 大型言語モデル (LLM) は、様々なインテリジェントな教育タスクに採用されている。 予備的な調査は、特定の教育タスクのための独立したLLMエージェントに焦点を当ててきたが、実際のユーザ参加を伴う教室をシミュレートするマルチエージェント協調フレームワークにおけるLLMの可能性は、まだ明らかになっていない。 本研究では,ユーザ参加を伴うマルチエージェント教室シミュレーションフレームワークであるSimClassを提案する。 代表的クラスの役割を認識し、自動授業のための新しいクラス制御機構を導入し、2つの現実世界のコースでユーザー実験を行う。 本研究では, Flanders Interactive Analysis SystemとCommunity of Inquiry理論フレームを教育分析から利用し, LLMが従来の教室のインタラクションパターンを効果的にシミュレートし, ユーザエクスペリエンスを向上させることを実証する。 また,SimClassにおけるエージェント間の創発的グループ行動も観察し,学習プロセスを改善するために,エージェントが協調して教室内での対話を創出する様子を観察した。 本研究は,LLMを利用した仮想教室教育におけるマルチエージェントシステムの先駆的活用を期待する。

Large language models (LLMs) have been employed in various intelligent educational tasks to assist teaching. While preliminary explorations have focused on independent LLM-empowered agents for specific educational tasks, the potential for LLMs within a multi-agent collaborative framework to simulate a classroom with real user participation remains unexplored. In this work, we propose SimClass, a multi-agent classroom simulation framework involving user participation. We recognize representative class roles and introduce a novel class control mechanism for automatic classroom teaching, and conduct user experiments in two real-world courses. Utilizing the Flanders Interactive Analysis System and Community of Inquiry theoretical frame works from educational analysis, we demonstrate that LLMs can simulate traditional classroom interaction patterns effectively while enhancing user's experience. We also observe emergent group behaviors among agents in SimClass, where agents collaborate to create enlivening interactions in classrooms to improve user learning process. We hope this work pioneers the application of LLM-empowered multi-agent systems in virtual classroom teaching.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# 教員養成データ生成における学生選好の調整

Aligning Teacher with Student Preferences for Tailored Training Data Generation ( http://arxiv.org/abs/2406.19227v1 )

ライセンス: Link先を確認
Yantao Liu, Zhao Zhang, Zijun Yao, Shulin Cao, Lei Hou, Juanzi Li, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにおいてコピロとして大きな可能性を示してきた。 プライバシに敏感なデータやレイテンシに敏感なタスクを処理するには,エッジデバイスにLLMをローカルにデプロイする必要がある。 このような装置の計算上の制約は、大規模モデルから軽量モデルへの知識蒸留を必要とせず、強力な大規模LCMの直接展開を非現実的にする。 LLMから多様性と品質のトレーニングの例を引き出すために多くの研究がなされてきたが、教育学における「レスポンシブ・インストラクター」に似た、学生の好みに基づく教師の指導内容の整合にはほとんど注意が払われていない。 そこで我々は,教師モデルと生徒の好みを整合させて,知識蒸留のための調整されたトレーニング例を生成するフレームワーク,Aligning TeacheR with StudenT PreferencEsを提案する。 具体的には,教師モデルから質問文や合理性を抽出し,これらの質問文から学生の嗜好を抽出し,教師モデルと生徒の嗜好を整合させる。 最後に,教師モデルと協調する第1ステップを繰り返すことで,対象課題における生徒モデルに適した訓練例を提示する。 学術ベンチマークの大規模な実験は、強力なLLMから抽出した既存の命令チューニングデータセットよりもARTEの方が優れていることを示した。 さらに,ARTEの一般化を徹底的に検討し,推論能力における微調整学生モデルの一般化や,タスクや学生間で調整されたトレーニングデータを生成するための整列教師モデルの一般化について検討する。 まとめると、我々の貢献は、学習例生成のための新しい枠組みを提案し、実験においてその効果を実証し、ARTEにおける学生モデルと教師モデルの両方の一般化を調査することにある。

Large Language Models (LLMs) have shown significant promise as copilots in various tasks. Local deployment of LLMs on edge devices is necessary when handling privacy-sensitive data or latency-sensitive tasks. The computational constraints of such devices make direct deployment of powerful large-scale LLMs impractical, necessitating the Knowledge Distillation from large-scale models to lightweight models. Lots of work has been done to elicit diversity and quality training examples from LLMs, but little attention has been paid to aligning teacher instructional content based on student preferences, akin to "responsive teaching" in pedagogy. Thus, we propose ARTE, dubbed Aligning TeacheR with StudenT PreferencEs, a framework that aligns the teacher model with student preferences to generate tailored training examples for Knowledge Distillation. Specifically, we elicit draft questions and rationales from the teacher model, then collect student preferences on these questions and rationales using students' performance with in-context learning as a proxy, and finally align the teacher model with student preferences. In the end, we repeat the first step with the aligned teacher model to elicit tailored training examples for the student model on the target task. Extensive experiments on academic benchmarks demonstrate the superiority of ARTE over existing instruction-tuning datasets distilled from powerful LLMs. Moreover, we thoroughly investigate the generalization of ARTE, including the generalization of fine-tuned student models in reasoning ability and the generalization of aligned teacher models to generate tailored training data across tasks and students. In summary, our contributions lie in proposing a novel framework for tailored training example generation, demonstrating its efficacy in experiments, and investigating the generalization of both student & aligned teacher models in ARTE.
翻訳日:2024-06-28 13:58:17 公開日:2024-06-27
# ツールフェール: 障害ツールにおけるサイレントエラーの検出

Tools Fail: Detecting Silent Errors in Faulty Tools ( http://arxiv.org/abs/2406.19228v1 )

ライセンス: Link先を確認
Jimin Sun, So Yeon Min, Yingshan Chang, Yonatan Bisk, (参考訳) ツールはLLMのメインステイとなり、ウェイトではなく知識を検索したり、ウェブ上でタスクを実行したり、ロボットを制御したりすることが可能になった。 しかし、ツール利用に関する多くのオントロジーや調査は、LLMにとっての中核的な課題はツールを選択することであると仮定している。 その代わりに、より広範囲にツールのためのフレームワークを導入し、モデルが“サイレント”なツールエラーを検知し、どのように計画するかを反映する能力を探求できるようにします。 これは、ますます普及しているツールとしてのモデルの使用と直接的に一致している。 制御電卓設定と具体化エージェント計画の両方で有望な結果が得られるような早期の故障復旧手法を提案する。

Tools have become a mainstay of LLMs, allowing them to retrieve knowledge not in their weights, to perform tasks on the web, and even to control robots. However, most ontologies and surveys of tool-use have assumed the core challenge for LLMs is choosing the tool. Instead, we introduce a framework for tools more broadly which guides us to explore a model's ability to detect "silent" tool errors, and reflect on how to plan. This more directly aligns with the increasingly popular use of models as tools. We provide an initial approach to failure recovery with promising results both on a controlled calculator setting and embodied agent planning.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# テキスト分類のためのスパイキング畳み込みニューラルネットワーク

Spiking Convolutional Neural Networks for Text Classification ( http://arxiv.org/abs/2406.19230v1 )

ライセンス: Link先を確認
Changze Lv, Jianhan Xu, Xiaoqing Zheng, (参考訳) スパイキングニューラルネットワーク(SNN)は、ニューロンがわずかに活性化され、推論がイベント駆動であるため、よりエネルギー効率の良い方法でディープニューラルネットワーク(DNN)を実装するための有望な経路を提供する。 しかし、スパイクの形で単語を表現したり、SNNによる可変長テキストを扱うことは自明ではないため、言語タスクにおけるSNNの有効性を示す研究はほとんどない。 本研究では、テキスト分類のためのSNNの「変換+微調整」2段階法を提案し、事前学習した単語埋め込みをスパイクトレインとしてエンコードする簡易かつ効果的な方法を提案する。 代用勾配で微調整した後、変換されたSNNは、英語と中国語の両方の複数のデータセットにおいて、より少ないエネルギー消費で、彼らのDNNと同等の結果が得られることを実証的に示す。 また、このようなSNNは、DNNよりも敵攻撃に対して堅牢であることを示す。

Spiking neural networks (SNNs) offer a promising pathway to implement deep neural networks (DNNs) in a more energy-efficient manner since their neurons are sparsely activated and inferences are event-driven. However, there have been very few works that have demonstrated the efficacy of SNNs in language tasks partially because it is non-trivial to represent words in the forms of spikes and to deal with variable-length texts by SNNs. This work presents a "conversion + fine-tuning" two-step method for training SNNs for text classification and proposes a simple but effective way to encode pre-trained word embeddings as spike trains. We show empirically that after fine-tuning with surrogate gradients, the converted SNNs achieve comparable results to their DNN counterparts with much less energy consumption across multiple datasets for both English and Chinese. We also show that such SNNs are more robust to adversarial attacks than DNNs.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# RuBLiMP:ロシア、言語学的最小のペアのベンチマークを実施

RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs ( http://arxiv.org/abs/2406.19232v1 )

ライセンス: Link先を確認
Ekaterina Taktasheva, Maxim Bazhukov, Kirill Koncha, Alena Fenogenova, Ekaterina Artemova, (参考訳) 最小ペアは言語モデルの文法的知識を評価するための確立されたアプローチである。 しかし、最小のペアのための既存のリソースは、限られた数の言語に対処し、言語固有の文法現象の多様性を欠いている。 本稿では, 文法的, 構文的, 意味的現象を分離し, 文法的に異なる45k対の文を含むロシア語の言語最小ペアのベンチマーク(RuBLiMP)を紹介する。 既存の言語最小ペアのベンチマークとは対照的に、RuBLiMPはオープンテキストコーパスから自動的に注釈付き文に言語摂動を適用し、テストデータを慎重にキュレートすることで生成される。 本稿では,データ収集プロトコルについて述べるとともに,様々なシナリオにおける25の言語モデルの評価結果を示す。 ロシア語の言語モデルは, 構造的・合意的コントラストに敏感であるが, 構造的関係, 否定, 推移性, 時制の理解を必要とする現象に人間に遅れがあることが判明した。 RuBLiMP、コードベース、その他の資料が公開されている。

Minimal pairs are a well-established approach to evaluating the grammatical knowledge of language models. However, existing resources for minimal pairs address a limited number of languages and lack diversity of language-specific grammatical phenomena. This paper introduces the Russian Benchmark of Linguistic Minimal Pairs (RuBLiMP), which includes 45k pairs of sentences that differ in grammaticality and isolate a morphological, syntactic, or semantic phenomenon. In contrast to existing benchmarks of linguistic minimal pairs, RuBLiMP is created by applying linguistic perturbations to automatically annotated sentences from open text corpora and carefully curating test data. We describe the data collection protocol and present the results of evaluating 25 language models in various scenarios. We find that the widely used language models for Russian are sensitive to morphological and agreement-oriented contrasts but fall behind humans on phenomena requiring understanding of structural relations, negation, transitivity, and tense. RuBLiMP, the codebase, and other materials are publicly available.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# ブラックボックスの会員数推論攻撃で、検索世代が増加

Seeing Is Believing: Black-Box Membership Inference Attacks Against Retrieval Augmented Generation ( http://arxiv.org/abs/2406.19234v1 )

ライセンス: Link先を確認
Yuying Li, Gaoyang Liu, Yang Yang, Chen Wang, (参考訳) Retrieval-Augmented Generation (RAG)は、外部の非パラメトリックデータベースから関連する知識を取得することによって、大規模言語モデル(LLM)を強化する最先端技術である。 このアプローチは、幻覚や時代遅れの知識など、一般的なLCMの問題を軽減することを目的としている。 既存の研究では、RAGシステム内のセキュリティとプライバシの脆弱性が証明されているため、Jailbreakやインジェクションのプロンプトのような攻撃を受けやすいが、RAGシステムの外部データベースのセキュリティはいまだに過小評価されている。 本稿では,会員推論攻撃(MIA)を用いて,サンプルがRAGシステムの知識データベースの一部であるか否かをブラックボックスAPIアクセスのみを用いて判定する。 我々の中核仮説は、サンプルがメンバーであれば、RAGシステムによって生成されたテキストとかなり類似していることを示します。 これをテストするために、コサイン類似度とモデルの難易度を計算し、メンバーシップスコアを確立することにより、ロバストな特徴を構築する。 次に、Thresholdベースのアタックと機械学習ベースのアタックという、メンバシップを正確に識別する2つの新しいアタック戦略を紹介します。 提案手法を実験的に検証した結果,ROC AUCは82%であった。

Retrieval-Augmented Generation (RAG) is a state-of-the-art technique that enhances Large Language Models (LLMs) by retrieving relevant knowledge from an external, non-parametric database. This approach aims to mitigate common LLM issues such as hallucinations and outdated knowledge. Although existing research has demonstrated security and privacy vulnerabilities within RAG systems, making them susceptible to attacks like jailbreaks and prompt injections, the security of the RAG system's external databases remains largely underexplored. In this paper, we employ Membership Inference Attacks (MIA) to determine whether a sample is part of the knowledge database of a RAG system, using only black-box API access. Our core hypothesis posits that if a sample is a member, it will exhibit significant similarity to the text generated by the RAG system. To test this, we compute the cosine similarity and the model's perplexity to establish a membership score, thereby building robust features. We then introduce two novel attack strategies: a Threshold-based Attack and a Machine Learning-based Attack, designed to accurately identify membership. Experimental validation of our methods has achieved a ROC AUC of 82%.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# ヒューマン・アウェア・ビジョン・アンド・ランゲージ・ナビゲーション:動的ヒューマンインタラクションによる現実感へのブリッジングシミュレーション

Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions ( http://arxiv.org/abs/2406.19236v1 )

ライセンス: Link先を確認
Minghan Li, Heng Li, Zhi-Qi Cheng, Yifei Dong, Yuxuan Zhou, Jun-Yan He, Qi Dai, Teruko Mitamura, Alexander G. Hauptmann, (参考訳) Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートするエンボディエージェントを開発することを目的としている。 しかしながら、現在のVLNフレームワークは静的環境と最適な専門家監督に依存しており、実際の適用性を制限する。 そこで本研究では,ヒューマン・アウェア・ビジョン・アンド・ランゲージ・ナビゲーション(Human-Aware Vision-and-Language Navigation,HA-VLN)を導入する。 本稿では,動的人間活動とMatterport3Dデータセットを組み合わせたHuman-Aware 3D (HA3D)シミュレータとHuman-Aware Room-to-Room (HA-R2R)データセットを提案する。 HA-VLNの課題に対処するために、動的人間環境における効果的なナビゲーションのためのクロスモーダル融合と多様なトレーニング戦略を利用して、エキスパート・スーパーモーダル(VLN-CM)と非エキスパート・スーパーモーダル・ディシジョン・トランスフォーマー(VLN-DT)のエージェントを提示する。 人的活動を考慮した指標やHA-VLNのユニークな課題の体系的な分析を含む包括的な評価は、HA-VLNエージェントの現実世界の堅牢性と適応性を高めるためのさらなる研究の必要性を浮き彫りにしている。 最終的に、この研究は、人工AIとSim2Real転送に関する将来の研究のためのベンチマークと洞察を提供し、人間の人口の多い環境でより現実的で適用可能なVLNシステムを実現する。

Vision-and-Language Navigation (VLN) aims to develop embodied agents that navigate based on human instructions. However, current VLN frameworks often rely on static environments and optimal expert supervision, limiting their real-world applicability. To address this, we introduce Human-Aware Vision-and-Language Navigation (HA-VLN), extending traditional VLN by incorporating dynamic human activities and relaxing key assumptions. We propose the Human-Aware 3D (HA3D) simulator, which combines dynamic human activities with the Matterport3D dataset, and the Human-Aware Room-to-Room (HA-R2R) dataset, extending R2R with human activity descriptions. To tackle HA-VLN challenges, we present the Expert-Supervised Cross-Modal (VLN-CM) and Non-Expert-Supervised Decision Transformer (VLN-DT) agents, utilizing cross-modal fusion and diverse training strategies for effective navigation in dynamic human environments. A comprehensive evaluation, including metrics considering human activities, and systematic analysis of HA-VLN's unique challenges, underscores the need for further research to enhance HA-VLN agents' real-world robustness and adaptability. Ultimately, this work provides benchmarks and insights for future research on embodied AI and Sim2Real transfer, paving the way for more realistic and applicable VLN systems in human-populated environments.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# FlowVQA:フローチャートを用いた視覚質問応答におけるマルチモーダル論理のマッピング

FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts ( http://arxiv.org/abs/2406.19237v1 )

ライセンス: Link先を確認
Shubhankar Singh, Purvi Chaurasia, Yerram Varun, Pranshu Pandya, Vatsal Gupta, Vivek Gupta, Dan Roth, (参考訳) 既存の視覚的質問応答のベンチマークでは、特に空間的推論スキルの評価において、視覚的根拠と複雑さが欠如している。 本稿では,フローチャートを視覚的文脈とする視覚質問応答型マルチモーダル言語モデルの性能評価を目的とした,新しいベンチマークであるFlowVQAを紹介する。 FlowVQAは、情報ローカライゼーション、意思決定、論理的進行を含む推論タスクのスペクトルをテストするために、3つの異なるコンテンツソースから2,272個の慎重に生成された、人間検証されたフローチャートイメージと、22,413個の多様な質問応答ペアからなる。 我々は、様々な戦略を用いて、オープンソースおよびプロプライエタリなマルチモーダル言語モデルのスイートに対して、徹底的なベースライン評価を行い、次いで指向性バイアスの分析を行う。 この結果は、マルチモーダルモデリングの分野を前進させる重要なツールとしてのベンチマークの可能性を強調し、視覚的および論理的推論タスクにおけるモデルパフォーマンスを向上させるための集中的で挑戦的な環境を提供する。

Existing benchmarks for visual question answering lack in visual grounding and complexity, particularly in evaluating spatial reasoning skills. We introduce FlowVQA, a novel benchmark aimed at assessing the capabilities of visual question-answering multimodal language models in reasoning with flowcharts as visual contexts. FlowVQA comprises 2,272 carefully generated and human-verified flowchart images from three distinct content sources, along with 22,413 diverse question-answer pairs, to test a spectrum of reasoning tasks, including information localization, decision-making, and logical progression. We conduct a thorough baseline evaluation on a suite of both open-source and proprietary multimodal language models using various strategies, followed by an analysis of directional bias. The results underscore the benchmark's potential as a vital tool for advancing the field of multimodal modeling, providing a focused and challenging environment for enhancing model performance in visual and logical reasoning tasks.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# 大規模言語モデルにおける細粒度値とオピニオンの探索

Revealing Fine-Grained Values and Opinions in Large Language Models ( http://arxiv.org/abs/2406.19238v1 )

ライセンス: Link先を確認
Dustin Wright, Arnav Arora, Nadav Borenstein, Srishti Yadav, Serge Belongie, Isabelle Augenstein, (参考訳) 大きな言語モデル(LLM)で潜在値と意見を明らかにすることは、バイアスを特定し、潜在的な害を軽減するのに役立つ。 近年, LLM に質問を投げかけ, 道徳的・政治的に訴えられた発言に対する態度を定量化することで, この問題に対処している。 しかし、LSMが生み出す姿勢は、どのように引き起こされるかによって大きく異なり、与えられた立場に対して論じる、あるいは反対する多くの方法がある。 本研究では,政治コンパステスト (PCT) の62の命題に対して,420の即時変動を用いた大規模かつ堅牢な156k LLM応答のデータセットを解析することにより,この問題に対処することを提案する。 得られた姿勢の粗くきめ細かな分析と、それらの姿勢に対する平文正当性のきめ細かな分析を行う。 微粒化分析では,各プロンプト間で連続的かつ一貫した意味的類似語句を抽出し,所与のLLMが生成する傾向にある文中のパターンを明らかにする。 その結果,PCTの結果に有意な影響を与え,バイアスを反映し,クローズドフォームとオープンドメインの応答を誘発する際のテスト結果の相違が示唆された。 さらに、トロープによる平文の有理律のパターンは、類似の正当化がモデル間で繰り返し発生し、異なるスタンスであってもプロンプトが生じることを示している。

Uncovering latent values and opinions in large language models (LLMs) can help identify biases and mitigate potential harm. Recently, this has been approached by presenting LLMs with survey questions and quantifying their stances towards morally and politically charged statements. However, the stances generated by LLMs can vary greatly depending on how they are prompted, and there are many ways to argue for or against a given position. In this work, we propose to address this by analysing a large and robust dataset of 156k LLM responses to the 62 propositions of the Political Compass Test (PCT) generated by 6 LLMs using 420 prompt variations. We perform coarse-grained analysis of their generated stances and fine-grained analysis of the plain text justifications for those stances. For fine-grained analysis, we propose to identify tropes in the responses: semantically similar phrases that are recurrent and consistent across different prompts, revealing patterns in the text that a given LLM is prone to produce. We find that demographic features added to prompts significantly affect outcomes on the PCT, reflecting bias, as well as disparities between the results of tests when eliciting closed-form vs. open domain responses. Additionally, patterns in the plain text rationales via tropes show that similar justifications are repeatedly generated across models and prompts even with disparate stances.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# 一般化LASSO問題におけるチューニングパラメータ決定のための数学駆動型アプローチ : MRIへの応用

ALMA: a mathematics-driven approach for determining tuning parameters in generalized LASSO problems, with applications to MRI ( http://arxiv.org/abs/2406.19239v1 )

ライセンス: Link先を確認
Gianluca Giacchi, Isidoros Iakovidis, Bastien Milani, Matthias Stuber, Micah Murray, Benedetta Franceschiello, (参考訳) 磁気共鳴イメージング(MRI)は生体内構造を非侵襲的に可視化するための強力な技術である。 空間性はしばしば、信号の取得を加速したり、モーションアーティファクトの存在を克服し、画像再構成の品質を向上させるために展開される。 画像再構成アルゴリズムは、テレビ規則化されたLASSO(Total Variation-regularized LASSO)を用いて、ノイズのデータをクリーニングし、間隔を最適化し、アンダーサンプル信号の欠落情報を検索する。 チューニングパラメータはこれらの2つの側面のバランスを緩める。 現在、これらのパラメータを選択するための一般的な決定論的手法が欠如しており、しばしば手動で選択されるため、再建の信頼性が損なわれている。 本稿では,MRI再構成時に一般化LASSO問題に対するチューニングパラメータを演算する反復的数学的手法であるALMA(Algorithm for Lagrange Multipliers Approximation)を提案する。 ファントムのMRIコンテキストにおけるTV-LASSOによる画像再構成におけるこれらのパラメータの性能を定量的に解析する。 本研究はTV-LASSOに焦点をあてるが,本研究で開発された技術は,幅広い応用に有望である。 ALMAは、より一般化されたLASSO問題に適応するだけでなく、全変分を超えて他の形式の正規化に対応するためにも堅牢である。 さらに、非カルテシアンサンプリングトラジェクトリを効果的に扱えるように拡張し、複雑なデータ再構成シナリオにおいてその実用性を広げる。 より一般的に、ALMAは、様々な分野にわたる制約付き最適化問題を数値的に解く強力なツールを提供し、高度な計算課題に対する汎用的でインパクトのあるソリューションを提供する。

Magnetic Resonance Imaging (MRI) is a powerful technique employed for non-invasive in vivo visualization of internal structures. Sparsity is often deployed to accelerate the signal acquisition or overcome the presence of motion artifacts, improving the quality of image reconstruction. Image reconstruction algorithms use TV-regularized LASSO (Total Variation-regularized LASSO) to retrieve the missing information of undersampled signals, by cleaning the data of noise and while optimizing sparsity. A tuning parameter moderates the balance between these two aspects; its choice affecting the quality of the reconstructions. Currently, there is a lack of general deterministic techniques to choose these parameters, which are oftentimes manually selected and thus hinder the reliability of the reconstructions. Here, we present ALMA (Algorithm for Lagrange Multipliers Approximation), an iterative mathematics-inspired technique that computes tuning parameters for generalized LASSO problems during MRI reconstruction. We analyze quantitatively the performance of these parameters for imaging reconstructions via TV-LASSO in an MRI context on phantoms. Although our study concentrates on TV-LASSO, the techniques developed here hold significant promise for a wide array of applications. ALMA is not only adaptable to more generalized LASSO problems but is also robust to accommodate other forms of regularization beyond total variation. Moreover, it extends effectively to handle non-Cartesian sampling trajectories, broadening its utility in complex data reconstruction scenarios. More generally, ALMA provides a powerful tool for numerically solving constrained optimization problems across various disciplines, offering a versatile and impactful solution for advanced computational challenges.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# 深層学習に基づくコードスメル検出のためのデータ準備:体系的文献レビュー

Data Preparation for Deep Learning based Code Smell Detection: A Systematic Literature Review ( http://arxiv.org/abs/2406.19240v1 )

ライセンス: Link先を確認
Fengji Zhang, Zexian Zhang, Jacky Wai Keung, Xiangru Tang, Zhen Yang, Xiao Yu, Wenhua Hu, (参考訳) Code Smell Detection (CSD)は、ソフトウェアの品質と保守性を改善する上で重要な役割を果たす。 ディープラーニング(DL)技術は、優れたパフォーマンスのために、CDDにとって有望なアプローチとして現れています。 しかし, DL-based CSD法の有効性は, トレーニングデータの品質に大きく依存している。 その重要性にもかかわらず、データ準備プロセスの分析にはほとんど注意が払われていない。 本論文は,DL-based CSD法におけるデータ準備手法の系統的考察である。 我々は、2023年12月に出版された36の関連論文を特定し、データ要求、収集、ラベリング、クリーニングを含むCSDデータセットの構築における重要な考察を徹底的に分析する。 また、文献の中で7つの主要な課題とそれに対応する解決策をまとめた。 最後に、高品質なCSDデータの作成とアクセスのための実用的なレコメンデーションを提供し、データの多様性、標準化、アクセシビリティの重要性を強調します。 この調査は、研究者や実践者がCDDにおけるDL技術の潜在能力を最大限活用するための貴重な洞察を提供する。

Code Smell Detection (CSD) plays a crucial role in improving software quality and maintainability. And Deep Learning (DL) techniques have emerged as a promising approach for CSD due to their superior performance. However, the effectiveness of DL-based CSD methods heavily relies on the quality of the training data. Despite its importance, little attention has been paid to analyzing the data preparation process. This systematic literature review analyzes the data preparation techniques used in DL-based CSD methods. We identify 36 relevant papers published by December 2023 and provide a thorough analysis of the critical considerations in constructing CSD datasets, including data requirements, collection, labeling, and cleaning. We also summarize seven primary challenges and corresponding solutions in the literature. Finally, we offer actionable recommendations for preparing and accessing high-quality CSD data, emphasizing the importance of data diversity, standardization, and accessibility. This survey provides valuable insights for researchers and practitioners to harness the full potential of DL techniques in CSD.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# ASVのVC後の音声識別への適用とTSモデルにおける継続予測器の改良

Application of ASV for Voice Identification after VC and Duration Predictor Improvement in TTS Models ( http://arxiv.org/abs/2406.19243v1 )

ライセンス: Link先を確認
Borodin Kirill Nikolayevich, Kudryavtsev Vasiliy Dmitrievich, Mkrtchian Grach Maratovich, Gorodnichev Mikhail Genadievich, Korzh Dmitrii Sergeevich, (参考訳) 生体認証の分野で最も重要な要素の1つは、話者の声に基づく自動話者検証システムである。 ASVを分離または他のAIモデルと組み合わせて利用することが可能である。 現代では、ニューラルネットワークの品質と量が指数関数的に増加している。 同時に、音声変換と音声合成モデルを用いてデータを操作するシステムも増えている。 音声バイオメトリックスの偽造は、SSTC、ASVSpoof、SingFakeなど、多くの課題に助けられている。 本稿では,自動話者検証システムを提案する。 本モデルの主な目的は、音声のピッチ、エネルギー、音素の持続時間などの重要な特徴に関する情報を得るために、対象話者の音声から埋め込みを抽出することである。 この情報は、現在開発中のマルチボイスTSパイプラインで使用されます。 しかし、このモデルはSSTCチャレンジで音声変換を行ったユーザを検証するために使われ、EERは20.669であった。

One of the most crucial components in the field of biometric security is the automatic speaker verification system, which is based on the speaker's voice. It is possible to utilise ASVs in isolation or in conjunction with other AI models. In the contemporary era, the quality and quantity of neural networks are increasing exponentially. Concurrently, there is a growing number of systems that aim to manipulate data through the use of voice conversion and text-to-speech models. The field of voice biometrics forgery is aided by a number of challenges, including SSTC, ASVSpoof, and SingFake. This paper presents a system for automatic speaker verification. The primary objective of our model is the extraction of embeddings from the target speaker's audio in order to obtain information about important characteristics of his voice, such as pitch, energy, and the duration of phonemes. This information is used in our multivoice TTS pipeline, which is currently under development. However, this model was employed within the SSTC challenge to verify users whose voice had undergone voice conversion, where it demonstrated an EER of 20.669.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# 文脈化サブストラクチャ情報注入による$K$-hopメッセージパージングGNNの表現性向上

Improving the Expressiveness of $K$-hop Message-Passing GNNs by Injecting Contextualized Substructure Information ( http://arxiv.org/abs/2406.19244v1 )

ライセンス: Link先を確認
Tianjun Yao, Yiongxu Wang, Kun Zhang, Shangsong Liang, (参考訳) グラフニューラルネットワーク(GNN)はグラフにおける表現学習の標準となり、多くのグラフ関連タスクにおいて最先端のパフォーマンスを達成したが、標準GNNの表現力は1次元Weisfeiler-Lehman (1-WL)テストと同程度であることが示されている。 近年,グラフニューラルネットワークの表現力向上に向けた研究が盛んに行われている。 そのような作業の1行は、ノードの直接隣人だけでなく、ノードの$K$-hop内のすべての隣人からの情報を集約することでノード表現が更新される、$K$-hopメッセージパスGNNの開発を目標としている。 別の研究の行は1-WLテストよりも厳密に強力であることが証明された表現力を高めるためにサブグラフ情報を利用する。 本稿では,$K$-hop メッセージパス GNN の制限について論じ,$K$-hop メッセージパス GNN の表現力を高めるために \textit{substructure encoding function} を提案する。 さらに、コンテキスト化されたサブストラクチャ情報を注入して、$K$-hopメッセージパッシングGNNの表現性を高める。 提案手法は,従来の$K$-hopグラフニューラルネットワークや 1-WL サブグラフ GNN など,特定のサブグラフベース GNN モデルである 1-WL サブグラフ GNN に対して,より強力であり,3-WL よりも強力である。 実験により,提案手法は,新しい最先端性能を設定したり,各種データセットに匹敵する性能を実現する。 我々のコードは \url{https://github.com/tianyao-aka/Expresive_K_hop_GNNs} で利用可能です。

Graph neural networks (GNNs) have become the \textit{de facto} standard for representational learning in graphs, and have achieved state-of-the-art performance in many graph-related tasks; however, it has been shown that the expressive power of standard GNNs are equivalent maximally to 1-dimensional Weisfeiler-Lehman (1-WL) Test. Recently, there is a line of works aiming to enhance the expressive power of graph neural networks. One line of such works aim at developing $K$-hop message-passing GNNs where node representation is updated by aggregating information from not only direct neighbors but all neighbors within $K$-hop of the node. Another line of works leverages subgraph information to enhance the expressive power which is proven to be strictly more powerful than 1-WL test. In this work, we discuss the limitation of $K$-hop message-passing GNNs and propose \textit{substructure encoding function} to uplift the expressive power of any $K$-hop message-passing GNN. We further inject contextualized substructure information to enhance the expressiveness of $K$-hop message-passing GNNs. Our method is provably more powerful than previous works on $K$-hop graph neural networks and 1-WL subgraph GNNs, which is a specific type of subgraph based GNN models, and not less powerful than 3-WL. Empirically, our proposed method set new state-of-the-art performance or achieves comparable performance for a variety of datasets. Our code is available at \url{https://github.com/tianyao-aka/Expresive_K_hop_GNNs}.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# 非参照画像品質評価のための局所的マニフォールド学習

Local Manifold Learning for No-Reference Image Quality Assessment ( http://arxiv.org/abs/2406.19247v1 )

ライセンス: Link先を確認
Timin Gao, Wensheng Pan, Yan Zhang, Sicheng Zhao, Shengchuan Zhang, Xiawu Zheng, Ke Li, Liujuan Cao, Rongrong Ji, (参考訳) コントラスト学習は画像品質評価(IQA)の分野をかなり進歩させ、広く採用されている技術として登場した。 対照的学習の中核的なメカニズムは、品質相似(正)例間の距離を最小化しつつ、品質相似(負)例間の距離を最大化することである。 その成功にもかかわらず、現在の対照的な学習方法は、しばしば局所多様体構造を保存することの重要性を無視する。 この監視は、特徴空間内のハード例間で高い類似性をもたらし、効果的な微分と評価を妨げる。 そこで本研究では,非参照画像品質評価(NR-IQA)において,局所多様体学習とコントラスト学習を統合した革新的なフレームワークを提案する。 我々の手法は、与えられた画像から複数の作物をサンプリングし、最も視覚的に有能な作物を特定することから始まる。 この作物は、他の作物を正のクラスと同じ画像からクラスタリングし、異なる画像からの作物を負のクラスとして扱い、クラス間距離を増加させる。 また,本手法では,クラス内負のクラスと同一のイメージから,その特異性を保った非塩分作物についても検討した。 さらに、我々は相互学習フレームワークを採用し、モデルが適応的に学習し、視覚的正当性領域を識別する能力をさらに強化する。 提案手法は,7つの標準データセットにおける最先端手法と比較して,PLCC値0.942(TID2013では0.908)と0.914(LIVECでは0.894)を達成し,優れた性能を示す。

Contrastive learning has considerably advanced the field of Image Quality Assessment (IQA), emerging as a widely adopted technique. The core mechanism of contrastive learning involves minimizing the distance between quality-similar (positive) examples while maximizing the distance between quality-dissimilar (negative) examples. Despite its successes, current contrastive learning methods often neglect the importance of preserving the local manifold structure. This oversight can result in a high degree of similarity among hard examples within the feature space, thereby impeding effective differentiation and assessment. To address this issue, we propose an innovative framework that integrates local manifold learning with contrastive learning for No-Reference Image Quality Assessment (NR-IQA). Our method begins by sampling multiple crops from a given image, identifying the most visually salient crop. This crop is then used to cluster other crops from the same image as the positive class, while crops from different images are treated as negative classes to increase inter-class distance. Uniquely, our approach also considers non-saliency crops from the same image as intra-class negative classes to preserve their distinctiveness. Additionally, we employ a mutual learning framework, which further enhances the model's ability to adaptively learn and identify visual saliency regions. Our approach demonstrates a better performance compared to state-of-the-art methods in 7 standard datasets, achieving PLCC values of 0.942 (compared to 0.908 in TID2013) and 0.914 (compared to 0.894 in LIVEC).
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# NTFormer: ノード分類のための複合ノードトークン化グラフ変換器

NTFormer: A Composite Node Tokenized Graph Transformer for Node Classification ( http://arxiv.org/abs/2406.19249v1 )

ライセンス: Link先を確認
Jinsong Chen, Siyu Jiang, Kun He, (参考訳) 近年,新たなグラフ変換器がグラフ上のノード分類に大きく進歩している。 ほとんどのグラフトランスフォーマーでは、入力グラフをモデル入力としてトークンシーケンスに変換するため、Transformerはノード表現を効果的に学習することができる。 しかし,既存の手法は単一型トークン生成によるノードの部分グラフ情報のみを表現している。 その結果、ノード表現学習の品質を確保するために、Transformerにグラフ固有の機能をエンコードする適切な戦略が必要となり、多様なグラフを扱うためのモデルの柔軟性が制限される。 そこで我々はNTFormerと呼ばれる新しいグラフ変換器を提案し,この問題に対処する。 NTFormerはNode2Parと呼ばれる新しいトークンジェネレータを導入している。 この柔軟性により、Node2Parはさまざまな観点から価値あるトークンシーケンスを生成し、リッチグラフ機能の包括的な表現を保証することができる。 Node2Parの利点を活かして、NTFormerはTransformerベースのバックボーンをグラフ固有の変更なしでノード表現を学習し、グラフ固有の修正を不要にしている。 異なるスケールのホモフィリーグラフとヘテロフィリーグラフを含む様々なベンチマークデータセット上で行われた大規模な実験は、代表グラフ変換器とノード分類のためのグラフニューラルネットワークよりもNTFormerの方が優れていることを示す。

Recently, the emerging graph Transformers have made significant advancements for node classification on graphs. In most graph Transformers, a crucial step involves transforming the input graph into token sequences as the model input, enabling Transformer to effectively learn the node representations. However, we observe that existing methods only express partial graph information of nodes through single-type token generation. Consequently, they require tailored strategies to encode additional graph-specific features into the Transformer to ensure the quality of node representation learning, limiting the model flexibility to handle diverse graphs. To this end, we propose a new graph Transformer called NTFormer to address this issue. NTFormer introduces a novel token generator called Node2Par, which constructs various token sequences using different token elements for each node. This flexibility allows Node2Par to generate valuable token sequences from different perspectives, ensuring comprehensive expression of rich graph features. Benefiting from the merits of Node2Par, NTFormer only leverages a Transformer-based backbone without graph-specific modifications to learn node representations, eliminating the need for graph-specific modifications. Extensive experiments conducted on various benchmark datasets containing homophily and heterophily graphs with different scales demonstrate the superiority of NTFormer over representative graph Transformers and graph neural networks for node classification.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# AutoRAG-HP:Retrieval-Augmented Generationのためのオンラインハイパーパラメータ自動チューニング

AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.19251v1 )

ライセンス: Link先を確認
Jia Fu, Xiaoting Qin, Fangkai Yang, Lu Wang, Jue Zhang, Qingwei Lin, Yubo Chen, Dongmei Zhang, Saravan Rajmohan, Qi Zhang, (参考訳) 大規模言語モデルの最近の進歩はML/AI開発を変革させ、検索・拡張生成システム(RAG)のためのAutoML原則の再評価を必要としている。 RAGにおけるハイパーパラメータ最適化とオンライン適応の課題に対処するため、オンラインマルチアームバンディット(MAB)問題としてハイパーパラメータチューニングを定式化したAutoRAG-HPフレームワークを提案し、大規模な検索空間を効率的に探索するための新しい2レベル階層MAB(Hier-MAB)手法を提案する。 ALCE-ASQAとNatural Questionsのデータセットを用いて,トップk検索文書,即時圧縮率,埋め込み手法などのハイパーパラメータのチューニング実験を行った。 3つのハイパーパラメータ全てを共同で最適化することで、Grid Searchアプローチで要求されるLCM API呼び出しの$\sim20\%だけを使用して、検索空間に顕著な勾配を持つシナリオに対して、MABベースのオンライン学習手法がRecall@5$\approx 0.8$を達成することができることを示す。 さらに、提案されたHier-MABアプローチは、より困難な最適化シナリオにおいて、他のベースラインよりも優れている。 コードはhttps://aka.ms/autorag.orgで公開される。

Recent advancements in Large Language Models have transformed ML/AI development, necessitating a reevaluation of AutoML principles for the Retrieval-Augmented Generation (RAG) systems. To address the challenges of hyper-parameter optimization and online adaptation in RAG, we propose the AutoRAG-HP framework, which formulates the hyper-parameter tuning as an online multi-armed bandit (MAB) problem and introduces a novel two-level Hierarchical MAB (Hier-MAB) method for efficient exploration of large search spaces. We conduct extensive experiments on tuning hyper-parameters, such as top-k retrieved documents, prompt compression ratio, and embedding methods, using the ALCE-ASQA and Natural Questions datasets. Our evaluation from jointly optimization all three hyper-parameters demonstrate that MAB-based online learning methods can achieve Recall@5 $\approx 0.8$ for scenarios with prominent gradients in search space, using only $\sim20\%$ of the LLM API calls required by the Grid Search approach. Additionally, the proposed Hier-MAB approach outperforms other baselines in more challenging optimization scenarios. The code will be made available at https://aka.ms/autorag.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# アドベクション強化畳み込みニューラルネットワーク

Advection Augmented Convolutional Neural Networks ( http://arxiv.org/abs/2406.19253v1 )

ライセンス: Link先を確認
Niloufar Zakariaei, Siddharth Rout, Eldad Haber, Moshe Eliasof, (参考訳) 物理科学における多くの問題は、時空列の予測によって特徴づけられる。 このような問題は、天気予報から、病気の伝播とビデオ予測の分析まで様々である。 これらの問題を解決するための現代的な技術は、典型的には畳み込みニューラルネットワーク(CNN)アーキテクチャと時間予測機構を組み合わせたものである。 しかし、多くの場合、そのようなアプローチは、情報の長距離伝播や説明可能性の欠如において、不十分である。 本研究では,そのような問題の解決のための物理的にインスパイアされたアーキテクチャを提案する。 そこで我々は,新しい半ラグランジアンプッシュ演算子を設計することで,CNNを対流で拡張することを提案する。 提案した演算子は,標準的な畳み込みカーネルと比較して,非局所的な情報変換を可能にすることを示す。 次に、反応と拡散のニューラルネットワーク成分を補完し、高次元で反応-拡散-拡散方程式を模倣するネットワークを形成する。 提案手法の有効性を示す複数の時空間データセット上で,ネットワークの有効性を実証する。

Many problems in physical sciences are characterized by the prediction of space-time sequences. Such problems range from weather prediction to the analysis of disease propagation and video prediction. Modern techniques for the solution of these problems typically combine Convolution Neural Networks (CNN) architecture with a time prediction mechanism. However, oftentimes, such approaches underperform in the long-range propagation of information and lack explainability. In this work, we introduce a physically inspired architecture for the solution of such problems. Namely, we propose to augment CNNs with advection by designing a novel semi-Lagrangian push operator. We show that the proposed operator allows for the non-local transformation of information compared with standard convolutional kernels. We then complement it with Reaction and Diffusion neural components to form a network that mimics the Reaction-Advection-Diffusion equation, in high dimensions. We demonstrate the effectiveness of our network on a number of spatio-temporal datasets that show their merit.
翻訳日:2024-06-28 13:48:33 公開日:2024-06-27
# デザイン・スメルと役割ステレオタイプとの関係に関する実証的研究

Empirical Investigation of the Relationship Between Design Smells and Role Stereotypes ( http://arxiv.org/abs/2406.19254v1 )

ライセンス: Link先を確認
Daniel Ogenrwot, Joyce Nakatumba-Nabende, John Businge, Michel R. V. Chaudron, (参考訳) ソフトウェア開発では、設計と実装の貧弱な選択がソフトウェアの保守性に有害な影響を与えます。 デザインの臭い、設計が不十分なフラグメントの繰り返しパターンは、これらの問題を暗示している。 ロールステレオタイプは、クラスがシステム設計で想定する一般的な責務を表す。 役割ステレオタイプとデザインの匂いは異なるが、どちらもソフトウェアシステムの設計と保守に大きく貢献する。 これらの側面間の関係を理解することは、ソフトウェア保守性、コード品質、効率的なコードレビュー、ガイド付きリファクタリング、ロール固有のメトリクスの設計を強化するために不可欠です。 本稿では, 統計解析と教師なし学習を併用した探索的手法を用いて, デスクトップおよびモバイルアプリケーションにおける役割ステレオタイプとデザインの匂いがどのように関連しているかを解明する。 30のGitHubリポジトリから11,350のクラスを分析して、特定のロールステレオタイプ内で頻繁に発生するいくつかの設計臭いを特定しました。 具体的には,6つ (6) のロールステレオタイプのうち3つについて検討した。 さらに,2つのエコシステムにまたがる設計上の臭いの変化についても検討した。 特にService ProviderとInformation Holderロールステレオタイプでは、デザインの臭いがモバイルアプリケーションよりもデスクトップの方が多いことが判明した。 さらに、教師なし学習法は、あるペアやロールステレオタイプのグループが、同様の種類のデザインの匂いに晒される傾向があることを示した。 これらの関係は役割ステレオタイプ間の特性と協調特性と関連していると我々は信じている。 この研究から得られた洞察は、ソフトウェアチームが設計の臭いの防止と修正のメカニズムを実装し、設計とメンテナンスのフェーズにおける概念的整合性を確保するための貴重なガイダンスを提供する。

During software development, poor design and implementation choices can detrimentally impact software maintainability. Design smells, recurring patterns of poorly designed fragments, signify these issues. Role-stereotypes denote the generic responsibilities that classes assume in system design. Although the concepts of role-stereotypes and design smells differ, both significantly contribute to the design and maintenance of software systems. Understanding the relationship between these aspects is crucial for enhancing software maintainability, code quality, efficient code review, guided refactoring, and the design of role-specific metrics. This paper employs an exploratory approach, combining statistical analysis and unsupervised learning methods, to understand how design smells relate to role-stereotypes across desktop and mobile applications. Analyzing 11,350 classes from 30 GitHub repositories, we identified several design smells that frequently co-occur within certain role-stereotypes. Specifically, three (3) out of six (6) role-stereotypes we studied are more prone to design smells. We also examined the variation of design smells across the two ecosystems, driven by notable differences in their underlying architecture. Findings revealed that design smells are more prevalent in desktop than in mobile applications, especially within the Service Provider and Information Holder role-stereotypes. Additionally, the unsupervised learning method showed that certain pairs or groups of role-stereotypes are prone to similar types of design smells. We believe these relationships are associated with the characteristic and collaborative properties between role-stereotypes. The insights from this research provide valuable guidance for software teams on implementing design smell prevention and correction mechanisms, ensuring conceptual integrity during design and maintenance phases.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# 構造時空間アライメントによる映像言語表現の強化

Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment ( http://arxiv.org/abs/2406.19255v1 )

ライセンス: Link先を確認
Hao Fei, Shengqiong Wu, Meishan Zhang, Min Zhang, Tat-Seng Chua, Shuicheng Yan, (参考訳) 大規模ビデオ言語モデル(VLM)の事前学習は、様々なダウンストリームビデオ言語タスクにおいて顕著な可能性を示しているが、既存のVLMは、例えば、粗い粒度のクロスモーダルアライメント、時間的ダイナミクスのアンダーモデリング、切り離されたビデオ言語ビューといった、一般的に見られる制限に悩まされている。 本研究では,細粒度構造時空間アライメント学習法(Finsta)を用いて,VLMの強化を目標とする。 まず,2つのモダリティをブリッジするために,より詳細なシーングラフ(SG)構造を持つ入力テキストとビデオを表現する。 次に、SGベースのフレームワークを構築し、テキストSG(TSG)をグラフ変換器で符号化し、ビデオダイナミックSG(DSG)とHSGを空間的・時間的特徴伝搬のための新しい再帰グラフ変換器でモデル化する。 空間・時間的ガウス微分グラフ変換器は、空間的・時間的次元にわたる物体の変化の感覚を強化するためにさらに考案された。 次に、TSG と DSG の微細な構造的特徴に基づき、それぞれ対象中心の空間的アライメントと述語中心の時間的アライメントを行い、空間性および時間性の両方においてビデオ言語基盤を強化する。 我々は,既存のよく訓練されたVLMに組み込んで,スクラッチからのトレーニングや下流アプリケーションでのSGアノテーションに頼ることなく,さらなる表現拡張を実現するプラグイン・プレイ・システムとして設計する。 標準および長期のビデオシナリオにおいて、12のデータセットにまたがる6つの代表的なVLモデリングタスクにおいて、Finstaは、既存の13の強いパフォーマンスのVLMを継続的に改善し、微調整とゼロショットの両方で現在の最先端のタスクパフォーマンスを大幅に改善する。

While pre-training large-scale video-language models (VLMs) has shown remarkable potential for various downstream video-language tasks, existing VLMs can still suffer from certain commonly seen limitations, e.g., coarse-grained cross-modal aligning , under-modeling of temporal dynamics, detached video-language view. In this work, we target enhancing VLMs with a fine-grained structural spatio-temporal alignment learning method (namely Finsta). First of all, we represent the input texts and videos with fine-grained scene graph (SG) structures, both of which are further unified into a holistic SG (HSG) for bridging two modalities. Then, an SG-based framework is built, where the textual SG (TSG) is encoded with a graph Transformer, while the video dynamic SG (DSG) and the HSG are modeled with a novel recurrent graph Transformer for spatial and temporal feature propagation. A spatial-temporal Gaussian differential graph Transformer is further devised to strengthen the sense of the changes in objects across spatial and temporal dimensions. Next, based on the fine-grained structural features of TSG and DSG, we perform object-centered spatial alignment and predicate-centered temporal alignment respectively, enhancing the video-language grounding in both the spatiality and temporality. We design our method as a plug&play system, which can be integrated into existing well-trained VLMs for further representation augmentation, without training from scratch or relying on SG annotations in downstream applications. On 6 representative VL modeling tasks over 12 datasets in both standard and long-form video scenarios, Finsta consistently improves the existing 13 strong-performing VLMs persistently, and refreshes the current state-of-the-art end task performance significantly in both the fine-tuning and zero-shot settings.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# AIデータ準備性評価のためのAIデータ準備性検査(AIDRIN)

AI Data Readiness Inspector (AIDRIN) for Quantitative Assessment of Data Readiness for AI ( http://arxiv.org/abs/2406.19256v1 )

ライセンス: Link先を確認
Kaveen Hiniduma, Suren Byna, Jean Luca Bez, Ravi Madduri, (参考訳) ガベージ・イン・ガベージ・アウト(Garbage In Garbage Out)は、人工知能(AI)など、様々な分野のコンピュータ科学者によって広く合意された引用である。 データがAIの燃料であるため、低品質、偏りのあるデータに基づいてトレーニングされたモデルは、しばしば非効率である。 AIを使用するコンピュータ科学者は、AIのためのデータの準備にかなりの時間と労力を費やしている。 しかし、AIのためのデータの“準備”を評価するための標準的な方法やフレームワークは存在しない。 AIプロセスのデータ準備性を評価するために、AIデータ準備性のパラメータを定義し、AIDRIN(AI Data Readiness Inspector)を導入する。 AIDRINは、文献で利用可能な幅広い準備性次元をカバーするフレームワークであり、定量的かつ質的にデータの準備性を評価するのに役立つ。 AIDRINは、データ評価に完全性、外れ値、重複値などの従来のデータ品質評価にメトリクスを使用する。 さらに、AIDRINは、機能の重要性、特徴相関、クラス不均衡、公正性、プライバシ、FAIR(Findability、Accessibility、Interoperability、Reusability)の原則準拠など、AIのデータ評価に特有のメトリクスを使用する。 AIDRINは、データサイエンティストがデータの準備性をさらに調査するのを補助する可視化とレポートを提供する。 AIDRINフレームワークは、機械学習パイプラインの効率を高め、AIアプリケーションのデータ準備性に関する情報決定を行う。

"Garbage In Garbage Out" is a universally agreed quote by computer scientists from various domains, including Artificial Intelligence (AI). As data is the fuel for AI, models trained on low-quality, biased data are often ineffective. Computer scientists who use AI invest a considerable amount of time and effort in preparing the data for AI. However, there are no standard methods or frameworks for assessing the "readiness" of data for AI. To provide a quantifiable assessment of the readiness of data for AI processes, we define parameters of AI data readiness and introduce AIDRIN (AI Data Readiness Inspector). AIDRIN is a framework covering a broad range of readiness dimensions available in the literature that aid in evaluating the readiness of data quantitatively and qualitatively. AIDRIN uses metrics in traditional data quality assessment such as completeness, outliers, and duplicates for data evaluation. Furthermore, AIDRIN uses metrics specific to assess data for AI, such as feature importance, feature correlations, class imbalance, fairness, privacy, and FAIR (Findability, Accessibility, Interoperability, and Reusability) principle compliance. AIDRIN provides visualizations and reports to assist data scientists in further investigating the readiness of data. The AIDRIN framework enhances the efficiency of the machine learning pipeline to make informed decisions on data readiness for AI applications.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# トークン化グラフ変換器における高次ノード表現のためのコントラスト学習の活用

Leveraging Contrastive Learning for Enhanced Node Representations in Tokenized Graph Transformers ( http://arxiv.org/abs/2406.19258v1 )

ライセンス: Link先を確認
Jinsong Chen, Hanpeng Liu, John E. Hopcroft, Kun He, (参考訳) トークン化されたグラフ変換器はノード分類タスクにおいて高いパフォーマンスを示しているが、トークンシーケンスを構築するために高い類似度スコアを持つノードの限られたサブセットに依存しているため、他のノードからの貴重な情報を見落とし、最適なノード表現を学習するためのグラフ情報を完全に活用する能力を妨げる。 この制限に対処するため,GCFormerと呼ばれる新しいグラフ変換器を提案する。 従来のアプローチとは異なり、GCFormerは、さまざまなグラフ情報をキャプチャする2種類のトークンシーケンスを生成するために、ハイブリッドトークンジェネレータを開発している。 また,これら生成されたトークンシーケンスから意味のあるノード表現を学習するために,トランスフォーマーベースのバックボーンが採用されている。 さらに、GCFormerは、正と負の両方のトークンシーケンスから貴重な情報を抽出するコントラスト学習を導入し、学習ノード表現の品質を高める。 ホモフィリーグラフやヘテロフィリーグラフなど,さまざまなデータセットにわたる大規模な実験結果は,グラフニューラルネットワーク(GNN)やグラフ変換器と比較して,ノード分類におけるGCFormerの優位性を示している。

While tokenized graph Transformers have demonstrated strong performance in node classification tasks, their reliance on a limited subset of nodes with high similarity scores for constructing token sequences overlooks valuable information from other nodes, hindering their ability to fully harness graph information for learning optimal node representations. To address this limitation, we propose a novel graph Transformer called GCFormer. Unlike previous approaches, GCFormer develops a hybrid token generator to create two types of token sequences, positive and negative, to capture diverse graph information. And a tailored Transformer-based backbone is adopted to learn meaningful node representations from these generated token sequences. Additionally, GCFormer introduces contrastive learning to extract valuable information from both positive and negative token sequences, enhancing the quality of learned node representations. Extensive experimental results across various datasets, including homophily and heterophily graphs, demonstrate the superiority of GCFormer in node classification, when compared to representative graph neural networks (GNNs) and graph Transformers.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# コンピュータのコモディフィケーション

Commodification of Compute ( http://arxiv.org/abs/2406.19261v1 )

ライセンス: Link先を確認
Jesper Kristensen, David Wender, Carl Anthony, (参考訳) 人工知能、ビッグデータ分析、クラウドコンピューティングの急速な進歩は、計算資源に対する前例のない需要を呼んだ。 しかし、現在の計算資源割り当ての状況は、未利用や価格変動など、大きな非効率性によって特徴づけられている。 本稿では,GCX (Global Compute Exchange) (Patent Pending) と呼ばれる,計算時間のコモディフィケーションのための新しいグローバルプラットフォームを導入することで,これらの課題に対処する。 GCXはブロックチェーン技術とスマートコントラクトを活用して、計算パワーの売買のためのセキュアで透明で効率的なマーケットプレースを構築する。 GCXは、Market, App, Clearing, Risk Management, Exchange (Offchain) と Blockchain (Onchain) レイヤで構成され、それぞれが堅牢で効率的な運用を保証する。 このプラットフォームは、分散化され、効率的で透明なエコシステムを育み、コンピューティングパワーへの公平なアクセスを確保し、イノベーションを刺激し、グローバルなスケールでの多様なユーザニーズをサポートすることによって、計算リソース市場を革新することを目指している。 計算時間をトラジブルなコモディティに変換することで、GCXはリソースの利用を最適化し、価格を安定させ、計算リソースへのアクセスを民主化しようとしている。 本稿では、GCXの技術的基盤、市場ポテンシャル、社会的影響について考察し、商品と計算における次のイノベーションの波を推し進める先駆的なソリューションとして位置づける。

The rapid advancements in artificial intelligence, big data analytics, and cloud computing have precipitated an unprecedented demand for computational resources. However, the current landscape of computational resource allocation is characterized by significant inefficiencies, including underutilization and price volatility. This paper addresses these challenges by introducing a novel global platform for the commodification of compute hours, termed the Global Compute Exchange (GCX) (Patent Pending). The GCX leverages blockchain technology and smart contracts to create a secure, transparent, and efficient marketplace for buying and selling computational power. The GCX is built in a layered fashion, comprising Market, App, Clearing, Risk Management, Exchange (Offchain), and Blockchain (Onchain) layers, each ensuring a robust and efficient operation. This platform aims to revolutionize the computational resource market by fostering a decentralized, efficient, and transparent ecosystem that ensures equitable access to computing power, stimulates innovation, and supports diverse user needs on a global scale. By transforming compute hours into a tradable commodity, the GCX seeks to optimize resource utilization, stabilize pricing, and democratize access to computational resources. This paper explores the technological infrastructure, market potential, and societal impact of the GCX, positioning it as a pioneering solution poised to drive the next wave of innovation in commodities and compute.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# ありとあらゆるところを読む:木々の接地で読み取るレイアウト対応GUIスクリーン

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding ( http://arxiv.org/abs/2406.19263v1 )

ライセンス: Link先を確認
Yue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Eric Wang, (参考訳) グラフィカルユーザインタフェース(GUI)は、デジタルデバイスとのインタラクションの中心です。 近年、様々なGUI理解タスクのためのモデルを構築するための取り組みが活発化している。 しかし、これらの取り組みはGUI参照の重要なタスクを概ね見落としている。 このタスクは主に、MLLM(Multimodal Large Language Models)の進歩によって駆動される新しいモデルを必要とする、厳密なスクリーン読み取りツールによって処理される。 本稿では,新しいToLグラウンドリング機構を利用して,SPRタスクに対処するツリー・オブ・レンス(ToL)エージェントを提案する。 入力点座標とそれに対応するGUIスクリーンショットに基づいて、我々のToLエージェントは階層的なレイアウトツリーを構築する。 木をベースとしたToLエージェントは,指定領域の内容だけでなく,要素間のレイアウトや空間的関係も理解している。 このようなレイアウト情報は、ToLエージェントと他のスクリーン読み取りツールを区別して、画面上の情報を正確に解釈するために重要である。 また,モバイル,Web,オペレーティングシステムのGUIを含む新たなSPRベンチマークにおいて,ToLエージェントを他のベースラインに対して徹底的に評価する。 最後に、モバイルGUIナビゲーションタスク上でToLエージェントをテストし、エージェント実行軌跡の経路に沿って不正なアクションを識別するその有用性を実証する。 コードとデータ: screen-point-and-read.github.io

Graphical User Interfaces (GUIs) are central to our interaction with digital devices. Recently, growing efforts have been made to build models for various GUI understanding tasks. However, these efforts largely overlook an important GUI-referring task: screen reading based on user-indicated points, which we name the Screen Point-and-Read (SPR) task. This task is predominantly handled by rigid accessible screen reading tools, in great need of new models driven by advancements in Multimodal Large Language Models (MLLMs). In this paper, we propose a Tree-of-Lens (ToL) agent, utilizing a novel ToL grounding mechanism, to address the SPR task. Based on the input point coordinate and the corresponding GUI screenshot, our ToL agent constructs a Hierarchical Layout Tree. Based on the tree, our ToL agent not only comprehends the content of the indicated area but also articulates the layout and spatial relationships between elements. Such layout information is crucial for accurately interpreting information on the screen, distinguishing our ToL agent from other screen reading tools. We also thoroughly evaluate the ToL agent against other baselines on a newly proposed SPR benchmark, which includes GUIs from mobile, web, and operating systems. Last but not least, we test the ToL agent on mobile GUI navigation tasks, demonstrating its utility in identifying incorrect actions along the path of agent execution trajectories. Code and data: screen-point-and-read.github.io
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# AutoPureData: LLMファインチューニングのためのWebデータの自動フィルタリング

AutoPureData: Automated Filtering of Web Data for LLM Fine-tuning ( http://arxiv.org/abs/2406.19271v1 )

ライセンス: Link先を確認
Praneeth Vadlapati, (参考訳) 最新かつ信頼性の高いLarge Language Models (LLM) は一貫して追求されている。 通常、LLMは固定データセットでトレーニングされ、デプロイされる。 しかし、トレーニングデータは時代遅れになる。 Webデータを使用したAIの自動トレーニングを可能にするには、バイアスやスパム、その他の安全でないあるいは望ましくないテキストによるデータ品質と安全性に関する重大な懸念が伴う。 信頼できるモデルを作るには、純粋なデータが不可欠だ。 不純なデータに対するモデルのトレーニングは、望ましくない結果をもたらす可能性がある。 本研究では,既存の信頼されたAIモデルの助けを借りて,Webデータを収集し,不要なテキストを自動的にフィルタリングするシステムを提案する。 実験では、Webデータの小さなサンプルを収集し、フィルタリングし、データを浄化するシステムの有効性を実証した。

Up-to-date and reliable Large Language Models (LLMs) are consistently sought after. Typically, LLMs are trained on a fixed dataset and then deployed. However, the training data continually becomes outdated. Enable automatic training of AI using web data involves significant concerns regarding data quality and safety due to bias, spam, and other unsafe or unwanted text. Pure data is essential for producing reliable models. Training a model on impure data may result in undesirable outcomes. This research proposes a system that collects web data and automatically filters out unwanted text with the assistance of existing trusted AI models. In the experiment, a small sample of web data was collected and filtered, demonstrating the system's effectiveness in purifying the data.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# 確率的概念ボトルネックモデル

Stochastic Concept Bottleneck Models ( http://arxiv.org/abs/2406.19272v1 )

ライセンス: Link先を確認
Moritz Vandenhirtz, Sonia Laguna, Ričards Marcinkevičs, Julia E. Vogt, (参考訳) 概念ボトルネックモデル(CBM)は、最終的な予測は、生の入力ではなく、中間的、人間の理解可能な概念に基づく、有望な解釈可能な手法として登場した。 時間を要する手作業による介入によって、ユーザは間違った概念値の予測を正し、モデルの下流のパフォーマンスを向上させることができる。 本稿では,概念依存をモデル化する新しいアプローチであるStochastic Concept Bottleneck Models (SCBMs)を提案する。 SCBMでは、単一概念の介入がすべての関連概念に影響を与えるため、介入の有効性が向上する。 自己回帰構造を用いて概念関係をモデル化する従来のアプローチとは異なり、SCBMがCBMの効率的なトレーニングと推論の手順を維持できる明示的な分布パラメータ化を導入する。 さらに,パラメータ化を利用して,信頼領域に基づく効果的な介入戦略を導出する。 提案手法が介入効率を著しく向上することを示すため, 合成表と自然画像のデータセットに実証実験を行った。 特に,手動による概念アノテーションの必要性を軽減し,CLIPを前提とした概念の設定を検討することで,SCBMの汎用性とユーザビリティを示す。

Concept Bottleneck Models (CBMs) have emerged as a promising interpretable method whose final prediction is based on intermediate, human-understandable concepts rather than the raw input. Through time-consuming manual interventions, a user can correct wrongly predicted concept values to enhance the model's downstream performance. We propose Stochastic Concept Bottleneck Models (SCBMs), a novel approach that models concept dependencies. In SCBMs, a single-concept intervention affects all correlated concepts, thereby improving intervention effectiveness. Unlike previous approaches that model the concept relations via an autoregressive structure, we introduce an explicit, distributional parameterization that allows SCBMs to retain the CBMs' efficient training and inference procedure. Additionally, we leverage the parameterization to derive an effective intervention strategy based on the confidence region. We show empirically on synthetic tabular and natural image datasets that our approach improves intervention effectiveness significantly. Notably, we showcase the versatility and usability of SCBMs by examining a setting with CLIP-inferred concepts, alleviating the need for manual concept annotations.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# $f(Q)$宇宙論における量子情報を保存する

Preserving quantum information in $f(Q)$ cosmology ( http://arxiv.org/abs/2406.19274v1 )

ライセンス: Link先を確認
Salvatore Capozziello, Alessio Lapponi, Orlando Luongo, Stefano Mancini, (参考訳) 量子ボゾン状態に対する宇宙膨張の影響を量子情報理論を用いて検討した。 特に、ボゾン場モードの一般ボゴリューボフ変換を考慮し、単一モードにおける状態変化を量子チャネルの効果と見なす。 したがって、このチャネルの特性と容量は$f(Q)$理論の枠組みで研究される。 その結果,宇宙膨張による粒子数が少なくなると,単一モード状態の情報の方が保存状態が良くなることがわかった。 したがって、一般相対性理論と同様に、対称的テレパラレル重力理論を考慮しても、類似粒子の生成が生じることを示す。 そこで, 実効重力結合を未調整のまま残した$f(Q)$モデルについて検討し, 対応する粒子生成を最小化する。 そこで我々は,過去のボソニックモード状態に格納された古典的・量子的情報の保存を最適化する方法を示す。 最後に, 一般相対性理論と比較した。

The effects of cosmological expansion on quantum bosonic states are investigated, using quantum information theory. In particular, a generic Bogoliubov transformation of bosonic field modes is considered and the state change on a single mode is regarded as the effect of a quantum channel. Properties and capacities of this channel are thus explored in the framework of $f(Q)$ theories. As immediate result, we obtain that the information on a single-mode state appears better preserved, whenever the number of particles produced by the cosmological expansion is small. Hence, similarly to general relativity, we show that analogous particle productions result even if we consider symmetric teleparallel gravity theories. Thus, we investigate a power law $f(Q)$ model, leaving unaltered the effective gravitational coupling, and minimise the corresponding particle production. We thus show how to optimise the preservation of classical and quantum information, stored in a bosonic mode states in the remote past. Finally, we compare our findings with those obtained in general relativity.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# VERISCORE:長文テキスト生成における検証可能なクレームの事実性の評価

VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation ( http://arxiv.org/abs/2406.19276v1 )

ライセンス: Link先を確認
Yixiao Song, Yekyung Kim, Mohit Iyyer, (参考訳) FACTSCORE (Min et al , 2023) やSAFE (Wei et al , 2024) のような長文の事実を評価するための既存の指標は、入力テキストを「アトミッククレーム」に分解し、ウィキペディアのような知識ベースに対して検証する。 これらの指標は、すべてのクレームが検証可能であると仮定するため、ほとんどの世代タスクには適さない(つまり、少なくとも真または偽であることが証明できる)。 本稿では、検証可能なコンテンツと検証できないコンテンツの両方を含む様々な長文生成タスクのメトリクスであるVERISCOREを用いてこの問題に対処する。 VERISCOREは、クローズドまたは微調整されたオープンウェイト言語モデルで効果的に実装することができ、人間の評価により、VERISCOREの主張が8つの異なるロングフォームタスクの競合するメソッドよりも適切であることが確認できる。 我々はVERISCOREを用いて、複数の長期タスクにわたる16の異なるモデルから世代を評価し、GPT-4oが全体として最高のパフォーマンスモデルであるのに対して、Mixtral-8x22のようなオープンウェイトモデルはそのギャップを埋めていることを発見した。 一方のタスク(例えば、伝記生成)におけるLMのVERISCOREは、異なるタスク(例えば、ロングフォームQA)におけるVERISCOREと必ずしも相関しないことを示す。

Existing metrics for evaluating the factuality of long-form text, such as FACTSCORE (Min et al., 2023) and SAFE (Wei et al., 2024), decompose an input text into "atomic claims" and verify each against a knowledge base like Wikipedia. These metrics are not suitable for most generation tasks because they assume that every claim is verifiable (i.e., can plausibly be proven true or false). We address this issue with VERISCORE, a metric for diverse long-form generation tasks that contain both verifiable and unverifiable content. VERISCORE can be effectively implemented with either closed or fine-tuned open-weight language models, and human evaluation confirms that VERISCORE's extracted claims are more sensible than those from competing methods across eight different long-form tasks. We use VERISCORE to evaluate generations from 16 different models across multiple long-form tasks and find that while GPT-4o is the best-performing model overall, open-weight models such as Mixtral-8x22 are closing the gap. We show that an LM's VERISCORE on one task (e.g., biography generation) does not necessarily correlate to its VERISCORE on a different task (e.g., long-form QA), highlighting the need for expanding factuality evaluation across tasks with varying fact density.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# HuatuoGPT-Vision - マルチモーダルLCMへの医用視覚知識注入を目指して

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale ( http://arxiv.org/abs/2406.19280v1 )

ライセンス: Link先を確認
Junying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang, (参考訳) GPT-4Vのようなマルチモーダル大規模言語モデル(MLLM)の急速な開発は、大きな進歩をもたらした。 しかし、これらのモデルは、データプライバシの懸念と高いアノテーションコストから生じる、医療ビジョンテキストデータの量と品質の制限により、医療マルチモーダル能力の課題に直面している。 先駆的なアプローチでは、PubMedの大規模で識別されていない医療画像テキストペアを使用してこれらの制限に対処するが、固有のデータノイズのために依然として不足している。 そこで我々は,医療用VQAサンプル13万件のPubMedVisionデータセットを作成するために,医療用画像テキストペアをPubMedから改良し,MLLM(GPT-4V)を「公開されていない」能力で使用した。 検証の結果, (1) PubMedVision は現在のMLLMの医療マルチモーダル能力を大幅に向上させ,MMMU Health & Medicine トラックを含むベンチマークの大幅な改善, (2) 医療専門家による手作業によるチェック, 実験結果による他のデータ構築手法と比較して, データセットの優れたデータ品質を評価することができることがわかった。 PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionをトレーニングし、オープンソースMLLMの医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。

The rapid development of multimodal large language models (MLLMs), such as GPT-4V, has led to significant advancements. However, these models still face challenges in medical multimodal capabilities due to limitations in the quantity and quality of medical vision-text data, stemming from data privacy concerns and high annotation costs. While pioneering approaches utilize PubMed's large-scale, de-identified medical image-text pairs to address these limitations, they still fall short due to inherent data noise. To tackle this, we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in an 'unblinded' capacity to denoise and reformat the data, resulting in the creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our validation demonstrates that: (1) PubMedVision can significantly enhance the medical multimodal capabilities of current MLLMs, showing significant improvement in benchmarks including the MMMU Health & Medicine track; (2) manual checks by medical experts and empirical results validate the superior data quality of our dataset compared to other data construction methods. Using PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows superior performance in medical multimodal scenarios among open-source MLLMs.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# センサネットワーク上でのセキュアな量子強調計測

Secure quantum-enhanced measurements on a network of sensors ( http://arxiv.org/abs/2406.19285v1 )

ライセンス: Link先を確認
Sean William Moore, Jacob Andrew Dunningham, (参考訳) サードパーティーのセキュアな量子リモートセンシング(SQRS)プロトコルは、盗聴者に対するセキュリティを保証するリモートロケーションでの量子強調測定を可能にする。 このアイデアは、ひとつのパーティが絡み合った状態を使用して、異なるノードのパラメータの関数を直接測定できるノードのネットワークにまで拡張することができる。 しかし、そのようなネットワーク上のセキュリティはノード数とともに指数関数的に減少する。 ここでは,任意の大きさのネットワーク上で量子強度の測定精度とセキュリティを達成するために,絡み合った状態と分離可能な状態の両方を利用するハイブリッドプロトコルにおいて,この問題が克服可能であることを示す。

Two-party secure quantum remote sensing (SQRS) protocols enable quantum-enhanced measurements at remote locations with guaranteed security against eavesdroppers. This idea can be scaled up to networks of nodes where one party can directly measure functions of parameters at the different nodes using entangled states. However, the security on such networks decreases exponentially with the number of nodes. Here we show how this problem can be overcome in a hybrid protocol that utilises both entangled and separable states to achieve quantum-enhanced measurement precision and security on networks of any size.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# 人体モデリングとポーズ推定の概観

Human Modelling and Pose Estimation Overview ( http://arxiv.org/abs/2406.19290v1 )

ライセンス: Link先を確認
Pawel Knap, (参考訳) 人間のモデリングとポーズ推定は、コンピュータビジョン、コンピュータグラフィックス、機械学習の交差点に立っている。 本稿では,この学際分野を網羅的に研究し,様々なアルゴリズム,方法論,実践的応用について検討する。 このドメインに関連するさまざまなセンサー技術を調査し、幅広いアプリケーション領域に展開する。 さらに、一般的なデータセット、メトリクス、将来の研究方向とともに、2次元および3次元の人体モデリング方法論の課題と進歩について議論する。 本論文の主な貢献は,2次元領域と3次元領域の人間のポーズ推定アルゴリズム(SOTA)の最新の比較である。 この包括的概要を提供することにより,3次元モデリングの理解を深め,評価を行い,現在のSOTAの成果,課題,今後の展望に関する洞察を提供する。

Human modelling and pose estimation stands at the crossroads of Computer Vision, Computer Graphics, and Machine Learning. This paper presents a thorough investigation of this interdisciplinary field, examining various algorithms, methodologies, and practical applications. It explores the diverse range of sensor technologies relevant to this domain and delves into a wide array of application areas. Additionally, we discuss the challenges and advancements in 2D and 3D human modelling methodologies, along with popular datasets, metrics, and future research directions. The main contribution of this paper lies in its up-to-date comparison of state-of-the-art (SOTA) human pose estimation algorithms in both 2D and 3D domains. By providing this comprehensive overview, the paper aims to enhance understanding of 3D human modelling and pose estimation, offering insights into current SOTA achievements, challenges, and future prospects within the field.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# 人工ニードルからリアルヘイスタックへ:合成データを用いた微調整によるLLMの検索能力の向上

From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data ( http://arxiv.org/abs/2406.19292v1 )

ライセンス: Link先を確認
Zheyang Xiong, Vasilis Papageorgiou, Kangwook Lee, Dimitris Papailiopoulos, (参考訳) 近年の研究では、Large Language Models (LLM) は、長文入力を処理する際に、情報を正確に取得し、推論能力を維持するのに苦労していることが示されている。 これらの制約に対処するため、数値的なキー値検索タスクからなる注意深く設計された合成データセットを用いた微調整手法を提案する。 GPT-3.5 Turbo や Mistral 7B のようなモデルを用いた実験により,このデータセット上でのLCMの微調整により,LLM の情報検索と長文設定における推論能力が大幅に向上することが示された。 本稿では,20ドルの文書MDQAをGPT-3.5 Turboで10ドルとした場合に,合成タスク評価から実タスク評価へのスキルの移転を例に,微調整モデルの解析を行った。 また、一般的なベンチマークにおける微調整LDMの性能はほぼ一定であるが、他のベースライン長文拡張データ上で微調整LDMは幻覚を促進することができる(例えば、TriviaQAでは、我々の合成データ上で微調整されたMistral 7Bは性能低下を起こさないが、他のベースラインデータは2.33\%$から6.19\%$)。 本研究は,LLMの性能向上のための合成データへの微調整の可能性を明らかにする。

Recent studies have shown that Large Language Models (LLMs) struggle to accurately retrieve information and maintain reasoning capabilities when processing long-context inputs. To address these limitations, we propose a finetuning approach utilizing a carefully designed synthetic dataset comprising numerical key-value retrieval tasks. Our experiments on models like GPT-3.5 Turbo and Mistral 7B demonstrate that finetuning LLMs on this dataset significantly improves LLMs' information retrieval and reasoning capabilities in longer-context settings. We present an analysis of the finetuned models, illustrating the transfer of skills from synthetic to real task evaluations (e.g., $10.5\%$ improvement on $20$ documents MDQA at position $10$ for GPT-3.5 Turbo). We also find that finetuned LLMs' performance on general benchmarks remains almost constant while LLMs finetuned on other baseline long-context augmentation data can encourage hallucination (e.g., on TriviaQA, Mistral 7B finetuned on our synthetic data cause no performance drop while other baseline data can cause a drop that ranges from $2.33\%$ to $6.19\%$). Our study highlights the potential of finetuning on synthetic data for improving the performance of LLMs on longer-context tasks.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# モダリティを考慮した視覚質問応答における継続学習の促進

Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation ( http://arxiv.org/abs/2406.19297v1 )

ライセンス: Link先を確認
Malvina Nikandrou, Georgios Pantazopoulos, Ioannis Konstas, Alessandro Suglia, (参考訳) 継続的な学習は、以前のタスクのパフォーマンス低下を最小限に抑えながら、新しいタスクを学習することを目的として、一連のタスクでモデルを漸進的にトレーニングすることに焦点を当てる。 VQA(Continuous Learning and Visual Question Answering)とVQA(Visual Question Answering)の交差点における既存のアプローチは、入力のマルチモーダルな性質がモデルの学習力学に与える影響を研究していない。 本稿では,各モードがタスク連続体間で異なる速度で進化し,その振る舞いが確立されたエンコーダのみのモデルだけでなく,ビジョン・アンド・ランゲージ(VL)モデルを開発するための現代的なレシピにも現れることを実証する。 本研究の目的は,3つのマルチモーダル連続学習環境において,様々なスケールのモデルにおいて,既存のベースラインよりも優れたモーダリティ対応型特徴蒸留(MAFED)手法を提案することである。 さらに, モダリティを意識した蒸留は, 経験の再現を補完することを示す。 全体として,マルチモーダル連続学習における忘れを抑えるために,モダリティに特有なダイナミクスに対処することの重要性を強調した。

Continual learning focuses on incrementally training a model on a sequence of tasks with the aim of learning new tasks while minimizing performance drop on previous tasks. Existing approaches at the intersection of Continual Learning and Visual Question Answering (VQA) do not study how the multimodal nature of the input affects the learning dynamics of a model. In this paper, we demonstrate that each modality evolves at different rates across a continuum of tasks and that this behavior occurs in established encoder-only models as well as modern recipes for developing Vision & Language (VL) models. Motivated by this observation, we propose a modality-aware feature distillation (MAFED) approach which outperforms existing baselines across models of varying scale in three multimodal continual learning settings. Furthermore, we provide ablations showcasing that modality-aware distillation complements experience replay. Overall, our results emphasize the importance of addressing modality-specific dynamics to prevent forgetting in multimodal continual learning.
翻訳日:2024-06-28 13:38:31 公開日:2024-06-27
# 拡散モデルを用いた合成画像分解

Compositional Image Decomposition with Diffusion Models ( http://arxiv.org/abs/2406.19298v1 )

ライセンス: Link先を確認
Jocelin Su, Nan Liu, Yanbo Wang, Joshua B. Tenenbaum, Yilun Du, (参考訳) 自然のシーンのイメージが与えられたら、オブジェクト、照明、影、前景などのコンポーネントに素早く分解することができます。 すると私たちは、ある部品を他の画像のものと組み合わせるシーンを想像できます。例えば、寝室のオブジェクトや、森の照明条件下で動物園の動物などです。 本稿では,イメージを構成成分に分解する手法を提案する。 我々のアプローチであるDecomp Diffusionは教師なしの手法であり、単一の画像が与えられると、拡散モデルによって表現される画像内の異なる成分の集合を推論する。 コンポーネントは、影や表情のようなグローバルなシーン記述子から、構成オブジェクトのようなローカルなシーン記述子まで、シーンのさまざまな要因をキャプチャする方法を実証する。 さらに、他のモデルから推定された因子を柔軟に構成して、トレーニング時間と大きく異なる様々なシーンを生成する方法について述べる。 https://energy-based-model.github.io/decomp-diffusion

Given an image of a natural scene, we are able to quickly decompose it into a set of components such as objects, lighting, shadows, and foreground. We can then envision a scene where we combine certain components with those from other images, for instance a set of objects from our bedroom and animals from a zoo under the lighting conditions of a forest, even if we have never encountered such a scene before. In this paper, we present a method to decompose an image into such compositional components. Our approach, Decomp Diffusion, is an unsupervised method which, when given a single image, infers a set of different components in the image, each represented by a diffusion model. We demonstrate how components can capture different factors of the scene, ranging from global scene descriptors like shadows or facial expression to local scene descriptors like constituent objects. We further illustrate how inferred factors can be flexibly composed, even with factors inferred from other models, to generate a variety of scenes sharply different than those seen in training time. Website and code at https://energy-based-model.github.io/decomp-diffusion.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# PNeRV: ビデオのための多項式ニューラル表現

PNeRV: A Polynomial Neural Representation for Videos ( http://arxiv.org/abs/2406.19299v1 )

ライセンス: Link先を確認
Sonam Gupta, Snehal Singh Tomar, Grigorios G Chrysos, Sukhendu Das, A. N. Rajagopalan, (参考訳) Inlicit Neural Representations (INR) をビデオデータに抽出することは、時間次元の増大による固有の課題をもたらす。 ビデオの文脈では、INRは主にフレームのみのパラメータ化に依存しており、ピクセルレベルの(空間的な)表現で観察される時空間連続性を犠牲にしている。 これを緩和するために、時空間連続性を保存するビデオのためのパラメータワイドでパッチワイドなINRであるPolynomial Neural Representation for Videos (PNeRV)を導入する。 PNeRVは、連続時間(フレーム)信号による連続空間(パッチ)信号の変調を実行するために、多項式ニューラルネットワークのモデリング機能を利用する。 さらに,パラメータ効率を保ちながら空間連続性を確保できる独自の階層的パッチワイド空間サンプリングスキームを提案する。 また、PNeRVの性能をさらに向上させるために、注意深く設計された位置埋め込み手法を用いる。 我々の広範な実験により、PNeRVは圧縮のような従来のインプリシットニューラル表現タスクのベースラインと、基礎となる表現の時空間連続性を必要とする下流アプリケーションで性能を向上することを示した。 PNeRVは、INRの領域でビデオデータによって引き起こされる課題に対処するだけでなく、高度なビデオ処理と分析のための新たな道を開く。

Extracting Implicit Neural Representations (INRs) on video data poses unique challenges due to the additional temporal dimension. In the context of videos, INRs have predominantly relied on a frame-only parameterization, which sacrifices the spatiotemporal continuity observed in pixel-level (spatial) representations. To mitigate this, we introduce Polynomial Neural Representation for Videos (PNeRV), a parameter-wise efficient, patch-wise INR for videos that preserves spatiotemporal continuity. PNeRV leverages the modeling capabilities of Polynomial Neural Networks to perform the modulation of a continuous spatial (patch) signal with a continuous time (frame) signal. We further propose a custom Hierarchical Patch-wise Spatial Sampling Scheme that ensures spatial continuity while retaining parameter efficiency. We also employ a carefully designed Positional Embedding methodology to further enhance PNeRV's performance. Our extensive experimentation demonstrates that PNeRV outperforms the baselines in conventional Implicit Neural Representation tasks like compression along with downstream applications that require spatiotemporal continuity in the underlying representation. PNeRV not only addresses the challenges posed by video data in the realm of INRs but also opens new avenues for advanced video processing and analysis.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# scRNA-seqデータによるバッチ効果の存在下でのセル階層の発見

scTree: Discovering Cellular Hierarchies in the Presence of Batch Effects in scRNA-seq Data ( http://arxiv.org/abs/2406.19300v1 )

ライセンス: Link先を確認
Moritz Vandenhirtz, Florian Barkmann, Laura Manduchi, Julia E. Vogt, Valentina Boeva, (参考訳) 単一セルRNAシークエンシングデータへの階層的クラスタリング手法を拡張した,単一セルツリー変分自動エンコーダのための新しい手法 scTree を提案する。 scTreeは、ツリー構造データ表現を同時に学習しながら、バッチ効果を補正する。 このVAEベースの手法は、バッチのバイアス効果とは無関係に、複雑なセルランドスケープのより深い理解を可能にする。 scTreeがデータの基礎となるクラスタとそれらの間の階層的関係を発見する7つのデータセットを実証的に示すとともに、これらのデータセット全体で確立されたベースラインメソッドよりも優れています。 さらに,その生物学的関連性を理解するために学習階層を解析し,バッチ補正を直接クラスタリング手順に統合することの重要性を浮き彫りにした。

We propose a novel method, scTree, for single-cell Tree Variational Autoencoders, extending a hierarchical clustering approach to single-cell RNA sequencing data. scTree corrects for batch effects while simultaneously learning a tree-structured data representation. This VAE-based method allows for a more in-depth understanding of complex cellular landscapes independently of the biasing effects of batches. We show empirically on seven datasets that scTree discovers the underlying clusters of the data and the hierarchical relations between them, as well as outperforms established baseline methods across these datasets. Additionally, we analyze the learned hierarchy to understand its biological relevance, thus underpinning the importance of integrating batch correction directly into the clustering procedure.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# MCNC:manifold Constrained Network Compression

MCNC: Manifold Constrained Network Compression ( http://arxiv.org/abs/2406.19301v1 )

ライセンス: Link先を確認
Chayne Thrash, Ali Abbasi, Parsa Nooralinejad, Soroush Abbasi Koohpayegani, Reed Andreas, Hamed Pirsiavash, Soheil Kolouri, (参考訳) コンピュータビジョンから音声、自然言語処理に至るまで、様々なタスクにまたがる大規模な基礎モデルの卓越した性能は、その需要を大幅に増加させた。 しかし、これらのモデルの保存と送信は、その巨大なサイズ(例えば、GPT-3では350GB)が大きな課題である。 近年の文献では、オリジナルの重量を圧縮したり、これらのモデルを微調整するのに必要なパラメータの数を減らしたりすることに重点を置いている。 これらの圧縮法は通常、モデルトレーニング中に低ランク再パラメータ化(例えば、LoRA)や量子化(例えば、QLoRA)を通じてパラメータ空間を制約する。 本稿では, MCNCをパラメータ空間を低次元の既定義かつ凍結された非線形多様体に制約する新しいモデル圧縮法として提示し, この空間を効果的にカバーする。 過パラメータ化ディープニューラルネットワークにおける良い解の出現率を考えると,提案する多様体にパラメータ空間を制約することにより,様々なタスクにまたがる前例のない圧縮速度を達成しながら高品質な解を識別できることが示される。 コンピュータビジョンと自然言語処理タスクの広範な実験を通して、我々の手法MCNCは、圧縮、精度、モデル再構成時間において最先端のベースラインを大幅に上回ることを示した。

The outstanding performance of large foundational models across diverse tasks-from computer vision to speech and natural language processing-has significantly increased their demand. However, storing and transmitting these models pose significant challenges due to their massive size (e.g., 350GB for GPT-3). Recent literature has focused on compressing the original weights or reducing the number of parameters required for fine-tuning these models. These compression methods typically involve constraining the parameter space, for example, through low-rank reparametrization (e.g., LoRA) or quantization (e.g., QLoRA) during model training. In this paper, we present MCNC as a novel model compression method that constrains the parameter space to low-dimensional pre-defined and frozen nonlinear manifolds, which effectively cover this space. Given the prevalence of good solutions in over-parameterized deep neural networks, we show that by constraining the parameter space to our proposed manifold, we can identify high-quality solutions while achieving unprecedented compression rates across a wide variety of tasks. Through extensive experiments in computer vision and natural language processing tasks, we demonstrate that our method, MCNC, significantly outperforms state-of-the-art baselines in terms of compression, accuracy, and/or model reconstruction time.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# 深部環境と地理的事前情報を用いたセンチネル2からの陸地自然度マッピング

Mapping Land Naturalness from Sentinel-2 using Deep Contextual and Geographical Priors ( http://arxiv.org/abs/2406.19302v1 )

ライセンス: Link先を確認
Burak Ekim, Michael Schmitt, (参考訳) 過去数十年間、気候変動の原因と結果が加速し、地球に前例のない規模で影響を及ぼした。 この変化は、人間が周囲を変える方法と密接に結びついている。 我々の行動は自然圏に影響を与え続けており、これらの効果を観測・測定するために衛星画像を利用することは、気候変動の理解と対策に不可欠になっている。 現代の人的圧力の連続体に自然の陸地をマッピングすることを目的として,衛星データの固有の課題と今後の課題に対処するマルチモーダル・教師付きディープラーニングフレームワークを開発した。 我々は、対応する座標情報と、予測される即時パッチを含むより広いコンテキスト情報で表される文脈的および地理的先行情報を組み込んだ。 本フレームワークは、マルチスペクトル光衛星画像の一種であるSentinel-2データから陸地自然度をマッピングする際のモデルの予測性能を向上させる。 保護措置が生態系の理解と同じくらいに効果的であることを認識し、自然性を定量化することは、環境管理を強化するための重要なステップである。

In recent decades, the causes and consequences of climate change have accelerated, affecting our planet on an unprecedented scale. This change is closely tied to the ways in which humans alter their surroundings. As our actions continue to impact natural areas, using satellite images to observe and measure these effects has become crucial for understanding and combating climate change. Aiming to map land naturalness on the continuum of modern human pressure, we have developed a multi-modal supervised deep learning framework that addresses the unique challenges of satellite data and the task at hand. We incorporate contextual and geographical priors, represented by corresponding coordinate information and broader contextual information, including and surrounding the immediate patch to be predicted. Our framework improves the model's predictive performance in mapping land naturalness from Sentinel-2 data, a type of multi-spectral optical satellite imagery. Recognizing that our protective measures are only as effective as our understanding of the ecosystem, quantifying naturalness serves as a crucial step toward enhancing our environmental stewardship.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# ルーティングによるセンサのグローバルな変化の理解

Understanding Routing-Induced Censorship Changes Globally ( http://arxiv.org/abs/2406.19304v1 )

ライセンス: Link先を確認
Abhishek Bhaskar, Paul Pearce, (参考訳) インターネット検閲は広く普及しており、何が検閲されているのか、どこで何が検閲されているのかを理解するために多大な努力を払っている。 実験では、説明のつかない非決定主義は、検閲の負荷、エンドホストの地理的多様性、または不完全な検閲によって引き起こされたと考えられる。 本研究では,これらの不整合の原因がEqual-cost Multi-path(ECMP)ルーティングの程度であり,その測定と補償方法を開発する。 我々は、ECMPルーティングが、プロトコル、検閲機構、および17か国で観察された検閲を大きく変えることを発見した。 従来観測されていた非決定性や地域変動は,Flow-IDに基づいて異なる経路をたどる固定ホスト間の計測に起因している。 そこで我々は、DNS、HTTP、HTTPS検閲の一貫性のある測定を可能にする新しいルート安定検閲計測方法を開発した。 ECMPルーティングはIPの42%、ASesの51%にわたる検閲変更をもたらすが、その影響は均一ではない。 我々は、インフラストラクチャーの失敗から、地理的に多様な経路をたどる同じエンドホストへのルートに至るまで、さまざまな行動の原因を特定し、検閲とルートの違いを経験する。 最後に, 前回のグローバルな測定研究の文脈から, まず, 先行観測結果の適用性について検討し, 次に, 2つの研究から得られた具体的な実験がどのように影響し, 具体的な結果がECMPルーティングによって説明可能であることを実証した。 我々の研究は、将来の研究を改善し、矛盾を減らし、再現性を高める方法を示している。

Internet censorship is pervasive, with significant effort dedicated to understanding what is censored, and where. Prior censorship work however have identified significant inconsistencies in their results; experiments show unexplained non-determinism thought to be caused by censor load, end-host geographic diversity, or incomplete censorship -- inconsistencies which impede reliable, repeatable and correct understanding of global censorship. In this work we investigate the extent to which Equal-cost Multi-path (ECMP) routing is the cause for these inconsistencies, developing methods to measure and compensate for them. We find ECMP routing significantly changes observed censorship across protocols, censor mechanisms, and in 17 countries. We identify that previously observed non-determinism or regional variations are attributable to measurements between fixed end-hosts taking different routes based on Flow-ID; i.e., choice of intra-subnet source IP or ephemeral source port leads to differences in observed censorship. To achieve this we develop new route-stable censorship measurement methods that allow consistent measurement of DNS, HTTP, and HTTPS censorship. We find ECMP routing yields censorship changes across 42% of IPs and 51% of ASes, but that impact is not uniform. We identify numerous causes of the behavior, ranging from likely failed infrastructure, to routes to the same end-host taking geographically diverse paths which experience differences in censorship en-route. Finally, we explore our results in the context of prior global measurement studies, exploring first the applicability of our findings to prior observed variations, and then demonstrating how specific experiments from two studies could be impacted by, and specific results are explainable by, ECMP routing. Our work points to methods for improving future studies, reducing inconsistencies and increasing repeatability.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# Commonsense Causalityのオデュッセイ:基礎ベンチマークからカットエッジ推論まで

The Odyssey of Commonsense Causality: From Foundational Benchmarks to Cutting-Edge Reasoning ( http://arxiv.org/abs/2406.19307v1 )

ライセンス: Link先を確認
Shaobo Cui, Zhijing Jin, Bernhard Schölkopf, Boi Faltings, (参考訳) 常識の因果関係を理解することは、人間にとってユニークな知性である。 現実世界の原則をよりよく理解し、因果関係の意思決定プロセスに役立ちます。 例えば、コモンセンスの因果関係は、被告の行為が原告の法的責任決定における損失を引き起こすかどうかを判断するために重要である。 その重要性にもかかわらず、このトピックの体系的な探索は特に欠落している。 我々の総合的な調査は、分類学、ベンチマーク、取得方法、質的推論、コモンセンス因果関係の定量的測定に焦点をあて、200以上の代表記事から洞察を合成することで、このギャップを埋める。 本研究の目的は、体系的な概要の提供、最近の進歩に関する学者の更新、初心者のための実践的なガイドの提供、そしてこの重要な分野における将来的な研究の方向性を明らかにすることである。

Understanding commonsense causality is a unique mark of intelligence for humans. It helps people understand the principles of the real world better and benefits the decision-making process related to causation. For instance, commonsense causality is crucial in judging whether a defendant's action causes the plaintiff's loss in determining legal liability. Despite its significance, a systematic exploration of this topic is notably lacking. Our comprehensive survey bridges this gap by focusing on taxonomies, benchmarks, acquisition methods, qualitative reasoning, and quantitative measurements in commonsense causality, synthesizing insights from over 200 representative articles. Our work aims to provide a systematic overview, update scholars on recent advancements, provide a pragmatic guide for beginners, and highlight promising future research directions in this vital field.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# マイクロ波遮蔽NaCs分子の励起状態分光とマジックトラップ

Dressed-State Spectroscopy and Magic Trapping of Microwave-Shielded NaCs Molecules ( http://arxiv.org/abs/2406.19308v1 )

ライセンス: Link先を確認
Siwei Zhang, Weijun Yuan, Niccolò Bigagli, Claire Warner, Ian Stevenson, Sebastian Will, (参考訳) マイクロ波シールドを用いた超低温NaCs分子の光双極子トラップにおける光偏光性について報告する。 マイクロ波場を用いた一対の回転状態のドレッシングにおいて,光偏光率の顕著な依存性がドレッシング場の強度と変形に及ぼす影響を観察した。 衣服の回転状態間の差分エネルギーシフトを正確に特徴付けるために,装身状態分光法を確立する。 強いドレッシング場では、魔法の回転遷移を設計し、レーザー強度変動に対する感度を示すことができる。 この研究の結果は、蒸発冷却と最近の分子ボース=アインシュタイン凝縮(Bigagli, et al , Nature (2024))の証明に直接関連しており、マイクロ波シールド分子の多体系の相互作用において精密なマイクロ波分光を行うための扉を開く可能性がある。

We report on the optical polarizability of microwave-shielded ultracold NaCs molecules in an optical dipole trap. While dressing a pair of rotational states with a microwave field, we observe a marked dependence of the optical polarizability on the intensity and detuning of the dressing field. To precisely characterize differential energy shifts between dressed rotational states, we establish dressed-state spectroscopy. For strong dressing fields, we find that a magic rotational transition can be engineered and demonstrate its insensitivity to laser intensity fluctuations. The results of this work have direct relevance for evaporative cooling and the recent demonstration of molecular Bose-Einstein condensates [Bigagli, et al., Nature (2024)] and may open a door to precision microwave spectroscopy in interacting many-body systems of microwave-shielded molecules.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# ブラックボックス自動音声認識システムにおけるゼロクエリアタック

Zero-Query Adversarial Attack on Black-box Automatic Speech Recognition Systems ( http://arxiv.org/abs/2406.19311v1 )

ライセンス: Link先を確認
Zheng Fang, Tao Wang, Lingchen Zhao, Shenyi Zhang, Bowen Li, Yunjie Ge, Qi Li, Chao Shen, Qian Wang, (参考訳) 近年、ASRシステムの脆弱性に関する広範な研究が行われ、ブラックボックスの敵対的な攻撃が現実世界のASRシステムに重大な脅威をもたらすことが明らかになった。 しかし、既存のブラックボックス攻撃のほとんどはターゲットのASRへのクエリに依存しており、クエリが許可されていない場合、実行不可能である。 本稿では,ZQ-Attackを提案する。ZQ-Attack,ZQ-Attack,ZQ-Attack,ZQ-Attack,ZQ-Attack,ZQ-Attack。 現代のASR技術の包括的レビューと分類を通じて、我々はまず様々な種類のASRを慎重に選択し、敵の例を生成する。 これに続いて、ZQ-Attackは、スケールされたターゲットコマンドオーディオで対向的摂動を初期化し、有効性を保ちながら比較的知覚できない。 次に,各サロゲートモデル上での対向摂動を反復的に最適化し,他のモデルからの協調情報を活用する逐次アンサンブル最適化アルゴリズムを提案する。 ZQ-Attackを評価するための広範囲な実験を行った。 オンライン音声認識サービスでは、ZQ-Attackは、21.91dBの平均信号-雑音比(SNR)の攻撃成功率(SRoA)を4つのオンライン音声認識サービスで達成し、16のオープンソースASRでは平均SRoAが100%、SNRが19.67dBに達する。 商用のインテリジェント音声制御装置では、ZQ-Attackは平均SNRが15.77dBのSRoAを達成する。

In recent years, extensive research has been conducted on the vulnerability of ASR systems, revealing that black-box adversarial example attacks pose significant threats to real-world ASR systems. However, most existing black-box attacks rely on queries to the target ASRs, which is impractical when queries are not permitted. In this paper, we propose ZQ-Attack, a transfer-based adversarial attack on ASR systems in the zero-query black-box setting. Through a comprehensive review and categorization of modern ASR technologies, we first meticulously select surrogate ASRs of diverse types to generate adversarial examples. Following this, ZQ-Attack initializes the adversarial perturbation with a scaled target command audio, rendering it relatively imperceptible while maintaining effectiveness. Subsequently, to achieve high transferability of adversarial perturbations, we propose a sequential ensemble optimization algorithm, which iteratively optimizes the adversarial perturbation on each surrogate model, leveraging collaborative information from other models. We conduct extensive experiments to evaluate ZQ-Attack. In the over-the-line setting, ZQ-Attack achieves a 100% success rate of attack (SRoA) with an average signal-to-noise ratio (SNR) of 21.91dB on 4 online speech recognition services, and attains an average SRoA of 100% and SNR of 19.67dB on 16 open-source ASRs. For commercial intelligent voice control devices, ZQ-Attack also achieves a 100% SRoA with an average SNR of 15.77dB in the over-the-air setting.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# LiveBench: 複雑で汚染のないLLMベンチマーク

LiveBench: A Challenging, Contamination-Free LLM Benchmark ( http://arxiv.org/abs/2406.19314v1 )

ライセンス: Link先を確認
Colin White, Samuel Dooley, Manley Roberts, Arka Pal, Ben Feuer, Siddhartha Jain, Ravid Shwartz-Ziv, Neel Jain, Khalid Saifullah, Siddartha Naidu, Chinmay Hegde, Yann LeCun, Tom Goldstein, Willie Neiswanger, Micah Goldblum, (参考訳) テストセットの汚染は、ベンチマークから得られたテストデータが、新しいモデルのトレーニングセットに終始する。 これを軽減するため、近年のベンチマークでは、人間やLLMの審査員による新たなプロンプトや評価をクラウドソースしている。 本研究では,LLMの試験セット汚染と,LLM判定と人為的クラウドソーシングの落とし穴の両方に免疫するように設計されたLSMの新しいベンチマークを提案する。 我々は,(1)最近の情報ソースからの頻繁な更新された質問を含む最初のベンチマークであるLiveBenchをリリースし,(2)目的の地平値に応じて回答を自動的にスコアし,(3)数学,コーディング,推論,言語,命令フォロー,データ分析など,幅広い課題を含む。 これを実現するためにLiveBenchには、最近リリースされた数学コンペティション、arXiv論文、ニュース記事、データセットに基づく質問が含まれており、Big-Bench Hard、AMPS、IFEvalといった以前のベンチマークからのタスクの、より難しく汚染のないバージョンを含んでいる。 我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。 LiveBenchは難しいが、上位モデルの精度は65%以下だ。 すべての質問、コード、モデル回答をリリースします。 質問は毎月追加され、更新されます。私たちは、LiveBenchが将来改善されるLLMの能力を区別できるように、新しいタスクとより難しいバージョンのタスクをリリースします。 ベンチマークタスクとモデルを拡大するために、コミュニティの関与とコラボレーションを歓迎します。

Test set contamination, wherein test data from a benchmark ends up in a newer model's training set, is a well-documented obstacle for fair LLM evaluation and can quickly render benchmarks obsolete. To mitigate this, many recent benchmarks crowdsource new prompts and evaluations from human or LLM judges; however, these can introduce significant biases, and break down when scoring hard questions. In this work, we introduce a new benchmark for LLMs designed to be immune to both test set contamination and the pitfalls of LLM judging and human crowdsourcing. We release LiveBench, the first benchmark that (1) contains frequently-updated questions from recent information sources, (2) scores answers automatically according to objective ground-truth values, and (3) contains a wide variety of challenging tasks, spanning math, coding, reasoning, language, instruction following, and data analysis. To achieve this, LiveBench contains questions that are based on recently-released math competitions, arXiv papers, news articles, and datasets, and it contains harder, contamination-free versions of tasks from previous benchmarks such as Big-Bench Hard, AMPS, and IFEval. We evaluate many prominent closed-source models, as well as dozens of open-source models ranging from 0.5B to 110B in size. LiveBench is difficult, with top models achieving below 65% accuracy. We release all questions, code, and model answers. Questions will be added and updated on a monthly basis, and we will release new tasks and harder versions of tasks over time so that LiveBench can distinguish between the capabilities of LLMs as they improve in the future. We welcome community engagement and collaboration for expanding the benchmark tasks and models.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# シーングラフ生成のための人工トリプレットと連携したデータ転送の強化

Enhanced Data Transfer Cooperating with Artificial Triplets for Scene Graph Generation ( http://arxiv.org/abs/2406.19316v1 )

ライセンス: Link先を確認
KuanChao Chu, Satoshi Yamazaki, Hideki Nakayama, (参考訳) この研究は、SGG(Scene Graph Generation)のための情報リレーショナルトリガのトレーニングデータセット強化に焦点を当てている。 効果的な監視が欠如しているため、現在のSGGモデル予測は、不十分なトレーニングサンプルを持つ情報的リレーショナル三重項に対して不十分に機能する。 そこで本稿では,FSTA(Feature Space Triplet Augmentation)とSoft Transferの2つの新しいトレーニングデータセット拡張モジュールを提案する。 FSTAは、リレーショナルトリガにおけるオブジェクトの表現を生成するために訓練された機能ジェネレータを利用する。 FSTAのバイアス予測に基づくサンプリングは、難しいものに焦点を当てた人工三重項を効率的に強化する。 さらに,ソフト・トランスファー(Soft Transfer)を導入し,ソフト・プレディケート・ラベルを一般的なリレーショナル・トリプレットに割り当て,より効果的なインフォメーション・プレディケート・クラスのための監督を行う。 実験結果から、FSTAとSoft Transferの統合は、Visual Genomeデータセットにおけるリコールと平均リコールの両方の高レベルを実現することが示された。 リコールの平均と平均リコールは、既存のすべてのモデルに依存しないメソッドの中で最高である。

This work focuses on training dataset enhancement of informative relational triplets for Scene Graph Generation (SGG). Due to the lack of effective supervision, the current SGG model predictions perform poorly for informative relational triplets with inadequate training samples. Therefore, we propose two novel training dataset enhancement modules: Feature Space Triplet Augmentation (FSTA) and Soft Transfer. FSTA leverages a feature generator trained to generate representations of an object in relational triplets. The biased prediction based sampling in FSTA efficiently augments artificial triplets focusing on the challenging ones. In addition, we introduce Soft Transfer, which assigns soft predicate labels to general relational triplets to make more supervisions for informative predicate classes effectively. Experimental results show that integrating FSTA and Soft Transfer achieve high levels of both Recall and mean Recall in Visual Genome dataset. The mean of Recall and mean Recall is the highest among all the existing model-agnostic methods.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# LLM生成した事前知識によるジャンプ開始帯域

Jump Starting Bandits with LLM-Generated Prior Knowledge ( http://arxiv.org/abs/2406.19317v1 )

ライセンス: Link先を確認
Parand A. Alamdari, Yanshuai Cao, Kevin H. Wilson, (参考訳) 本稿では,Large Language Models (LLMs) とContextual Multi-Armed Bandit フレームワークの統合によるメリットを実証する重要な証拠を示す。 コンテキストブレイディットは、ユーザ固有のコンテキストに基づいてパーソナライズされた提案を生成するレコメンデーションシステムで広く使用されている。 人的知識や嗜好に富んだ広範囲なコーパスで事前学習されたLCMは、オンライン学習の後悔を和らげるために、文脈的マルチ武器の盗賊を跳躍させるのに十分な人間の振る舞いをシミュレートできることを示す。 そこで本稿では,LLMに対して,バンドイットに近似した人選好の事前学習データセットを作成するように促すことにより,コンテキスト的バンドイットの初期化アルゴリズムを提案する。 これにより、オンライン学習の後悔や、そのようなモデルのトレーニングに要するデータ収集コストが大幅に削減される。 提案手法は,LLMを用いてオラクルとして機能する実験と,コンジョイントサーベイ実験のデータを利用した実世界の実験の2つの実験により実証的に検証された。

We present substantial evidence demonstrating the benefits of integrating Large Language Models (LLMs) with a Contextual Multi-Armed Bandit framework. Contextual bandits have been widely used in recommendation systems to generate personalized suggestions based on user-specific contexts. We show that LLMs, pre-trained on extensive corpora rich in human knowledge and preferences, can simulate human behaviours well enough to jump-start contextual multi-armed bandits to reduce online learning regret. We propose an initialization algorithm for contextual bandits by prompting LLMs to produce a pre-training dataset of approximate human preferences for the bandit. This significantly reduces online learning regret and data-gathering costs for training such models. Our approach is validated empirically through two sets of experiments with different bandit setups: one which utilizes LLMs to serve as an oracle and a real-world experiment utilizing data from a conjoint survey experiment.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# 文脈認識トークン化を用いた効率的な世界モデル

Efficient World Models with Context-Aware Tokenization ( http://arxiv.org/abs/2406.19320v1 )

ライセンス: Link先を確認
Vincent Micheli, Eloi Alonso, François Fleuret, (参考訳) 深層強化学習(RL)メソッドのスケールアップは大きな課題である。 生成モデリングの発展に続いて、モデルベースのRLは自身を強力な競合者として位置づけた。 シークエンスモデリングの最近の進歩は、環境を正確にシミュレートするために必要なトークンの長いシーケンスのため、重い計算の価格ではあるものの、効果的なトランスフォーマーベースの世界モデルを生み出している。 本研究では、時間ステップ間の確率的デルタを符号化する離散オートエンコーダと、連続トークンで世界の現在の状態を要約して将来のデルタを予測する自己回帰変換器からなる、世界モデルアーキテクチャを備えた新しいエージェントである$\Delta$-IRISを提案する。 Crafterベンチマークでは、$\Delta$-IRISは、複数のフレーム予算で新しい最先端を設定できると同時に、従来の注目ベースのアプローチよりもトレーニングが大幅に高速である。 コードとモデルはhttps://github.com/vmicheli/delta-iris.comで公開しています。

Scaling up deep Reinforcement Learning (RL) methods presents a significant challenge. Following developments in generative modelling, model-based RL positions itself as a strong contender. Recent advances in sequence modelling have led to effective transformer-based world models, albeit at the price of heavy computations due to the long sequences of tokens required to accurately simulate environments. In this work, we propose $\Delta$-IRIS, a new agent with a world model architecture composed of a discrete autoencoder that encodes stochastic deltas between time steps and an autoregressive transformer that predicts future deltas by summarizing the current state of the world with continuous tokens. In the Crafter benchmark, $\Delta$-IRIS sets a new state of the art at multiple frame budgets, while being an order of magnitude faster to train than previous attention-based approaches. We release our code and models at https://github.com/vmicheli/delta-iris.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# 潜時拡散モデルを用いた音楽ステム挿入のための抽出訓練

Subtractive Training for Music Stem Insertion using Latent Diffusion Models ( http://arxiv.org/abs/2406.19328v1 )

ライセンス: Link先を確認
Ivan Villa-Renteria, Mason L. Wang, Zachary Shah, Zhe Li, Soohyun Kim, Neelesh Ramachandran, Mert Pilanci, (参考訳) 本稿では,他の楽器がコンテキストとして与える個々の楽器茎を合成する,シンプルで斬新な方法であるSubtractive Trainingを提案する。 この方法では、完全な音楽ミックスのデータセットをペアリングする。 1) 特定の茎を欠いたデータセットの変種 2) 欠損した茎をどのように再導入すべきかを LLM で記述した。 そして、事前訓練されたテキスト・音声拡散モデルに微調整を行い、既存の幹とテキスト・インストラクションの両方でガイドされる、欠落した楽器の茎を生成する。 以上の結果から,既存のトラックとシームレスにブレンドしたドラムステムを創り出すためのサブトラクティブトレーニングの有効性が示された。 また,音律,ダイナミクス,ジャンルの観点から,挿入した茎の生成を制御するためにテキスト命令を使用すれば,残した楽器を同じ状態に保ちながら,単一楽器のスタイルを全曲で変更できることを示す。 最後に、このテクニックをMIDIフォーマットに拡張し、不完全なアレンジメントのために、互換性のあるベース、ドラム、ギター部品を生成する。

We present Subtractive Training, a simple and novel method for synthesizing individual musical instrument stems given other instruments as context. This method pairs a dataset of complete music mixes with 1) a variant of the dataset lacking a specific stem, and 2) LLM-generated instructions describing how the missing stem should be reintroduced. We then fine-tune a pretrained text-to-audio diffusion model to generate the missing instrument stem, guided by both the existing stems and the text instruction. Our results demonstrate Subtractive Training's efficacy in creating authentic drum stems that seamlessly blend with the existing tracks. We also show that we can use the text instruction to control the generation of the inserted stem in terms of rhythm, dynamics, and genre, allowing us to modify the style of a single instrument in a full song while keeping the remaining instruments the same. Lastly, we extend this technique to MIDI formats, successfully generating compatible bass, drum, and guitar parts for incomplete arrangements.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# トラップイオン量子コンピュータにおける仮想量子ビットの有用性

Utility of virtual qubits in trapped-ion quantum computers ( http://arxiv.org/abs/2406.19332v1 )

ライセンス: Link先を確認
Saumya Shivam, Fabian Pokorny, Andres Vazquez-Brennan, Ana S. Sotirova, Jamie D. Leppard, Sophie M. Decoppet, C. J. Ballance, S. L. Sondhi, (参考訳) 既存のトラップイオン量子コンピュータにおけるイオン内部の複数の量子ビットを符号化し、より多くの量子ビットにアクセスし、標準アルゴリズムを実装する回路を単純化する。 このような「仮想」量子ビットを使用することで、いくつかのイオン間ゲートをイオンゲートに置き換えることができ、イオン鎖の振動モードの使用を減らし、ノイズが少なくなる。 本稿では,少数の仮想量子ビットを用いて,Bernstein-Vaziraniアルゴリズムやランダム回路サンプリングなどの具体例について論じる。 さらに、仮想キュービットは、誤り訂正コードにより多くのデータキュービットを使用できるので、繰り返しコードを例に考える。 また, 仮想量子ビットを$^{137}\mathrm{Ba}^+$ ion でエンコードする状態を選択し, 状態の調製と測定を行う際にも, 実際の検討を行う。

We propose encoding multiple qubits inside ions in existing trapped-ion quantum computers to access more qubits and to simplify circuits implementing standard algorithms. By using such `virtual' qubits, some inter-ion gates can be replaced by intra-ion gates, reducing the use of vibrational modes of the ion chain, leading to less noise. We discuss specific examples such as the Bernstein-Vazirani algorithm and random circuit sampling, using a small number of virtual qubits. Additionally, virtual qubits enable using larger number of data qubits for an error correcting code, and we consider the repetition code as an example. We also lay out practical considerations to be made when choosing states to encode virtual qubits in $^{137}\mathrm{Ba}^+$ ions, and for preparing states and performing measurements.
翻訳日:2024-06-28 13:28:34 公開日:2024-06-27
# LiverUSRecon : 超音波検査による肝の3次元自動再建と体積測定

LiverUSRecon: Automatic 3D Reconstruction and Volumetry of the Liver with a Few Partial Ultrasound Scans ( http://arxiv.org/abs/2406.19336v1 )

ライセンス: Link先を確認
Kaushalya Sivayogaraj, Sahan T. Guruge, Udari Liyanage, Jeevani Udupihille, Saroj Jayasinghe, Gerard Fernando, Ranga Rodrigo, M. Rukshani Liyanaarachchi, (参考訳) 質的解析と疾患診断には肝の3次元再構築が重要である。 超音波(US)スキャンを用いた肝容積検査は、取得時間と安全性が低いため有利であるが、USスキャンの本質的なノイズ、ぼやけた境界、部分的な肝可視性により困難である。 肝のCTスキャンを用いて構築した統計的形状モデル (SSM) と合わせて, 肝の非完全矢状面USスキャンのセグメンテーションマスクを用いて, これらの課題に対処する。 我々は、この標準SSMを演算し、パラメトリック回帰ネットワークを介してUSスキャンに適合させるために必要な形状パラメータを計算した。 3次元肝再建は正確であり,自動肝体積計算に繋がる。 RMSEを用いてCTの分画量に対する肝体積推定値の精度を評価した。 p-value of 0.094 (>0.05) says that no significant difference between CT segmentation volume and ours in contrast with Childs' method。 我々は,US画像の解像度,SSMに使用されるCTスキャン数,主成分数,US画像の入力数に関する調査(アブレーション研究)を用いて,本手法を検証した。 我々の知る限り、これはSSM用の肝臓のCTスキャンを施した、いくつかの不完全なUSスキャンを用いた初めての自動肝容積検査システムである。

3D reconstruction of the liver for volumetry is important for qualitative analysis and disease diagnosis. Liver volumetry using ultrasound (US) scans, although advantageous due to less acquisition time and safety, is challenging due to the inherent noisiness in US scans, blurry boundaries, and partial liver visibility. We address these challenges by using the segmentation masks of a few incomplete sagittal-plane US scans of the liver in conjunction with a statistical shape model (SSM) built using a set of CT scans of the liver. We compute the shape parameters needed to warp this canonical SSM to fit the US scans through a parametric regression network. The resulting 3D liver reconstruction is accurate and leads to automatic liver volume calculation. We evaluate the accuracy of the estimated liver volumes with respect to CT segmentation volumes using RMSE. Our volume computation is statistically much closer to the volume estimated using CT scans than the volume computed using Childs' method by radiologists: p-value of 0.094 (>0.05) says that there is no significant difference between CT segmentation volumes and ours in contrast to Childs' method. We validate our method using investigations (ablation studies) on the US image resolution, the number of CT scans used for SSM, the number of principal components, and the number of input US scans. To the best of our knowledge, this is the first automatic liver volumetry system using a few incomplete US scans given a set of CT scans of livers for SSM.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# 電子カルテ評価のための産業制御システムネットワークプロトコルにおける隠れ情報の合成埋め込み

Synthetic Embedding of Hidden Information in Industrial Control System Network Protocols for Evaluation of Steganographic Malware ( http://arxiv.org/abs/2406.19338v1 )

ライセンス: Link先を確認
Tom Neubert, Bjarne Peuker, Laura Buxhoidt, Eric Schueler, Claus Vielhauer, (参考訳) 近年,IT(情報技術)やOT(オペレーショナル技術)システムにおいて,データ浸透・拡散・指令・制御を曖昧にするために,ネットワーク通信におけるステガノグラフィ技術による隠蔽情報の埋め込みが,攻撃者によってますます利用されてきている。 特に産業制御システム(ICS)と重要なインフラは、保護要件を増大させている。 現在、ネットワーク防御機構は、ネットワークステガノグラフィーに基づく新規攻撃に対して非常に効果がない。 したがって, 防御機構の訓練, 評価, 改善には, ステガノグラフィーを組み込んだ膨大なネットワークデータが必要である。 一方、生産的なICSネットワークに隠れた情報をリアルタイムに埋め込むことは、安全違反のため重要である。 また、特別な実験室を設置する必要があるため、時間を要する。 この課題に対処するため,本研究では,合成ステガノグラフィーネットワークデータに埋め込みの概念を導入し,防衛機構の訓練と評価のための大量のデータを自動的に生成する。 この概念により、必要なネットワークパケットを操作でき、組込みペースの点で最先端のネットワークパケットよりも優れている。

For the last several years, the embedding of hidden information by steganographic techniques in network communications is increasingly used by attackers in order to obscure data infiltration, exfiltration or command and control in IT (information technology) and OT (operational technology) systems. Especially industrial control systems (ICS) and critical infrastructures have increased protection requirements. Currently, network defense mechanisms are unfortunately quite ineffective against novel attacks based on network steganography. Thus, on the one hand huge amounts of network data with steganographic embedding is required to train, evaluate and improve defense mechanisms. On the other hand, the real-time embedding of hidden information in productive ICS networks is crucial due to safety violations. Additionally it is time consuming because it needs special laboratory setup. To address this challenge, this work introduces an embedding concept to gene ate synthetic steganographic network data to automatically produce significant amounts of data for training and evaluation of defense mechanisms. The concept enables the possibility to manipulate a network packet wherever required and outperforms the state-of-the-art in terms of embedding pace significantly.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# 完全テスト時間適応のためのビジュアルコンディショニングの学習

Learning Visual Conditioning Tokens to Correct Domain Shift for Fully Test-time Adaptation ( http://arxiv.org/abs/2406.19341v1 )

ライセンス: Link先を確認
Yushun Tang, Shuoshuo Chen, Zhehan Kan, Yi Zhang, Qinghai Guo, Zhihai He, (参考訳) 完全なテスト時間適応は、深層ニューラルネットワークのクロスドメイン性能劣化問題に対処するために、推論段階での入力サンプルのシーケンシャル分析に基づいてネットワークモデルを適用することを目的としている。 変換器に基づく画像分類では、第1変圧器エンコーダ層のクラストークンを学習して、テスト時間適応時のターゲットサンプルのドメイン固有の特性をキャプチャすることができる。 この学習トークンは、入力画像パッチ埋め込みと組み合わせることで、トランスフォーマー符号化プロセス中に入力サンプルの特徴表現から徐々にドメイン固有の情報を除去し、異なるドメインにわたるソースモデルのテスト時間適応性能を大幅に向上させることができる。 このクラストークンをビジュアルコンディショニングトークン(VCT)と呼ぶ。 VCTの学習に成功するために,2段階の学習手法を提案する。 ベンチマークデータセットを用いた実験結果から,提案手法はテスト時間適応性能を最大1.9%向上させることができることがわかった。

Fully test-time adaptation aims to adapt the network model based on sequential analysis of input samples during the inference stage to address the cross-domain performance degradation problem of deep neural networks. This work is based on the following interesting finding: in transformer-based image classification, the class token at the first transformer encoder layer can be learned to capture the domain-specific characteristics of target samples during test-time adaptation. This learned token, when combined with input image patch embeddings, is able to gradually remove the domain-specific information from the feature representations of input samples during the transformer encoding process, thereby significantly improving the test-time adaptation performance of the source model across different domains. We refer to this class token as visual conditioning token (VCT). To successfully learn the VCT, we propose a bi-level learning approach to capture the long-term variations of domain-specific characteristics while accommodating local variations of instance-specific characteristics. Experimental results on the benchmark datasets demonstrate that our proposed bi-level visual conditioning token learning method is able to achieve significantly improved test-time adaptation performance by up to 1.9%.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# IndoToxic2024: インドネシア語におけるヘイトスピーチと毒性型のデモグラフィックに富んだデータセット

IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language ( http://arxiv.org/abs/2406.19349v1 )

ライセンス: Link先を確認
Lucky Susanto, Musa Izzanardi Wijanarko, Prasetia Anugrah Pratama, Traci Hong, Ika Idris, Alham Fikri Aji, Derry Wijaya, (参考訳) ヘイトスピーチは社会的調和に重大な脅威をもたらす。 過去2年間でインドネシアでは、オンラインヘイトスピーチの割合が10倍に増えた。 しかし、インドネシアのテキストのラベル付きデータが限られているため、進歩は妨げられている。 この状況は、シーア、LGBTQ、その他の少数民族などの少数民族にとって、ヘイトスピーチの報告が不十分で、検出ツールによって理解されていないため、さらに悪化している。 さらに、現在のデータセットにおける主観性に対する調節の欠如は、この問題を複雑にしている。 これを解決するために、インドネシアの包括的なヘイトスピーチと毒性分類データセットであるIndoToxic2024を紹介する。 19の個人によって注釈付けされた43,692項目のデータセットは、インドネシアの脆弱なグループをターゲットにしたテキストに焦点を当てている。 我々は7つのバイナリ分類タスクのベースラインを確立し、ヘイトスピーチ分類のためのBERTモデル(IndoBERTweet)を用いてマクロF1スコア0.78を達成する。 さらに,大きな言語モデルであるgpt-3.5-turboのゼロショット性能が,人口統計情報を組み込むことによって向上することを示す。 しかし、人口統計情報に対する過度な強調は、データの断片化による微調整モデルの性能に悪影響を及ぼす可能性があると警告する。

Hate speech poses a significant threat to social harmony. Over the past two years, Indonesia has seen a ten-fold increase in the online hate speech ratio, underscoring the urgent need for effective detection mechanisms. However, progress is hindered by the limited availability of labeled data for Indonesian texts. The condition is even worse for marginalized minorities, such as Shia, LGBTQ, and other ethnic minorities because hate speech is underreported and less understood by detection tools. Furthermore, the lack of accommodation for subjectivity in current datasets compounds this issue. To address this, we introduce IndoToxic2024, a comprehensive Indonesian hate speech and toxicity classification dataset. Comprising 43,692 entries annotated by 19 diverse individuals, the dataset focuses on texts targeting vulnerable groups in Indonesia, specifically during the hottest political event in the country: the presidential election. We establish baselines for seven binary classification tasks, achieving a macro-F1 score of 0.78 with a BERT model (IndoBERTweet) fine-tuned for hate speech classification. Furthermore, we demonstrate how incorporating demographic information can enhance the zero-shot performance of the large language model, gpt-3.5-turbo. However, we also caution that an overemphasis on demographic information can negatively impact the fine-tuned model performance due to data fragmentation.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# D-WaveとIBM量子プロセッサの最適化比較に関するコメント

A comment on comparing optimization on D-Wave and IBM quantum processors ( http://arxiv.org/abs/2406.19351v1 )

ライセンス: Link先を確認
Catherine C. McGeoch, Kevin Chern, Pau Farré, Andrew K. King, (参考訳) 最近の研究(Sachdeva et al ]では、Q-CTRLによって設計され、IBMゲートベースの量子処理ユニット(QPU)上で実行される反復型ハイブリッド量子変分最適化アルゴリズムが提案されている。 ここでは,本比較における主要な方法論的問題について述べる。 単純な最適化されていないワークフローを用いて、[Sachdeva et al ] によって報告されたものよりも、成功確率が桁違いに高いことを示す。 これらの結果は、オープンソースコードとD-Wave量子アニールへの無料トライアルアクセスを使って再現できるが、Q-CTRLの優れた性能の主張とは矛盾する。 また、D-Wave QPU上のアナログ量子アニールは、IBM QPU上のデジタル量子アニールよりもはるかに低いエネルギーに達することを示す。

Recent work [Sachdeva et al.] presented an iterative hybrid quantum variational optimization algorithm designed by Q-CTRL and executed on IBM gate-based quantum processing units (QPUs), claiming a significant performance advantage against a D-Wave quantum annealer. Here we point out major methodological problems with this comparison. Using a simple unoptimized workflow for quantum annealing, we show success probabilities multiple orders of magnitude higher than those reported by [Sachdeva et al.]. These results, which can be reproduced using open-source code and free trial access to a D-Wave quantum annealer, contradict Q-CTRL's claims of superior performance. We also provide a direct comparison between quantum annealing and a recent demonstration of digitized quantum annealing on an IBM processor, showing that analog quantum annealing on a D-Wave QPU reaches far lower energies than digitized quantum annealing on an IBM QPU.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# CORE4D: 協調的物体再構成のための4次元人間-人間インタラクションデータセット

CORE4D: A 4D Human-Object-Human Interaction Dataset for Collaborative Object REarrangement ( http://arxiv.org/abs/2406.19353v1 )

ライセンス: Link先を確認
Chengwen Zhang, Yun Liu, Ruofan Xing, Bingda Tang, Li Yi, (参考訳) VR/ARと人間とロボットの相互作用には、人間がどのように協調的に家庭用オブジェクトを並べ替えるかを理解することが不可欠である。 しかし、これらの振る舞いをモデル化するための詳細な研究は、関連するデータセットが欠如しているため、あまり研究されていない。 このギャップを埋めるには、様々なオブジェクトジオメトリ、コラボレーションモード、および3Dシーンの多様な構成を含む、協調オブジェクト再構成に焦点を当てた、新しい大規模4次元人間-オブジェクトインタラクションデータセットであるCORE4Dを提示する。 現実世界で捉えた1K個の人・物・人間の動作シーケンスにより、我々は、様々な新しい物体に動きを拡大するための反復的な協調的再ターゲット戦略を寄与することにより、CORE4Dを豊かにする。 このアプローチを活用することで、CORE4Dは3Kおよび仮想オブジェクト形状にまたがる合計1Kの協調シーケンスで構成される。 CORE4Dが提供する広範囲な動きパターンから、人間と物体の相互作用を生成するための2つのタスク、すなわち人-物体の動き予測と相互作用合成をベンチマークする。 大規模な実験は、我々のコラボレーション再ターゲティング戦略の有効性を実証し、CORE4Dが既存の人間とオブジェクトの相互作用生成手法に新たな課題を提起したことを示している。 データセットとコードはhttps://github.com/leolyliu/CORE4D-Instructionsで公開しています。

Understanding how humans cooperatively rearrange household objects is critical for VR/AR and human-robot interaction. However, in-depth studies on modeling these behaviors are under-researched due to the lack of relevant datasets. We fill this gap by presenting CORE4D, a novel large-scale 4D human-object-human interaction dataset focusing on collaborative object rearrangement, which encompasses diverse compositions of various object geometries, collaboration modes, and 3D scenes. With 1K human-object-human motion sequences captured in the real world, we enrich CORE4D by contributing an iterative collaboration retargeting strategy to augment motions to a variety of novel objects. Leveraging this approach, CORE4D comprises a total of 11K collaboration sequences spanning 3K real and virtual object shapes. Benefiting from extensive motion patterns provided by CORE4D, we benchmark two tasks aiming at generating human-object interaction: human-object motion forecasting and interaction synthesis. Extensive experiments demonstrate the effectiveness of our collaboration retargeting strategy and indicate that CORE4D has posed new challenges to existing human-object interaction generation methodologies. Our dataset and code are available at https://github.com/leolyliu/CORE4D-Instructions.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# モデル編集における基本的な問題:LLMにおける合理的信念の見直しはどのように行うべきか?

Fundamental Problems With Model Editing: How Should Rational Belief Revision Work in LLMs? ( http://arxiv.org/abs/2406.19354v1 )

ライセンス: Link先を確認
Peter Hase, Thomas Hofweber, Xiang Zhou, Elias Stengel-Eskin, Mohit Bansal, (参考訳) モデル編集問題は、言語モデルが時間とともに世界に関する新しい事実を学習する方法に関するものである。 モデル編集に関する実証的研究は広く注目されているが、モデル編集の概念的な基礎は、おそらく、おそらくは、モデル編集は本質的に信念の修正であり、何十年にもわたって簡潔な解決を導いてきた哲学における確固たる問題であるため、いまだに不安定なままである。 にもかかわらず、モデル編集は、言語モデル内の知識を制御できる必要があるため、ソリューションを必要とします。 この目標を念頭に,本論文では,モデル編集問題の標準定式化を批判し,モデル編集研究のための形式的テストベッドを提案する。 まず,(1) 問題の定義,(2) ベンチマークの開発,(3) LLM がそもそも編集可能な信念を持っていることを前提として,モデル編集における12のオープンな問題について述べる。 これらの課題の多くは、編集の遠縁な結果の決定、事実間の確率的関係のラベル付け、エージェントシミュレータの信念の更新など、対処が非常に困難である。 次に、Wikidataに基づくモデル編集のための半合成データセットを導入し、理想化されたベイズエージェントによって与えられるラベルに対する編集を評価する。 これにより、言語モデルにおける信念の改訂が、望ましい認識基準の欠如を正確に言い表すことができる。 我々は、このような金の基準を比較できるような設定について、さらなる研究を奨励する。 私たちのコードは、https://github.com/peterbhase/LLM-belief-revisionで公開されています。

The model editing problem concerns how language models should learn new facts about the world over time. While empirical research on model editing has drawn widespread attention, the conceptual foundations of model editing remain shaky -- perhaps unsurprisingly, since model editing is essentially belief revision, a storied problem in philosophy that has eluded succinct solutions for decades. Model editing nonetheless demands a solution, since we need to be able to control the knowledge within language models. With this goal in mind, this paper critiques the standard formulation of the model editing problem and proposes a formal testbed for model editing research. We first describe 12 open problems with model editing, based on challenges with (1) defining the problem, (2) developing benchmarks, and (3) assuming LLMs have editable beliefs in the first place. Many of these challenges are extremely difficult to address, e.g. determining far-reaching consequences of edits, labeling probabilistic entailments between facts, and updating beliefs of agent simulators. Next, we introduce a semi-synthetic dataset for model editing based on Wikidata, where we can evaluate edits against labels given by an idealized Bayesian agent. This enables us to say exactly how belief revision in language models falls short of a desirable epistemic standard. We encourage further research exploring settings where such a gold standard can be compared against. Our code is publicly available at: https://github.com/peterbhase/LLM-belief-revision
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# DiVERT:マルチチョイス質問用テキストとして表現された変分誤差を持つディトラクタ生成

DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions ( http://arxiv.org/abs/2406.19356v1 )

ライセンス: Link先を確認
Nigel Fernandez, Alexander Scarlatos, Simon Woodhead, Andrew Lan, (参考訳) 学習者間の知識不足や誤解を予想する質問を手作業で作成するMCQの評価と教育的価値の両立には,高品質な気晴らし器が不可欠である。 一方、大きな言語モデル(LLM)の助けを借りたとしても、自動化されたイントラクタ生成は、数学のような科目では難しいままである。 もっともらしい気晴らしを識別するだけでなく、それらの背後にある誤りを理解することも重要です。 本稿では,DeverT (Distractor Generation with Variational Errors Represented as Text)を提案する。 数十万人の学生が使用している1,434の質問を実世界の数学MCQデータセットで実験した結果,7BパラメータのベースとなるオープンソースのLLMを用いたDiVERTが,GPT-4oを用いた最先端のアプローチを下流イントラクタ生成で上回っていることがわかった。 数学教育者による人間評価も行っており、DiVERTが人間による評価に匹敵する品質のエラーラベルを導いていることを発見した。

High-quality distractors are crucial to both the assessment and pedagogical value of multiple-choice questions (MCQs), where manually crafting ones that anticipate knowledge deficiencies or misconceptions among real students is difficult. Meanwhile, automated distractor generation, even with the help of large language models (LLMs), remains challenging for subjects like math. It is crucial to not only identify plausible distractors but also understand the error behind them. In this paper, we introduce DiVERT (Distractor Generation with Variational Errors Represented as Text), a novel variational approach that learns an interpretable representation of errors behind distractors in math MCQs. Through experiments on a real-world math MCQ dataset with 1,434 questions used by hundreds of thousands of students, we show that DiVERT, despite using a base open-source LLM with 7B parameters, outperforms state-of-the-art approaches using GPT-4o on downstream distractor generation. We also conduct a human evaluation with math educators and find that DiVERT leads to error labels that are of comparable quality to human-authored ones.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# 言語間知覚分析のためのモデル領域:大規模言語モデルにおける比較研究

The Model Arena for Cross-lingual Sentiment Analysis: A Comparative Study in the Era of Large Language Models ( http://arxiv.org/abs/2406.19358v1 )

ライセンス: Link先を確認
Xiliang Zhu, Shayna Gardiner, Tere Roldán, David Rossouw, (参考訳) 知覚分析は自然言語処理(NLP)において重要な要素である。 XLM-RやmT5のような多言語事前学習モデルの進歩は、言語間感情分析への関心の高まりに寄与している。 近年のLarge Language Models (LLM) の出現は, 言語間感情分析におけるLLMの能力は十分に研究されていない。 この研究は、英語、スペイン語、フランス語、中国語の感情分析の文脈において、XLM-Rのような公共の多言語言語モデル(SMLM)とLlama-3のような英語中心のLLMとの言語間伝達能力を比較するための実証的な分析を行う。 以上の結果から,SMLM は LLM と比較してゼロショットのクロスランガル性能が優れていることが示唆された。 しかし、数ショットのクロスランガル設定では、パブリックLLMは適応ポテンシャルの強化を示す。 また,プロプライエタリな GPT-3.5 と GPT-4 はゼロショットの言語機能を持つが,数ショットのシナリオでは公開モデルに勝っている。

Sentiment analysis serves as a pivotal component in Natural Language Processing (NLP). Advancements in multilingual pre-trained models such as XLM-R and mT5 have contributed to the increasing interest in cross-lingual sentiment analysis. The recent emergence in Large Language Models (LLM) has significantly advanced general NLP tasks, however, the capability of such LLMs in cross-lingual sentiment analysis has not been fully studied. This work undertakes an empirical analysis to compare the cross-lingual transfer capability of public Small Multilingual Language Models (SMLM) like XLM-R, against English-centric LLMs such as Llama-3, in the context of sentiment analysis across English, Spanish, French and Chinese. Our findings reveal that among public models, SMLMs exhibit superior zero-shot cross-lingual performance relative to LLMs. However, in few-shot cross-lingual settings, public LLMs demonstrate an enhanced adaptive potential. In addition, we observe that proprietary GPT-3.5 and GPT-4 lead in zero-shot cross-lingual capability, but are outpaced by public models in few-shot scenarios.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# STAL3D: 自己学習と逆学習の協調による3次元物体検出のための教師なしドメイン適応

STAL3D: Unsupervised Domain Adaptation for 3D Object Detection via Collaborating Self-Training and Adversarial Learning ( http://arxiv.org/abs/2406.19362v1 )

ライセンス: Link先を確認
Yanan Zhang, Chao Zhou, Di Huang, (参考訳) 既存の3Dオブジェクト検出は、ドメインギャップによる高価なアノテーションコストと未知のデータへの転送性に悩まされており、Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインでトレーニングされた検出モデルを一般化して、探索されていないターゲットドメインで堅牢に実行することを目的としており、クロスドメインな3Dオブジェクト検出のための有望なソリューションを提供する。 擬似ラベル技術を用いた自己評価(ST)に基づくクロスドメイン3次元検出手法は目覚ましい進歩を遂げているが,特徴分布アライメントのプロセスが欠如しているため,領域差が著しい場合にも,低品質な擬似ラベルの問題に直面している。 Adversarial Learning (AL) ベースの手法は、ソースとターゲットドメインの特徴分布を効果的に整合させることができるが、ターゲットドメインのラベルを得ることができないため、非対称な最適化損失が採用され、ソースドメインのバイアスが問題となる。 これらの制約を克服するために,STAL3Dと呼ばれるSTとALの協調による3次元オブジェクト検出のための新しい教師なしドメイン適応フレームワークを提案する。 さらに、背景抑圧適応学習(BS-AL)モジュールとスケールフィルタリングモジュール(SFM)は、3次元のクロスドメインシーン用に設計されており、背景干渉とソースドメインサイズバイアスの問題を効果的に軽減している。 当社のSTAL3Dは、複数のクロスドメインタスクにおける最先端のパフォーマンスを実現し、Waymo $\rightarrow$ KITTIとWaymo $\rightarrow$ KITTI-rainのOracle結果を超えています。

Existing 3D object detection suffers from expensive annotation costs and poor transferability to unknown data due to the domain gap, Unsupervised Domain Adaptation (UDA) aims to generalize detection models trained in labeled source domains to perform robustly on unexplored target domains, providing a promising solution for cross-domain 3D object detection. Although Self-Training (ST) based cross-domain 3D detection methods with the assistance of pseudo-labeling techniques have achieved remarkable progress, they still face the issue of low-quality pseudo-labels when there are significant domain disparities due to the absence of a process for feature distribution alignment. While Adversarial Learning (AL) based methods can effectively align the feature distributions of the source and target domains, the inability to obtain labels in the target domain forces the adoption of asymmetric optimization losses, resulting in a challenging issue of source domain bias. To overcome these limitations, we propose a novel unsupervised domain adaptation framework for 3D object detection via collaborating ST and AL, dubbed as STAL3D, unleashing the complementary advantages of pseudo labels and feature distribution alignment. Additionally, a Background Suppression Adversarial Learning (BS-AL) module and a Scale Filtering Module (SFM) are designed tailored for 3D cross-domain scenes, effectively alleviating the issues of the large proportion of background interference and source domain size bias. Our STAL3D achieves state-of-the-art performance on multiple cross-domain tasks and even surpasses the Oracle results on Waymo $\rightarrow$ KITTI and Waymo $\rightarrow$ KITTI-rain.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# SimTxtSeg: シンプルテキストキューによる医療画像の断片化

SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues ( http://arxiv.org/abs/2406.19364v1 )

ライセンス: Link先を確認
Yuxin Xie, Tao Zhou, Yi Zhou, Geng Chen, (参考訳) 重度管理された医用画像のセグメンテーションは、セグメンテーション性能を維持しつつ、アノテーションコストを削減することを目的とした課題である。 本稿では,単純なテキストキューを活用して高品質な擬似ラベルを生成する新しいフレームワーク,SimTxtSegを提案し,訓練セグメンテーションモデルにおけるクロスモーダル融合を同時に研究する。 提案するコントリビューションは,医用画像上のテキストプロンプトから視覚的プロンプトを生成するテキスト・ツー・ビジュアル・キュー・コンバータと,テキストと画像の特徴を融合したテキスト・ビジョン・ハイブリッド・アテンションを用いたテキスト誘導セグメンテーション・モデルである。 我々は,大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みを評価し,一貫した最先端性能を実現する。

Weakly-supervised medical image segmentation is a challenging task that aims to reduce the annotation cost while keep the segmentation performance. In this paper, we present a novel framework, SimTxtSeg, that leverages simple text cues to generate high-quality pseudo-labels and study the cross-modal fusion in training segmentation models, simultaneously. Our contribution consists of two key components: an effective Textual-to-Visual Cue Converter that produces visual prompts from text prompts on medical images, and a text-guided segmentation model with Text-Vision Hybrid Attention that fuses text and image features. We evaluate our framework on two medical image segmentation tasks: colonic polyp segmentation and MRI brain tumor segmentation, and achieve consistent state-of-the-art performance.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# Mamba または RWKV: 高品質で高効率なセグメントモデルの探索

Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model ( http://arxiv.org/abs/2406.19369v1 )

ライセンス: Link先を確認
Haobo Yuan, Xiangtai Li, Lu Qi, Tao Zhang, Ming-Hsuan Yang, Shuicheng Yan, Chen Change Loy, (参考訳) 変換器を用いた分割法は高解像度画像を扱う際の効率的な推論の課題に直面している。 近年、Mamba や RWKV などの線形アテンションアーキテクチャは、長いシーケンスを効率的に処理できるため、多くの注目を集めている。 本研究では,これらの異なるアーキテクチャを探索することで,効率的なセグメント・アズ・ア・モデルの設計に焦点をあてる。 具体的には、畳み込みとRWKV操作を含む混合バックボーンを設計し、精度と効率を両立させる。 さらに,マルチスケールトークンを用いて高品質なマスクを得るための効率的なデコーダを設計する。 RWKV-SAM は SAM-like モデルのための単純で効果的で高速なベースラインである。 さらに,様々な高品質セグメンテーションデータセットを含むベンチマークを構築し,このベンチマークを用いて効率的かつ高品質セグメンテーションモデルを共同で訓練する。 ベンチマーク結果に基づいて,我々のRWKV-SAMは,変圧器や他の線形アテンションモデルと比較して,効率とセグメンテーション品質の優れた性能を実現している。 例えば、同じスケールのトランスフォーマーモデルと比較して、RWKV-SAMは2倍以上のスピードアップを実現し、様々なデータセットでのセグメンテーション性能を向上させることができる。 さらに、RWKV-SAMは、より優れた分類とセマンティックセグメンテーション結果を持つ最近のビジョンMambaモデルより優れている。 コードとモデルは公開されます。

Transformer-based segmentation methods face the challenge of efficient inference when dealing with high-resolution images. Recently, several linear attention architectures, such as Mamba and RWKV, have attracted much attention as they can process long sequences efficiently. In this work, we focus on designing an efficient segment-anything model by exploring these different architectures. Specifically, we design a mixed backbone that contains convolution and RWKV operation, which achieves the best for both accuracy and efficiency. In addition, we design an efficient decoder to utilize the multiscale tokens to obtain high-quality masks. We denote our method as RWKV-SAM, a simple, effective, fast baseline for SAM-like models. Moreover, we build a benchmark containing various high-quality segmentation datasets and jointly train one efficient yet high-quality segmentation model using this benchmark. Based on the benchmark results, our RWKV-SAM achieves outstanding performance in efficiency and segmentation quality compared to transformers and other linear attention models. For example, compared with the same-scale transformer model, RWKV-SAM achieves more than 2x speedup and can achieve better segmentation performance on various datasets. In addition, RWKV-SAM outperforms recent vision Mamba models with better classification and semantic segmentation results. Code and models will be publicly available.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# 隠れ能力の創発 : 概念空間における学習ダイナミクスの探求

Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space ( http://arxiv.org/abs/2406.19370v1 )

ライセンス: Link先を確認
Core Francisco Park, Maya Okawa, Andrew Lee, Ekdeep Singh Lubana, Hidenori Tanaka, (参考訳) 現代の生成モデルは、おそらくトレーニングデータの基礎となる抽象概念を識別し、操作する能力から生まれた、印象的な能力を示している。 しかし、基本的な疑問は残る:モデルが学習する概念、モデルが学習する順序、そしてそれらの概念を操作できる能力を決定するものは何か? これらの問題に対処するために、我々は、各軸がデータ生成プロセスの基盤となる独立した概念を表す概念空間と呼ばれるフレームワークを通して、モデルの学習力学を分析することを提案する。 この空間で学習力学を特徴付けることにより、概念が学習される速度、すなわち概念学習の順序が、概念信号と呼ぶデータの特性によって制御されるかを特定する。 さらに,概念空間におけるモデルの学習力学の方向を,突然回転する瞬間を観察する。 驚くべきことに、これらのポイントは隠された能力の出現、すなわち、潜在的介入がモデルが概念を操作する能力を持っていることを示すものであるが、これらの能力はまだナイーブな入力プロンプトによって引き起こされない。 人工的に定義されたおもちゃのデータセットに焦点が当てられているが、私たちは隠れた能力の出現に関する一般的な主張を仮説を立てている。

Modern generative models demonstrate impressive capabilities, likely stemming from an ability to identify and manipulate abstract concepts underlying their training data. However, fundamental questions remain: what determines the concepts a model learns, the order in which it learns them, and its ability to manipulate those concepts? To address these questions, we propose analyzing a model's learning dynamics via a framework we call the concept space, where each axis represents an independent concept underlying the data generating process. By characterizing learning dynamics in this space, we identify how the speed at which a concept is learned, and hence the order of concept learning, is controlled by properties of the data we term concept signal. Further, we observe moments of sudden turns in the direction of a model's learning dynamics in concept space. Surprisingly, these points precisely correspond to the emergence of hidden capabilities, i.e., where latent interventions show the model possesses the capability to manipulate a concept, but these capabilities cannot yet be elicited via naive input prompting. While our results focus on synthetically defined toy datasets, we hypothesize a general claim on emergence of hidden capabilities may hold: generative models possess latent capabilities that emerge suddenly and consistently during training, though a model might not exhibit these capabilities under naive input prompting.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# Suri: 長文テキスト生成のためのマルチ制約命令追従

Suri: Multi-constraint Instruction Following for Long-form Text Generation ( http://arxiv.org/abs/2406.19371v1 )

ライセンス: Link先を確認
Chau Minh Pham, Simeng Sun, Mohit Iyyer, (参考訳) 命令に従う既存の研究は、単純な命令と短い応答を持つタスクに主に焦点をあてている。 本研究では,長文テキストを生成するためのマルチ制約命令について検討する。 Suriは20Kの人書き長文テキストと、複数の複雑な制約を含むLLM生成の裏書き命令を組み合わせたデータセットです。 長文テキスト上での人間の嗜好判断の収集に係わる禁止的課題のため,DPOなどの嗜好調整アルゴリズムは実現不可能であり,本アルゴリズムに基づくアライメント手法であるインストラクショナルORPO(I-ORPO)を提案する。 好ましくない応答から負のフィードバックを受ける代わりに、I-ORPOはLLMによって生成された合成劣化命令から負のフィードバックを得る。 Suriを用いてMistral-7b-Instruct-v0.2上で教師付きおよびI-ORPO微調整を行う。 結果として得られたSuri-SFTとSuri-I-ORPOは、品質劣化のないベースモデルよりもはるかに長いテキスト(約5Kトークン)を生成する。 我々は,SFTモデルとI-ORPOモデルの両方がほとんどの制約を満たす一方で,Suri-I-ORPO世代は制約の一貫性と情報化に好適であることを示した。 コードをhttps://github.com/chtmp223/suri.comでリリースしています。

Existing research on instruction following largely focuses on tasks with simple instructions and short responses. In this work, we explore multi-constraint instruction following for generating long-form text. We create Suri, a dataset with 20K human-written long-form texts paired with LLM-generated backtranslated instructions that contain multiple complex constraints. Because of prohibitive challenges associated with collecting human preference judgments on long-form texts, preference-tuning algorithms such as DPO are infeasible in our setting; thus, we propose Instructional ORPO (I-ORPO), an alignment method based on the ORPO algorithm. Instead of receiving negative feedback from dispreferred responses, I-ORPO obtains negative feedback from synthetically corrupted instructions generated by an LLM. Using Suri, we perform supervised and I-ORPO fine-tuning on Mistral-7b-Instruct-v0.2. The resulting models, Suri-SFT and Suri-I-ORPO, generate significantly longer texts (~5K tokens) than base models without significant quality deterioration. Our human evaluation shows that while both SFT and I-ORPO models satisfy most constraints, Suri-I-ORPO generations are generally preferred for their coherent and informative incorporation of the constraints. We release our code at https://github.com/chtmp223/suri.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# 不確定因数順序による量子状態判別の強化

Enhancing Quantum State Discrimination with Indefinite Causal Order ( http://arxiv.org/abs/2406.19373v1 )

ライセンス: Link先を確認
Spiros Kechrimparis, James Moran, Athena Karsa, Changhyoup Lee, Hyukjoon Kwon, (参考訳) 標準的な量子状態判別問題は、送信者と受信者がこれら3つのステップに従う通信シナリオとして理解することができる。 i) 送信者は、事前に取得した量子状態の情報を符号化する。 (二)ノイズのないチャンネルに送信し、 三 受信者は、受信した状態について適切な測定を行うことにより、情報を復号する。 しかし、実際的な設定では、チャネルはうるさいだけでなく、しばしば未知でもあり、状態を変えて最適な復号化を一般的には不可能にしている。 本研究では,不確定因果順序に基づくプロトコルを用いて,この雑音の識別シナリオについて検討する。 この目的のために、量子スイッチを考慮し、超スイッチと呼ばれる高次一般化を定義する。 その結果,特定のチャネルやアンサンブルに対して,単一および複数コピー状態の判別と比較して推定確率が有意に向上することが判明した。

The standard quantum state discrimination problem can be understood as a communication scenario involving a sender and a receiver following these three steps: (i) the sender encodes information in pre-agreed quantum states, (ii) sends them over a noiseless channel, and (iii) the receiver decodes the information by performing appropriate measurements on the received states. In a practical setting, however, the channel is not only noisy but often also unknown, thus altering the states and making optimal decoding generally not possible. In this work, we study this noisy discrimination scenario using a protocol based on indefinite causal order. To this end, we consider the quantum switch and define its higher-order generalisations, which we call superswitches. We find that, for certain channels and ensembles, the guessing probability can be significantly improved compared to both single- and multi-copy state discrimination.
翻訳日:2024-06-28 13:18:46 公開日:2024-06-27
# TTPベースのサイバーレジリエンス指数:サイバー攻撃に対する防御効果を測定するための確率論的定量的アプローチ

TTP-Based Cyber Resilience Index: A Probabilistic Quantitative Approach to Measure Defence Effectiveness Against Cyber Attacks ( http://arxiv.org/abs/2406.19374v1 )

ライセンス: Link先を確認
Lampis Alevizos, Vinh-Thong Ta, (参考訳) 動的サイバー脅威の状況では、堅牢な情報セキュリティを維持するためには、不確実性の下での効果的な意思決定が不可欠である。 本稿では,TTPに基づくサイバー攻撃に対する組織の防御効果を定量化するための確率論的アプローチであるサイバー抵抗指数(CRI)を紹介する。 Threat-Intelligence Based Security Assessment (TIBSA) の方法論に基づいて、複雑な脅威のインテリジェンスを、ストックマーケットインデックスに似た、実行可能な統一されたメトリクスに変換する数学的モデルを提示します。 提案手法は,実世界の不確実性や最新の脅威アクター戦術,テクニック,手順(TTP)を考慮した攻撃行動をシミュレーションするために,部分観測可能なマルコフ決定プロセス(POMDP)を利用する。 これにより、静的なコンプライアンスベースのアセスメントを超えて、組織のセキュリティ姿勢を動的にコンテキスト対応で評価することが可能になります。 その結果、意思決定者は、量的および質的な評価のギャップを埋め、データ駆動型のリソース割り当てと戦略的計画を可能にする、単一のサイバーレジリエンスの指標を備えている。 これは最終的に、より情報的な意思決定、内部または過渡状態の緩和、リソース割り当ての支援につながる可能性がある。

In the dynamic cyber threat landscape, effective decision-making under uncertainty is crucial for maintaining robust information security. This paper introduces the Cyber Resilience Index (CRI), a TTP-based probabilistic approach to quantifying an organisation's defence effectiveness against cyber-attacks (campaigns). Building upon the Threat-Intelligence Based Security Assessment (TIBSA) methodology, we present a mathematical model that translates complex threat intelligence into an actionable, unified metric similar to a stock market index, that executives can understand and interact with while teams can act upon. Our method leverages Partially Observable Markov Decision Processes (POMDPs) to simulate attacker behaviour considering real-world uncertainties and the latest threat actor tactics, techniques, and procedures (TTPs). This allows for dynamic, context-aware evaluation of an organization's security posture, moving beyond static compliance-based assessments. As a result, decision-makers are equipped with a single metric of cyber resilience that bridges the gap between quantitative and qualitative assessments, enabling data-driven resource allocation and strategic planning. This can ultimately lead to more informed decision-making, mitigate under or overspending, and assist in resource allocation.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# 植え込み推論のための量子量子スピードアップ

Quartic quantum speedups for planted inference ( http://arxiv.org/abs/2406.19378v1 )

ライセンス: Link先を確認
Alexander Schmidhuber, Ryan O'Donnell, Robin Kothari, Ryan Babbush, (参考訳) 我々は、最もよく知られた古典的アルゴリズムに対して、対数的に多くの量子ビットのみを使用しながら、ほぼ4分の1 (4$th power) のスピードアップを実現する、プラント・ノイズの$k$XOR問題(スパース・ラーニング・パリティ・ウィズ・ノイズとも呼ばれる)に対する量子アルゴリズムについて述べる。 我々の研究は、テンソル主成分分析(PCA)問題に対する彼の量子アルゴリズムに基づいて、Hastingsの先行研究を一般化し、単純化する。 我々は、菊池法(テンソルPCAのクォートスピードアップを復元する)に基づく一般的なフレームワークを用いて、量子スピードアップを実現し、さらなる植込み推論問題に対して、同様のスピードアップを期待する。 これらのスピードアップは、植え付けられた推論問題がガイド・スパース・ハミルトン問題を自然にインスタンス化するという事実に依存している。 Planted Noisy $k$XORの問題は、特定の暗号構造の構成要素として使われてきたため、我々の研究は、これらのいくつかが超四重項量子攻撃の影響を受けやすいことを示唆している。

We describe a quantum algorithm for the Planted Noisy $k$XOR problem (also known as sparse Learning Parity with Noise) that achieves a nearly quartic ($4$th power) speedup over the best known classical algorithm while also only using logarithmically many qubits. Our work generalizes and simplifies prior work of Hastings, by building on his quantum algorithm for the Tensor Principal Component Analysis (PCA) problem. We achieve our quantum speedup using a general framework based on the Kikuchi Method (recovering the quartic speedup for Tensor PCA), and we anticipate it will yield similar speedups for further planted inference problems. These speedups rely on the fact that planted inference problems naturally instantiate the Guided Sparse Hamiltonian problem. Since the Planted Noisy $k$XOR problem has been used as a component of certain cryptographic constructions, our work suggests that some of these are susceptible to super-quadratic quantum attacks.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# TabReD: ブラウザで学習するタブラル機械学習のベンチマーク

TabReD: A Benchmark of Tabular Machine Learning in-the-Wild ( http://arxiv.org/abs/2406.19380v1 )

ライセンス: Link先を確認
Ivan Rubachev, Nikolay Kartashev, Yury Gorishniy, Artem Babenko, (参考訳) 下流のアプリケーションシナリオを深く反映したベンチマークは、表型機械学習(ML)における新しい研究の合理化に不可欠である。 本研究では,既存の表型ベンチマークを検証し,学術コミュニティで利用可能なデータセットに不足している業界レベルの表型データの2つの共通特性を見出した。 まず、実際のデプロイメントシナリオでは、タブ形式のデータが時間とともに変化することが多い。 これはモデルのパフォーマンスに影響を与え、正しいモデル評価のために時間ベースのトレインとテストの分割が必要です。 しかし、既存の学術グラフデータセットは、そのような評価を可能にするタイムスタンプメタデータを欠いていることが多い。 第2に、運用環境におけるデータセットのかなりの部分は、広範なデータ取得と機能エンジニアリングパイプラインに由来する。 特定のデータセットごとに、これは予測的、非形式的、相関的な特徴の絶対的および相対的な数に異なる影響を与える可能性があるため、モデル選択に影響を与える可能性がある。 前述の学術ベンチマークのギャップを埋めるために、TabReDを紹介します。これは、金融からフードデリバリーサービスまで、幅広い領域をカバーする8つの業界グレードのグラフデータセットのコレクションです。 本研究では,TabReDにより促進される機能豊富な時間進化データ設定において,多数の表型MLモデルを評価する。 時間に基づくデータ分割の評価は、学術ベンチマークで一般的なランダム分割の評価と比較して、異なる手法のランク付けにつながることを実証する。 さらに、TabReDデータセットでは、MLPのようなアーキテクチャとGBDTが最良の結果を示しているが、より洗練されたDLモデルは、その効果を証明していない。

Benchmarks that closely reflect downstream application scenarios are essential for the streamlined adoption of new research in tabular machine learning (ML). In this work, we examine existing tabular benchmarks and find two common characteristics of industry-grade tabular data that are underrepresented in the datasets available to the academic community. First, tabular data often changes over time in real-world deployment scenarios. This impacts model performance and requires time-based train and test splits for correct model evaluation. Yet, existing academic tabular datasets often lack timestamp metadata to enable such evaluation. Second, a considerable portion of datasets in production settings stem from extensive data acquisition and feature engineering pipelines. For each specific dataset, this can have a different impact on the absolute and relative number of predictive, uninformative, and correlated features, which in turn can affect model selection. To fill the aforementioned gaps in academic benchmarks, we introduce TabReD -- a collection of eight industry-grade tabular datasets covering a wide range of domains from finance to food delivery services. We assess a large number of tabular ML models in the feature-rich, temporally-evolving data setting facilitated by TabReD. We demonstrate that evaluation on time-based data splits leads to different methods ranking, compared to evaluation on random splits more common in academic benchmarks. Furthermore, on the TabReD datasets, MLP-like architectures and GBDT show the best results, while more sophisticated DL models are yet to prove their effectiveness.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# 開量子系における自発対称性の破れ--強、弱、強弱

Spontaneous symmetry breaking in open quantum systems: strong, weak, and strong-to-weak ( http://arxiv.org/abs/2406.19381v1 )

ライセンス: Link先を確認
Ding Gu, Zijian Wang, Zhong Wang, (参考訳) 環境との結合により、開量子系の対称性は2つの異なる形式、強度と弱度で表される。 異なる対称性を持つ位相間の自発的対称性の破れについて検討する。 強対称性および弱対称性を有するコンクリートリウビリアンモデルを構築し, 相補的アプローチから対称性破壊遷移の異なるシナリオを考察した。 強い対称性が常に自然に対応する弱対称性に分解されることが示されている。 強い$U(1)$対称性に対して、強弱対称性の破れは、翻訳不変系における対称性電荷の拡散を規定するギャップのないゴールドストーンモードをもたらすことを示す。 我々は、この強弱対称性の破れ、ギャップレスモード、対称性電荷拡散の関係が連続対称性に対して一般的なものであると推測する。 これは開量子系に対する「強化リーブ・シュルツ・マティス定理(LSM)」(enhanced Lieb-Schultz-Mattis:enhanced Lieb-Schultz-Mattis)と解釈できる。 また、強い対称性が完全に崩壊するシナリオについても検討する。 対称性を破る相では、2つのゴールドストーンモードを持つ有効ケルディシュ作用を同定し、それぞれ秩序パラメータの変動と対称性電荷の拡散流体力学を記述する。 ここで研究した特定のモデルに対して、充填の調整によって誘導される長距離秩序を持つ対称位相から対称性破壊相への遷移を明らかにする。 また、弱対称性と強対称性の両方の場合、空間次元$d\geq 3$では、$U(1)$対称性の破れの長距離順序が可能であることも示されている。 我々の研究は、オープン量子系における自発対称性の破れの典型的なシナリオを概説し、それらの物理的結果を強調する。

Depending on the coupling to the environment, symmetries of open quantum systems manifest in two distinct forms, the strong and the weak. We study the spontaneous symmetry breaking among phases with different symmetries. Concrete Liouvillian models with strong and weak symmetry are constructed, and different scenarios of symmetry-breaking transitions are investigated from complementary approaches. It is demonstrated that strong symmetry always spontaneously breaks into the corresponding weak symmetry. For strong $U(1)$ symmetry, we show that strong-to-weak symmetry breaking leads to gapless Goldstone modes dictating diffusion of the symmetry charge in translational invariant systems. We conjecture that this relation among strong-to-weak symmetry breaking, gapless modes, and symmetry-charge diffusion is general for continuous symmetries. It can be interpreted as an "enhanced Lieb-Schultz-Mattis (LSM) theorem" for open quantum systems, according to which the gapless spectrum does not require non-integer filling. We also investigate the scenario where the strong symmetry breaks completely. In the symmetry-broken phase, we identify an effective Keldysh action with two Goldstone modes, describing fluctuations of the order parameter and diffusive hydrodynamics of the symmetry charge, respectively. For a particular model studied here, we uncover a transition from a symmetric phase with a "Bose surface" to a symmetry-broken phase with long-range order induced by tuning the filling. It is also shown that the long-range order of $U(1)$ symmetry breaking is possible in spatial dimension $d\geq 3$, in both weak and strong symmetry cases. Our work outline the typical scenarios of spontaneous symmetry breaking in open quantum systems, and highlights their physical consequences.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# ランク分離によるテクスチュアリティのキャラクタリゼーションとクローンへの応用

Characterizing Contextuality via Rank Separation with Applications to Cloning ( http://arxiv.org/abs/2406.19382v1 )

ライセンス: Link先を確認
Farid Shahandeh, Theodoros Yianni, Mina Doosti, (参考訳) 量子文脈性(quantum contextuality)は、量子計算と通信の利点を理解するのに欠かせない重要な非古典的特徴である。 本稿では,情報処理統計のみに基づく文脈性研究のための新しい枠組みを提案する。 この単純で直感的な視点は、様々な量子シナリオにおける文脈性を特定するためのランク分離として表される強力な基準に繋がる。 我々は、ハーディの量子超過荷物定理の新たな導出や、最小誤差の量子状態判別のための文脈性の簡易な証明を含む、いくつかの応用を通して、この手法のパワーを実証する。 最後に、量子テクスチュアリティが最適位相共変および普遍的クローニングスキームの資源を提供することを示す顕著な例として、全ての既知の最適量子クローニングシナリオにおいて、非古典性の基本源として確立されることを示す。

Quantum contextuality is a key nonclassical feature essential for understanding advantages in quantum computation and communication. We introduce a new framework to study contextuality based solely on information processing statistics. This simple and intuitive perspective leads to a powerful criterion denoted as rank separation for identifying contextuality in various quantum scenarios. We showcase the power of this technique through several applications, including a new derivation of Hardy's quantum excess-baggage theorem, and a simplified proof of contextuality for minimum error quantum state discrimination. Finally, we show as a prominent example that quantum contextuality provides the resource in optimal phase-covariant and universal cloning schemes, hence establishing it as a fundamental source of nonclassicality in all known optimal quantum cloning scenarios.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# LLMの顕著なロバスト性:推論の段階か?

The Remarkable Robustness of LLMs: Stages of Inference? ( http://arxiv.org/abs/2406.19384v1 )

ライセンス: Link先を確認
Vedang Lad, Wes Gurnee, Max Tegmark, (参考訳) 隣接層を削除・交換することで,大規模言語モデルの顕著な堅牢性を実証し,検討する。 削除と交換の介入は、微調整をせずに元のモデルの予測精度の72-95%を保っているのに対し、より多くの層を持つモデルはより堅牢性を示す。 層間干渉とさらなる実験の結果に基づいて, 脱トークン化, 特徴工学, 予測エンハンブル, 残留シャープニングの8つのモデルにまたがる4つの普遍的な推論段階の存在を仮定した。 第1段階はローカル情報を統合し、生のトークン表現を高レベルなコンテキスト表現に引き上げる。 次に、タスクとエンティティ固有の機能の反復的な洗練です。 その後、モデルの後半は相転移から始まり、隠された表現は特別なモデル成分によって語彙空間とより整合する。 最後に、最後のレイヤは、予測にノイズを加える陳腐化した特徴を排除して、次のトークン分布を鋭くする。

We demonstrate and investigate the remarkable robustness of Large Language Models by deleting and swapping adjacent layers. We find that deleting and swapping interventions retain 72-95\% of the original model's prediction accuracy without fine-tuning, whereas models with more layers exhibit more robustness. Based on the results of the layer-wise intervention and further experiments, we hypothesize the existence of four universal stages of inference across eight different models: detokenization, feature engineering, prediction ensembling, and residual sharpening. The first stage integrates local information, lifting raw token representations into higher-level contextual representations. Next is the iterative refinement of task and entity-specific features. Then, the second half of the model begins with a phase transition, where hidden representations align more with the vocabulary space due to specialized model components. Finally, the last layer sharpens the following token distribution by eliminating obsolete features that add noise to the prediction.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# 群値ループモデルにおけるロバスト・ヒルベルト空間の断片化

Robust Hilbert space fragmentation in group-valued loop models ( http://arxiv.org/abs/2406.19386v1 )

ライセンス: Link先を確認
Alexey Khudorozhkov, Charles Stahl, Oliver Hart, Rahul Nandkishore, (参考訳) 我々は、量子力学における堅牢なエルゴディディディティの破れを示す大規模なモデルを紹介する。 我々の研究は「位相的に堅牢なヒルベルト空間の断片化」という最近の議論に触発されているが、大まかに一般化されている: 第一に「ループ・スープ」と呼ばれる状態から、文字列ネットやスポンジを連想させるより広い状態のクラスへ、第二に、平方格子や立方格子に制限されたモデルから、任意の格子(および変換不変性のない任意のグラフ)で定義されるモデルまでである。 我々は最近提案された群理論の枠組み(PRX 14 021034 (2024))を活用し、「群モデル力学」と格子構造の相互作用から生じる新しい現象のホストを同定する。 我々はゲージ理論へのクリップ接続を作り、この構成は北エフの量子二重群を無限群に一般化する。

We introduce a large class of models exhibiting robust ergodicity breaking in quantum dynamics. Our work is inspired by recent discussions of "topologically robust Hilbert space fragmentation," but massively generalizes in two directions: firstly from states describable as "loop-soups" to a broader class of states reminiscent of string-nets and sponges, and secondly from models restricted to square or cubic lattices, to models defined on arbitrary lattices (and even arbitrary graphs without translation invariance). Our constructions leverage a recently proposed group-theory framework [PRX 14, 021034 (2024)], and identify a host of new phenomena arising from the interplay of "group-model dynamics" and lattice structure. We make crisp connections to gauge theories, and our construction generalizes Kitaev's quantum double to infinite groups.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# 音声生成のためのデータ処理と変換器

Taming Data and Transformers for Audio Generation ( http://arxiv.org/abs/2406.19388v1 )

ライセンス: Link先を確認
Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Guha Balakrishnan, Sergey Tulyakov, Vicente Ordonez, (参考訳) データ不足とキャプションの品質の不足のため、環境音や効果の生成は難しい問題であり、そのタスクに大規模な生成モデルを使用することが困難である。 本研究では,2つの新しいモデルを導入することでこの問題に対処する。 まず,高品質かつ効率的な音声キャプションモデルであるAutoCapを提案する。 メタデータを音声モダリティで活用することにより,キャプションの品質を大幅に向上させることができることを示す。 AutoCapはCIDErスコア83.2に達し、最高のキャプションモデルから4倍高速な推論速度で3.2%向上した。 次に、AutoCapを使用して既存のデータセットのクリップをキャプションし、高品質なキャプションを備えた761,000のオーディオクリップを取得し、利用可能な最大のオーディオテキストデータセットを作成します。 第2に、スケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャであるGenAuを提案し、最大1.25Bのパラメータをスケールアップし、新しいデータセットでトレーニングする。 最先端のオーディオジェネレータと比較すると、GenAuはFADスコアが15.7%、ISが22.7%、CLAPスコアが13.5%で大幅に改善され、前作に比べてオーディオの品質が大幅に向上した。 これは、データの質が量と同じくらい重要であることを示している。 さらに、AutoCapは完全に自動化されているため、トレーニングデータセットに新たなオーディオサンプルを追加することで、オーディオ合成のためのさらに大きな生成モデルのトレーニングをアンロックすることができる。

Generating ambient sounds and effects is a challenging problem due to data scarcity and often insufficient caption quality, making it difficult to employ large-scale generative models for the task. In this work, we tackle the problem by introducing two new models. First, we propose AutoCap, a high-quality and efficient automatic audio captioning model. We show that by leveraging metadata available with the audio modality, we can substantially improve the quality of captions. AutoCap reaches CIDEr score of 83.2, marking a 3.2% improvement from the best available captioning model at four times faster inference speed. We then use AutoCap to caption clips from existing datasets, obtaining 761,000 audio clips with high-quality captions, forming the largest available audio-text dataset. Second, we propose GenAu, a scalable transformer-based audio generation architecture that we scale up to 1.25B parameters and train with our new dataset. When compared to state-of-the-art audio generators, GenAu obtains significant improvements of 15.7% in FAD score, 22.7% in IS, and 13.5% in CLAP score, indicating significantly improved quality of generated audio compared to previous works. This shows that the quality of data is often as important as its quantity. Besides, since AutoCap is fully automatic, new audio samples can be added to the training dataset, unlocking the training of even larger generative models for audio synthesis.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# OMG-LLaVA: 画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解のブリッジ

OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding ( http://arxiv.org/abs/2406.19389v1 )

ライセンス: Link先を確認
Tao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan, (参考訳) 現在のユニバーサルセグメンテーション法は、ピクセルレベルの画像とビデオ理解において強力な機能を示している。 しかし、推論能力がなく、テキスト命令では制御できない。 対照的に、大きな視覚言語によるマルチモーダルモデルは、強力な視覚ベースの会話と推論能力を示すが、ピクセルレベルの理解が欠如し、フレキシブルなユーザインタラクションのための視覚的プロンプトを受け入れるのが困難である。 本稿では,強力な画素レベルの視覚理解と推論能力を組み合わせた,新しいエレガントかつエレガントなフレームワークOMG-LLaVAを提案する。 フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。 具体的には、視覚的エンコーダとして普遍的なセグメンテーション手法を用い、画像情報、知覚前兆、視覚的プロンプトをLCMに提供した視覚トークンに統合する。 LLMは、ユーザのテキスト命令を理解し、視覚情報に基づいてテキスト応答とピクセルレベルのセグメンテーション結果を提供する。 画像特徴と知覚の事前認識をよりよく統合するために,知覚の事前埋め込みを提案する。 OMG-LLaVAは、イメージレベル、オブジェクトレベル、ピクセルレベルの推論と理解を1つのモデルで達成し、複数のベンチマークで特定のメソッドのパフォーマンスをマッチングまたは上回る。 各専門家を繋ぐためにLLMを使うのではなく、エンコーダ1つ、デコーダ1つ、LLM1つでエンドツーエンドのトレーニングを目標としています。 コードとモデルは、さらなる研究のためにリリースされている。

Current universal segmentation methods demonstrate strong capabilities in pixel-level image and video understanding. However, they lack reasoning abilities and cannot be controlled via text instructions. In contrast, large vision-language multimodal models exhibit powerful vision-based conversation and reasoning capabilities but lack pixel-level understanding and have difficulty accepting visual prompts for flexible user interaction. This paper proposes OMG-LLaVA, a new and elegant framework combining powerful pixel-level vision understanding with reasoning abilities. It can accept various visual and text prompts for flexible user interaction. Specifically, we use a universal segmentation method as the visual encoder, integrating image information, perception priors, and visual prompts into visual tokens provided to the LLM. The LLM is responsible for understanding the user's text instructions and providing text responses and pixel-level segmentation results based on the visual information. We propose perception prior embedding to better integrate perception priors with image features. OMG-LLaVA achieves image-level, object-level, and pixel-level reasoning and understanding in a single model, matching or surpassing the performance of specialized methods on multiple benchmarks. Rather than using LLM to connect each specialist, our work aims at end-to-end training on one encoder, one decoder, and one LLM. The code and model have been released for further research.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# SALVe:スパースパノラマからのフロアプラン再建のための意味的アライメント検証

SALVe: Semantic Alignment Verification for Floorplan Reconstruction from Sparse Panoramas ( http://arxiv.org/abs/2406.19390v1 )

ライセンス: Link先を確認
John Lambert, Yuguang Li, Ivaylo Boyadzhiev, Lambert Wixson, Manjunath Narayana, Will Hutchcroft, James Hays, Frank Dellaert, Sing Bing Kang, (参考訳) 本稿では,SALVeによって実現された2次元フロアプランの自動再構築システムを提案する。 システムへの入力は,360$^\circ$ panoramas の少ない位置にあり,その意味的特徴(窓,ドア,開口部)を推定し,相互に部屋の隣接性や重複性を仮定する。 SALVeはポーズグラフを初期化し、その後GTSAMを使って最適化する。 部屋のポーズが計算されると、HorizonNetを使って部屋のレイアウトを推測し、最も信頼性の高いレイアウト境界を縫い合わせることでフロアプランを構築する。 その結果, 精度を犠牲にすることなく, 最先端のSfMシステムよりも200%以上性能が高いことがわかった。 81%のパノラマが第1の2連結成分(CC)に局在し,第1の3つのCCに89%が局在している。 コードとモデルはhttps://github.com/zillow/salve.comで公開されている。

We propose a new system for automatic 2D floorplan reconstruction that is enabled by SALVe, our novel pairwise learned alignment verifier. The inputs to our system are sparsely located 360$^\circ$ panoramas, whose semantic features (windows, doors, and openings) are inferred and used to hypothesize pairwise room adjacency or overlap. SALVe initializes a pose graph, which is subsequently optimized using GTSAM. Once the room poses are computed, room layouts are inferred using HorizonNet, and the floorplan is constructed by stitching the most confident layout boundaries. We validate our system qualitatively and quantitatively as well as through ablation studies, showing that it outperforms state-of-the-art SfM systems in completeness by over 200%, without sacrificing accuracy. Our results point to the significance of our work: poses of 81% of panoramas are localized in the first 2 connected components (CCs), and 89% in the first 3 CCs. Code and models are publicly available at https://github.com/zillow/salve.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# 意図的視覚表現学習 : 異なる意図の頭上での学習

Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads ( http://arxiv.org/abs/2406.19391v1 )

ライセンス: Link先を確認
Ali Khaleghi Rahimian, Manish Kumar Govind, Subhajit Maity, Dominick Reilly, Christian Kümmerle, Srijan Das, Aritra Dutta, (参考訳) 視覚知覚タスクは視覚変換器(ViT)アーキテクチャによって主に解決されるが、その効果にもかかわらず、コンピュータの自己注意の二次的な複雑さのために計算のボトルネックに直面する。 この非効率性は、視覚データに固有の冗長性を反映して、冗長なトークン相互作用をキャプチャする自己認識ヘッドが原因である。 多くの研究は、ViTにおける自己注意の計算複雑性を減らし、効率的でスパースなトランスフォーマーアーキテクチャの開発に繋がった。 本稿では、高効率レンズを通して、ViTsにスパース自己注意戦略を導入することで、計算オーバーヘッドを低くすることができることを認識した。 しかし、これらの戦略は、細かな視覚的詳細を捉えるのに失敗することが多いため、準最適である。 この観察により、フィボナッチ配列上に構築された超線形複雑性で自己注意を近似する汎用的で効率的でスパースなアーキテクチャFibottentionを提案する。 フィボテントの主要な戦略は、冗長性を減らすためにプロクサメートトークンを除外し、計算要求を減らすために設計によって構造化されたスパーシティを採用し、注意ヘッドをまたいだインセプションのような多様性を取り入れることである。 この多様性は、重複しないトークン相互作用を通じて補完的な情報をキャプチャし、視覚表現学習のためのViTのパフォーマンスとリソース利用の両方を最適化する。 視覚タスク専用の複数の最先端トランスフォーマーアーキテクチャに、フィボテンションメカニズムを組み込む。 自己注意ヘッドの要素の2-6%しか活用していないFibottentionは、ViTとその変種とともに、画像分類、ビデオ理解、ロボット学習タスクを3つの領域にまたがる9つのデータセットで標準のViTと比較すると、一貫して大きなパフォーマンス向上を実現している。

Visual perception tasks are predominantly solved by Vision Transformer (ViT) architectures, which, despite their effectiveness, encounter a computational bottleneck due to the quadratic complexity of computing self-attention. This inefficiency is largely due to the self-attention heads capturing redundant token interactions, reflecting inherent redundancy within visual data. Many works have aimed to reduce the computational complexity of self-attention in ViTs, leading to the development of efficient and sparse transformer architectures. In this paper, viewing through the efficiency lens, we realized that introducing any sparse self-attention strategy in ViTs can keep the computational overhead low. However, these strategies are sub-optimal as they often fail to capture fine-grained visual details. This observation leads us to propose a general, efficient, sparse architecture, named Fibottention, for approximating self-attention with superlinear complexity that is built upon Fibonacci sequences. The key strategies in Fibottention include: it excludes proximate tokens to reduce redundancy, employs structured sparsity by design to decrease computational demands, and incorporates inception-like diversity across attention heads. This diversity ensures the capture of complementary information through non-overlapping token interactions, optimizing both performance and resource utilization in ViTs for visual representation learning. We embed our Fibottention mechanism into multiple state-of-the-art transformer architectures dedicated to visual tasks. Leveraging only 2-6% of the elements in the self-attention heads, Fibottention in conjunction with ViT and its variants, consistently achieves significant performance boosts compared to standard ViTs in nine datasets across three domains $\unicode{x2013}$ image classification, video understanding, and robot learning tasks.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# ReXTime: ビデオのリアルタイム推論のためのベンチマークスイート

ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos ( http://arxiv.org/abs/2406.19392v1 )

ライセンス: Link先を確認
Jr-Jen Chen, Yu-Chien Liao, Hsi-Che Lin, Yu-Chu Yu, Yen-Chun Chen, Yu-Chiang Frank Wang, (参考訳) ビデオイベント内で時間的推論を実行するAIモデルの能力を厳格にテストするために設計されたベンチマークであるReXTimeを紹介する。 具体的には、ReXTimeは時間にわたっての推論、すなわち、質問とその対応する回答が異なるビデオセグメントで発生するときの人間的な理解に焦点を当てている。 ビデオセグメント間の因果関係の高度な理解を必要とするこの推論形式は、フロンティアのマルチモーダルな大言語モデルにも大きな課題をもたらす。 この評価を容易にするために,時間的推論型質問応答ペアを生成する自動パイプラインを開発し,労働集約型手動アノテーションの必要性を著しく低減する。 私たちのベンチマークには、慎重に検証された検証サンプル921と、2,143のテストサンプルが含まれています。 評価の結果、フロンティアの大規模言語モデルは学術的モデルよりも優れているが、それでも14.3%の精度差で人間のパフォーマンスを遅れていることがわかった。 さらに、私たちのパイプラインは、手作業なしで9,695個のマシン生成サンプルのトレーニングデータセットを作成しています。

We introduce ReXTime, a benchmark designed to rigorously test AI models' ability to perform temporal reasoning within video events. Specifically, ReXTime focuses on reasoning across time, i.e. human-like understanding when the question and its corresponding answer occur in different video segments. This form of reasoning, requiring advanced understanding of cause-and-effect relationships across video segments, poses significant challenges to even the frontier multimodal large language models. To facilitate this evaluation, we develop an automated pipeline for generating temporal reasoning question-answer pairs, significantly reducing the need for labor-intensive manual annotations. Our benchmark includes 921 carefully vetted validation samples and 2,143 test samples, each manually curated for accuracy and relevance. Evaluation results show that while frontier large language models outperform academic models, they still lag behind human performance by a significant 14.3% accuracy gap. Additionally, our pipeline creates a training dataset of 9,695 machine generated samples without manual effort, which empirical studies suggest can enhance the across-time reasoning via fine-tuning.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# 2D-3Dアライメントによる3D画像の異常検出

Looking 3D: Anomaly Detection with 2D-3D Alignment ( http://arxiv.org/abs/2406.19393v1 )

ライセンス: Link先を確認
Ankan Bhunia, Changjian Li, Hakan Bilen, (参考訳) 視覚的手がかりに基づく自動異常検出は、製造や製品品質評価など、様々な領域において実用的に重要である。 本稿では,クエリ画像中の異常を基準形状と比較することで識別する条件付き異常検出問題を提案する。 この課題に対処するため、我々はBrokenChairs-180Kという、約180Kの画像からなる大規模なデータセットを作成しました。 この課題に対処するために,クエリ画像と参照3次元形状の対応性を特徴的アライメントにより明示的に学習し,異常検出のためのカスタマイズされたアテンション機構を活用する,トランスフォーマーに基づく新しいアプローチを提案する。 我々のアプローチは総合的な実験を通じて厳格に評価され、この領域における将来の研究のベンチマークとして役立っている。

Automatic anomaly detection based on visual cues holds practical significance in various domains, such as manufacturing and product quality assessment. This paper introduces a new conditional anomaly detection problem, which involves identifying anomalies in a query image by comparing it to a reference shape. To address this challenge, we have created a large dataset, BrokenChairs-180K, consisting of around 180K images, with diverse anomalies, geometries, and textures paired with 8,143 reference 3D shapes. To tackle this task, we have proposed a novel transformer-based approach that explicitly learns the correspondence between the query image and reference 3D shape via feature alignment and leverages a customized attention mechanism for anomaly detection. Our approach has been rigorously evaluated through comprehensive experiments, serving as a benchmark for future research in this domain.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# HUWSOD:Unified Weakly Supervised Object Detectionのための全体的自己学習

HUWSOD: Holistic Self-training for Unified Weakly Supervised Object Detection ( http://arxiv.org/abs/2406.19394v1 )

ライセンス: Link先を確認
Liujuan Cao, Jianghang Lin, Zebo Hong, Yunhang Shen, Shaohui Lin, Chao Chen, Rongrong Ji, (参考訳) ほとんどのWSODメソッドは、候補領域を生成するために従来のオブジェクトの提案に依存しており、不安定なトレーニングに直面しています。 本稿では、外部モジュールや追加の監視を必要としない総合的な自己学習フレームワークを利用する、HUWSOD(HuWSOD)と呼ばれる統合された高容量弱教師付きオブジェクト検出(WSOD)ネットワークを導入する。 HUWSODは革新的に自己監督型提案生成器とマルチレート再サンプリングピラミッドを備えたオートエンコーダ提案生成器を取り入れ、従来のオブジェクト提案を置き換えることで、エンドツーエンドのWSODトレーニングと推論を可能にする。 さらに、ステップワイズエントロピー最小化と一貫性制約正規化により検出スコアと座標を洗練し、同一画像の確率的拡張をまたいだ一貫した予測を確実にする、全体論的自己学習方式を実装した。 PASCAL VOCとMS COCOに関する大規模な実験は、HUWSODが最先端のWSODメソッドと競合し、オフラインの提案や追加データを必要としないことを示した。 HUWSODのピーク性能はフル教師付きFaster R-CNNに近づいた。 また,よく設計されたオフラインオブジェクトの提案とは大きく異なるが,ランダムに初期化されたボックスがWSODトレーニングに有効であることが示唆された。

Most WSOD methods rely on traditional object proposals to generate candidate regions and are confronted with unstable training, which easily gets stuck in a poor local optimum. In this paper, we introduce a unified, high-capacity weakly supervised object detection (WSOD) network called HUWSOD, which utilizes a comprehensive self-training framework without needing external modules or additional supervision. HUWSOD innovatively incorporates a self-supervised proposal generator and an autoencoder proposal generator with a multi-rate resampling pyramid to replace traditional object proposals, enabling end-to-end WSOD training and inference. Additionally, we implement a holistic self-training scheme that refines detection scores and coordinates through step-wise entropy minimization and consistency-constraint regularization, ensuring consistent predictions across stochastic augmentations of the same image. Extensive experiments on PASCAL VOC and MS COCO demonstrate that HUWSOD competes with state-of-the-art WSOD methods, eliminating the need for offline proposals and additional data. The peak performance of HUWSOD approaches that of fully-supervised Faster R-CNN. Our findings also indicate that randomly initialized boxes, although significantly different from well-designed offline object proposals, are effective for WSOD training.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# LoRA重みからのデータセットサイズ復元

Dataset Size Recovery from LoRA Weights ( http://arxiv.org/abs/2406.19395v1 )

ライセンス: Link先を確認
Mohammad Salama, Jonathan Kahana, Eliahu Horwitz, Yedid Hoshen, (参考訳) モデルインバージョンとメンバシップ推論攻撃は、モデルがトレーニングしたデータを再構築し、検証することを目的としている。 しかし、トレーニングセットのサイズを知らないため、すべてのトレーニングサンプルを見つけることは保証されていない。 本稿では,モデルのトレーニングに使用するサンプルの数を,重みから直接決定することを目的とした,データセットサイズリカバリという新しいタスクを提案する。 そこで我々はDSiReを提案する。DSiReはモデルを微調整するために使用する画像の数を復元する手法で、微調整がLoRAを使用する場合が多い。 我々は、LoRA行列のノルムとスペクトルの両方が微調整データセットサイズと密接に関連していることを発見し、この発見を活用して、単純で効果的な予測アルゴリズムを提案する。 LoRA重量のデータセットサイズ回復を評価するため,2000種類以上のLoRA微調整モデルから25,000以上の重量スナップショットからなる新しいベンチマークLoRA-WiSEを開発した。 我々の最良の分類器は、平均絶対誤差0.36の微調整画像の数を予測することができ、この攻撃の可能性を確立することができる。

Model inversion and membership inference attacks aim to reconstruct and verify the data which a model was trained on. However, they are not guaranteed to find all training samples as they do not know the size of the training set. In this paper, we introduce a new task: dataset size recovery, that aims to determine the number of samples used to train a model, directly from its weights. We then propose DSiRe, a method for recovering the number of images used to fine-tune a model, in the common case where fine-tuning uses LoRA. We discover that both the norm and the spectrum of the LoRA matrices are closely linked to the fine-tuning dataset size; we leverage this finding to propose a simple yet effective prediction algorithm. To evaluate dataset size recovery of LoRA weights, we develop and release a new benchmark, LoRA-WiSE, consisting of over 25000 weight snapshots from more than 2000 diverse LoRA fine-tuned models. Our best classifier can predict the number of fine-tuning images with a mean absolute error of 0.36 images, establishing the feasibility of this attack.
翻訳日:2024-06-28 13:09:01 公開日:2024-06-27
# 低クロストーク・シリコン加工光導波路による物質量子へのレーザー伝送

Low-Crosstalk, Silicon-Fabricated Optical Waveguides for Laser Delivery to Matter Qubits ( http://arxiv.org/abs/2406.17607v2 )

ライセンス: Link先を確認
Clayton L. Craft, Nicholas J. Barton, Andrew C. Klug, Kenneth Scalzi, Ian Wildemann, Pramod Asagodu, Joseph D. Broz, Nikola L. Porto, Michael Macalik, Anthony Rizzo, Garrett Percevault, Christopher C. Tison, A. Matthew Smith, Michael L. Fanto, James Schneeloch, Erin Sheridan, Dylan Heberle, Andrew Brownell, Vijay S. S. Sundaram, Venkatesh Deenadayalan, Matthew van Niekerk, Evan Manfreda-Schulz, Gregory A. Howland, Stefan F. Preble, Daniel Coleman, Gerald Leake, Alin Antohe, Tuan Vo, Nicholas M. Fahrenkopf, Todd H. Stievater, Kathy-Anne Brickman-Soderberg, Zachary S. Smith, David Hucul, (参考訳) 物質ベースの量子ビットにおける量子情報の信頼性の高い制御には、正確に外界を適用する必要があり、隣接する量子ビット間の場の空間的クロストークは、忠実さを損なう。 CMOSファウントリーにより作製された窒化ケイ素(Si3N4)光導波路を,スケーラブルな量子情報処理に適合するクロストークを有する8個の不等間隔捕獲バリウムイオンに対処する。 チップ設計に組み込まれたクロストーク緩和技術により、隣り合う導波路出力と493nmおよび585nmの設計機器の同様の挙動の間には、少なくとも50.8(1.3) dBの計測光学界が減少する。 650nm付近の導波管出力と493nm付近のグローバルレーザーを用いて8個のバリウム-138イオンの鎖をレーザー冷却し、その結果の蛍光を493nmで撮像した。

Reliable control of quantum information in matter-based qubits requires precisely applied external fields, and unaccounted for spatial cross-talk of these fields between adjacent qubits leads to loss of fidelity. We report a CMOS foundry-produced, micro-fabricated silicon nitride (Si3N4) optical waveguide for addressing a chain of eight, unequally-spaced trapped barium ions with crosstalk compatible with scalable quantum information processing. The crosstalk mitigation techniques incorporated into the chip design result in a reduction of the measured optical field by at least 50.8(1.3) dB between adjacent waveguide outputs near 650 nm and similar behavior for devices designed for 493 nm and 585 nm. The waveguide outputs near 650 nm, along with a global laser near 493 nm were used to laser-cool a chain of eight barium-138 ions, and a camera imaged the resulting fluorescence at 493 nm.
翻訳日:2024-06-28 12:59:11 公開日:2024-06-27
# MG-LLaVA:マルチグラニュラリティビジュアルインストラクションチューニングを目指して

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning ( http://arxiv.org/abs/2406.17770v2 )

ライセンス: Link先を確認
Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang, (参考訳) MLLM(Multi-modal large language model)は、様々な視覚的理解タスクにおいて大きな進歩を遂げている。 しかし、これらのモデルのほとんどは低解像度画像の処理に制約されており、詳細な視覚情報を必要とする知覚タスクの有効性を制限している。 本研究では,低分解能,高分解能,オブジェクト中心の機能を備えた多粒度視覚フローを組み込むことで,モデルの視覚処理能力を向上する革新的MLLMであるMG-LLaVAを提案する。 本稿では,さらに高解像度のビジュアルエンコーダを統合することで,細かな細部をキャプチャし,それをConv-Gate融合ネットワークを介してベースビジュアル特徴と融合させる手法を提案する。 さらに, 物体認識能力を向上するため, オフライン検出器によって識別された境界ボックスから得られる物体レベルの特徴を取り入れた。 MG-LLaVAは、インストラクションチューニングを通じて、公開されているマルチモーダルデータのみに訓練されており、例外的な知覚能力を示している。 我々はMG-LLaVAを3.8Bから34Bまでの多種多様な言語エンコーダでインスタンス化し、モデルの性能を総合的に評価する。 複数のベンチマークにおいて、MG-LLaVAはパラメータサイズに匹敵する既存のMLLMよりも優れており、その顕著な有効性を示している。 コードはhttps://github.com/PhoenixZ810/MG-LLaVAで入手できる。

Multi-modal large language models (MLLMs) have made significant strides in various visual understanding tasks. However, the majority of these models are constrained to process low-resolution images, which limits their effectiveness in perception tasks that necessitate detailed visual information. In our study, we present MG-LLaVA, an innovative MLLM that enhances the model's visual processing capabilities by incorporating a multi-granularity vision flow, which includes low-resolution, high-resolution, and object-centric features. We propose the integration of an additional high-resolution visual encoder to capture fine-grained details, which are then fused with base visual features through a Conv-Gate fusion network. To further refine the model's object recognition abilities, we incorporate object-level features derived from bounding boxes identified by offline detectors. Being trained solely on publicly available multimodal data through instruction tuning, MG-LLaVA demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's performance comprehensively. Extensive evaluations across multiple benchmarks demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter sizes, showcasing its remarkable efficacy. The code will be available at https://github.com/PhoenixZ810/MG-LLaVA.
翻訳日:2024-06-28 12:59:10 公開日:2024-06-27
# 腹腔鏡下肝ランドマーク検出のための深さ駆動型幾何学的プロンプト学習

Depth-Driven Geometric Prompt Learning for Laparoscopic Liver Landmark Detection ( http://arxiv.org/abs/2406.17858v2 )

ライセンス: Link先を確認
Jialun Pei, Ruize Cui, Yaoqian Li, Weixin Si, Jing Qin, Pheng-Ann Heng, (参考訳) 腹腔鏡下肝手術は、外科医にとって複雑な術中動的環境を呈し、肝内の重要な構造や隠れた構造を区別する上で重要な課題である。 肝解剖学的所見(eg, 隆起, 靭帯)は2D-3Dアライメントの重要なマーカーであり, 外科手術の空間的知覚を著しく向上させる。 腹腔鏡下肝所見の検出を容易にするため, 2つの医療施設にわたる39例の手術ビデオから, 1,152 フレームからなる L3D という新しいデータセットを収集した。 ベンチマークのために、12の主流検出方法が選択され、L3Dで包括的に評価される。 さらに,D2GPLandという深度駆動型幾何学的プロンプト学習ネットワークを提案する。 具体的には,DPE(Depth-aware Prompt Embedding)モジュールを設計し,SAMをベースとした特徴から抽出した大域深度キューの利点を活かして,自己教師付きプロンプトで案内し,意味的に関連する幾何学的情報を生成する。 さらに、逆解剖学的知覚を通じてRGB-D空間情報と幾何情報を効率的に統合するために、セマンティック固有幾何拡張(SGA)方式が導入された。 実験結果は、D2GPLandが63.52%のDICEと48.68%のIoUスコアを持つL3Dの最先端のパフォーマンスを得ることを示している。 本手法は2D-3D融合技術と組み合わせて,腹腔鏡下手術例の直感的な指導情報を外科医に直接提供することができる。

Laparoscopic liver surgery poses a complex intraoperative dynamic environment for surgeons, where remains a significant challenge to distinguish critical or even hidden structures inside the liver. Liver anatomical landmarks, e.g., ridge and ligament, serve as important markers for 2D-3D alignment, which can significantly enhance the spatial perception of surgeons for precise surgery. To facilitate the detection of laparoscopic liver landmarks, we collect a novel dataset called L3D, which comprises 1,152 frames with elaborated landmark annotations from surgical videos of 39 patients across two medical sites. For benchmarking purposes, 12 mainstream detection methods are selected and comprehensively evaluated on L3D. Further, we propose a depth-driven geometric prompt learning network, namely D2GPLand. Specifically, we design a Depth-aware Prompt Embedding (DPE) module that is guided by self-supervised prompts and generates semantically relevant geometric information with the benefit of global depth cues extracted from SAM-based features. Additionally, a Semantic-specific Geometric Augmentation (SGA) scheme is introduced to efficiently merge RGB-D spatial and geometric information through reverse anatomic perception. The experimental results indicate that D2GPLand obtains state-of-the-art performance on L3D, with 63.52% DICE and 48.68% IoU scores. Together with 2D-3D fusion technology, our method can directly provide the surgeon with intuitive guidance information in laparoscopic scenarios.
翻訳日:2024-06-28 12:59:10 公開日:2024-06-27
# CAT:解釈可能な概念ベーステイラー付加モデル

CAT: Interpretable Concept-based Taylor Additive Models ( http://arxiv.org/abs/2406.17931v2 )

ライセンス: Link先を確認
Viet Duong, Qiong Wu, Zhengyi Zhou, Hongjue Zhao, Chenxiang Luo, Eric Zavesky, Huaxiu Yao, Huajie Shao, (参考訳) 一般化付加モデル(GAM)は、新しい解釈可能な手法として、ニューラルネットワークを用いて各特徴の非線形関数を個別に学習し、最終的な予測のために線形モデルを介して結合する。 GAMは、機能レベルではディープニューラルネットワーク(DNN)を説明することができるが、大量のモデルパラメータを必要とし、オーバーフィットする傾向があり、トレーニングとスケールが困難である。 さらに、多くの特徴を持つ現実世界のデータセットでは、特徴に基づく説明の解釈可能性が人間にとって低下する。 これらの課題に対処するため、近年の研究は概念に基づく解釈方法へと移行している。 これらのアプローチは、予測を行う前に概念学習を中間段階として統合し、人間の理解可能な概念の観点から予測を説明する。 しかし、これらの手法はドメインの専門家に対して、関連する名前とその基礎的真理値で広く概念をラベル付けする必要がある。 そこで本研究では,このプロセスに対して,新しい解釈可能な概念bAsed Taylor加法モデルであるCATを提案する。 CATは、ドメインの専門家が概念とその基盤となる真理値に注釈を付ける必要はない。 代わりに、ユーザーは入力機能をより広いグループに分類するだけでよい。 特に、CATはまず入力特徴群を1次元の高次概念表現に埋め込み、その概念表現を新しいホワイトボックスTaylorNet(TaylorNet)に供給する。 TaylorNetは、入力と出力の間の非線形関係を多項式を用いて学習することを目的としている。 複数のベンチマークによる評価結果は、CATが広範なモデルパラメータの必要性を減らしながら、ベースラインを上回り、競争することができることを示している。 重要なのは、人間が理解できる高レベルの概念を通じて、モデル予測を説明することができることだ。

As an emerging interpretable technique, Generalized Additive Models (GAMs) adopt neural networks to individually learn non-linear functions for each feature, which are then combined through a linear model for final predictions. Although GAMs can explain deep neural networks (DNNs) at the feature level, they require large numbers of model parameters and are prone to overfitting, making them hard to train and scale. Additionally, in real-world datasets with many features, the interpretability of feature-based explanations diminishes for humans. To tackle these issues, recent research has shifted towards concept-based interpretable methods. These approaches try to integrate concept learning as an intermediate step before making predictions, explaining the predictions in terms of human-understandable concepts. However, these methods require domain experts to extensively label concepts with relevant names and their ground-truth values. In response, we propose CAT, a novel interpretable Concept-bAsed Taylor additive model to simply this process. CAT does not have to require domain experts to annotate concepts and their ground-truth values. Instead, it only requires users to simply categorize input features into broad groups, which can be easily accomplished through a quick metadata review. Specifically, CAT first embeds each group of input features into one-dimensional high-level concept representation, and then feeds the concept representations into a new white-box Taylor Neural Network (TaylorNet). The TaylorNet aims to learn the non-linear relationship between the inputs and outputs using polynomials. Evaluation results across multiple benchmarks demonstrate that CAT can outperform or compete with the baselines while reducing the need of extensive model parameters. Importantly, it can explain model predictions through high-level concepts that human can understand.
翻訳日:2024-06-28 12:59:10 公開日:2024-06-27
# ウェアラブルバイオシグナーを用いたカフレス血圧測定のための大規模言語モデル

Large Language Models for Cuffless Blood Pressure Measurement From Wearable Biosignals ( http://arxiv.org/abs/2406.18069v2 )

ライセンス: Link先を確認
Zengding Liu, Chen Chen, Jiannong Cao, Minglei Pan, Jikui Liu, Nan Li, Fen Miao, Ye Li, (参考訳) 大規模言語モデル(LLM)は、様々なテキストタスクにまたがる優れたパフォーマンスのために、学術と産業の両方から大きな関心を集めている。 しかし、生理的時系列データを解析するLLMの可能性は、いまだに新たな研究分野である。 特に,ウェアラブルバイオシグナーを解析してカフレス血圧(BP)測定を行うことは,循環器疾患の予防に重要である。 本稿では,ウェアラブルバイオシグナーを用いたカフレスBP推定のためのLCMのキャパシティを初めて検討する。 心電図(ECG)と光胸腺図(PPG)の信号から生理的特徴を抽出し,これらの特徴をBPドメイン知識とユーザ情報と組み合わせてコンテキスト強調プロンプトを設計した。 その後,細調整によるBP推定タスクにLLMを適用した。 提案手法を評価するため,1,272人のウェアラブルバイオシグナーの包括的公開データセットを用いて,10種類の高度なLCMの評価を行った。 実験の結果, 最適微調整LDMは従来のタスク固有のベースラインを大幅に上回り, シストリックBPは0.00$\pm$9.25 mmHg, 拡張型BPは1.29$\pm$6.37 mmHgと推定された。 特に、アブレーション研究は、我々の文脈強化戦略の利点を強調し、シストリックBP推定における平均絶対誤差を8.9%減少させる結果となった。 本稿では,カフレスBP測定のためのLCMの探索を開拓し,カフレスBP測定の精度を高めるための潜在的解決策を提供する。

Large language models (LLMs) have captured significant interest from both academia and industry due to their impressive performance across various textual tasks. However, the potential of LLMs to analyze physiological time-series data remains an emerging research field. Particularly, there is a notable gap in the utilization of LLMs for analyzing wearable biosignals to achieve cuffless blood pressure (BP) measurement, which is critical for the management of cardiovascular diseases. This paper presents the first work to explore the capacity of LLMs to perform cuffless BP estimation based on wearable biosignals. We extracted physiological features from electrocardiogram (ECG) and photoplethysmogram (PPG) signals and designed context-enhanced prompts by combining these features with BP domain knowledge and user information. Subsequently, we adapted LLMs to BP estimation tasks through fine-tuning. To evaluate the proposed approach, we conducted assessments of ten advanced LLMs using a comprehensive public dataset of wearable biosignals from 1,272 participants. The experimental results demonstrate that the optimally fine-tuned LLM significantly surpasses conventional task-specific baselines, achieving an estimation error of 0.00 $\pm$ 9.25 mmHg for systolic BP and 1.29 $\pm$ 6.37 mmHg for diastolic BP. Notably, the ablation studies highlight the benefits of our context enhancement strategy, leading to an 8.9% reduction in mean absolute error for systolic BP estimation. This paper pioneers the exploration of LLMs for cuffless BP measurement, providing a potential solution to enhance the accuracy of cuffless BP measurement.
翻訳日:2024-06-28 12:59:10 公開日:2024-06-27
# EgoVideo:エゴセントリックなファンデーションモデルと下流適応を探る

EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation ( http://arxiv.org/abs/2406.18070v2 )

ライセンス: Link先を確認
Baoqi Pei, Guo Chen, Jilan Xu, Yuping He, Yicheng Liu, Kanghua Pan, Yifei Huang, Yali Wang, Tong Lu, Limin Wang, Yu Qiao, (参考訳) 本稿では,Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックを含む,CVPR 2024におけるEgoVisチャレンジに対するソリューションを提案する。 ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。 このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。 Ego4Dの課題では、自然言語クェリ、ステップグラウンド、モーメントクェリ、短期オブジェクトインタラクション予測、長期アクション予測といった様々なタスクに取り組みます。 また、EPIC-Kitchensチャレンジにも参加し、Action Recognition、Multiple Instance Retrieval、Domain Adaptation for Action Recognitionのトラックに取り組みます。 これらの多様なタスクにEgoVideoを適用することで、EgoVideoの強力な表現能力をエゴセントリック基盤モデルとして示すとともに、エゴセントリックなさまざまなビデオ分析シナリオにおいて、その汎用性と有効性を示す。 私たちのコードベースと事前トレーニングされたモデルは、https://github.com/OpenGVLab/EgoVideoで公開されています。

In this report, we present our solutions to the EgoVis Challenges in CVPR 2024, including five tracks in the Ego4D challenge and three tracks in the EPIC-Kitchens challenge. Building upon the video-language two-tower model and leveraging our meticulously organized egocentric video data, we introduce a novel foundation model called EgoVideo. This model is specifically designed to cater to the unique characteristics of egocentric videos and provides strong support for our competition submissions. In the Ego4D challenges, we tackle various tasks including Natural Language Queries, Step Grounding, Moment Queries, Short-term Object Interaction Anticipation, and Long-term Action Anticipation. In addition, we also participate in the EPIC-Kitchens challenge, where we engage in the Action Recognition, Multiple Instance Retrieval, and Domain Adaptation for Action Recognition tracks. By adapting EgoVideo to these diverse tasks, we showcase its versatility and effectiveness in different egocentric video analysis scenarios, demonstrating the powerful representation ability of EgoVideo as an egocentric foundation model. Our codebase and pretrained models are publicly available at https://github.com/OpenGVLab/EgoVideo.
翻訳日:2024-06-28 12:59:10 公開日:2024-06-27
# AGIテストベッドとしてのKnightian Uncertaintyのゲーム

Games of Knightian Uncertainty as AGI testbeds ( http://arxiv.org/abs/2406.18178v2 )

ライセンス: Link先を確認
Spyridon Samothrakis, Dennis J. N. J. Soemers, Damian Machlanski, (参考訳) 20世紀後半から21世紀初頭にかけて、ゲームはAIのドロソフィラと見なされてきた。 ゲームはエキサイティングなテストベッドのセットで、そのソリューション(最適なプレイヤーを特定すること)は、ある種の汎用知能を持つマシンにつながるだろう。 Go、Chess、Pokerといった従来のボードゲームだけでなく、Atari 2600コレクションのようなビデオゲームでも驚くべき成功を収めた結果、これがそうではないことは明らかだ。 ゲームはうまく攻撃されていますが、AGIの開発には近づきません(あるいは、より厳しい批評家が言うように、有用なAI開発です! このショートビジョンペーパーでは、ゲーム研究がAGIパスに再び関係するようになるためには、エージェントが警告なく、過去のデータも、モデルアクセスもなしに、ゲーム上のゲームルールの迅速な変更に適応できる必要があるという、ゲームコンテキストにおける \textit{Knightian uncertainty} に対処する必要があると論じている。

Arguably, for the latter part of the late 20th and early 21st centuries, games have been seen as the drosophila of AI. Games are a set of exciting testbeds, whose solutions (in terms of identifying optimal players) would lead to machines that would possess some form of general intelligence, or at the very least help us gain insights toward building intelligent machines. Following impressive successes in traditional board games like Go, Chess, and Poker, but also video games like the Atari 2600 collection, it is clear that this is not the case. Games have been attacked successfully, but we are nowhere near AGI developments (or, as harsher critics might say, useful AI developments!). In this short vision paper, we argue that for game research to become again relevant to the AGI pathway, we need to be able to address \textit{Knightian uncertainty} in the context of games, i.e. agents need to be able to adapt to rapid changes in game rules on the fly with no warning, no previous data, and no model access.
翻訳日:2024-06-28 12:59:10 公開日:2024-06-27
# 特定の文化的文脈に対する大規模英語モデルの適用方法

Methodology of Adapting Large English Language Models for Specific Cultural Contexts ( http://arxiv.org/abs/2406.18192v2 )

ライセンス: Link先を確認
Wenjing Zhang, Siqi Xiao, Xuejiao Lei, Ning Wang, Huazheng Zhang, Meijuan An, Bikun Yang, Zhaoxiang Liu, Kai Wang, Shiguo Lian, (参考訳) 大規模言語モデル(LLM)の急速な成長は、人工知能分野において顕著なトレンドとなっている。 しかし、現在のLLMは主に英語に基づいている。 諸藩固有の知識の不足や文化価値の相違による誤解などにより、特定の文化領域のタスクに直接適用される場合の限界に遭遇する。 そこで,本稿では,特定の文化的知識と安全性値データに基づく指導訓練を活用した,特定の文化的文脈における大規模モデルの迅速な適応手法を提案する。 評価結果は,LLaMA3-8Bを実験用英語LLMとして使用することにより,LLMがドメイン固有の知識と安全性値への適応性を著しく向上するとともに,元の専門知識の優位性を維持していることを示す。

The rapid growth of large language models(LLMs) has emerged as a prominent trend in the field of artificial intelligence. However, current state-of-the-art LLMs are predominantly based on English. They encounter limitations when directly applied to tasks in specific cultural domains, due to deficiencies in domain-specific knowledge and misunderstandings caused by differences in cultural values. To address this challenge, our paper proposes a rapid adaptation method for large models in specific cultural contexts, which leverages instruction-tuning based on specific cultural knowledge and safety values data. Taking Chinese as the specific cultural context and utilizing the LLaMA3-8B as the experimental English LLM, the evaluation results demonstrate that the adapted LLM significantly enhances its capabilities in domain-specific knowledge and adaptability to safety values, while maintaining its original expertise advantages.
翻訳日:2024-06-28 12:59:10 公開日:2024-06-27
# 弱リワードモデルによる生成モデルからロバスト因果イベント抽出システムへの変換

Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems ( http://arxiv.org/abs/2406.18245v2 )

ライセンス: Link先を確認
Italo Luis da Silva, Hanqi Yan, Lin Gui, Yulan He, (参考訳) 原因と効果の境界の本来の曖昧さは、因果イベント抽出タスクを評価する上での課題となる。 Exact MatchやBertScoreといった従来のメトリクスはモデルのパフォーマンスをあまり反映していません。 我々は、強化学習を抽出モデルを用いて実行し、人間の嗜好と整合させ、意味的理解を優先した。 我々は、人間の注釈付きデータへの依存を減らす方法として、あるデータセットでトレーニングされた評価器を別のデータセットに転送することを含む、複数のデータセットを通して、我々のアプローチをうまく探索した。 そこで本研究では,RLモデルのトレーニングにおいて高い性能を保ちながら,アノテートされたデータの一部を用いて評価モデルを訓練する弱強監督手法を提案する。 私たちのコードはhttps://github.com/oyarsa/event_extraction/tree/causal-event-extractionで公開しています。

The inherent ambiguity of cause and effect boundaries poses a challenge in evaluating causal event extraction tasks. Traditional metrics like Exact Match and BertScore poorly reflect model performance, so we trained evaluation models to approximate human evaluation, achieving high agreement. We used them to perform Reinforcement Learning with extraction models to align them with human preference, prioritising semantic understanding. We successfully explored our approach through multiple datasets, including transferring an evaluator trained on one dataset to another as a way to decrease the reliance on human-annotated data. In that vein, we also propose a weak-to-strong supervision method that uses a fraction of the annotated data to train an evaluation model while still achieving high performance in training an RL model. Our code is available at https://github.com/oyarsa/event_extraction/tree/causal-event-extraction.
翻訳日:2024-06-28 12:59:10 公開日:2024-06-27
# 階層型コンテキストプルーニング - Repository-Level Pretrained Code LLMによる実世界のコード補完の最適化

Hierarchical Context Pruning: Optimizing Real-World Code Completion with Repository-Level Pretrained Code LLMs ( http://arxiv.org/abs/2406.18294v2 )

ライセンス: Link先を確認
Lei Zhang, Yunshui Li, Jiaming Li, Xiaobo Xia, Jiaxi Yang, Run Luo, Minzheng Wang, Longze Chen, Junhao Liu, Min Yang, (参考訳) 最近開発されたコード大言語モデル(Code LLM)はリポジトリレベルのコードデータ(Repo-Code LLM)で事前トレーニングされており、リポジトリ構造を認識し、コード補完にクロスファイル情報を利用することができる。 しかし、実際の開発シナリオでは、単にコードリポジトリ全体を結合するだけで、Repo-Code LLMのコンテキストウィンドウ限界を超え、パフォーマンスが大幅に低下する。 本研究では,6つのRepo-Code LLMの予備実験と解析を行った。 その結果、ファイルのトポロジ的依存関係を維持し、コンプリートプロンプトでコードファイルの内容を増やすことで、コンプリート精度が向上することが示唆された。 これらの知見に基づいて,高情報コードコンテンツを用いたコンプリートプロンプト構築のための階層型コンテキストプルーニング(HCP)という戦略を提案した。 HCPは関数レベルでコードリポジトリをモデル化し、コードファイル間のトポロジ的な依存関係を維持しながら、大量の無関係なコードコンテンツを取り除き、リポジトリレベルのコード補完の入力長を大幅に削減します。 その結果,提案手法は入力長を大幅に削減しつつ,完了精度を大幅に向上させることができることを示した。 私たちのコードとデータはhttps://github.com/Hambaobao/HCP-Coder.orgで公開されています。

Some recently developed code large language models (Code LLMs) have been pre-trained on repository-level code data (Repo-Code LLMs), enabling these models to recognize repository structures and utilize cross-file information for code completion. However, in real-world development scenarios, simply concatenating the entire code repository often exceeds the context window limits of these Repo-Code LLMs, leading to significant performance degradation. In this study, we conducted extensive preliminary experiments and analyses on six Repo-Code LLMs. The results indicate that maintaining the topological dependencies of files and increasing the code file content in the completion prompts can improve completion accuracy; pruning the specific implementations of functions in all dependent files does not significantly reduce the accuracy of completions. Based on these findings, we proposed a strategy named Hierarchical Context Pruning (HCP) to construct completion prompts with high informational code content. The HCP models the code repository at the function level, maintaining the topological dependencies between code files while removing a large amount of irrelevant code content, significantly reduces the input length for repository-level code completion. We applied the HCP strategy in experiments with six Repo-Code LLMs, and the results demonstrate that our proposed method can significantly enhance completion accuracy while substantially reducing the length of input. Our code and data are available at https://github.com/Hambaobao/HCP-Coder.
翻訳日:2024-06-28 12:59:10 公開日:2024-06-27
# XLD:新しい駆動ビュー合成のベンチマークのためのクロスレーンデータセット

XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis ( http://arxiv.org/abs/2406.18360v2 )

ライセンス: Link先を確認
Hao Li, Ming Yuan, Yan Zhang, Chenming Wu, Chen Zhao, Chunyu Song, Haocheng Feng, Errui Ding, Dingwen Zhang, Jingdong Wang, (参考訳) 自動運転システムを十分にテストすることは、安全な自動運転車の追求に不可欠である。 これらのシナリオの多くは公道で頻繁に発生するため、現実世界のデータから安全に収集できる範囲を超えて安全クリティカルなシナリオを作成する必要がある。 しかし、既存のほとんどのNVS手法の評価は、トレーニングデータからの画像フレームの散発的サンプリングに依存し、レンダリングされた画像と地上の真理画像とをメトリクスを用いて比較する。 残念ながら、この評価プロトコルはクローズドループシミュレーションの実際の要件を満たしていない。 具体的には、真のアプリケーションは、(クロスレーンビューのような)オリジナルの軌跡を越えて広がる新しいビューをレンダリングする能力を必要とします。 そこで本研究では,自律走行シミュレーションに特化して設計された新しい駆動ビュー合成データセットとベンチマークを提案する。 このデータセットは、トレーニング軌跡から1-4mずれて撮影した画像のテストを含む、ユニークなものだ。 様々な時間と天候を含む6つのシーケンスから構成される。 各シーケンスには450のトレーニングイメージ、150のテストイメージ、対応するカメラポーズと固有のパラメータが含まれている。 この新たなデータセットを活用することで、フロントオンリーおよびマルチカメラ設定下で既存のNVSアプローチを評価するための、最初の現実的なベンチマークを確立します。 実験の結果は、現在のアプローチに存在する重要なギャップを浮き彫りにして、クロスレーンやクローズドループシミュレーションの要求される前提条件を満たす能力が不十分であることを明らかにした。 私たちのデータセットはプロジェクトのページで公開されています。

Thoroughly testing autonomy systems is crucial in the pursuit of safe autonomous driving vehicles. It necessitates creating safety-critical scenarios that go beyond what can be safely collected from real-world data, as many of these scenarios occur infrequently on public roads. However, the evaluation of most existing NVS methods relies on sporadic sampling of image frames from the training data, comparing the rendered images with ground truth images using metrics. Unfortunately, this evaluation protocol falls short of meeting the actual requirements in closed-loop simulations. Specifically, the true application demands the capability to render novel views that extend beyond the original trajectory (such as cross-lane views), which are challenging to capture in the real world. To address this, this paper presents a novel driving view synthesis dataset and benchmark specifically designed for autonomous driving simulations. This dataset is unique as it includes testing images captured by deviating from the training trajectory by 1-4 meters. It comprises six sequences encompassing various time and weather conditions. Each sequence contains 450 training images, 150 testing images, and their corresponding camera poses and intrinsic parameters. Leveraging this novel dataset, we establish the first realistic benchmark for evaluating existing NVS approaches under front-only and multi-camera settings. The experimental findings underscore the significant gap that exists in current approaches, revealing their inadequate ability to fulfill the demanding prerequisites of cross-lane or closed-loop simulation. Our dataset is released publicly at the project page: https://3d-aigc.github.io/XLD/.
翻訳日:2024-06-28 12:59:10 公開日:2024-06-27
# 1段階逆プロセスによる生体画像の安定拡散分割

Stable Diffusion Segmentation for Biomedical Images with Single-step Reverse Process ( http://arxiv.org/abs/2406.18361v2 )

ライセンス: Link先を確認
Tianyu Lin, Zhiguang Chen, Zhonghao Yan, Weijiang Yu, Fudan Zheng, (参考訳) 拡散モデルは、様々な生成タスクにまたがってその効果を実証してきた。 しかしながら、医療画像のセグメンテーションに適用した場合、これらのモデルは、重要なリソースや時間要件を含むいくつかの課題に直面する。 彼らはまた、信頼できる予測を生成するために、多段階の逆プロセスと複数のサンプルを必要とする。 これらの課題に対処するために、我々はSDSegと呼ばれる、安定拡散(SD)に基づく最初の潜伏拡散分割モデルを導入する。 SDSegは、単一ステップの逆過程を容易にするために単純な潜伏推定戦略を取り入れ、複数のサンプルの必要性を取り除くために潜伏融合結合を利用する。 大規模な実験により、SDSegは、多様な画像モダリティを特徴とする5つのベンチマークデータセットにおいて、既存の最先端手法を超越していることが示されている。 注目すべきは、SDSegは、単独の逆ステップとサンプルで安定した予測を生成することができ、その名前によってモデルの安定性を表わすことができることである。 コードはhttps://github.com/lin-tianyu/Stable-Diffusion-Segで公開されている。

Diffusion models have demonstrated their effectiveness across various generative tasks. However, when applied to medical image segmentation, these models encounter several challenges, including significant resource and time requirements. They also necessitate a multi-step reverse process and multiple samples to produce reliable predictions. To address these challenges, we introduce the first latent diffusion segmentation model, named SDSeg, built upon stable diffusion (SD). SDSeg incorporates a straightforward latent estimation strategy to facilitate a single-step reverse process and utilizes latent fusion concatenation to remove the necessity for multiple samples. Extensive experiments indicate that SDSeg surpasses existing state-of-the-art methods on five benchmark datasets featuring diverse imaging modalities. Remarkably, SDSeg is capable of generating stable predictions with a solitary reverse step and sample, epitomizing the model's stability as implied by its name. The code is available at https://github.com/lin-tianyu/Stable-Diffusion-Seg
翻訳日:2024-06-28 12:59:10 公開日:2024-06-27
# SAM:拡張型連続マニピュレータのセミアクティブ機構とリアルタイムヒステリシス補償制御アルゴリズム

SAM: Semi-Active Mechanism for Extensible Continuum Manipulator and Real-time Hysteresis Compensation Control Algorithm ( http://arxiv.org/abs/2406.18388v2 )

ライセンス: Link先を確認
Junhyun Park, Seonghyeok Jang, Myeongbo Park, Hyojae Park, Jeonghyeon Yoon, Minho Hwang, (参考訳) Cable-Driven Continuum Manipulator (CDCMs) は、天然のオリフィスによる傷跡のない処置を可能にし、湾曲した経路による標的病変のアクセシビリティを向上させる。 しかし、CDCMは作業空間の制限や、ヒステリシスを引き起こす非線形ケーブル効果による制御精度に直面する。 本稿では,機械的要素やアクティベーションを伴わない翻訳動作により作業空間を拡張するための,セミアクティブ機構(SAM)を備えた拡張可能なCDCMを提案する。 我々は8つのフィデューシャルマーカーとRGBDセンシングを用いてヒステリシスデータセットを収集した。 このデータセットに基づいて,トレーニングされた時間変化ネットワーク(TCN)を用いたリアルタイムヒステリシス補償制御アルゴリズムを開発し,マニピュレータのヒステリシス挙動を効果的に推定する。 ランダムな軌道追跡テストとボックスポインティングタスクによる性能検証により、提案したコントローラは、関節空間で69.5%、ボックスポインティングタスクで約26%のヒステリシスを著しく低減する。

Cable-Driven Continuum Manipulators (CDCMs) enable scar-free procedures via natural orifices and improve target lesion accessibility through curved paths. However, CDCMs face limitations in workspace and control accuracy due to non-linear cable effects causing hysteresis. This paper introduces an extensible CDCM with a Semi-active Mechanism (SAM) to expand the workspace via translational motion without additional mechanical elements or actuation. We collect a hysteresis dataset using 8 fiducial markers and RGBD sensing. Based on this dataset, we develop a real-time hysteresis compensation control algorithm using the trained Temporal Convolutional Network (TCN) with a 1ms time latency, effectively estimating the manipulator's hysteresis behavior. Performance validation through random trajectory tracking tests and box pointing tasks shows the proposed controller significantly reduces hysteresis by up to 69.5% in joint space and approximately 26% in the box pointing task.
翻訳日:2024-06-28 12:59:10 公開日:2024-06-27
# 地域ネットワークから見た社会感染の消長メカニズム

Distinguishing mechanisms of social contagion from local network view ( http://arxiv.org/abs/2406.18519v2 )

ライセンス: Link先を確認
Elsa Andres, Gergely Ódor, Iacopo Iacopini, Márton Karsai, (参考訳) 個人の行動パターンの採用は、主に、社会的相互作用や外部ソースを介して仲間からやってくる刺激によって決定される。 これらの影響に基づき、個人は一般的に単純または複雑な養子縁組規則に従うと仮定され、社会的伝染プロセスが引き起こされる。 実際には、複数の採用ルールは、同じ社会的伝染プロセス内で共存し、拡散現象にさらなる複雑さをもたらす可能性がある。 我々のゴールは、既存の採用メカニズムが、基盤となるネットワークや展開プロセスのグローバルな情報を必要とすることなく、エゴセントリックネットワークレベルで、顕微鏡的な視点から区別できるかどうかを理解することである。 本稿では、この問題を分類問題として定式化し、ベイズ確率法および様々な合成およびデータ駆動実験におけるランダムな森林分類器を用いて研究する。 本研究は、自我中心レベルでの伝播過程の観察と、局所的な視点からランドマーク感染機構のより深い理解について、新しい視点を提供する。

The adoption of individual behavioural patterns is largely determined by stimuli arriving from peers via social interactions or from external sources. Based on these influences, individuals are commonly assumed to follow simple or complex adoption rules, inducing social contagion processes. In reality, multiple adoption rules may coexist even within the same social contagion process, introducing additional complexity into the spreading phenomena. Our goal is to understand whether coexisting adoption mechanisms can be distinguished from a microscopic view, at the egocentric network level, without requiring global information about the underlying network, or the unfolding spreading process. We formulate this question as a classification problem, and study it through a Bayesian likelihood approach and with random forest classifiers in various synthetic and data-driven experiments. This study offers a novel perspective on the observations of propagation processes at the egocentric level and a better understanding of landmark contagion mechanisms from a local view.
翻訳日:2024-06-28 12:59:10 公開日:2024-06-27